Numerical versus narrative: A comparison between methods to measure medical student performance during clinical clerkships.
Bartels, J., Mooney, C. J., & Stone, R. T. (2017).
Medical Teacher, 39(11), 1154–1158. https://doi.org/10.1080/0142159X.2017.1368467
研究の理論的背景
心理測定学的評価への批判
20世紀の医学教育評価は心理測定学の認識論に依拠し、心理的構成概念は数値で操作化できると仮定してきました。しかし、以下の疑問のある認識論的前提があります:
- 能力は観察される個人の内部のどこかに位置する個人の特性である
- 問題となる現象の量または総量が測定可能である
- 真のスコアは外的要因によって曇らされるが、それらは制御可能である
- 理想的なテストは個人間を識別できる
- 結果として得られるスコアは他のスコアと加算的に合計できる
数値変換の問題点
リッカート尺度は観察者が観察を数値に変換することを要求しますが、これは複雑なプロセスです。数値変換により:
- 情報の忠実性が低下し、豊かな記述データを定義する記述的要素が失われる
- 心理測定スコアは次元性を失い、インフレーション、ハロー効果、範囲制限を起こしやすくなる
- 特定の時点での観察と全体的評価を混同する効果がある
能力評価の複雑性
能力とは個人の能力、手元の特定のタスク、現実世界の環境との相互作用です。心理測定テストは環境/文脈についての重要な情報を欠いているため、能力測定能力に限界があります。
構成主義的観点
構成主義的観点から見ると、妥当性は分析の意図性に関連し、記述的コメントの質的分析は観察者レベルでリッカート評価よりも妥当で信頼性が高い可能性があります。記述は様々な文脈での多様なパフォーマンスを捉える能力があるため、記述ベースの評価はより妥当性を持つ可能性があります。
研究設計
参加者と設定
- 2013年7月-2014年6月学年度に実施
- ロチェスター大学医学部・歯学部の神経内科実習を行った3年生50名
- 4年制医学部教育の3年生で、全学生が3年次に4週間の神経内科実習を完了
- アルファベット順で学生サンプルを選択し、その学年度の全4ブロッククラークシップからランダムサンプリングを実現
神経内科実習評価システム
神経内科実習生は4つの主要な評価で評価されます:
- ITER:教員と研修医による臨床パフォーマンスの数値・記述評価
- NBME科目試験(Shelf):国家医学検査委員会の科目試験
- ベッドサイド技能評価:教員が学生と患者の相互作用と診察を直接観察
- 文献レビュー執筆
最終スコアは、臨床スコア65%、Shelf 20%、ベッドサイド技能評価15%、文献レビュー5%で構成されます。
評価プロセス
5名の教員と1名のチーフレジデントからなる評価委員会がITERをレビューし、ITERの数値データと記述データの両方を使用して各学生にコンセンサス臨床スコアを付与します。最終スコアは順位付けされ、約20%が優秀、30%が優良、50%が合格の成績を受けます。
実験手順
記述 vs 数値ITER内容 50名の3年生学生のITERを遡及的記述評価に使用しました。記述コメントをITER(リッカート数値スコアから分離)から抽出し、匿名化しました。
神経内科クラークシップ評価委員会の5名のメンバーが匿名化された記述をレビューし、各学生に60から100のスコアを割り当てました:
- <70:不合格のパフォーマンス
- 70-79:合格のパフォーマンス
- 80-89:優良のパフォーマンス
- 90-100:優秀のパフォーマンス
すべての評価委員会メンバーは経験豊富で、異なるパフォーマンスレベルの事前に特定された定義に精通していました。
データ収集 元のクラークシップITERを使用して、評価者によって提出された4-5の数値スコアを持つ50名の学生記録のそれぞれ(合計47名)を利用して元の数値スコアを決定しました。
統計分析
分析方法
- 元の数値と新しい記述スコア(NNS)の関連性をピアソン相関係数で検討
- 元の数値スコア(ONS)(n=50; 学生あたり5評価、または5k)とNNS(n=47; 学生あたり4評価)の信頼性を比較するため、絶対一致、2-way混合効果モデル、またはICC(3k)を使用して級内相関係数(ICC)を推定
- 100回の複製でブートストラップ95%信頼区間(CI)を使用してそれぞれのICC推定値の等価性を比較
データの完全性 研究サンプル内で、すべての参加者(N=50)がNNS(5k)の完全なデータを持っていましたが、94%の参加者(N=47)のみが少なくとも4名の評価者からのONSを持ち、68%(N=34)のみが少なくとも5名の評価者からのONSを持っていました。
結果
記述統計
- ONSの総平均:7.3(標準誤差0.08)
- NNSの総平均:86.3(標準誤差0.34)
- 総平均SDのZ-score変換:ONSで0.71、NNSで0.63
信頼性分析 ONSの評価者間信頼性はICC = 0.62(p < 0.001)で中程度の信頼性を示しました。NNSの評価者間信頼性はより高く、ICC = 0.88(p < 0.001)で良好な信頼性を示しました。
ブートストラップ分析の結果:
相関分析 二変量分析により、ONSはNNSと高い正の相関(r = 0.81)を示しました。
考察
主要な発見の解釈
単一クラークシップの3年医学生のサンプルを使用して、リッカートスコアを参照せずに記述のみのITERを使用することで、統計的有意性に達しなかったものの、信頼性の向上傾向が見られました。
記述スコアはONSと高い相関を示し、観察者が数値を通じて記述として同様の情報を伝えようとしていたが、テキストのみを通じてその情報を評価委員会により信頼性高く伝えることができたことを示しています。
記述評価の利点
記述データのより大きな重点は、ハロー効果、人種差別、性差別を最小化するための適切なテキスト準備と分析方法で強化することができます。これらはすべて、元々心理測定分析への移行を部分的に動機づけました。
能力の評価としてのITERは、委員会によって分析され、学習者によって遡及的に分析される、各判断の文脈を理解するための「濃い記述」である言語ベースのみである可能性があります。
記述の質への言及
研究の一般化可能性を向上させるために「典型的な」記述がより信頼性が高いかどうかを確認することを目的としました。このため、これらのITERの記述密度、豊富さ、または質を測定しようとはしませんでした。しかし、高品質の記述が不可欠であることは明らかであり、教員開発努力を通じてテキストの豊富さを改善する最終目標で現在の記述品質を評価する第二の研究を実施しています。
研究の限界
方法論的限界
皮肉なことに、心理測定変換を減らす介入の成功を実証主義的/量的モデルを使用して評価しましたが、より理想的な戦略は評価委員会が数値変換なしに学生をランク付けすることを可能にするものでした。
内容評価の不足
ITERの内容を明示的に評価せず、将来の研究ではコメントの質と豊富さの測定を探る可能性があります。
対象の限定
現在の研究は医学生評価のみに焦点を当てており、これらの結果を卒後医学教育に拡張するにはより多くの研究が必要でした。
追加訓練の必要性
リッカートスコアのないITERは評価委員会の追加訓練と有用な記述の作成を取り巻く教員開発を必要とする可能性がありますが、最近の論文では記述ITERの信頼性は特定の評価者訓練を必要としないことが示唆されています。
その他の考慮事項
- 観察者はリッカートスコアを記述コメントの整理を助けるプロンプトとして使用する可能性
- このプロンプトの除去は独立したコメントの原子価に未知の方向で影響する可能性
- 能力のドメインを区別しなかった
- 学生がテキストフィードバックをより有用と感じるかもしれないが、記述ITERの学生の視点の質的研究が時宜を得て関連している
研究の強み 同じ評価者が各学生を再評価したが、最初に各コメントを見てから1年以上後であったため、おそらく活発な記憶から外れていたため、記述解釈に対するリッカートコメントの効果を分離しました。また、最小限の修正で作業ITERに適用できる実験モデルを適用しました。
結論
複雑な問題への好奇心と、チーム内で作業しながら認知的および感情的リソースを活用する能力を促進する評価を要求する成長するコンセンサスに参加しています。
評価妥当性は、医学生、チーム、患者、およびその他の文脈的構造間の複雑な相互作用を含むため、測定することはほぼ不可能です。ITERからの数値評価の除去が信頼性を害さないという発見を考慮すると、記述評価は能力のあらゆるタイプを調節する特定の文脈についての情報を伝えることを可能にするため、この状況では数値よりも妥当である可能性があると提案しています。