医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。最近はyoutubeも

外れ値評価者は有用な記述的コメントを提供するのか?

Do outlier assessors provide useful narrative comments?

Dewhirst, S., Szabo, N. D., Hall, A. K., & Cheung, W. J. (2025). 

Medical Teacher. https://doi.org/10.1080/0142159X.2025.2596907

https://www.tandfonline.com/doi/full/10.1080/0142159X.2025.2596907?af=R#d1e198

研究の背景

職場基盤型評価(Work-based assessment)は医学教育における評価の基軸である。数値スコアは集計や比較が容易である一方、信頼性が低く、形成的評価の本来の目的を歪める可能性がある。さらに、数値スコアは個々の評価者の傾向に大きく影響される。

特に、同僚と比較して常に低いスコアまたは高いスコアを付ける「外れ値評価者」(厳格または寛容な評価者)は、研修医のスコアに不均衡な影響を与える。また、スコアの変動が極めて小さい「範囲制限評価者」も、学習者の能力差を識別できないという点で問題である。これらの評価者が付与する数値スコアは評価者の傾向を反映しているに過ぎず、有用性が限られている。

しかし、これらの評価者が記述的コメントにおいて有用な情報を提供している可能性は検討されていなかった。

研究方法

本研究は、カナダ・オタワの大学附属救急部門で2021年7月から2022年6月までに完了した2,034件のシフト終了時評価を対象とした後方視的データベース研究である。

記述的コメントの質は、Quality of Assessment of Learning(QuAL)スコアを用いて評価された。QuALスコアは0から5の整数スコアを生成する検証済みツールであり、自然言語処理NLP)モデルを用いて各評価に適用された。

評価者の厳格さ・寛容さは平均デルタ法(mean-delta method)を用いて定量化され、平均デルタスコアが集団平均から1標準偏差以上離れている評価者を外れ値と定義した。範囲制限は、評価者が付与したスコアの標準偏差で測定された。

主な結果

81名の評価者による2,034件の評価が分析された。20名の外れ値評価者(厳格10名、寛容10名)が特定された。

評価者の平均QuALスコアは1.2から5.0の範囲であり、平均は3.9(SD=0.9)であった。全体として、当センターの評価者は高品質の記述的コメントを提供していた。

重要な知見として、外れ値寛容評価者の平均QuALスコア(3.1)は、非外れ値評価者(4.0)と比較して有意に低かった(p=0.02)。一方、外れ値厳格評価者(3.8)と非外れ値評価者の間に有意差は認められなかった(p=0.5)。

さらに、範囲制限(スコアの標準偏差が小さいこと)は平均QuALスコアと負の相関を示した(p=0.003、R²=0.11)。

考察

本研究は、外れ値寛容評価者および範囲制限評価者が平均以下の品質の記述的コメントを提供していることを明らかにした。これらの評価者は、数値スコアと記述的コメントの両方において有用性の低い評価データを提供しているため、評価の質を改善するための標的介入の理想的な対象集団である。

外れ値寛容評価者のコメント品質が低い理由として、2つの仮説が提示されている。第一に、高い評価を受けた学習者に対しては評価者が詳細なコメントの必要性を感じず、低品質のコメントになる可能性がある。第二に、「失敗させることへの躊躇(failure to fail)」現象により、関与度の低い評価者が高スコアを付与する安易な方法を選択している可能性がある。

研究の限界

本研究は単一施設で実施されており、当センターの記述的コメントの質は他の施設と比較して高かった。これは独自のフィードバック文化を反映している可能性があり、結果の一般化可能性を制限する。また、評価者・研修医の性別、評価完了のタイミング、シフトの種類などの潜在的交絡因子はデータセットに含まれていなかった。

結論

外れ値寛容評価者および範囲制限評価者は、平均以下の品質の記述的コメントを提供する傾向がある。これらの評価者集団は、数値評価と記述的評価の両方において有用性が限られているため、評価の質を改善するための標的介入の理想的な候補である。