Building reliable and generalizable clerkship competency assessments: Impact of ‘hawk-dove’ correction
Sally A. SantenORCID Icon, Michael RyanORCID Icon, Marieka A. HelouORCID Icon, Alicia Richards, Robert A. Perera, Kellen Haley, show all
Published online: 17 Sep 2021
Download citation https://doi.org/10.1080/0142159X.2021.1948519
https://www.tandfonline.com/doi/full/10.1080/0142159X.2021.1948519?af=R
目的
学生の評価に対する評価者のアプローチには系統的な違いがあり、その結果、評価のスコアが甘くなったり厳しくなったりすることがある。
先行研究では評価者間信頼性に起因するスコアの大きなばらつきが明らかになっています。先行研究では、学生の特性、症例の複雑さ、学年内の時期などの学生要因に基づいて、評価者が学生を異なる方法で採点することが多いことが示されています。また、評価者の経験、専門性、学生と過ごした時間など、評価者の要因もスコアリングに影響します。このような評価者のばらつきは、評価に系統的な偏りや特異的なばらつきを生じさせ、報告されるスコアの一貫性に影響を与えます。
学生の評価に対する評価者のアプローチの系統的な違いは、伝統的に「タカ・ハト」効果として知られているリニエンシーまたはストリンジェンシーエラーを引き起こす可能性があります。タカ派は低い点数をつける傾向があるのに対し、ハト派はより有利な点数をつける傾向があります。
本研究では、医学生の職場ベースのコンピテンシー評価の一般化について、評価者による寛大さと厳格さの調整スコアの影響を含めて検討する。
研究方法
データは、2017年から2018年の単一施設でのクラークシップ期間中に204名の学生に対して行われたクラークシップ総括評価から収集した。一般化可能性理論を用いて、評価者のストリンジェンシーとリニエンシーの調整を適用したクラークシップ別の3つのアンバランスなランダム効果モデルにより、異なるファセット(評価者、学習者、項目、コンピテンシー領域)に起因する分散を検討した。
結果
オリジナルの評価では、分散の4-8%のみが受講者に起因し、残りは評価者の分散と誤差であった。コンポジットスコアを作成するために項目を集計すると、学生に起因するばらつきが増加した(ばらつきの5~13%)。ストリンジェンシー・リニエンシー補正を適用すると、学生に起因する分散が大幅に増加し(14.8~17.8%)、信頼性も向上した。評価者のリニエンシー/ストリンジェンシーをコントロールすることで、測定誤差が減少し、一般化に必要な評価数が16~50回から11~14回に減少した。
結論
先行研究と同様に、コンピテンシー評価スコアの変動のほとんどは評価者に起因するものであり、学生に起因するものはごくわずかであった。評価者調整後のスコアを用いてstringency-leniency補正を行うことで、評価スコアの心理学的特性を改善することができた。
ポイント
コンピテンシー評価スコアの変動のほとんどは、評価者や誤差に起因するものであり、学生に起因するものはわずかである。
評価者調整後のスコアを用いてstrigency-leniency補正を行うことで、評価スコアの心理学的特性が改善された。
学生の臨床クラークシップ評価は、多くのクラークシップで信頼性を欠いていた。