医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

基準設定プロセスと学生のパフォーマンスに関する試験官の理解をサポートするためのフィードバック。AMEE Guide No.145

Feedback to support examiners’ understanding of the standard-setting process and the performance of students: AMEE Guide No. 145
Mohsen Tavakol, Brigitte E. Scammell & Angela P. Wetzel
Published online: 02 Nov 2021
Download citation  https://doi.org/10.1080/0142159X.2021.1993164   

 

https://www.tandfonline.com/doi/full/10.1080/0142159X.2021.1993164?af=R

 

概要
OSCEの合格点や学生の成績を判定するために判定者や試験官が使用する評価は、医学教育の評価において多くの重要な機能を果たしており、その妥当性は極めて重要な問題である。しかし、評価にはいくつかのタイプのエラーが発生することが多く、これを最小限に抑えるためには特別な努力が必要である。評価者の特性(寛大度誤差、重大度誤差、中心傾向誤差、ハロー誤差など)は、パフォーマンスに無関係な分散の原因となる可能性がある。先行文献によると、学生のパフォーマンス測定における基本的な問題は、審査員や試験官のエラーに関連しています。また、このような誤差を制御することで、堅牢で信頼性の高い合格点、ひいては正確な学生の点数が得られることを示しています。したがって、合格点を特定する基準設定者と、OSCEで学生のパフォーマンスを評価する試験官にとって、基準設定と評価に関する適切で使いやすいフィードバックは、バイアスを減らすために不可欠である。このフィードバックは、成績評価が不規則になる理由を理解し、評価の質を向上させるための有用な手段となります。このAMEE Guideでは、評価からの推論を公正、妥当、信頼性のあるものにするために、受験者のパフォーマンスや基準設定プロセスに対する受験者の理解をサポートする様々なフィードバックの方法について説明しています。

 

ポイント

公平性を保つためには、学生の無関係な個人的特性が試験結果に影響を与えないことが必要です。

偏りを減らすためには、基準設定や評価について、受験者に適切で使いやすいフィードバックを提供することが重要です。

境界線上の学生を判断することは、基準設定プロセスの基本ですが、基準設定者は境界線上の学生を正確に評価することに苦労しており、項目のパフォーマンスを過小評価したり、過大評価したりしています。

基準設定者の間でばらつきがあると、設定された基準や評価されたスコアの正確性が損なわれる可能性があります。

基準設定者へのフィードバックは、測定誤差の影響をよりよく理解し、安定した基準を推定する機会となります。個別のフィードバックは、観察者間の信頼性と公平性を向上させ、スコア解釈の信頼性を高めることができる。

アウトカム・フィードバックは、妥当な学生のパフォーマンス基準を確立し、評価の正確性を向上させるのに役立つ。

フィードバックの最終的な目標は、評価者が境界線上の学生の評価を再考する機会を提供することです。評価者の評価を簡単に視覚化し、他の評価者の評価と比較することで、評価者は自分のパフォーマンスを調整することができます。

 

受験者のパフォーマンスのばらつき

学生のスキルを評価する際、多くの要因が学生の真のスコアに影響を与えます。民族、性別、試験官の厳しさ・寛容さ、試験官が測定対象の現象に精通しているかどうかなどの試験官の属性が、学生のスコアに影響を与える可能性がある。

基準設定

基準設定プロセスには、知識ベースのテストやOSCEを含む特定のテストに対して、基準設定者が合格点を算出する方法が含まれます。

境界線グループ

境界線上の学生(最低限の能力を持つ学生と呼ばれることもある)を判定することは、基準設定プロセスの基礎となる。例えば、アンゴフ法やエベル法では、基準設定者は、仮想的な境界線上の学生のグループの特徴を宣言します。次に、境界線上の学生が各項目に正解する確率を推定する。それぞれの標準設定者は、そのグループについて、自分の恣意的な判断をします。典型的には、合格点付近のパフォーマンスレベルを持つ学生が境界線グループですが、境界線グループを経験的に研究するためには、どの程度近いかの任意の範囲を作らなければなりません。次に、合格点の1SEM下から1SEM上の範囲にいる学生を境界線とみなします。

判定による基準設定プロセスに従う場合には、採用した方法を明確に記述し、求められる判定の正確な性質を示すべきである。文書には、判定者の選択と資格、提供されたトレーニング、暫定的な判定の意味に関する判定者へのフィードバック、判定者が互いに協議する機会なども含まれるべきである。必要に応じて,審査員のばらつきも報告されるべきである。実行可能な場合は常に,標準設定手順を再現した場合に予想されるカットスコアの変動量の推定値を提供すべきである


アンゴフ法

判断的アプローチの中でも、Angoff標準設定法は医学教育評価で広く用いられており、算出されたAngoff合格点が、パフォーマンスの許容範囲と許容できない範囲の境界線になるとされている。審査員は1人の人物ではなく、何人もの最小許容人物を思い浮かべ、最小許容人物のうち正解する人の割合を見積もることになる。そして、これらの確率または割合の合計が、最小許容スコアを表すことになります。
Angoffの運用定義は、このアプローチのシンプルさを示していますが、基準設定者がボーダーラインの学生に対して持つ主観的な解釈において、このアプローチはエラーの危険性を残しています。さらに、経験的な研究によると、基準設定者は境界線上の学生を正確に評価するのに苦労しており、境界線上の学生の項目の成績を過小評価したり、過大評価したりしていることから、アンゴフのアプローチは「ランダムで明確さに欠ける」ことが示唆されている。

 

評価精度向上のためのスタンダードセッターへのフィードバック

スタンダードセッターのトレーニングは、スタンダードセッテイングプロセスの不可欠な部分であり、フィードバックはトレーニングの不可欠な部分である。基準設定者にフィードバックを与えることで、基準設定者が測定誤差の影響をよりよく理解し(あるいは少なくとも考慮し)、安定した基準を推定する機会となります

 

記述的統計

標準設定者フィードバックを含むあらゆる研究におけるデータの記述統計は、データの視覚化を容易にし、結果の簡単な解釈を提供します。標準設定者の平均項目難易度を含む学生のパフォーマンスの記述統計を共有することは、フィードバックのプロセスに役立ちます。最も重要なことは、項目とテストの平均項目難易度の値を提供することで、基準設定者にテストが学生にとってどのくらい難しいかを伝えることです。

 

エラーバーチャート

エラーバーは、基準設定者にフィードバックするための強力なツールである。エラーバーを使用することで、標準設定者が提供したアンゴフ評価を批判的に評価することができます。エラーバーとは、測定誤差ではなく、平均値(=標準偏差)を中心としたデータの範囲や広がりを表すT字型のバーです。誤差バーは、ボーダーライン上の学生を狭く、または広く評価した基準設定者に注目するためにも使用されます。

 

平均評価における標準設定者の位置

基準設定者にフィードバックを与えるためのもう一つの可視化方法は、それぞれの基準設定者の基準と、試験で計算された合格点を目盛り上に配置する、このフィードバック方法は、評価提供者にとって簡単でわかりやすいものです。

 

Angoffの評価と経験的な項目の難易度との乖離

項目の実際の難易度(統計的仮説検定に関連するp値と混同しないように、p値と呼ばれることもあります)からのAngoff評価の乖離は、「項目推定精度」の問題です。偏差値が小さければ小さいほど、項目推定精度の妥当性は高くなります 。

 

基準グループ(境界線上の学生または学生グループ全体)の標準設定者の評価と実際の項目の難易度の違いを測定するには、さまざまな方法があり、以下に示します。

グループ棒グラフ

グループ棒グラフは、標準設定者の項目難易度の評価(例:Angoff評価)と、境界線上の学生の実際の平均項目難易度を比較するために作成されます。


個々の項目のグループ棒グラフ

基準設定者には、各項目に基づく評価と、境界線グループの関連する項目p値についてのフィードバックを与えることもできます。このフィードバックにより、「スタンダードセッターは、個々の項目について、どのくらい正確に境界線グループの能力を推定できたか」という質問が明確になります。


評価と項目のp値の相関関係

基準設定者が自分の判断を振り返ることができるもう一つの方法は、個々の項目レベルの評価とp値の相関関係です。これにより、基準設定者は「評価のランク付けと観測された項目の難易度の値がどの程度比較されているか」を知ることができます。

 

条件付きのp値のフィードバック

先に述べたように、学生のグループ全体のp値と基準設定者がレンダリングした評価との相関関係は、そのテストの合格点を算出するために使用されたプロセスの誤解を招くようなフィードバックを提供する可能性があります。同様に、合格点に近いスコアを取った少数のボーダーラインの学生は、ボーダーラインの学生のパフォーマンスに対する基準設定者の真の判断について、偏った評価をする可能性があります。Raschモデルなどの項目反応理論(IRT)モデルは、合格点に近いボーダーラインの学生を選択することに付随する問題を軽減します。


合格点の信頼性と依存性

一般化可能性(G)理論の結果を標準設定者にフィードバックすることで、項目や標準設定者間での合格点に関連する誤差の原因を最小限に抑えることができます。特定の試験の合格点は、基準設定者や項目間で観測された平均値です。平均とは、標準設定者の母集団と項目の宇宙の平均として定義される合格点の推定値である

 


評価精度向上のための試験官へのフィードバック

OSCEとアドミッションOSCE

前のセクションでは、学生のパフォーマンスの標準または基準レベルのためのいくつかのフィードバック方法について説明しました。基準は、学生のマークの分布を合格者と不合格者の2つの相互に排他的なグループに分割します。各基準設定者の合格点と設定された試験の合格点の比較から得られたサマリーは、試験結果のモデレートに重要な役割を果たしているが、合格点の決定には関与していない人たちと共有することができます。

 

チェックリストの評価とグローバル評価の不一致

チェックリストのドメインレベル(項目レベル)の評価と、グローバルスケールの総合評価は、受験者のパフォーマンスを同じ情報で示す必要があります。項目評価が高ければ、全体のグローバルスケール評価も高くなるはずです。試験官のチェックリストの得点とグローバル評価の間の不一致は、境界線上の学生に影響を与え、測定に構成要素とは無関係な分散を加える可能性があるため、この対応関係は不可欠です。

 


パフォーマンス評価に対する試験官の影響

評価や測定に関する文献の中で、試験官がパフォーマンス評価に与える影響には多くの注目が集まっています。理論的には、次の3つの要素が評価精度に影響を与えます:学生のパフォーマンス、試験官の学生に対する態度または観察、試験官が意図したパフォーマンスを観察したときの記憶(Landy and Farr 1980)。

 

パフォーマンス・フィードバックのための棒グラフ

シンプルなフィードバックアプローチでは、試験官のパフォーマンスを示すために棒グラフを使用します。この方法では、標準スコアやzスコアと呼ばれる統計値を用いて、受験者同士を比較します。zスコアは、スコアが特定の分布の平均から何標準偏差離れているかを示すものです。審査員のスコアをzスコアに変換すれば、全局でどの審査員が「ハト派」または「タカ派」と評価しているかを互いに比較することができます。

 

公正な平均値を用いたフィードバック

もし、2人の試験官がいたとしたら、1人はハト派、もう1人はタカ派で、タカ派の試験官に評価されることを学生が嫌がることは間違いありません。しかし、どちらの試験官も不当な評価をする可能性があります。学生のマークを公平にするために、私たちは観測されたマークをモデレートまたは調整します。MFRMの言葉では、モデレートされた/調整されたマークは「フェアアベレージ」と呼ばれる。公正な平均は、試験官の寛大さ/厳しさに基づいて観察されたマークが調整されたときに発生する。