医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

評価改革：固定合格点から基準設定ベースの合格点へ

Assessment reform: Moving from fixed passing scores to standard setting based passing scores.

Isezuo, S., Kadiri, S., Arogundade, F., Ogunbiyi, A., Bello, B., Kolawole, W., … McKinley, D. W. (2025).

Medical Teacher, 1–10. https://doi.org/10.1080/0142159X.2025.2515982

https://www.tandfonline.com/doi/full/10.1080/0142159X.2025.2515982?af=R

研究の背景と目的

従来の固定合格点システムの問題点

恣意性: 科学的根拠に乏しい任意の合格点設定
妥当性の欠如: 学生の真の習熟度を反映しない
公正性の問題: 試験問題の難易度変動を考慮しない
透明性の不足: 合格基準の明確な根拠がない
患者安全への影響: 候補者の誤分類により患者安全に悪影響

標準設定の必要性

現代の医学教育では、明確に規定された能力基準と判定基準を持つ防御可能で体系的なアプローチが求められています。

方法

対象: 2018-2022年の5年間、平均90名の候補者に対する年2回のMCQ試験
参加者: 12名のパネリストが200問のMCQ問題を評価
手法: Angoff法による標準設定（ボーダーライン候補者が各問題に正解する確率を判定）

主な結果

パネリストの特徴

専門医資格取得後平均18年の経験
8つの専門分野から構成
90%が訓練を成功と評価

合格点と合格率の比較

Angoff法の合格点: 49.4-52.8%（平均50.9%）
固定50%との比較: Angoff法の方が高い合格点、低い合格率
パネリストの評価は40-60%に集中

妥当性の検証

併存妥当性係数:
- 論述試験: 34.8-91.6%（平均59.8%）
- OSCE: 59.1-100%（平均68.2%）
内部妥当性指標は許容範囲内
Angoff法がOSCEや論述試験の成績を予測

重要な発見

実現可能性: 固定合格点から内容ベースアプローチへの移行は実現可能
厳格性: Angoff法は能力のある候補者と能力のない候補者をより厳格に区別
予測性: MCQの成績が他の評価方法の成績を一貫して予測
安定性: 5年間で合格点の範囲は狭いが、合格率は候補者群の能力により変動

実装上の課題と解決策

時間的課題

標準設定時間: 100問につき2-4時間必要
疲労の影響: 長時間による判定精度への悪影響
解決策:
- 評価発表の透明性確保
- 早期の外れ値特定と議論
- 適切な休憩時間の確保

経済的負担

費用項目:
- パネリスト交通費
- 宿泊費
- 食事代
- 謝礼
- 事務局スタッフ費用
年間開催: 通常年2回（試験期間外）

概念的課題

ボーダーライン候補者の曖昧性: 定義の理解に個人差
平均候補者との混同: 50%確率の直感的帰属
卓越性軽視の誤解: 最低要件重視への誤った批判

外部要因

COVID-19影響: 2020年5月試験中止
制度変更への抵抗: 長年の固定合格点からの移行困難

品質保証と信頼性向上策

パネリスト多様性の確保

8専門領域からの代表
異なる教育機関からの参加
全国6地政学的地域からの参加
性別バランスの考慮

訓練プログラムの充実

反復訓練による理解深化
実習セッションによる実践経験
教材提供による知識強化
継続的な能力開発

透明性の確保

利益相反の申告なし
事前の試験受験禁止
候補者実績の事前非開示
評価プロセスの公開性

長期的効果と教育的インパクト

全体的教育成果

Part I試験全体の合格率: 標準設定導入後に向上
MCQ個別合格率: Angoff法で低下も、総合的には改善
他コンポーネント: 論述・OSCEでの合格点低下が影響

教育の質向上

能力基準の明確化: より精密な能力評価
公正性の向上: 客観的基準による判定
法的防御性: 科学的根拠に基づく合格判定

ステークホルダーの信頼

パネリスト信頼度: 92%が標準設定プロセスを信頼
信頼度分布:
- 「ただ信頼する」: 16.7%
- 「信頼する」: 75%
- 「低信頼」: 8.3%

結論

この研究は、伝統的な固定合格点から内容ベースアプローチへの移行が実現可能であることを実証しました。標準設定は評価の妥当性を向上させ、教育成果の改善につながる可能性があります。ただし、ボーダーライン候補者の定義と試験目的の明確なコミュニケーションが重要です。