医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

規範への挑戦 試験の長さは分類の正確さか信頼性かで決まる

Challenging the norm: Length of exams determined by classification accuracy or reliability

Stefan K. Schauber, Matt Homer

First published: 04 June 2025 https://doi.org/10.1111/medu.15742

https://asmepublications.onlinelibrary.wiley.com/doi/10.1111/medu.15742?af=R

研究の背景と問題提起

従来のアプローチの問題点

  • 現状: 医学教育の試験では、試験の長さを決定する際に主に信頼性(reliability)指標(Cronbach's Alpha等)が使用されている
  • 問題: 合格・不合格の判定が主目的の試験において、信頼性は適切な指標ではない
  • 理由: 信頼性は個々のスコアの精度を測るものであり、分類決定の精度とは異なる概念

提案する新しいアプローチ

分類精度(classification accuracy)を用いることで、より短い試験で十分な精度を達成できるという仮説を検証

研究方法

データと分析手法

  • 対象: ノルウェーオスロ大学医学部の学部試験データ
  • 試験数: 3つの異なる試験の5回ずつの実施データ(計15データセット
  • 分析方法: リサンプリング手法を使用
    • 試験の長さ: 20, 30, 50, 75, 100, 125, 150項目
    • カットスコア: 40%, 50%, 60%, 70%, 80%
    • 総データセット: 52,500

測定指標

  1. 信頼性: Cronbach's Alpha、IRT信頼性
  2. 分類精度:

主要な研究結果

基本統計

  • 元試験の平均正答率: 71%(SD = 3%)
  • 平均受験者数: 121名(範囲: 89-189名)
  • 項目数: 79-143項目(中央値: 108項目)
  • 平均不合格率: 3.83%(0-13.1%)

分類精度と信頼性の関係

分類精度と信頼性の相関は r = 0.28 と中程度で、両者は異なる情報を提供する

カットスコアの影響

  • 信頼性: カットスコアは信頼性に影響しない(βstd = 0.00)
  • 分類精度: 高いカットスコアは低い分類精度と関連(βstd = -0.79)

試験長の推奨事項

信頼性基準の場合

信頼性を最適化するには、約100項目が推奨される(合格率に関係なく)

分類精度基準の場合

不合格率が5%以下の試験では、50項目で95%の分類精度を達成可能

実践的な意義と推奨事項

試験開発者への具体的推奨

  1. 分類精度の計算: 合格・不合格判定が主目的の場合、信頼性に加えて分類精度も計算する
  2. 項目数の最適化: 適切な領域カバレッジを確保しつつ、不要な項目数を削減
  3. 品質重視: 項目数を100から80に減らし、より高品質な項目作成に集中する

教育的利点

  • 学習者負担軽減: より短い試験による負担軽減
  • 開発効率向上: 高品質な項目により少数での効果的評価
  • 学習効果向上: より頻繁だが短時間の試験により間隔学習効果を活用

理論的貢献

心理測定学的観点

  • 誤分類の明確化: 偽陽性(実際は不適格だが合格)と偽陰性(実際は適格だが不合格)の考慮の重要性
  • 妥当性理論: 試験の目的と使用される心理測定指標の整合性の重要性

評価理論への影響

従来の「より多くのデータ = より良い結果」という考え方に対する挑戦

研究の限界と今後の展望

限界

  • 単一機関のデータに基づく分析
  • 知識試験に限定(OSCE等の実技試験は対象外)
  • リサンプリング手法による「人工的」なデータ

今後の研究方向

  1. 多機関研究: より広範囲な機関でのデータ検証
  2. 技評価への拡張: OSCE等への分類精度適用
  3. プログラム評価: 統合的評価プログラムでの応用
  4. リアルタイムデータ: オンライン試験での逐次的精度測定

結論

この研究は、医学教育における試験設計において、分類精度を主要指標として用いることで、従来の信頼性重視のアプローチよりも効率的で適切な試験長を実現できることを実証した。特に不合格率の低い試験では、大幅な項目数削減が可能であり、教育資源の効率的活用と学習者負担軽減の両立が期待される。

 

 

分類精度とは

分類精度は、試験における合格・不合格の判定がどれだけ正確に行われているかを示す指標です。簡単に言うと「正しく分類された受験者の割合」を表します。

基本概念

真の能力と観測されるスコア

  • 真の能力: 受験者が本当に持っている能力レベル
  • 観測スコア: 実際の試験で得られたスコア(測定誤差を含む)
  • カットスコア: 合格・不合格を分ける基準点

4つの分類結果

分類精度では、受験者を以下の4つのカテゴリーに分類します:

  真の能力:合格レベル 真の能力:不合格レベル
判定:合格 ✅ 真陽性(True Positive)<br>正しい合格 偽陽性(False Positive)<br>誤った合格
判定:不合格 偽陰性(False Negative)<br>誤った不合格 ✅ 真陰性(True Negative)<br>正しい不合格

分類精度の計算

 
分類精度 = (正しい合格 + 正しい不合格) / 全受験者数
        = (真陽性 + 真陰性) / (真陽性 + 偽陽性 + 偽陰性 + 真陰性)

例:100人の受験者がいる場合

  • 正しく合格と判定:80人
  • 正しく不合格と判定:15人
  • 誤って合格と判定:3人
  • 誤って不合格と判定:2人

→ 分類精度 = (80 + 15) / 100 = 95%

信頼性との違い

信頼性(Reliability)

  • 目的: 個々のスコアの測定精度
  • 関心事: "このスコアはどれくらい正確か?"
  • 用途: スコアの順位付けや詳細な能力測定
  • カットスコアとの関係: 無関係

分類精度(Classification Accuracy)

  • 目的: 合格・不合格判定の正確性
  • 関心事: "この判定は正しいか?"
  • 用途: 資格試験、進級判定など
  • カットスコアとの関係: 密接に関連

具体例で理解する

例1:高い信頼性、低い分類精度

  • 全員が80-85点の範囲(スコアは安定=高信頼性)
  • カットスコア82点の場合
  • わずかな測定誤差で合格・不合格が決まる
  • → 分類の正確性は低い

例2:中程度の信頼性、高い分類精度

能力差のあるクラスで適切な難易度の試験:

  • スコアにばらつきがある(中程度の信頼性)
  • カットスコア60点で、多くの学生が明確に上下に分かれる
  • → 合格・不合格の判定は正確

論文での重要な発見

カットスコアの影響

  • 高いカットスコア: より多くの学生が不合格になり、誤分類が増える
  • 低いカットスコア: ほとんどの学生が合格し、分類精度が高くなる

試験長との関係

  • 信頼性: 試験が長いほど向上(項目数の平方根に比例)
  • 分類精度: 不合格率が低い場合、短い試験でも十分な精度を達成可能

実践的な意味

医学教育での応用

  1. 国家試験: 不合格率が低い(5%以下)場合、50項目程度で95%の分類精度
  2. 進級試験: 不合格率に応じて適切な項目数を設定
  3. リソース配分: 項目作成の労力を品質向上に集中

誤分類の影響

  • 偽陽性(誤った合格): 患者安全のリスク
  • 偽陰性(誤った不合格): 有能な医師の機会損失

測定方法

  1. Lathrop & Cheng法: ノンパラメトリック手法
  2. Livingston & Lewis法: 古典的テスト理論ベース
  3. Rudner法: 期待分類精度