Challenging the norm: Length of exams determined by classification accuracy or reliability
Stefan K. Schauber, Matt Homer
First published: 04 June 2025 https://doi.org/10.1111/medu.15742
https://asmepublications.onlinelibrary.wiley.com/doi/10.1111/medu.15742?af=R
研究の背景と問題提起
従来のアプローチの問題点
- 現状: 医学教育の試験では、試験の長さを決定する際に主に信頼性(reliability)指標(Cronbach's Alpha等)が使用されている
- 問題: 合格・不合格の判定が主目的の試験において、信頼性は適切な指標ではない
- 理由: 信頼性は個々のスコアの精度を測るものであり、分類決定の精度とは異なる概念
提案する新しいアプローチ
分類精度(classification accuracy)を用いることで、より短い試験で十分な精度を達成できるという仮説を検証
研究方法
データと分析手法
- 対象: ノルウェー・オスロ大学医学部の学部試験データ
- 試験数: 3つの異なる試験の5回ずつの実施データ(計15データセット)
- 分析方法: リサンプリング手法を使用
- 試験の長さ: 20, 30, 50, 75, 100, 125, 150項目
- カットスコア: 40%, 50%, 60%, 70%, 80%
- 総データセット数: 52,500
測定指標
- 信頼性: Cronbach's Alpha、IRT信頼性
- 分類精度:
- 非パラメトリック分類精度(Lathrop & Cheng法)
- Livingston & Lewis法
- Rudner法
主要な研究結果
基本統計
- 元試験の平均正答率: 71%(SD = 3%)
- 平均受験者数: 121名(範囲: 89-189名)
- 項目数: 79-143項目(中央値: 108項目)
- 平均不合格率: 3.83%(0-13.1%)
分類精度と信頼性の関係
分類精度と信頼性の相関は r = 0.28 と中程度で、両者は異なる情報を提供する
カットスコアの影響
- 信頼性: カットスコアは信頼性に影響しない(βstd = 0.00)
- 分類精度: 高いカットスコアは低い分類精度と関連(βstd = -0.79)
試験長の推奨事項
信頼性基準の場合
信頼性を最適化するには、約100項目が推奨される(合格率に関係なく)
分類精度基準の場合
不合格率が5%以下の試験では、50項目で95%の分類精度を達成可能
実践的な意義と推奨事項
試験開発者への具体的推奨
- 分類精度の計算: 合格・不合格判定が主目的の場合、信頼性に加えて分類精度も計算する
- 項目数の最適化: 適切な領域カバレッジを確保しつつ、不要な項目数を削減
- 品質重視: 項目数を100から80に減らし、より高品質な項目作成に集中する
教育的利点
- 学習者負担軽減: より短い試験による負担軽減
- 開発効率向上: 高品質な項目により少数での効果的評価
- 学習効果向上: より頻繁だが短時間の試験により間隔学習効果を活用
理論的貢献
心理測定学的観点
評価理論への影響
従来の「より多くのデータ = より良い結果」という考え方に対する挑戦
研究の限界と今後の展望
限界
- 単一機関のデータに基づく分析
- 知識試験に限定(OSCE等の実技試験は対象外)
- リサンプリング手法による「人工的」なデータ
今後の研究方向
- 多機関研究: より広範囲な機関でのデータ検証
- 実技評価への拡張: OSCE等への分類精度適用
- プログラム評価: 統合的評価プログラムでの応用
- リアルタイムデータ: オンライン試験での逐次的精度測定
結論
この研究は、医学教育における試験設計において、分類精度を主要指標として用いることで、従来の信頼性重視のアプローチよりも効率的で適切な試験長を実現できることを実証した。特に不合格率の低い試験では、大幅な項目数削減が可能であり、教育資源の効率的活用と学習者負担軽減の両立が期待される。
分類精度とは
分類精度は、試験における合格・不合格の判定がどれだけ正確に行われているかを示す指標です。簡単に言うと「正しく分類された受験者の割合」を表します。
基本概念
真の能力と観測されるスコア
- 真の能力: 受験者が本当に持っている能力レベル
- 観測スコア: 実際の試験で得られたスコア(測定誤差を含む)
- カットスコア: 合格・不合格を分ける基準点
4つの分類結果
分類精度では、受験者を以下の4つのカテゴリーに分類します:
真の能力:合格レベル | 真の能力:不合格レベル | |
---|---|---|
判定:合格 | ✅ 真陽性(True Positive)<br>正しい合格 | ❌ 偽陽性(False Positive)<br>誤った合格 |
判定:不合格 | ❌ 偽陰性(False Negative)<br>誤った不合格 | ✅ 真陰性(True Negative)<br>正しい不合格 |
分類精度の計算
分類精度 = (正しい合格 + 正しい不合格) / 全受験者数
= (真陽性 + 真陰性) / (真陽性 + 偽陽性 + 偽陰性 + 真陰性)
例:100人の受験者がいる場合
- 正しく合格と判定:80人
- 正しく不合格と判定:15人
- 誤って合格と判定:3人
- 誤って不合格と判定:2人
→ 分類精度 = (80 + 15) / 100 = 95%
信頼性との違い
信頼性(Reliability)
- 目的: 個々のスコアの測定精度
- 関心事: "このスコアはどれくらい正確か?"
- 用途: スコアの順位付けや詳細な能力測定
- カットスコアとの関係: 無関係
分類精度(Classification Accuracy)
- 目的: 合格・不合格判定の正確性
- 関心事: "この判定は正しいか?"
- 用途: 資格試験、進級判定など
- カットスコアとの関係: 密接に関連
具体例で理解する
例1:高い信頼性、低い分類精度
- 全員が80-85点の範囲(スコアは安定=高信頼性)
- カットスコア82点の場合
- わずかな測定誤差で合格・不合格が決まる
- → 分類の正確性は低い
例2:中程度の信頼性、高い分類精度
能力差のあるクラスで適切な難易度の試験:
- スコアにばらつきがある(中程度の信頼性)
- カットスコア60点で、多くの学生が明確に上下に分かれる
- → 合格・不合格の判定は正確
論文での重要な発見
カットスコアの影響
- 高いカットスコア: より多くの学生が不合格になり、誤分類が増える
- 低いカットスコア: ほとんどの学生が合格し、分類精度が高くなる
試験長との関係
- 信頼性: 試験が長いほど向上(項目数の平方根に比例)
- 分類精度: 不合格率が低い場合、短い試験でも十分な精度を達成可能
実践的な意味
医学教育での応用
- 国家試験: 不合格率が低い(5%以下)場合、50項目程度で95%の分類精度
- 進級試験: 不合格率に応じて適切な項目数を設定
- リソース配分: 項目作成の労力を品質向上に集中
誤分類の影響
測定方法
- Lathrop & Cheng法: ノンパラメトリック手法
- Livingston & Lewis法: 古典的テスト理論ベース
- Rudner法: 期待分類精度