GPT-4 versus human authors in clinically complex MCQ creation: A blinded analysis of item quality.
Wu, H., Zerner, T., Lee, D., Court-Kowalski, S., Devitt, P., & Palmer, E. (2025).
Medical Teacher, 1–14. https://doi.org/10.1080/0142159X.2025.2505122
https://www.tandfonline.com/doi/full/10.1080/0142159X.2025.2505122?af=R#abstract
研究背景
MCQ作成の課題
- 高品質MCQの作成は極めて労力集約的:主題専門家からの時間と専門知識への大きな投資が必要
- コンテンツ不足の問題:しばしば同じ問題を再利用せざるを得ず、学生の学習戦略が暗記中心になってしまう
- 低品質MCQの悪影響:項目作成上の欠陥(IWF)が試験の妥当性を損ない、特に高成績学生に不利益をもたらす
従来の改善策とその限界
- 教員訓練やピアレビューなどの実証済み介入は資源要件をさらに増大させる
- 学生による項目作成も検討されているが、質の面で教員作成項目に劣る
AI研究の現状と課題
既存のAI-MCQ研究には以下の問題がある:
- 評価手法の大幅な変動:非公式レビューから2-6名の専門家パネルまで様々
- 評価基準の不統一:質的基準から事前定義基準まで多様
- 複雑性考慮の不足:低次・高次認知技能の区別が不十分
- 比較研究の不足:AI vs 人間の直接比較が限定的
研究設計
項目構造
- 単一最適解形式の5択MCQ
- 完全項目構成:詳細な文脈的問題文、質問、5つの選択肢(正答表示あり)、説明的テキスト
テストブループリント
学問分野横断的アプローチ:
- 内科、外科、小児科、女性健康、精神科、人口健康、総合診療
- 卒業レベル医学生を対象とした内容範囲
- 高次認知技能に焦点(修正ブルーム分類法レベルII-III)
標準化評価システムの開発
核心評価要素(表1)
- 内容妥当性:事実的正確性と臨床実践への現実性(1-4点)
- 範囲適切性:卒業医学生レベルでの適切性(1-4点)
- 項目解剖学:構造の正確性と完全性(1-4点)
- 項目作成欠陥(IWF):数と種類の記録
- 認知技能レベル:修正ブルーム分類法による分類
- 全体的印象(構造):総合的使用適合性評価(1-4点)
説明的テキスト評価
- フィードバック包括性:正答と誤答選択肢への適切な言及(1-4点)
- フィードバック正確性と臨床推論:科学的・臨床的推論の満足度(1-4点)
- 全体的印象(総合):フィードバック含む総合適合性(1-4点)
修正ブルーム分類法(表2)
- レベルI:記憶(情報の特定と検索)
- レベルII:理解(情報の解釈と要約)
- レベルIII:応用、分析、評価、創造(情報の実装、組織化、批評)
人間作成MCQ
データソース
eMedici Pty Ltd(オーストラリア商用医学教育プロバイダー):
分類方法
- 初心者レベル(39問):非専門家作成、ピアレビューや編集過程未通過
- 専門家レベル(45問):主題専門家による編集・承認済み
- 事前に学問分野、トピック、認知技能レベルで分類済み
- 高次認知技能項目のみをランダム選択で抽出
AI-MCQ生成
GPT-4仕様
- モデル: gpt-4-0125-preview
- 根拠: Massive Multi-task Language Understanding benchmarksでの優秀な成績
プロンプトエンジニアリング過程
開発プロセス
6名専門家パネル(著者全員)による3回の参照グループ会議:
- HW, SCK, PD: 医学の大学学術職
- DL, EP: 教育学の大学学術職
- HW, TZ, SCK, PD: 医師
- TZ: ソフトウェア開発者
- 全員: 医学・教育分野での項目作成専門知識保有
プロンプト構成要素
- 設定と対象者情報:MCQの背景と対象
- 包含・除外基準:基本項目構造要件を満たす臨床問題文
- IWF回避指導:Haladyna et al.の完全分類法から抽出(表3参照)
- 構造指示:選択肢数と誤答選択肢の指示
- 説明的フィードバック指示:正答・誤答の臨床推論を含む
- 参考文献指示:最近のピアレビュー論文への言及
- 模範例提供:医学トピック横断的な5つの高品質MCQ
- キー学習ポイント:テストブループリントに従った事実記述形式
GPT-4出力の変動性テスト
温度設定
- 温度0.0を選択:再現性最大化のため
- 温度範囲:0-2(低値ほど一貫した出力)
検証実験
- 6つの学習ポイントで3連続出力を生成(計18項目)
- 5名著者による合意パネル評価 → 第6著者(SCK)による独立レビュー
- 評価差異は議論により解決
- 評価システム訓練も兼ねる
参考文献検証
18項目の52参考文献を評価:
- 基準:「参考文献は実在、MCQに関連、形式適切、ピアレビュー済み」
- 平均スコア:3.06/4(範囲2-4)
- 分布:スコア2が6項目、スコア3が5項目、スコア4が7項目
項目評価プロセス
合意パネル評価
- 全124項目をプールしランダム順序で評価
- 5名著者による著者ブラインド評価
- 事前指定評価システム使用
- AI項目は未修正状態で評価(de novo使用)
- 人間作成項目も追加レビューなし
- 評価差異は口頭議論で解決
統計分析
- ANOVAと事後Bonferroni/Tamhane検定
- 独立比例検定(正答配置分析用)
- p < 0.05を有意水準とする
詳細研究結果
個別構造特性評価(図2)
Expert vs Novice(人間著者間比較)
- Expert優位領域:説明的テキスト包括性以外の全カテゴリー
- 例外:範囲適切性と説明的テキスト包括性では差なし
Expert vs AI比較
統計的有意差あり(Expertが優位):
- 内容妥当性:3.98 vs 3.73 (p < 0.001)
- 認知技能レベル:2.58 vs 2.25 (p < 0.05)
- フィードバック正確性・臨床推論:3.96 vs 3.65 (p < 0.001)
有意差なし:
- 項目解剖学、範囲、IWF数、フィードバック包括性
AI vs Novice比較
- AI優位:IWF数(0.80 vs 1.33, p < 0.05)
- その他パラメータ:有意差なし
全体的印象評価(図3)
使用適合性ランキング(説明的テキスト除く)
- Expert:95.5%が軽微編集以下で使用可能
- AI:85%が軽微編集以下で使用可能
- Novice:61.5%が軽微編集以下で使用可能
重要な発見
- Noviceのみ:救済不可能項目が存在(12.8%)
- 説明的テキスト含む評価でも同様の傾向
- Expert vs AI:全体的印象平均スコアに有意差なし
- AI vs Novice:有意差あり(3.38 vs 2.77, p < 0.001)
詳細サブ解析
項目作成欠陥(IWF)分析(表4)
IWF率:
- Expert:0.8/項目、Novice:1.3/項目、AI:0.8/項目 (p < 0.05)
IWF分布:
- Novice:ゼロIWFが最少、3個以上IWFが最多
- 全グループ共通:「選択肢の作成」カテゴリが最多
認知技能レベル分布(表5)
レベルIII(最高次)比率:
- Expert:60%、Novice:36%、AI:30%
レベルI(最低次)比率:
- Expert:2%、Novice:10%、AI:5%
正答の正確性と配置(表6)
正答適切性:
- Expert:100%、Novice:90%、AI:85%
正答配置偏向:
- AI:45%が選択肢C(p = 0.028)
- Expert:33%が選択肢C(p = 0.002)
- Novice:13%が選択肢C(基準)
参考文献品質(表7)
GPT-4生成参考文献の主要問題:
- 不正確DOI:7件
- 古い版:5件
- 不正確詳細:5件
- ピアレビューなし:3件
- 不正確URL:2件
- 非実在:2件
考察:実装への示唆
AI能力の位置づけ
品質階層:Expert > AI > Novice
- この発見は新規かつ有用
- 医学知識、臨床経験、教育学的訓練の組み合わせが必要な状況を反映
AI-MCQの総合評価
強み
- 85%が軽微編集以下で使用可能
- 95%が高次認知技能を測定
- 優秀な平均スコア:内容妥当性(3.7/4)、範囲(4/4)、項目構造(3.9/4)
- Expert標準の臨床複雑レベル達成可能
重要な制約
- 15%が使用前大幅編集必要(Expert:4%)
- 15%で誤答指定
- 45%で正答配置偏向(選択肢C集中)
- 全著者グループでIWF存在:特に「選択肢作成」
安全性とリスク管理
高リスク分野での考慮事項
- 医療分野では個別項目レベルでの高品質・正確性基準が必要
- 1/7のAI項目が重大問題を含有は看過できない
- 認定試験・学術進級等では特に慎重な専門家レビューが不可欠
バイアスと限界
- 「中間バイアス」の再現:MCQの既知欠陥(選択肢Cへの集中)をAIが学習
- 訓練データの欠陥継承:戦略的テストワイズネス悪用の可能性
- 人種・性別バイアス:健康格差への潜在的影響
- ハルシネーション:完全に偽造された参考文献生成
推奨実装戦略
「サンドイッチアプローチ」
人間主導のプロンプトエンジニアリング + AI生成 + 専門家検証 = 従来手法と非劣性の結果
具体的実装要素
- 反復的プロンプト工学:多分野専門家パネルによる「天井効果」到達まで
- 汎用プロンプト開発:lengthy参考文献提供の不要化
- キー学習ポイント入力:さらなるAI活用可能性
- 透明性保持ソフトウェア:AI出力の保存
- 教員向け項目作成訓練:MCQ構造品質評価のため
- 主題専門家による検証:内容正確性、臨床推論、認知技能レベル、正答配置多様化
- 追加ピアレビュー検討:AI・人間双方のエラー防止
必須安全措置
研究限界
方法論的制約
- 標準化不足:既存(Novice/Expert)vs 新規生成(AI)項目の指示差異
- 温度設定:0.0選択が出力品質を制約した可能性、最適温度未確定
- 高複雑性焦点:低次認知技能MCQへの一般化不可
- 混合手法アプローチ:事前存在と新規生成項目の組み合わせ
評価システム制約
- 未公表・未検証の包括的MCQ構造品質評価システム使用
- 医学における文脈特異性(文脈豊富 vs 基礎科学の想起中心)
- 万能尺度実装の困難性
将来研究方向
心理測定特性評価
- AI-MCQの心理測定特性評価結果を将来論文で報告予定
追加研究領域
- 他LLMでの出力品質探索
- 臨床画像のAI支援MCQ設計
- AI説明的フィードバックの教育価値評価
- 参考文献自動提供の洗練されたプロンプト工学
- 大量高品質MCQによるLLMファインチューニング調査
結論と実践的含意
主要発見
- GPT-4は専門家と比較可能な品質の高複雑度臨床MCQ生成が可能
- 人間による監督が品質最適化に不可欠
- 適切なプロンプト工学が高品質出力の鍵
実装決定要因
- 学生・教育者の受容性
- 公正性認識と倫理的開示要件
- 経済的考慮:ソフトウェア開発、人的資源、教員訓練、継続保守
- 教員項目作成訓練の継続必要性:AIにより削減されない重要スキル
最終推奨
医学教育機関がAI-MCQ生成を検討する場合、構造化検証プロセスと人間レビュアーによる潜在的エラー軽減を必須実装し、急速に発展するAI駆動医学教育時代における倫理的使用、応答的反復的プロンプト工学、明示的バイアス評価の必要性を認識すべきである。