Iteratively refined ChatGPT outperforms clinical mentors in generating high-quality interprofessional education clinical scenarios: a comparative study.
Qingquan, T., Feng, R., Bin, Z. et al.
BMC Med Educ 25, 845 (2025). https://doi.org/10.1186/s12909-025-07414-1

研究の背景
IPEの重要性
- 世界保健機関(WHO)により、医療専門職間のチームワーク向上と医療提供のギャップを埋める重要な教育方法として認識
- 協力を通じて最終的に患者ケアを改善することが目的
実施上の課題
- カリキュラム開発における専門職間教員の参加確保が困難
- 教員のスケジュール調整が困難
- 発展途上地域では多様な教員の不足がIPE統合を深刻に制限
- 医学的に正確で、関連性があり、適切に複雑な臨床シナリオの開発が時間を要し、IPE推進の重要な障壁
従来のChatGPT研究
- 医学教育での活用:選択肢問題作成、教育評価支援、学術論文執筆支援
- 大規模言語モデルを使用した高品質臨床シナリオ作成の成功例は未発表
- WHO IPEフレームワークに沿ったIPE臨床シナリオ開発は困難なタスク
研究方法
研究設計
- 比較研究:GPT-4oによる2つの戦略と臨床指導者による作成を比較
- GPT-4o:OpenAIの最新で最も高度な言語モデル(無料版アクセス利用)
シナリオ作成基準
- 4つの主要タイプ:急性・救急医療、慢性・プライマリケア、地域・公衆衛生、専門・支援医療
- 各タイプにつき8つの異なるシナリオが必要(計32シナリオ)
- 各シナリオは同じ4つの専門分野を組み込む必要(補足資料1のeTable 1に詳細)
3つの作成方法
- 多専門分野臨床指導者
- レジデンシープログラム指導者から募集
- オンラインと対面での議論・改良
- 指定されたIPE要件を満たすシナリオを作成
- 標準プロンプト法
- 反復的修正なしの単一ステップ生成
- 基本指示:「[指定タイプ]の専門職間臨床シナリオを作成し、[指定専門分野]の学生を含める。チームワークを強調し、各専門分野が診断、薬物管理、直接ケア、患者教育、ケア調整、健康促進などの異なる役割を担う。実世界の専門職間実践の教育目標と一致した患者中心のケア、効果的コミュニケーション、学際的協力に焦点を当てる」
- 反復改良法
- 第1段階:分析的準備と予備症例シナリオ策定
- 複数専門分野から臨床データを収集・統合
- 各分野の視点とニーズを反映した予備シナリオ作成
- 病歴、身体検査、予備検査の包括的分析
- 第2段階:学生視点での評価・改良
- GPT-4oが各専門分野の学生をシミュレーション
- 主要症状、診断評価、病歴、治療戦略の包括的カバレッジ確保
- 症状、身体検査、診断検査の詳細説明を追加してリアリズム向上
- 第3段階:専門家視点での評価・改良
- GPT-4oが各専門分野の専門家をシミュレーション
- 症状、身体検査、診断検査の詳細を改良してリアリズム最大化
- 医学的正確性の再評価と教育使用準備
- 第1段階:分析的準備と予備症例シナリオ策定
評価プロセス
盲検評価
- Central South University第二湘雅病院から評価者募集
- シナリオの起源を評価者が知らない状態で匿名評価
- 臨床専門家:関連専門分野の上級医師(シナリオ作成に不参加)
- 学生評価者:関連専門分野のレジデント(IPE経験あり)
- 全参加者が評価前に書面による同意
評価基準(5点リッカート尺度)
- 臨床的真正性
- チーム協力
- 教育目標
- 適切な挑戦
- 学生エンゲージメント(学生評価者のみ)
専門職間品質スコア(IQS)
- 多分野評価者による5つの専門職間評価基準全体の平均点
- IPEシナリオ評価の検証済み採点方法や基準が現在存在しないため本研究用に開発
盲検源泉特定評価
- 学生エンゲージメント評価後、同じ学生評価者グループが実施
- シナリオがAIまたは人間指導者によって生成されたかを特定
- 各グループが作成したシナリオの総数は評価者に盲検
研究結果
シナリオ作成時間
- 臨床指導者:118±23分(関与した全多分野指導者の累積時間)
- 標準プロンプト:4±2分
- 反復改良:9±2分
品質評価結果
標準プロンプト vs 臨床指導者
- 臨床的真正性:3.50±0.35 vs 4.00±0.35(p<0.01)
- チーム協力:3.27±0.28 vs 3.66±0.56(p<0.01)
- 学生エンゲージメント:3.01±0.27 vs 3.49±0.43(p<0.01)
- 標準プロンプト法は一貫して有意に低いIQS
反復改良 vs 臨床指導者
- 適切な挑戦:3.61±0.49 vs 2.98±0.34(p<0.01)- 反復改良が優位
- 学生エンゲージメント:3.88±0.57 vs 3.49±0.43(p<0.01)- 反復改良が優位
- 臨床的真正性とその他3基準:同等の品質評価
反復改良 vs 標準プロンプト
- 評価されたすべての次元で有意な改善
特定評価結果
| 作成方法 | 人間判定 | AI判定 | p値(vs臨床指導者) |
|---|---|---|---|
| 臨床指導者(N=32) | 19 | 13 | NA |
| 標準プロンプト(N=32) | 8 | 24 | 0.01 |
| 反復改良(N=32) | 16 | 16 | 0.61 |
考察
反復改良法の優位性の理由
- タスク分解:複雑なシナリオを順次ステップに分割
- 段階的改良:各プロンプトが出力の特定側面に焦点
- フィードバック組み込み:各反復でフィードバックを組み込み、エラー特定・修正、幻覚の最小化、信頼性向上
- 動的適応:変化するタスク要件への動的適応、多分野視点との整合性維持
教育現場への影響
- 多分野指導者の直接関与なしに高品質シナリオ生成
- 教員不足とスケジュール競合というIPEの主要課題に対処
- 未発達地域や下位教育病院での特別な利益(限られた教員がIPE実施を阻害)
- AIプラットフォーム支援により拡張性とアクセシビリティ向上
研究の限界
- 評価者による主観的採点(標準化訓練実施にもかかわらず変動性の可能性)
- 正式な評価者間信頼性テストを含まず
- 追加反復(ステップ2・3の繰り返し)の潜在的利益は未探索
- 標準プロンプト法で生成されたシナリオは専門職間役割の過度な簡略化と臨床詳細不足
- 反復改良により欠陥は減少したが完全には除去されず
今後の方向性
- 実際のIPE実践への統合と学生エンゲージメント・学習成果評価による質的・量的実証的証拠の提供
- 潜在的不正確さ緩和と IPE目標により密接に合致したシナリオ作成のための AI ツールと教員監督の統合研究
- そのような協力による文脈的正確性と AI 生成教材の教育関連性改善の可能性
結論
主要な知見
- GPT-4oによる標準プロンプト法は依然として様々な欠点を示す
- 反復改良と役割演技戦略の採用により、GPT-4o生成臨床シナリオは臨床指導者開発のものと同等またはそれを上回る
- これらの戦略適用により、広範な専門職間教員関与の必要なしに大幅な時間節約達成
- 指導者による慎重な見直しは依然として不可欠
教育的意義
- AI による個別化学習教材作成の大きな可能性を示す
- 現在のIPE課題に対する革新的で効果的な解決策を提示
- 特に資源制約のある環境でのIPE大幅向上の可能性