Delving into the Practical Applications and Pitfalls of Large Language Models in Medical Education: Narrative Review.
Li R, Wu T.
Adv Med Educ Pract. 2025;16:625-636
https://doi.org/10.2147/AMEP.S497020
1. 背景と導入
大規模言語モデル(LLM)は2022年11月のChatGPTリリース以降、医学教育において重要なツールとして認識されるようになりました。LLMは従来のAIツールと異なり、事前定義されたアルゴリズムやデータセットに依存するのではなく、膨大なデータセットと高度なニューラルネットワークアーキテクチャを活用して、広範な業務を実行します。これらのモデルは、テキストの微妙なニュアンスを理解し、人間と機械が生成したコンテンツの区別を曖昧にするようなリアルタイムの会話において、より微妙でコンテキストに関連した出力を生成する驚くべき能力を持っています。
この研究は、教育者と学生の両方の教育および学術パフォーマンスを向上させるためのLLMの実用的な応用を検討し、その効果を示す具体的な例を提供することを目的としています。また、LLMの実装に伴う固有の課題に対処し、その使用を最適化するための実行可能な解決策を提案しています。
2. 教育戦略の変革
2.1 授業前の準備
- 視覚学習者向け:LLMは放射線画像を3Dモデルに変換し、解剖学の授業中に学生が仮想環境で解剖学的構造を探索できるようにします。LLMの統合により、学生がバーチャルシナリオをナビゲートする際にリアルタイムのフィードバックと個別のガイダンスを提供することで、バーチャルシミュレーションがより動的になります。
- 聴覚学習者向け:LLMは講義、討論、ポッドキャストを生成できます。薬理学のポッドキャストに関する研究によると、音声リソースは理解力を向上させ、学生が講義を復習し、試験の準備をし、複雑なトピックを明確にする権限を与えることを示しています。同様に、麻酔科と集中治療の分野では、ポッドキャストは知識の習得と臨床スキルの発展に有意な正の影響を示しています。
- 体感学習者向け:仮想手術トレーニングにおけるLLMは、各手順ステップで詳細でコンテキストを理解した指示を提供し、ユーザー入力を解釈して応答することもできます。この相互作用により、学習者は質問をし、即時のカスタマイズされたフィードバックを受け取ることができ、これは学習を強化し、複雑な外科技術の包括的な理解を確保するために不可欠です。このようなChatGPT支援の外科トレーニングは2週間のトレーニングプログラムで実施され、実践的な臨床スキルの顕著な向上が観察されました。
2.2 授業中の活用
- 多様なケースシナリオ:LLMによって設計されたケースベース学習シナリオは、多様な患者デモグラフィックを表現し、学生が幅広い臨床状況に遭遇することを確保します。文化的に敏感な教育症例の作成は、多様な患者集団のニーズに対応できるヘルスケア専門家を訓練するために不可欠です。
- 自己チェッククイズと臨床症例:LLMは詳細な回答説明付きの自己チェッククイズと臨床症例を生成できます。これは、ChatGPTによって生成された臨床コンテンツの品質と読みやすさが人間の専門家によって書かれたものと同等であるという知見と一致しています。
- 問題ベースの学習:ChatGPTによって生成されたオープンエンド型の質問を泌尿器科のインターンのコホートで使用した研究では、ChatGPTに支援された学生は従来のグループよりも試験でのパフォーマンスが優れ、医療面接、臨床判断、および全体的な臨床能力に有意な向上が見られました。
- 仮想患者シナリオ:LLMは理論的知識を実践的状況に適用することを促進する、現実的で臨床的に関連性のあるシナリオを効果的に作成できます。「仮想患者」の診断と治療に学生を参加させることで、コンプライアンスと満足度が大幅に向上することが示されています。
- 診断コース支援:LLMは鑑別診断を生成し、臨床意思決定プロセスをサポートする強力なツールとして機能します。特にGPT-4は高精度の鑑別診断リストを生成でき、医学生と研修生がより広範な潜在的診断にさらされるようにします。
2.3 授業後のフォローアップ
- 専門的活動評価:LLMは委託可能な専門活動(EPA)に沿った質問を生成するために使用でき、これは医学生の臨床実践の準備状況を評価するために重要です。
- 文脈豊富な短答問題:従来の多肢選択問題は高次認知スキルを効果的に評価できない一方、文脈豊富な短答問題(CR-SAQ)は学生が教材とより深く関わるよう促し、主題のより良い理解を育みます。LLMと人間によって生成された質問の全体的な質は同等であることが見出されています。
3. 学生学習のカスタマイズ
3.1 言語と理解の障壁
- 言語障壁:LLMは言語障壁と読解の課題に容易に対処できます。医学生の読解における言語的手がかりの重要性を強調する研究があり、言語介入が彼らの理解力を向上させる可能性を示唆しています。
- メタ認知戦略:LLMはメタ認知戦略を組み込むように設計でき、医学生が自己監視を行い、効果的な読解技術を採用するよう指導します。
- 特定の言語障害:特定の言語障害を持つ学生のために、LLMはパーソナライズされた言語トレーニングを提供し、医学カリキュラムに完全に取り組めるようにします。
3.2 臨床意思決定と自己調節学習
- 臨床ガイドラインの理解:臨床意思決定支援システムへのLLMの統合は、医療ガイドラインの解釈を改善する上で有望な結果を示しています。
- シミュレーション会話:AIの患者との会話に従事するコントロールグループとLLMからの追加フィードバックを受け取る介入グループを比較した二重盲検無作為化研究では、4セッション後、フィードバックグループはコンテキストの作成と情報の確保においてより優れたパフォーマンスを示し、フィードバック付きのAIシミュレーション会話が臨床意思決定を支援できることを示しました。
- 自己調節学習:LLMは学生中心のカリキュラムにおける自己調節学習への関与を増加させ、学生は学習戦略の計画、監視、評価を奨励されます。
- パフォーマンス向上:129人の医学部生を対象とした無作為化対照試験を通じて、研究者はChatGPTを利用する学生が短期的な整形外科テストでのパフォーマンスが向上しただけでなく、外科と産婦人科の最終試験でもより高いスコアを達成したことを観察しました。
3.3 学生のフィードバックと評価
- 高い満足度:ある研究では、医学教育にLLMを組み込む際の学生間の高いレベルの満足度(10点満点中7.9)が報告されています。
- クラスでの使用に対する肯定的な支持:パーク氏の研究では、授業でのChatGPTの使用を支持する学生の割合が有意に高いことが判明しました(75.6%対17.1%)。
- レジデント教育での良好な認識:ChatGPTは、使いやすさ(5点満点中4.48)と有用性(5点満点中4.61)に関して肯定的な認識を受けました。それにもかかわらず、合理性(5点満点中4.00)にはさらなる改善が必要でした。
4. 学術パフォーマンスの促進
4.1 情報処理と合成
- 迅速なドラフト作成:LLMはユーザーのプロンプトに基づいてドラフトを作成し、学生が抄録、参考文献、目次、データ分析、文献レビュー、重要ポイントの迅速な要約を数分でリクエストできるようにします。これらのタスクは以前は完了するのに数日または数週間を要していました。
- 文献レビューの自動化:FlanT5、OpenHermes-NeuralChat、Mixtral、Platypus 2という4つのLLMが体系的レビューでタイトルと抄録をスクリーニングするために使用され、出版物の自動化において有望な結果を示しました。
- 質的データ分析:LLMは質的データの主題分析を実施し、人間が生成したテーマとの実質的な類似性を達成できます。
4.2 学術執筆と出版
- テキストマイニング準備:PubReCheckは研究者がテキストマイニング対応の記事を準備するガイドを提供し、論文の発見可能性と影響力を向上させます。
- データ可視化:BioVisReportは公開データを可視化するインタラクティブなウェブサイトを作成し、研究結果の再現性とアクセシビリティを向上させます。
- 文章改善:既存の文献における文法的および科学的誤りの有病率を考えると、LLMは文法とスペルの修正を含む改訂に関する貴重なフィードバックを提供し、テキストの全体的な質を向上させるために代替フレーズを提案します。
- 引用管理:学術執筆におけるLLMの役割は、引用と参考文献の管理にも及びます。PubMed Centralの記事における引用コンテキストを特定するOpCitanceプロジェクトは、参考文献のマッピングを促進し、引用が正確に書式設定され、対応するソースにリンクされていることを確保する可能性を示しています。
5. LLMに関する課題と解決策
5.1 自動化バイアス
問題: 自動化バイアスは、学生がLLMに過度に依存する場合に生じます。学生はレスポンスを、あるいは間違った回答でさえ、疑問を持たずに受け入れやすくなり、批判的思考、問題解決、革新能力が制限されます。デジタルネイティブとしての若い医学生は、インターネット情報に慣れており、限られた専門知識と全体的な自信の低さのため、LLMが常に正確であると仮定する可能性があります。
解決策:
- LLMのみに頼らず、意味のある学習活動に関与することの必要性を強調する教育の重要性。教育者は、学生がLLMからの情報の正確性と信頼性を批判的に評価することを教えるべきです。これには、学生が効果的に情報を区別し処理できるようにする学生中心の評価アプローチの育成が含まれます。
- 学生がLLMに直面した際に、結果を受動的に受け入れるのではなく、疑問視するよう奨励すること。これは説明の深さの錯覚と一致しており、学生はLLMによって提供される情報をより深く掘り下げるよう奨励されます。LLMとの積極的な取り組みの概念は、学生が衝動的な決定ではなく、慎重な選択をするよう奨励される認知強化の研究によってさらにサポートされています。
5.2 幻覚
問題: LLMは入力に基づいて最も適切な応答を生成することを優先し、ステートメントの正確性を検証できません。LLMは正当に見えるが作られたり不正確な参考文献や臨床症例を生成することがあり、この状態は幻覚と呼ばれます。幻覚は、実際の学術論文に対応しない偽造された書誌引用として現れることがあります。ChatGPT-3.5とChatGPT-4によって生成された引用の調査によると、これらのモデルによって生成された引用の相当な割合が偽造されており、GPT-3.5引用の55%とGPT-4引用の18%が存在しないことが明らかになりました。
解決策:
- LLMの誤用を防止するためには、教育者が学生間の自己規律と倫理的意識を育むことが重要です。これは、学生が現実的な目標を確立し、時間を効率的に管理し、サポート的な学習環境内での課題を克服するための戦略を考案するよう指導することで達成できます。さらに、医学生がこれらの原則を実践的な実世界の状況に適用するための包括的な倫理教育プログラムを開発すべきです。
- 幻覚の存在により、LLMの責任ある利用を確保するための堅牢なガイドライン、フレームワーク、ツールの確立が必要です。盗用検出システム、AI出力検出器、人間のレビューアーは幻覚を特定するために重要です。TurnitinとiThenticateは一般的な盗用検出ソフトウェアです。これらのツールは、提出されたテキストを学術出版物、インターネットソース、以前に提出された文書の広範なデータベースと比較して類似点を特定することで機能します。
- ほとんどの雑誌と出版社はAIの不適切な使用を検出し回避するための新戦略を実施しています。提出する著者は原稿で使用した関連AIテクノロジーを開示することが要求されています。このような透明性は、科学コミュニティ内の信頼を維持し、LLMテクノロジーの倫理的適用を保証するために不可欠です。Medical Teacher誌は8つの重要な教訓を提案し、引用とページ番号さえも重要な手がかりを提供するため、引用と参考文献を慎重に検証することの重要性を強調しています。
5.3 不正確な応答
問題: ChatGPT 3.0に関連する重大なリスクは、最新の情報にアクセスできないことから生じます。ChatGPTは薬理学的データに関する不正確または不完全な応答を提供し、患者に害を与える高いリスクをもたらす可能性があります。また、催奇形性薬に関する不正確な詳細の普及にもつながり、不当な妊娠中絶を引き起こす可能性があります。
LLMは地理的データで不正確な応答を示し、差別的傾向を示すこともあります。LLMは主にリソースが豊富な地域からのデータで訓練されており、その結果、ニュージーランドのアオテアロアのように、異なる文化的および社会的コンテキストがカスタマイズされたバイアス除去アプローチを必要とする過小代表地域での研究とアプリケーションの不足があります。
解決策:
- 偏見に効果的に対処するには、多様な背景と専門知識を持つ評価者を関与させる多因子的フレームワークが必要です。最近、スティーブンらはMed-PaLMで大規模な実証研究を実施し、健康の公平性の害とバイアスを特定するためのツールボックスを開発しました。この研究は、多様な評価方法を採用し、さまざまな背景を持つ評価者を関与させることの重要性を強調しました。
- AIアプリケーション全体にシステムの公平性を組み込むことは、不公平なバイアスに対処するために不可欠です。バイアスはデータ収集、アルゴリズム設計、さらにはAIシステムの展開中にも導入される可能性があるため、AIの開発と実装のさまざまな段階でのバイアスの認識と軽減が重要な側面です。
5.4 「ブラックボックス」効果
問題: LLMは高度な技術を使用して結果を得るため、ユーザーが結果を検証することが困難な場合があります。LLMはアドバイスのソース、その背後にある理論的根拠、倫理的考慮がどの程度重視されたかを説明できません。これは特に、AIシステムが診断に使用されるが説明可能性が欠けていることが多い心血管イメージングのような領域で関連性があり、法的および倫理的課題をもたらします。
解決策: より明確で理解しやすい出力を提供できる、より読みやすいAIシステムを開発することが非常に重要です。透明性と解釈可能性のためのフレームワークは、精神健康におけるLLMが理解可能であることを確保するために提案されており、これにより信頼性と使いやすさが促進されます。
薬物発見におけるAIシステムの解釈可能性を向上させるために、SHAP(SHapley Additive exPlanations)やLIME(Local Interpretable Model-agnostic Explanations)などの説明可能なAI技術の開発が提案されており、意思決定プロセスをより透明で理解しやすくしています。
6. 結論と将来の方向性
技術が進歩するにつれ、医学教育はますます技術的ツールに依存するようになるでしょう。LLMを活用して魅力的な授業を設計し、即時フィードバックを提供し、実生活のシナリオをシミュレートすることで、教育はより効率的で魅力的になります。一方、学生は自分のペースと学習スタイルに基づいて個別学習をより効果的に行い、深い議論を通じて理解を深めることができます。
効果的な医学教育システムを開発するには、医学教育者、AIの科学者、倫理学者、規制機関、出版社の間の協力的な取り組みが必要です。医学教育者はLLMの強みと限界、および学生の多様なニーズの両方を理解する必要があります。AIの科学者は技術的専門知識を提供し、潜在的な課題に対処する上で重要な役割を果たします。倫理学者の責務は、様々な領域にわたる実践が倫理的基準に準拠していることを確保することです。規制機関は評価システムが関連する法的および倫理的基準に準拠していることを確保し、データの誤用を防止するためのルールの策定と施行を含む役割を担っています。さらに、出版社の関与は学術倫理と執筆に関連する科学的意見と懸念に対処するために重要です。