医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

人工知能を医学試験の作成に活用する利点と落とし穴:GPT-4を用いた医学教育パイロット研究

Advantages and pitfalls in utilizing artificial intelligence for crafting medical examinations: a medical education pilot study with GPT-4
Klang E, Portugez S, Gross R, Kassif Lerner R, Brenner A, Gilboa M, Ortal T, Ron S, Robinzon V, Meiri H & Segal G 
BMC Medical Education volume 23, Article number: 772 (2023) 

bmcmededuc.biomedcentral.com

 

背景
医学生を対象とした多肢選択問題作成は、複雑かつタイムリーであり、臨床スタッフや教員の多大な労力を必要とする。この医学教育の分野に人工知能アルゴリズムを適用することが望ましいかもしれない。

方法
2023年3月から4月にかけて、OpenAIアプリケーションであるGPT-4を利用し、既存の試験テンプレートに基づいた210問の多肢選択問題-MCQs試験を作成し、出題元を盲検化した専門医による出力を徹底的に調査した。専門医によって確認されたアルゴリズムの間違いや不正確さは、年齢、性別、地理的不感症に起因するものに分類された。

結果
詳細なプロンプトを入力した後、GPT-4は迅速かつ効果的に検査を行った。誤答と判定されたのは1問(0.5%)のみで、修正が必要となったのは15%であった。AIが作成した問題の誤りは、時代遅れまたは不正確な用語の使用、年齢に敏感な不正確さ、性別に敏感な不正確さ、地理的に敏感な不正確さなどであった。方法論の基礎に欠陥があったために失格となった問題には、消去法に基づく問題や、知識を臨床推論に統合する要素を含まない問題などがあった。

 

考察

本研究は、医学試験のための多肢選択問題(MCQ)作成におけるGPT-4の能力を評価することを目的とした。
従来の試験問題の作成者を集める方法と比較して、GPT-4はより速く、ほぼ効率的であったが、いくつかのエラーも見られた。
世界の医療制度は、教育の質を確保しながら医療従事者の数を増やす必要に迫られている。筆記試験はこの評価において極めて重要である。
効果的なMCQを書くには、医学的な専門知識とは別の独自のスキルが必要です。
AIの進歩、特にGPT-4は、採点から小テストの生成、学習計画のパーソナライズまで、教育に大きく貢献することができます。
GPT-4は医学試験において可能性を示しており、USMLEでも高得点で合格している。
この研究では、試験準備を支援するためにGPT-4を使用することを提案したが、生成された問題の約15%に修正が必要であった。
GPT-4は、特定のトピックにおいて感度を欠くことがあり、また、インターネットデータに依存しているため、誤った回答を提供することがあった。
このAIのアーキテクチャは、斬新な洞察や推論を生み出すよりも、首尾一貫した回答に重点を置いている。

限界

本研究は、単一の学際的MCQ試験に焦点を当てた。
研究結果はGPT-4に基づくものであり、GPT-4は今後進化していくだろう。
本研究は、この分野における更なる研究のための研修医を設定するものである。

結論
GPT-4は、多肢選択式の医学試験を作成する際の補助的なツールとして使用することができるが、専門医による厳密な検査が極めて重要である。