医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

GPT-4/4Vの医師国家試験における成績

GPT-4/4V's performance on the Japanese National Medical Licensing Examination
Tomoki KawaharaORCID Icon &Yuki Sumi
Received 27 Nov 2023, Accepted 09 Apr 2024, Published online: 22 Apr 2024
Cite this article https://doi.org/10.1080/0142159X.2024.2342545

https://www.tandfonline.com/doi/full/10.1080/0142159X.2024.2342545?af=R

背景
近年の人工知能(AI)の進歩は医療の世界を変えつつあり、医療従事者が行っていた行為の多くがAIに取って代わられる可能性が高い。AIの総合的な臨床能力は、テキストベースの医師国家試験に対する解答能力によって評価されてきた。本研究では、画像、イラスト、写真を含む日本のすべての医師国家試験(NMLE)に対するOpen AIのChatGPTの性能を独自に評価する。

方法
過去6年分(第112回から第117回)の医師国家試験問題を厚生労働省のホームページから入手した。それをJSONJavaScript Object Notation)形式に変換した。画像のない問題にはGPT-4を、画像のある問題にはGPT4-V(ision)またはGPT4 consoleを用いて正解を出力するアプリケーションプログラミングインタフェース(API)を作成した。

結果
過去6年間の画像問題の割合は723/2400(30.1%)であった。すべての年において、GPT-4/4Vは受験者が得点すべき最低得点を上回った。6年間の合計では、基礎医学知識問題の正答率は665/905(73.5%)、臨床知識問題の正答率は1143/1531(74.7%)、画像問題の正答率は497/723(68.7%)であった。

考察
GPT-4/4Vのパフォーマンスに関する考察では、AIが医学教育と試験プロセスにどのように貢献できるかが議論されています。AIは多様なタイプの試験問題を効果的に処理する能力を持つことが示され、特に画像を含む問題においても高いパフォーマンスを発揮しました。これは、AIが臨床診断の複雑なシナリオを解析し、医療専門家としての判断プロセスを模倣する能力に対する洞察を提供します。

また、研究では、AIの学習アルゴリズムやデータソースを最新のものに更新し、医学カリキュラムを網羅的にカバーすることの重要性が指摘されています。不正解の主な理由として「医学知識の欠如」が最も多かったため、AIシステムの教育プログラムの質を向上させるために、これらの側面を強化することが求められています。

さらに、AIが高度な試験フォーマットや医療教育手法に革命をもたらす可能性についても言及されており、AIの統合が医療教育における教育パラダイムの変革を促進する可能性があるとされています。これにより、リアルタイムでのフィードバックやパーソナライズされた学習経路を提供することで、診断トレーニングを強化することができると期待されています。

 

結論
医学知識に関しては、画像、イラスト、写真を含むかどうかにかかわらず、GPT-4/4Vは最低限の基準を満たしていた。本研究は、医学教育におけるAIの潜在的有用性に光を当てるものである。

 

ポイント

ChatGTP-4/4Vは日本の医師国家試験で6年間合格基準以上の成績を収めた。

その実力は、画像の問題で試された。

検証に使用したファイルはGitHubから入手可能です。