医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

ChatGPT-4:米国医師免許試験におけるアップグレードされた人工知能チャットボットの評価

ChatGPT-4: An assessment of an upgraded artificial intelligence chatbot in the United States Medical Licensing Examination
Andrew Mihalache,Ryan S. Huang,Marko M. Popovic &Rajeev H. Muni
Published online: 15 Oct 2023
Cite this article https://doi.org/10.1080/0142159X.2023.2249588 

https://www.tandfonline.com/doi/full/10.1080/0142159X.2023.2249588?af=R

 

目的

ChatGPT-4は人工知能チャットボットのアップグレード版である。米国医師免許試験(USMLE)におけるChatGPT-4の性能は、独自に評価されていない。我々は、USMLEステップ1、ステップ2CK、ステップ3の練習問題に対するChatGPT-4のパフォーマンスを評価することを目的とした。

方法

USMLEステップ1、ステップ2CK、ステップ3の練習問題を編集した。利用可能な376問のうち、319問(85%)が2023年3月21日にChatGPT-4で分析された。主要アウトカムは、USMLE Step 1、Step 2CK、Step 3の模擬試験におけるChatGPT-4のパフォーマンスで、多肢選択問題の正答率で測定しました。副次的な結果は、ChatGPT-4が提供した問題の平均長さと回答でした。

結果

ChatGPT-4は、USMLE模擬試験教材のテキストベースの多肢選択問題319問に回答した。ChatGPT-4は、USMLEステップ1では93問中82問(88%)に、ステップ2CKでは106問中91問(86%)に、ステップ3では120問中108問(90%)に正解しました。ChatGPT-4はすべての問題に解説をつけた。ChatGPT-4は、USMLEステップ1の練習問題に平均30.8±11.8秒、ステップ2CKの練習問題に平均23.0±9.4秒、ステップ3の練習問題に平均23.1±8.3秒を費やしました。ChatGPT-4で正解したUSMLE多肢選択式練習問題と不正解したUSMLE多肢選択式練習問題の平均の長さはほぼ同じでした(差 = 17.48文字、SE = 59.75、95%CI = [-100.09,135.04]、t = 0.29、p = 0.77)。練習問題に対するChatGPT-4の正解の平均長さは、不正解の平均長さよりも有意に短かった(差 = 79.58文字, SE = 35.42, 95%CI = [9.89,149.28], t = 2.25, p = 0.03)。

考察

ChatGPT-4は、USMLEステップ1の88%、ステップ2CKの86%、ステップ3の90%の練習問題に正解した。
AIは、USMLE試験の1問あたりの平均許容時間よりも大幅に短い時間で解答しました。
ChatGPT-4のパフォーマンスは、以前のモデルと比べて大幅に向上しています。
ChatGPT-4の正解の長さは、不正解の長さよりも短くなりました。
専門に特化した試験では、ChatGPT-4は高いパフォーマンスを示し、特に以前のモデルを上回った。

限界

この研究は一般に公開されている実践問題を使用したため、USMLEの公式試験を反映していない可能性がある。
図表を含む問題は除外した。
ChatGPT-4の回答は、継続的なアップデートにより、時間の経過とともに変化する可能性があります。
この調査方法を繰り返した場合、異なる結果が出る可能性があります。
回答時間はサーバーの状態やその他の技術的要因に影響される可能性があります。

結論

ChatGPT-4はUSMLEの練習問題で高い精度を示した。
医療関係者や学生は、ChatGPT-4のようなAIモデルの医学における能力の高まりを認識すべきである。
医学試験の学習ツールとしてのChatGPT-4の可能性を探るため、さらなる研究が奨励される。