医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

医学部卒業試験の多肢選択問題作成におけるChatGPTと人間の比較-多国間前向き研究(香港、シンガポール、アイルランド、英国)

ChatGPT versus human in generating medical graduate exam multiple choice questions—A multinational prospective study (Hong Kong S.A.R., Singapore, Ireland, and the United Kingdom)
Billy Ho Hung Cheung,Gary Kui Kai Lau,Gordon Tin Chun Wong,Elaine Yuen Phin Lee,Dhananjay Kulkarni,Choon Sheong Seow,Ruby Wong,Michael Tiong-Hong Co 
Published: August 29, 2023
https://doi.org/10.1371/journal.pone.0290691

journals.plos.org

はじめに
大規模言語モデル、特にChatGPTの言語処理能力は目を見張るものがある。本研究では、医学部医学科の卒業試験において、ChatGPTによって作成された多肢選択問題(MCQ)の質を、大学教授が標準的な医学教科書に基づいて作成した問題と比較して評価することを目的とする。

方法
50のMCQは、2つの標準的な医学教科書(Harrison'sとBailey & Love's)を参考にChatGPTによって作成された。

ChatGPTは、地理的な制限を回避するために、仮想パーソナルネットワークを使って香港でテストされました。ユーザーはChatGPTに、特定のプロンプト、基準、教科書の参考テキストを使って多肢選択問題を作成するよう指示します。ChatGPTから生成された回答は、必要であれば明確化する以外は、修正されることなく使用されます。作成された問題は、独立したチームによって評価された。記憶保持のバイアスを最小化するため、各エントリーに対して新しいチャットセッションが開始された。

別の50のMCQは、2人の大学教授が同じ医学教科書を用いて作成した。すべての100のMCQは、個別に番号が付けられ、無作為化され、5人の独立した国際的な評価者に送られ、5つの評価領域、すなわち、問題の適切性、明確性と特異性、関連性、選択肢の識別力、および医学部卒業試験への適合性に関する標準化された評価スコアを用いて、MCQの品質評価が行われた。

 

結果
ChatGPTが50問の問題を作成するのに要した時間の合計は20分25秒であったのに対し、人間の試験官2名が50問の問題を作成するのに要した時間の合計は211分33秒であった。A.I.が作成した問題と人間が作成した問題の平均点を比較したところ、関連性の分野でのみA.I.が人間に劣っていました(A.I.:7.56 +/- 0.94 vs 人間:7.88 +/- 0.52; p = 0.04)。A.I.によって作成された質問と人間によって作成された質問の間には、総合評価スコアにおいても、その他の領域においても、質問の質に有意な差は見られなかった。A.I.によって作成された質問では、より広い範囲のスコアが得られたが、人間によって作成された質問では、一貫性があり、より狭い範囲のスコアであった。

考察

この研究は、ChatGPTのような商用A.I.が、熟練した人間の試験官に匹敵する品質の試験内容を作成できるという最初の証拠を提供する。

多肢選択問題(MCQ)は、その効率性と幅広い知識や技能を評価する能力から、教育において価値がある。しかし、高品質のMCQを作成するのは困難で時間がかかる。この研究では、熟練した試験官でさえ、1つの問題を作成するのに平均10分以上かかっていることがわかった。
教育におけるA.I.の歴史は1950年代にさかのぼる。近年、A.I.は生徒の能力に応じて学習をパーソナライズするのに役立っている。
大規模な言語モデルであるChatGPTは、その多様な能力により、教育におけるA.I.に大きな影響を与えている。この研究では、ChatGPTは簡単なコマンドを使用して妥当なMCQを作成することができ、人間からの質問の方がA.I.からの質問よりもわずかに良いと評価されました。
ChatGPTの可能性とは裏腹に、その信頼性、潜在的なバイアス、そして、無関係または無意味な出力を生成するA.I.の「幻覚」現象についての懸念が存在する。
これらの懸念を軽減するために、研究者は、内部データベースだけに頼るのではなく、信頼できる参考資料をA.I.に提供することを推奨している。
人間とChatGPTの両方が生成したMCQには、否定的な特徴はほとんどなかった。しかし、ChatGPTには、テキストと画像の関連付けができなかったり、臨床シナリオを効果的に作成できなかったりといった限界がある。

限界

参考資料は教科書から直接入手したものであり、A.I.プラットフォームによって長さの制約が設定されているため、選択バイアスが生じる可能性がある。
この研究は、限られた数の参加者と生成された質問を対象としているため、調査結果の一般的な適用性に影響を与える可能性がある。
A.I.が作成した問題を改良する際に、人間の関与がなかった。
この研究はMCQにのみ焦点を当てたものであり、A.I.の完全な医学試験問題作成における可能性はまだ評価されていない。
新しいA.I.プラットフォームが改良されれば、この研究で観察されたよりも良い結果が得られるかもしれない。

結論

ChatGPTは、医学部卒業試験の問題を作成するツールとして機能し、人間の専門家に近い質の結果を出すことができる。
本研究は、高い水準を維持しながら効率性を高めるために、教育におけるA.I.の役割をさらに探求することを提唱している。バイアスを最小限に抑えた信頼できる結果を確実にするために、他のアプリケーションを掘り下げ、潜在的A.I.の限界に対処するための追加研究が必要である。