ChatGPT to generate clinical vignettes for teaching and multiple-choice questions for assessment: A randomized controlled experiment
Özlem CoşkunORCID Icon,Yavuz Selim KıyakORCID Icon &Işıl İrem BudakoğluORCID Icon
Received 06 Dec 2023, Accepted 04 Mar 2024, Published online: 13 Mar 2024
Cite this article https://doi.org/10.1080/0142159X.2024.2327477
https://www.tandfonline.com/doi/full/10.1080/0142159X.2024.2327477?af=R
目的
この研究は、ChatGPTを使用して生成された臨床シナリオと多肢選択問題の実際のパフォーマンスを評価することを目的とした。
方法
これは、エビデンスに基づく医療研修プログラムにおける無作為化対照研究である。74人の医学生を2つのグループに無作為に割り付けた。ChatGPT群にはChatGPTによって生成された非定義症例を、対照群には人間が書いた症例を提供した。トレーニングの最後に、彼らは10個のステートメントをリッカート尺度で評価することによってケースを評価した。また、ChatGPTによって生成された15の多肢選択問題(MCQ)にも回答した。2つのグループの症例評価を比較した。また、テストのいくつかの心理測定的特徴(項目の難易度と点双対相関)も報告された。
結果
事例に関する10個の記述の得点は、いずれもChatGPT群と対照群との間に有意差は認められなかった(p> 0.05)。テストでは、点-双列相関が許容レベル(0.30より高い)であったのは6つのMCQのみであり、5つの項目は教室環境において許容可能であると考えられる。
考察
ChatGPT生成資料の品質:
医学生による評価では、ChatGPTによって生成された臨床ビネットの品質が、人間によって作成されたものと比較して類似していることが示されました。これは、ChatGPTが医療教育のための臨床ビネットを効果的に生成できる可能性を示唆しています。
多肢選択問題の心理測定特性:
ChatGPTによって生成された一部のMCQsは、受け入れ可能な心理測定特性(難易度と識別力)を持っていました。これは、ChatGPTが一定の条件下で品質の高い評価資料を生成できることを示しています。
人間とAIの資料生成能力の比較:
ChatGPTと人間が生成した教材が類似していることから、AIが医療教育資料の作成において有用なツールである可能性があることが示唆されます。しかし、AIが生成した資料を使用する際には、その正確性や信頼性を慎重に評価する必要があります。
AIの利用に関する潜在的な懸念:
ChatGPTやその他のAIツールが生成するコンテンツには、不正確さや偏りが含まれる可能性があるため、専門家による評価や監督が重要であることが強調されています。また、AIを教育資料の作成に利用する際の倫理的な懸念も指摘されています。
未来の研究の方向性:
ChatGPTのようなAIツールを利用した教育資料の作成と評価に関するさらなる研究の必要性が強調されています。特に、異なる教育設定や科目におけるAIの有効性を探る研究が求められています。
結論
その結果、ビネットの質は人間の著者が作成したものと同等であり、いくつかの多肢設問は許容可能な心理測定特性を有していることが示された。ChatGPTは、医学教育における教育用臨床シナリオや評価用MCQを作成する可能性がある。
ポイント
医学生は、ChatGPTが作成したクリニカル・ヴィネットと専門家が書いたクリニカル・ヴィネットの質を区別することができません。
ChatGPTを使用することで、臨床シナリオ作成プロセスの効率を高めることができます。
ChatGPTを使用することで、許容可能な項目の識別が可能な多肢選択問題を作成することが可能であることが、心理測定によって証明されています。
ChatGPTは時として不正確なコンテンツを提供する可能性があることを覚えておくことが重要です。