医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

訓練された臨床医評価者と比較した人工知能による臨床技能評価を支持する妥当性エビデンス

Validity evidence supporting clinical skills assessment by artificial intelligence compared with trained clinician raters
Vilma Johnsson, Morten Bo Søndergaard, Kulamakan Kulasegaram, Karin Sundberg, Eleonor Tiblad, Lotta Herling, Olav Bjørn Petersen, Martin G. Tolsgaard
First published: 24 August 2023 https://doi.org/10.1111/medu.15190

https://onlinelibrary.wiley.com/doi/10.1111/medu.15190?af=R

 

背景
人工知能(AI)は医学教育においてますます使用されるようになってきているが、従来の臨床専門家ベースの評価(expert-based assessment:EBA)と比較したAIベースの評価(ai-based assessment:AIBA)の妥当性に関する理解は限られている。本研究では、著者らは、AIと訓練された臨床専門家からそれぞれ生成されたスコアに基づく複雑な臨床スキルの評価の妥当性エビデンスを比較対照することを目的とした。

方法
本研究は2020年9月から2022年10月の間に実施された。著者らはKaneの妥当性フレームワークを用いて、4つの推論(スコアリング、一般化、外挿、意義)に従ってエビデンスの優先順位付けと整理を行った。研究の背景は、シミュレートされた環境で行われた絨毛膜絨毛サンプリングであった。AIBAとEBAを使用して、ビデオ録画に基づく専門家、中級者、初心者のパフォーマンスを評価した。臨床専門家は、以前の国際コンセンサス研究で開発された採点方法を使用した。AIは、ビデオ録画、モーション・トラッキング、眼球運動の特徴を捉えるために畳み込みニューラルネットワークを使用し、最終的な総合スコアを算出した。

結果
本研究には合計45名(初心者22名、中級者12名、専門家11名)が参加した。著者らは、採点、一般化、外挿、およびEBAとAIBAの両方に対する意義について、妥当性の根拠を示した。採点に関連する仮定、再現性の証拠、異なるトレーニングレベルとの関係の妥当性が検討された。EBAの妥当性の議論と比較して、AIBAの妥当性の議論における潜在的な弱点として、構成要素の過少代表、説明可能性の欠如、頑健性への脅威に関する問題が特定された。

考察

本研究では、Kaneの4つの推論カテゴリーを用いて、AIモデル(AIBA)と訓練された臨床専門家(EBA)による評価の妥当性を比較した。

・AIBAとEBAの比較

この研究では、AIBAでは構成要素が十分に表現されていないことがわかり、EBAに固有の全体的アプローチが欠如していることが示唆された。AIによる評価は測定可能なパラメータに限定されているため、より広範なコンピテンシーが軽視されている可能性がある。

・フィードバックと説明可能性

AIBAはEBAと比較して、フィードバックと説明の深さに欠ける。現在のAIモデルは、能力開発を促進する要因に関する直接的な洞察を提供することに苦慮している。

・信頼性

EBAとAIBAの信頼性は同等であった。両者とも異なるトレーニングレベルを識別することができたが、その強みは異なっていた。両者を組み合わせた複合スコアは、信頼性を高め、バイアスを低減する可能性がある。

・妥当性

この論文の目的は、どちらの方法を完全に検証することではなく、両者を対比させることであった。EBAは特定の側面において支持的な証拠を示したが、AIBAの主な課題は頑健性の欠如であった。今後の課題としては、AIモデルのロバスト性を向上させ、意思決定の指針として使用することを裏付ける証拠を集めることに焦点を当てるべきである。

強み

本研究では、データ収集に標準化された状況を利用した。
特定の妥当性の尺度よりも仮定と証拠の関係を重視するため、AI評価に適したKaneの現代的妥当性の枠組みを採用した。

限界

EBAとAIBAのコンテンツフレームワークは、以前のコンセンサススタディからの推奨に根ざしていた。しかし、AIBAはEBAと同じ見解を取り入れることができず、体系的な違いが生じた。
サンプルサイズは、医療専門家教育の領域では許容できるかもしれないが、AI研究では小さいと考えられる。これは、AIBAの潜在的価値の解釈に影響を与える可能性がある。
AIモデルは、較正のために広範なデータセットを必要とする可能性があり、より広範な適用を妨げている。

結論

AIBAはEBAと比較して、構成要素の過少表現、説明可能性、頑健性に問題がある。2つの手法を組み合わせることで、補完的な利点が得られるかもしれない。しかし、AIモデルは異なるデータセットやタスクに対して大幅なキャリブレーションが必要である。