The fundamentals of artificial intelligence in medical education research: AMEE Guide No. 156
Martin G. TolsgaardORCID Icon, Martin V. PusicORCID Icon, Stefanie S. Sebok-SyerORCID Icon, Brian Gin, Morten Bo Svendsen, Mark D. SyerORCID Icon, show all
Published online: 02 Mar 2023
Download citation https://doi.org/10.1080/0142159X.2023.2180340
https://www.tandfonline.com/doi/full/10.1080/0142159X.2023.2180340?af=R
医学教育における人工知能(Artificial Intelligence:AI)の活用は、複雑な作業を容易にし、効率を向上させる可能性を秘めています。例えば、AIを活用することで、記述式回答の評価を自動化したり、医療画像の解釈について優れた信頼性でフィードバックを提供したりすることができます。学習、指導、評価におけるAIの応用は拡大しているが、さらなる探求が必要である。AI研究の評価や活用を希望する医学教育者向けの概念的・方法論的ガイドはほとんど存在しない。このガイドでは、以下を目指します
1)AIを用いた医学教育の研究を読み、実施する際に考慮すべき点を説明する
2)基本的な用語を定義する
3)どの医学教育の問題やデータがAIを用いるのに最適であるかを明らかにする。
ポイント
人工知能(AI)は、教育の提供においても教育研究においても、ますます利用されるようになってきています。
医療におけるAIシステムの開発・利用に学習科学を取り入れることは、今後数年のうちに大きな課題となりそうです。
医学教育者、教育研究者、データサイエンティスト、臨床医が緊密な学際的協力を行うことで、高レベルの説明可能性と潜在的なバイアスに関する透明性によって、学習とパフォーマンスの両方をサポートできるAIシステムの開発が可能となる。
・分析ツールとしてのAI
AIは、大規模で複雑なデータセットに対して様々な統計技術を活用したデータマイニングや分析のアプローチです。PCAや回帰モデルなど、何十年も前から医学教育で使われてきたAI手法もありますが、ディープニューラルネットワーク(DNN)のように、従来の統計学とは大きく異なるものもあります。DNNは生物学的なニューラルネットワークから着想を得ており、入力層、隠れ層、出力層で構成されています。DNNは、放射線学、皮膚科学、病理学において、診断性能の飛躍的な向上につながりました。
臨床研究で使用されているAI技術は、評価、指導、フィードバック、選択など、通常は人間が行う作業を自動化するために、医学教育研究にも応用することができます。これらの技術は、音声、テキスト、画像、動画などさまざまなデータソースに適用でき、より効率的で正確な医学教育データの分析が可能になります。
・医学教育におけるAI 現在の最先端科学
医学教育におけるAIの現状は初期段階であるが、AI技術を用いた研究は増加傾向にある。多くの実証研究は、理論や概念的枠組みを用いないことが多いが、学習支援や臨床技能の自動評価のためのAIに焦点を当てている。最近、AIに関する入門書を提供し、労働力への影響を議論し、医学カリキュラムにおけるAIの統合を模索するために、いくつかのガイド、声明論文、勧告が発表されている。
自動評価、スコアリングのための自然言語処理、医療画像フィードバックのためのディープラーニングなどの分野で、実証的な研究が徐々に現れてきています。これらの研究の出現が遅いのは、AIの技術的な複雑さによるもので、より大きなチーム、より大きな資金、より多くのデータ、より多くの時間を必要とすることが多いからかもしれません。本ガイドは、潜在的な障壁を克服し、医学教育におけるAI研究への学者の関与を促進し、最終的にこの分野でのAIアプリケーションの成長と発展を促進することを目的としています。
・医学教育に特化したAI研究に必要なデータとは?
医学教育におけるAI研究では、画像データ、数値学習プロセス、テキストデータなど、多様なデータを使用します。必要なデータは、AIシステムの目的や使用目的によって異なります。分析には、キュレーション、整理、統合、アノテーションなどのデータ準備が必要になることが多い。学習分析では、生徒のさまざまなデータを解釈して学業の進捗状況を評価し、将来の成績を予測し、潜在的な問題を特定する必要があります。AIは、学習分析に関連するさまざまなデータ形式を管理する効率的なアプローチを提供し、大規模で複雑なデータセットを使用して、学習者の技術スキルやチームコラボレーションを自動採点することができます。
・AIはどのようなタスクを解決できるのか?
AIは、分析ツールやアプローチの拡張を支援するなど、研究・教育チームにとって現在困難なタスクの効率化を支援することができます。研究設計の段階では、AIが提供するデータソースの柔軟性やデータ抽出の自動化により、別の質問、方法、アプローチの可能性が広がる可能性があります。データ準備段階では、AIが複数のソースのデータ集約、ビッグデータの保存と検索を効率化し、データ探索を支援することができます。分析段階では、ニューラルネットワークは、通常、何時間もの人的資源と時間を必要とする分析を、効率と精度を高めて迅速に提供することができます。さらに、ニューラルネットワークは、従来の分析では容易に把握できなかったデータ内やデータ間の複雑な関連性を捉え、強調することができます。
・AIのアウトプットを理解する - 課題と今後の方向性
AIシステム、特にニューラルネットワークでは、ニューロン間の複雑な相互作用のため、説明可能性が課題となっています。これに対処するため、説明可能なAI(XAI)や可視化などの新たなアプローチが開発されています。しかし、AIシステムにおける特定の機能の重要性を理解することは、特に初心者の学習者にとっては依然として困難です。AIシステムの説明可能性を確保することは、技術的な複雑さが加わるにもかかわらず、医学教育において極めて重要である。
・AI研究の評価基準
AI研究の評価基準は、一般的に「モデル開発」と「モデル検証」の2つに大別される。AI研究に最も関連するガイドラインはEQUATOR(Enhancing Quality and Transparency of Health Research)ネットワークによるもので、彼らはAI研究に特化してTRIPOD-ML(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis)基準を開発しました(Collins et al. Citation2015)。医学教育におけるAI研究の評価に使用できる包括的なモデル記述には、モデルの開発と検証の両方で使用されたアプローチに関する詳細が含まれる。
・モデル開発基準
AIモデルを開発する際には、代表性を確保し、モデルが開発された状況を理解するために、評価データやオープンソースデータを含むデータソースとそのサンプリング方法を記述することが不可欠である。完全性を評価するために、年齢、性別、人種などの人口統計学を考慮する。潜在的な偏りや欠落データ、また使用されたインピュテーションアプローチに対処する。
さらに、予測因子と、スケーリング、標準化、予測因子の分類、または主成分分析のような方法による新しい予測因子の作成など、実行した「特徴工学」の詳細が重要である。アウトカム指標とその評価方法を明確に指定する。
モデル開発を報告する際には、モデルの開発プロセスや、予測変数の除外や重み付けなどの決定事項を記述する。これにより、透明性が増し、AIモデルの性能と潜在的な限界についてよりよく理解することができる。
・開発中のモデルバリデーション
AIモデルの開発では、データをトレーニング、テスト、検証の3つのセットに分けることが一般的です。トレーニングセットはモデルの学習に、テストセットはテストと改良の繰り返しに、そしてバリデーションセットは最終評価に使用される。内部検証はこれらのデータセットを使って行われ、外部検証はまだ収集されていないデータを使う。
・モデルの検証 報告の指標
モデルの検証指標を報告する場合、R2(二乗)、MSE(平均二乗誤差)、RMSE(ルート平均二乗誤差)、混乱行列から得られる指標など、性能を評価するために使用した指標を記述する。可能であれば、すべての回帰係数を信頼区間とともに提示し、教育実践におけるモデルの使用目的を考慮する。
・医学教育におけるAI研究のための追加的な評価の考慮事項
モデルの評価だけでなく、理論の取り込み、一般化可能性、データの利用やプライバシーの期待など、研究全体を考慮する。医学教育でAIを使用する場合、個人が自分のデータがどのように使用されるかをどの程度理解しているか、インフォームドコンセントをどのように得ることができるかを考慮すること。
本書は、医学教育研究におけるAIの開発・活用のための実践的な考察を示したものです。AIが医療分野に及ぼす影響はますます大きくなっており、将来の医療カリキュラムにおいてAIに関する知識を構築することが不可欠となっています。医学教育者、学習者、研究者にとって、AIシステムの長所と限界を理解するための新しいスキルが必要とされています。
学習や臨床のパフォーマンスをサポートするためにAIを使用する場合、AIモデルの限界、精度、信頼性を理解することが重要です。AIシステムへの過度の依存は、誤った自信やエラーを引き起こす可能性があります。ほとんどの臨床AIシステムは、臨床医のパフォーマンスをサポートしますが、必ずしも学習を向上させるものではありません。専門家レベルの自動ガイダンスやフィードバックの恩恵を受けながら、学習者の臨床スキルへの悪影響を避けるには、学習科学を臨床科学やデータ科学と統合することが重要です。
AI開発の早い段階で教育理論や概念を統合することにもっと焦点を当てれば、この問題を解決できるかもしれません。医学教育におけるAI研究は、単にAIが機能することを示すだけでなく、いつ、なぜ、誰のためにAIが価値、リスク、課題を提供するかを探ることを目指すべきである。
教育の提供においても、教育研究においても、AIの活用が進んでいる。医療におけるAIシステムの開発・利用に学習科学を組み込むことは、今後も課題となりそうです。医学教育界にユニークな機会を提供する可能性がある一方で、AIは医学教育者、教育研究者、データ科学者、臨床医による緊密な学際的コラボレーションを必要とします。医学教育におけるAIに慎重かつ丁寧に取り組むことで、学習とパフォーマンス、そして説明可能性と透明性をサポートするAIシステムの開発を可能にすることができるのです。