医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

医療教育用シリアスゲームにおけるゲームデザイン要素「チャットボット」の理論的背景

Theoretical background of the game design element “chatbot” in serious games for medical education

Alexandra Aster, Arietta Lotz & Tobias Raupach 

Advances in Simulation volume 10, Article number: 10 (2025)

advancesinsimulation.biomedcentral.com

研究の背景と目的

この研究は、医学教育におけるシリアスゲーム(学習目的のゲーム)のデザイン要素としてのチャットボットに焦点を当てています。医師が行う診断の約76%は患者から聴取した病歴に基づいているため、医学生が病歴聴取スキルを習得することは極めて重要です。従来は模擬患者(SP)が広く使われてきましたが、リソースの制限があるため、バーチャル患者(VP)を用いた学習環境が注目されています。

研究の主目的は、自己決定理論(SDT)の「自律性の欲求」がチャットボットというゲームデザイン要素と関連しているか、またそれがチャットボットの種類によってどう異なるかを評価することです。

研究方法の詳細

研究設計

  • ドイツの医学校の4年生を対象とした横断研究
  • 学生は2つのグループにランダムに分けられた
  • 対象期間:2023/2024年冬学期
  • 90分×4セッションのモジュールで、循環器科と呼吸器科をカバー
  • 分析には第1セッションのデータのみを使用(ゲームへの慣れによるバイアスを避けるため)

比較対象となったシリアスゲーム

  1. EMERGE(制約付きチャットシステム)
    • 70個の定義済み質問のメニューから選択
    • 特定の文字や単語を入力すると、関連する質問が提案される
  2. DIVINA(オープンチャットボット)
    • 質問を自分で自由に作成
    • スクリプトベースのシステムで、バーチャル患者の情報に基づいて回答

対象疾患

両方のゲームで以下の疾患を取り扱い:

データ収集と分析

  1. 客観的データ
    • 質問項目数のカウント
    • 医学的関連性に基づく質問の採点(1点または2点、合計49点満点)
    • 「関連性の低い質問」の比率計算(質問数に対する獲得点数の比率)
  2. 主観的データ
    • 内発的動機づけ尺度(IMI)の「認知された選択」の下位尺度
    • 一般的自己効力感短縮版尺度(ASKU)

詳細な研究結果

参加者と信頼性

  • 154名の医学生がデータ分析に同意
  • 評価者間信頼性:DIVINAで0.890、EMERGEで0.939(非常に良好)

チャット分析結果

  • 有効チャットプロトコル数:DIVINAで249件、EMERGEで456件
  • 正確な診断:DIVINA 65%(162件)、EMERGE 52%(236件)- 有意差あり
  • 質問数の中央値:DIVINA 13問(範囲3〜57)、EMERGE 9問(範囲1〜40)
  • 質問数の比較:DIVINAで有意に多い(p<0.001、効果量r=0.27)

質問の関連性分析

  • 獲得史料スコアの中央値:DIVINA 14.5点、EMERGE 14点(有意差なし、p=0.053)
  • 質問と獲得点数の関係:多項式回帰分析で両ゲームとも有意なモデルを確認
  • 関連性の比率(点数/質問数):EMERGE 1.5、DIVINA 1.13(有意差あり、p<0.001) → EMERGEでは少ない質問でより多くの点数を獲得(より効率的)

主観的自律性測定

  • 参加者:81名(DIVINA 44名、EMERGE 37名)
  • IMI自律性尺度の中央値:DIVINA 4.29、EMERGE 4.43(有意差なし、p=0.507)
  • ASKU(自己効力感):両グループ間で有意差なし

結論と考察の詳細

研究の主な発見

  1. オープンチャットボットは学生の探索行動を促進する
  2. 自由探索は質問数の増加と正確な診断率の向上につながる
  3. しかし、関連性の低い質問も増加する
  4. 主観的な自律性の感覚には差がない

考察のポイント

  • オープンチャットボットでの自由な質問形成は、選択の自由という意味での自律性を支援
  • しかし、スクリプトベースチャットボットの限界(質問の再構成が必要など)が学生の自律性の感覚に否定的な影響を与えた可能性
  • 大規模言語モデル(LLM)のようなより高度なチャットボットの可能性について言及

研究の限界

  1. 緊急部門という設定が病歴聴取の研究に最適かどうか不明確
  2. 疾患固有のチェックリストではなく汎用的なチェックリストを使用
  3. 主観的データと客観的データの数が異なり、相関分析が困難
  4. 採点方法に関する制限(質問の重複などの扱い)

今後の研究への示唆

  • より高度なチャットボット(LLMなど)を用いた同様の研究
  • 一般診療所や外来診療所など異なる医療環境での比較
  • 疾患特異的なチェックリストの使用
  • 診断に必要な質問数と正確性の関係の詳細な分析