医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

医療専門職教育における評価-成果を測定するだけで十分か?

Evaluation in health professions education—Is measuring outcomes enough?
Louise M. Allen, Margaret Hay, Claire Palermo,
First published: 31 August 2021 https://doi.org/10.1111/medu.14654

 

https://onlinelibrary.wiley.com/doi/10.1111/medu.14654?af=R

 

はじめに
評価プロセスは、プログラムの開発、実施、成果に関する情報を収集し、分類し、解釈することを目的としている。理想的な評価とは、プログラムの成果や影響を測定すること(成果評価)だけでなく、それらをもたらす根本的なプロセスを理解すること(プログラム評価)を指します。
医療専門職教育(HPE)における評価の厳密性を高めるために、様々な評価アプローチが用いられている。これらには、多く引用されているカークパトリックモデルや、健康やHPEの環境に特化したさまざまな改良が施されたものなどのアウトカム評価モデルや、リアリスト評価、コンテキスト、インプット、プロセス、プロダクト(CIPP)評価、理論駆動型評価、貢献度分析、層別分析、RE-AIMフレームワークなど、成果がどのようにして、またなぜ発生したのかを理解することを目的とした、より厳密なプログラム評価モデルが含まれています。これらは主に、アウトカム評価に焦点を当てている。
アウトカム評価は、その名が示すように、ある介入の結果や影響に焦点を当て、「それはうまくいったのか」という疑問に答えることを目的としています。特定の介入が望ましい効果をもたらしたかどうかについての重要な情報を提供することができますが、教育的介入の複雑な性質や、成果、長期的な成果、意図しない成果につながるプロセスを無視する傾向があります。
一方、プログラム評価は、「うまくいったか」という答えを超えて、「どのように、そしてなぜうまくいったか」を追求するものである。プログラム評価の目的は、「プログラムの内外からプログラムの成果の変動要因を特定するとともに、これらの変動要因や成果自体が望ましいか望ましくないかを判断すること」である
本論文では、カークパトリックモデルを例に、アウトカム評価モデルの使用について検討・批判し、成果がどのようにして、またなぜ発生するのかを理解するのに役立つプログラム評価モデルの使用を提唱することを目的とする。
 
方法
OVID medline、Scopus、CINAHL、Pubmedを系統的に検索し、HPEの主要ジャーナル6誌を手作業で検索して、HPEにおけるカークパトリックモデルや様々なプログラム評価モデルの使用について概観しました。また、カークパトリックモデルをアウトカム評価の一例として、既存の批判をまとめ、そのようなモデルの限界を明らかにしました。
 
結果
HPEにおけるカークパトリックモデルの使用は広く普及し、増加していますが、研究は結果を分類することに重点が置かれており、どのようにして、またなぜそれが起こるのかを説明することはありません。カークパトリックモデルに対する主な批判は以下の通りである。アウトカムに焦点を当てているため、トレーニングのアウトカムに影響を与える要因を考慮していないこと、レベル間に正のカジュアルなつながりがあると仮定していること、より高いレベルのアウトカムがより重要であるという仮定があること、意図しない影響を考慮していないこと。MERSQI、BEME、WHOによるカークパトリックモデルの使用は、カークパトリックモデルがプログラム評価のゴールドスタンダードであるという神話を助長するものである。
 
考察
今後、HPE介入の評価は、介入の結果を測定することに主眼を置き、これらの結果がどのようにして、またなぜ起こるのかをほとんど考慮しないことから、これらの結果に何が貢献しているのかを調査するプログラム評価へと移行する必要があります。カークパトリックのモデルではなく、HPEで生じる複雑なプロセスの評価を容易にする他のモデルを使用すべきである。
 
アウトカム評価だけでは不十分-アウトカム評価を超えてプログラム評価に移行するには
研究者と評価者の両方に、あらかじめ決められた結果に焦点を当て、結果がどのように、そしてなぜ起こるのかを探求しない結果評価から、HPE介入の複雑さを捉えることができるプログラム評価モデルへと移行する力を与える必要があります。以下に紹介するこれらのモデルは、意図しない結果やプログラムの実施、影響がどのようにして、またなぜ起こるのかを探る能力があることから選ばれました。
 
・コンテキスト、インプット、プロセス、プロダクト(CIPP)評価
文脈評価(ニーズ、問題、資産、機会、および関連する文脈上の条件とダイナミクスの評価)、入力評価(代替アプローチの特定と評価、実現可能性と潜在的な費用対効果の評価)、プロセス評価(プログラムの実施を監視・評価-意図されたとおり、必要とされたとおりに実施されたか、これが結果にどのような影響を与えたか)、製品評価(コストと結果-意図されたもの、意図されなかったもの、短期および長期の評価)で構成される。
 
・リアリスト評価
リアリスト評価は、「どのような種類の結果が、誰のために、どのような点で、どのような文脈で、どのように、なぜ、そうでないときには、なぜそうでないのか」を説明することを目指す。このアプローチは、測定可能なものを説明するだけでなく、プログラムの成果に影響を与える文脈上の条件を見つけ、説明することを目的としています。現実主義評価では、何が変化をもたらしているかについての基礎理論を理解しようとする。データ収集は、プログラムの理論を検証できるようにする必要があり、したがって、「プログラムの影響とプログラム実施のプロセス、プログラムの成果に影響を与える可能性のあるプログラムの文脈の特定の側面、およびこれらの文脈が変化を生み出す可能性のある特定のメカニズムをどのように形成するか」に関するデータを含むべきである
 
・理論主導型評価
現実主義評価と同様に、成果を評価する際に、プログラムの実施とその根底にある因果メカニ ズムの両方を考慮する。この評価では、どのような成果が生じているのか、また「プログラムの成功または失敗の方法と理由」を理解しようとする 。変化モデルとは、「介入の基礎となる因果関係のプロセスとその結果についての一連の記述的仮定」を指し、行動モデルとは、「プログラムの設計者やその他の主要な利害関係者がプログラムの成功に必要と考える構成要素と活動」を指す。
決定要因-「ニーズを満たすための治療や介入を開発するための、問題の梃子となるメカニズムまたは原因」。
介入:「決定要因を変えることを直接目的としたプログラムの活動」
アウトカム-プログラム目標の「具体的で測定可能な側面」。
 
・貢献度分析
貢献度分析では、プログラムがどのように、そしてなぜ実施されたかを理解することが重要である。貢献度分析では、「観察された結果に対して、プログラムがどの程度の違い(または貢献)をもたらしたか」を理解することが求められる。
 
・層状分析
層別分析は、「うまくいったか」と問う代わりに、影響に関するより根本的な疑問を探るために、文脈の中で哲学、原理、技術を多面的に検討するものである。「意図した介入は、実際に起こったのか?」というインパクトのより根本的な疑問を探るために、哲学、原理、技術を文脈に沿って多面的に検討するものである
 
5つの要素で構成される評価フレームワーク
到達度-介入に参加した対象者の割合
効果-潜在的な負の効果、生活の質、経済的成果を含む重要な成果に対する介入の影響(成功または失敗の理由を含む)。
採用-この介入を採用する設定、実践、および計画の割合
実施-介入が実際に意図されたとおりに実施される程度
維持-プログラムが長期的に維持される範囲
介入の最終的な影響は、これら5つの領域の複合的な効果によるものである。