医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

教育理論の実践-第3巻第2部:妥当性

EDUCATION THEORY MADE PRACTICAL – VOLUME 3, PART 2: VALIDITY

AUTHORS: REBECCA SHAW; CARLY SILVESTER (@EDFORBEGINNERS)

EDITOR: DIMITRIOS PAPANAGNOU

MAIN AUTHORS OR ORIGINATORS: SAMUEL MESSICK; MICHAEL KANE

OTHER IMPORTANT AUTHORS OR WORKS: DAVID COOK

icenetblog.royalcollege.ca

 

概要

評価は医学教育の不可欠な部分であり、評価の検証はその使用に不可欠です。すべての評価は、評価対象者についての正当な判断を容易にすることを目的としています。このような判断を下すためには、問題となっている評価の長所と短所を理解するために証拠を評価する必要があります。

妥当性とその検証は、異なる意味を持つ2つの用語です。妥当性とは、証拠を解釈するための概念的な枠組みを意味し、妥当性検証とは、これらの決定を裏付けるために証拠を収集し解釈するプロセスを意味する。

現行の教育・心理テスト基準では、妥当性を「提案されたテストの使用目的に対するテストスコアの解釈を、証拠と理論がどの程度サポートしているか」と定義している。妥当性が評価されるのは、評価やテストそのものではなく、テストスコアの意味や、テストスコアから生じる意味合いである。

妥当性は、テスト自体の特性ではなく、特定の目的のためにテストを使用し、その検証のためには、複数の証拠が必要である。妥当性は二項対立的なものではなく、程度の問題であると考えられている。

 

本理論の背景

妥当性理論は時代とともに大きく進化してきました。当初、妥当性は大きく3つに分けられていました。

・内容的妥当性:評価項目の作成に関するもの。

・基準妥当性:同じ現象についての基準となる尺度とスコアがどれだけ相関しているかを示すもの。
・構成概念妥当性:構成概念が、理論に基づいて、観察可能な属性と結び付けられること。

 

内容的側面:内容の妥当性の証拠や、評価内容が測定しようとする構成要素を反映してい証拠。

実質的側面:テストの回答に観察された一貫性についての理論的および実証的な分析。受験者や評価者からの回答が、意図した構成概念とどの程度一致しているかを評価する。

構造的側面;スコアに反映される評価の内部構造が、選択された構成領域とどの程度一致しているかを評価する。これには、評価項目やステーション間の信頼性の測定が含まれます。

一般化側面:スコアの特性および解釈が、母集団、設定、およびタスクの間でどれだけ効率的に一般化されるかを評価する。

外部的側面:評価スコアと特定の理論的関係を持つ別の尺度との間の統計的な関連性の証拠。これには、基準との関連性、応用上の有用性、および複数の特性、複数の方法による比較から得られた証拠が含まれる。関連性は、同じコンストラクトの測定値では正であるかもしれないし、独立した測定値では無視できるかもしれない。

結果的側面:テスト使用の実際および潜在的な結果を評価する、評価自体の有益または有害な影響、およびその結果としての意思決定を含む。


現在の教育・心理テスト基準では,Messickが提案した5つの証拠源,すなわち,内容,反応過程,内部構造,他の変数との関係,結果の証拠を重視しているが,一般化可能性の側面は基準に含まれていない。

2006年、Kaneは、妥当性の議論において4つのアプローチを提案した。

・スコアリング(Scoring):観察結果を1つまたは複数のスコアに変換すること。

・一般化(Generalization):テスト環境でのパフォーマンスを反映したものとしてスコアを使用すること。

・外挿(Extrapolation):現実世界のパフォーマンスを反映したものとしてスコアを使用すること。
・暗示(Implications):スコアを適用して意思決定や行動に役立てること。

Kaneは、妥当性の議論において、意味合いとそれに伴う結果が最も重要であるとしている。各推論を裏付ける証拠が必要であり、推論の連鎖の中で最も疑わしい仮定に焦点を当てるべきである。このフレームワークは汎用性があり、定量的または定性的な評価、個々のテスト、評価プログラムなど、あらゆる形態の評価に等しく適用することができます。

 

現代の取り組みや進歩

構成要素の妥当性に関する統一見解は広く支持されているが、妥当性の定義については継続的な論争がある。Messickの定義では、スコア推論の正確さと結果の妥当性の両方を取り入れている。この定義は複雑すぎると議論されている。

Cizekは、スコア推論の検証とテスト使用の正当化は、2つの並行した、しかし同じ価値を持つ試みと考えるべきだと提案した。

2007年にLissitzとSamuelsenは、テスト評価を内部と外部の側面に分けている。このモデルでは、妥当性は主に、他のテストから相対的に分離して研究することができるテストの内部的側面に注目している。外部の側面は、必要に応じて検証されるだけである。このモデルは、構成要素の妥当性がテスト自体の妥当性から切り離されているため、妥当性はテスト自体の特性であることを意味している。

 

この理論が教室と臨床現場の両方で適用される可能性のあるその他の例

重要な試験は、多くの場合、専門教育における最後のまとめのハードルとなります。合格・不合格の結果は、医師と一般市民の両方に影響を与える。結果の妥当性やスコアを決定するプロセスに関心を持つことは、利害関係者が結果を信頼できるものと見なすために重要です。

プログラムやコンピテンシーに基づく評価は、ますます医学教育の中心となっています。コンピテンシーベースの医学教育の考え方の一つとして、トレーニングプログラムは最低限の品質基準を満たす評価ツールを使用しなければならない。

最も妥当性が確認され、研究されているツールの1つは、臨床技能の直接観察(Mini-CEX)という形をとっています

妥当性理論の応用が進んでいるもう一つの分野は、医療シミュレーションである。シミュレーションは、意図的な練習の機会を提供し、意味のある教育成果の代用として機能する。このコントロールにより、妥当性のフレームワークを適用して、設計されたスコアが目的とするものを確実に測定することができます。

プロフェッショナリズムの評価は、パフォーマンスレビューの中でも特に難しいものの一つとされています。そのため、プロフェッショナリズムを評価するための多くの評価ツールが開発されています。バリデーションフレームワークの原則を十分に理解していれば、評価ツールの評価をより適切に行い、より正確な評価を行うことができるでしょう。

 

主要論文の注釈

Messick, S. (1995). Standards of Validity and the Validity of Standards in Performance Assessment. Educational Measures Issues and Practice, 14 (4), pp. 5-8.3

妥当性の概念を定義されたフレームワークに統一した代表的な論文とされています。

 

Kane, M. (2013). The Argument-Based Approach to Validation. School Psychology Review, 42(4), pp.448-457.12

ケインの現代的なフレームワークを解説しています。妥当性理論の簡単な歴史をカバーした後、彼は検証のための簡略化された段階的なテンプレートを提供している。

 

Cook, D., Brydges, R., Ginsburg, S. and Hatala, R. (2015). A contemporary approach to validity arguments: a practical guide to Kane’s framework. Medical Education, 49(6), pp.560-575.1

医学教育におけるケインのフレームワークの有用性を説明し、継続的なプロセスとしての検証の利用を強調しています。検証の目的は、ある決定とそれに伴う結果が有用であるかどうかを評価する証拠を集めることであるという議論を明確にしている。また、ケインのフレームワークの中核となる要素(scoring, generalization, extrapolation, implications)について、それぞれを検証するために使用される証拠の要素の例とともに、実用的な言葉で説明している。

 

Downing, SM. (2003) Validity: on the meaningful interpretation of assessment data. Medical Education, 37, pp.830-837.8

Downingの論文は、医学教育評価に特化した構成概念の妥当性を徹底的に説明したもので、基準で示された5種類の妥当性を綿密に検討しています。

 

限界

質の高い教育評価には妥当性が不可欠であると考えられているが、用語に一貫性がなく、優れた妥当性評価の実践例にも合意が得られていない

Messickのモデルの複雑さは広く批判されており、実践的なガイダンスも不足していました。仮説と設定の長いリストに加えて、タスクが乗り越えられない感覚は、実践者がどんなタイプの証拠でも少しでも十分だと考えることを可能にする結果となり、結果として最適ではない研究検証プログラムの開発につながる可能性があります。

最後に、Messickが道徳や社会的影響を強調していることは、事実と個人的な好みを混同させる原因になると考える人もいます。