医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

妥当性への誤解とその対処

The validity argument: Addressing the misconceptions
Hosam Eldeen Elsadig Gasmalla ORCID Icon & Mohamed Elnajid Tahir ORCID Icon
Published online: 11 Dec 2020
Download citation https://doi.org/10.1080/0142159X.2020.1856802

 

https://www.tandfonline.com/doi/full/10.1080/0142159X.2020.1856802?af=R

学生の評価には妥当性が必要です。妥当性は学生の得点に基づく決定に強力に影響します。妥当性とは単元的な概念であり、テストのスコアの解釈がどの程度証拠によって支持され、正当化されるかを示すものです。しかし、妥当性の概念を理解することは、文献に見られるいくつかの誤解と関連しています。その結果、研究や応用への影響を考慮し、本研究では、妥当性の概念を明確にするために、これらの誤解に対処することを目的としています。その際には、5つの妥当性に基づいた現行の標準的なフレームワークを採用している。

 

 

誤解と不正行為

妥当性の報告には、誤解や不正が指摘されてきた。テストスコアの解釈の妥当性を検証する実践は、「最適ではない」とされてきた。適用される妥当性のフレームワークの特定は不完全であったり、不在であったり、時には時代遅れのフレームワークが使用されることもある。研究者はアセスメントにおける妥当性の報告において統一されたアプローチに固執していない。

 

妥当性の概念化とフレームワーク

妥当性に関する利用可能なさまざまな有効性の概念とフレームワークを説明することが最初の論理的なステップである。古典的なフレームワークは、妥当性を内容的妥当性、基準(同時性と予測的妥当性)、構成的妥当性に分けていた。これは1990年代に導入された現在の標準的なフレームワークに取って代わられ、妥当性を5つの妥当性の証拠(内容、応答プロセス、内部構造、他の変数との関係、結果)によって支持されなければならない単位概念として導入されました。また、あまり知られていないが洞察力のあるもう一つのフレームワークは、Kaneのバリデーションモデルであり、妥当性のプロセス(スコアリング、一般化、導入、決定)を実施するための段階の識別に基づいています。

 

 

妥当性の誤解への対処

・「解釈を裏付ける有効性の証拠」であって、「テストの有効性」ではありません。

内容妥当性は、測定されると思われるものに対するテスト項目の代表性の程度を指していました。

しかし、基準妥当性と内容妥当性には欠点があり、「臨床推論」のようないくつかの属性の基準が何であるかを決定することが困難である。

1950年代半ばに妥当性は「基準妥当性」「内容妥当性」「構成妥当性」に分類されていました。しかし、この古い妥当性の概念には限界がある。

第一に、妥当性を単一概念として認めず、むしろ区分し、構成的妥当性と他の「タイプ」の妥当性が重複していることです。

第二に、評価の結果の側面を含まない。

最後に、妥当性のすべての「タイプ」を等しくする。妥当性を「タイプ」に分類することは、妥当性を尺度、テスト、または尺度の特性として割り振るという誤解を助長してきた(Goodwin and Leech 2003)。

1980年代後半には、焦点はテストからテストのスコアの解釈へと移っていった。最終的には、妥当性の概念は、アセスメントのスコアから行われた解釈の適合性と適切性の周りに焦点を当てるように進化しました。

したがって、妥当性の定義は、テストの妥当性に焦点を当てることから、特定の目的のためのテストの使用の妥当性、そして最終的には、テストのスコアから引き出される解釈の妥当性へと発展してきました。

「妥当性は測定器の特性ではなく、測定器のスコアとその解釈の特性である」

したがって、妥当性は評価そのものには関係なく、むしろテストのスコアの解釈に関係しています。

焦点は「妥当性の種類」ではなく、「妥当性の証拠の源泉」にあります。

最終的には、妥当性とは「構成要素」を中心に発展する単一の概念であると結論づけられた。

「コンストラクト」とは無形の個人の特性であり、直接検出することはできない。個人の行動(テストでのパフォーマンスとして示される)が、構成要素の存在の唯一の証拠となり得る。したがって、構成要素はパフォーマンスの観察から推論することができる。「構成要素とは、テストのパフォーマンスに反映されると仮定された人の何らかの仮定された属性である」。

したがって、妥当性の問題は、教師が(学習者のコンピテンシーレベルについて)行った解釈や結論が正確かどうかである。これらの結論(または推論)は検証される必要があります;これは「妥当性の証拠」を提供することによって達成できます。妥当性の証拠は、次のような側面に応じて得ることができる:内容、応答プロセス、内部構造、他の変数との関係、結果 (Downing 2003)。

 

5つの誤解。

「ケースを構築するには、どのような数(またはタイプ)の妥当性の証拠でも十分である」

必要とされる有効性の証拠の量(および種類)は、試験によって異なります。さらに、評価ツールの種類によっても、妥当性の根拠となる情報源が決まります。

 

「妥当性検証はエビデンス収集のプロセスである。」

妥当性は概念です。それは、解釈に関して利用可能な証拠の程度を反映しています。同時に、妥当性確認は、それらの証拠を収集するプロセスと見ることができる。この誤解は、仮説を立て、証拠を収集し、それらの証拠を評価することから始まる複雑な活動であるバリデーションのプロセスの規模を小さくしてしまう。したがって、単に証拠を「検出」したり、リストアップしたりするだけではない。

 

「妥当性の議論は、解釈を有効か非有効かのどちらかにする」。

解釈の妥当性を検証するプロセスには二項対立はありません。つまり、解釈が妥当かどうかは、解釈が妥当かどうかではなく、妥当性の程度であり、妥当性の証拠の量とその証拠の出所によって決定されます。

 

「妥当性の議論を支持するためには、テストの信頼性だけに頼ることができます。」

信頼性は、評価ツールのタイプに応じて異なる方法で測定することができます。信頼性の高いテストは、妥当性の議論を裏付けることができます。しかし、これだけでは十分ではなく、信頼性は妥当性の証拠の一つである。妥当性の証拠となるものの中で、項目分析とともに「内部構造」の傘の下に置かれる。妥当性を検証するには、複数の情報源(内部構造を含む)から複数の証拠(信頼性を含む)を収集する必要があり、信頼性だけに頼っていては、妥当性の議論を支持する証拠はほとんど得られません。

 

「テストの妥当性の議論を確立した後、このテストは、それ以降のどのような使用においても有効である」。

第一に、「解釈の妥当性の証拠」であって、「テストの妥当性」ではない。第二に、行われる解釈は、そのテストの特定の目的のためのものである。「測定器はそれ自体は決して有効ではなく、常に特定の構成要素を捉えるためだけに有効である」

 

結論

アセスメントは医学教育の要であり、アセスメントでは、妥当性が評価者に得点に基づく判断への自信を与えてくれる。本作では、最も一般的な誤解に対処し、明らかにすることで、妥当性の概念を説明するガイドを提供する。なお、本ガイドにおける妥当性の枠組みは、妥当性の5つの源泉に基づいたものである。