医学教育における評価の歴史 - 医学教育つれづれ

A history of assessment in medical education

Lambert W. T. Schuwirth & Cees P. M. van der Vleuten
Advances in Health Sciences Education (2020)

link.springer.com

評価の質が認識され、ここ50年で大きく変化しました。もともと、評価は主に、能力のある人とそうでない人を区別することを目的とした測定の問題として捉えられていました。論理的には、再現性や信頼性、構成要素の妥当性が評価の品質に必要かつ十分であると考えられ、人間の判断の役割は最小限に抑えられていました。その後、評価は、様々な職場ベースのアセスメント（WBA）手法を用いて、職場に戻ってきました。当初は同じ測定フレームワークからアプローチされていたが、WBA やその他の評価は、次第に人間的判断を含む、あるいはそれを包含しつつも、優れたサポートと評価の専門知識に基づいたプロセスになっていった。現在では、評価は還元主義的な視点ではなく、総合的に能力を評価するというシステム全体の問題として扱われています。そのため、現在の研究では、人間の判断をいかに支援・改善するか、評価情報をいかに有意義に三角測量するか、システムの観点からいかに公平性、信頼性、正当性を構築するかに焦点が当てられています。しかし、社会、教育、医療の急速な変化を考えると、良い評価についての私たちの考え方には、また別の進化が潜んでいる可能性があります。

本稿では「評価」について語る際には、医学教育における評価のことを指していることをここで宣言しておきたい。「測定としての評価」、「判断としての評価」、「システムとしての評価」という3つのフェーズでの展開を説明します。これらの3つのフェーズはかなり重なり合っていて、反復的な方法でお互いに情報を与え合っていました。

測定としての評価

1960 年代の医学教育における評価の研究と開発は、より構造化された標準化された「客観的」な評価を生み出すことを目的としていました。

最初の最も明白な意味合いは、能力は純粋に定量的に捉えることができ、（単一の）スコアとして表現することができるという見解でした。そのため、当然のことながら、評価の質の特徴は構成的妥当性と信頼性でした。

信頼性とは、スコアが項目、ケース、試験者などにまたがって再現可能な程度、あるいは内部一貫性として定義されたものにすぎませんでした。当時、信頼性の概念と重要性については一般的に合意されていました。一方、教育評価における妥当性は、より議論の多い概念であった。Cronbachは、評価は、そのスコアが構成要素に関する仮定に沿って「振る舞う」場合にのみ有効であると主張しました。要するに、１つの見解では、各項目は総得点に数値的に寄与する程度にしか意味がないと考えており、別の見解では、各項目は本質的に意味があり、得点は要約文であると考えています。

テスト心理学の評価デザインを模倣したもう一つの暗示は、医学的能力を性格的特徴の組み合わせとして定義することであった。これらの個々の属性は一般的で独立したものであると仮定されていました。当時の一般的な見解は、これらのそれぞれが他のものとは独立して測定できるというものでした。

評価が能力の測定とみなされる場合、評価を客観的なものにするように努力するのは論理的なことです。したがって、アセスメントの設計の多くは人間の判断の役割を最小限にすることを目的としており、構造化と標準化はアセスメントの信頼性を高める重要な方法と考えられていました。

評価設計の基礎として心理テストを使用することのもう一つの結果は、人を区別することに関係しています。識別指数または項目-全体の相関関係のような広く使用された項目パラメータで支配的です。

この時代の考え方自体は支離滅裂なものではなかったが、研究成果や新しい考え方が出てきたことで、いくつかの批判的な懸念が出てきた。不適切なサンプリングは、主に領域の特異性のために信頼性の欠如につながります。さらに、客観性の概念が問われました。評価は常に学習者の達成度と進歩に関する情報を収集し、それを評価するプロセスであることがますます認識されるようになった。最も構造化された多肢選択式テストであっても、その前には、設計図の作成、基準の設定、含めるべき項目の関連性、項目の文言など、一連の人間の判断を含むプロセスが行われます。

もう一つの重要な発見は、従来考えられていたような異なる評価方法では、形質は互いに独立して測定できないということでした。論理的には、パフォーマンスは内容を超えて一般化することはできません。

判定としての評価

評価に関する考え方の顕著な変化は、1990年代に起こりました。評価は自立性、思慮深さ、批判的思考も促進すべきであり、アセスメントが純粋に測定に焦点を当てると、これらの目的を達成するのに逆行すると主張するし、さらに、評価は、学生が評価プロセスに積極的かつ責任ある利害関係者として参加し、有意義なフィードバックが提供された場合にのみ、これらの価値を促進することができると主張されました。

しかし、評価がどのように学習を促進するかは、単に罰や報酬によるものよりも複雑である。考え方には3つの変化が起こりました。第一に、コンピテンシーの概念が性格的特徴としてではなく、コンピテンシーとして再定義されたことである。一般的には、コンピテンシーは、形質よりも医学教育の成果をより有意義に定義しようとする試みである。これは、学習者により意味のあるフィードバックを提供し、学習者の学習を促進する可能性を開くために重要である。第二に、客観性と標準化は、優れたサンプリングほど信頼性に不可欠なものではないので、評価は本物の文脈に戻ることができる。これにより、批判的思考、プロフェッショナリズム、反省、自己規制など、より多くの側面を評価に含めることが可能になりました。最後に、評価プロセスにおける人間の判断の役割の再評価が行われた。職場ベースのアセスメント（WBA）は、以前の研究で得られたサンプリング、妥当性、信頼性に関するより良い知識と理解を用いて開発されました。

OSCEのような以前の構造化された評価方法と比較したWBAの利点の1つは、本物の環境で受験者を評価できることです。本物であることは、プレッシャーの中でのマネジメント、患者との機敏な対話、医療システムの境界条件のナビゲートなど、OSCEではテストできない側面の評価を可能にするという利点があります。しかし、真正性は自動的に妥当性と同じではないことに留意しなければならない。

妥当性を確保するという意味では、直接観察ベースのアセスメントまたはWBAは、標準化テストとは根本的に異なります。人間の観察と解釈が不可欠なWBAではそうはいきません。現在の妥当性理論（ケイン）では、妥当性連鎖の最初の推論には試験官の観察と解釈が不可欠であり、それがなければ妥当性は成立しない。

試験者はWBA（あるいは他のどのような形の直接観察に基づく評価であっても）の臨床内容だけでなく、評価の側面、何を見るべきか、どのように解釈するべきか、満足と不満足の間の線引きはどこで行うべきか、などについても十分な専門知識を持つ必要がある。

注目すべき発展は、評価の有用性の唯一の特徴である標準的な心理測定の品質基準-構造妥当性と信頼性-には限界があることに気付いたことでした。

コンピテンシーとコンピテンシーは、単一の数値的な結果として捉えられ、十分に要約できるような単純で単純な現象ではないという認識が広まったため、このような概念的な見方の変化が必要とされた。むしろ、それらは複雑で多面的である。異なる評価者が異なる参照フレームを使用したり、基準を誤って適用したりするエラーベースの視点、認知的負荷の制限の結果としての評価者の誤りや認知的バイアスだけでなく、意味のある特殊性としての評価者の誤りや認知的バイアスであるというものです。

明らかに、後者は試験官の多様性の補完性に寄与していると見ることができますが、前者の2つは論理的には直接観察に基づく評価の妥当性を制限していると見られています。

妥当性には他にも脅威があるかもしれません。1つは寛大なバイアス、または負の結果を避けようとして受験者に懸念を表明することを望まないことである。

不正確な参照フレームや基準の適用、認知的負荷の制限、寛大なバイアスの問題は、スタッフの育成を通じて試験官の評価リテラシーを向上させることで、典型的には打ち消すことができる。これは第一に、専門知識は常に効率性と関連しており、効率性は認知的負荷の軽減と関連しており、評価リテラシーについても同様であると考えられる。第二に、自分の判断を支持し、擁護するための目的に適した語彙を持つことは、評価者の権限を高め、いわゆる私的判断と公的判断の違いやリニエンシーの可能性を減らすことになる、第三に、評価リテラシーの向上は、いわゆる共有された主観と共有された語りの発展を伴うため、基準の誤ったフレームや解釈の可能性が減少する。WBAにEPAベースの尺度を導入することで、監督者が行うように求められた判断は、基本的に監督者の既存の専門知識をよりよくサポートするものにルーブリックを変更するように、彼らが登録者について行っていた高額な判断をより模倣していました。これにより、評価の心理測定特性が劇的に改善されました。

システムとしてのアセスメント

徐々に、教育、能力、評価は当初考えられていた以上に複雑な現象であるという認識が広まっていった。教育は問題解決のプロセスであり、いつの時点でも同じように受け入れられる解決経路が複数存在する可能性がある（すなわち、臨床推論のような教育的な問題解決プロセスは特異なプロセスである）。

しかし、受け入れ可能な解決策と受け入れられない解決策の間には、多かれ少なかれ曖昧な境界線があり、それは「すべてがうまくいく」という問題ではありません。

いつの時点でも、解決策の経路が最適でない場合、変更できる必要があり、そのためには、状況認識、戦略のレパートリー、変更する機敏さが必要です。

明らかに、このことは、評価においても、方法指向のアプローチから全体システムアプローチへの再考を伴うものでした。それまでのアセスメントは、通常、能力を個別に評価可能な単位に分解することによって運営されていたため、これは非常に根本的な変化です。しかし、それでは、コンピテンシーという複雑な現象を、わずか数個の離散的な要素から再構成するという大きな課題が残っていました。

評価の観点からは、programmatic assessment（一般教育における同様の開発の一つとして「コース全体をカウントする」と名付けられている（Cooper et al. 2010））は、複雑性の観点と、アセスメントを統合的かつ全体的に維持する必要性を組み合わせようとしている。これは、個々の測定値のセットではなく、学習者とその教師/指導者が意味のある全体的な物語を構築することに基づいています。これらの決定は、様々な情報源からの情報の有意義な三角測量、縦断的なデータ収集、目標とする学習活動を伴う有意義なフィードバック、比例した意思決定（Van der Vleuten and Schuwirth 2005; Van der Vleuten et al. 2012, 2015）に基づいて行われなければならず、各高得点の決定の背後には常に明確で透明性のある根拠が必要である。

このようなアプローチの変化は、評価の質の概念化に大きな影響を与えています。最近の研究では、ナラティブの質と、それがアセスメントの文脈でどのように利用できるかに焦点が当てられている。

つまり、要約すると、現在の研究では、評価における判断の構成要素と、いわゆるプライベートな判断がどのように形成され、立証されるのかについての理解を深めようとしているのである。研究はまた、利害関係者が能力をどのように概念化し、判断やフィードバックをどのように伝え、どのように解釈しているのかを探っています。また、数値で示せない結果や判断の妥当性をどのようにして確保するか、そしてそれをプログラムレベルでどのようにして実現するかについても調査している。さらに、世界のトップアセスメントの専門家が多数参加した研究では、ダイクストラらは、システムとしての評価の質の問題を探り、アセスメントプログラムの質のためのフレームワークを開発しました(Dijkstra et al. 2010)。国際的なアセスメントの専門家の大規模なグループとのデルファイ手法を用いて、包括的なデザインガイドラインのセットのコンセンサスに達した(Dijkstra et al. 2012)。

システムとしての評価の概念はより広く受け入れられるようになったが、多くの一般的な組織文化とは相反するものであり、還元主義的および/または純粋に定量的なアプローチを必要としないアセスメントシステムの公平性の本質について再考する必要があります。

評価の未来

現時点での多くの評価の焦点は、学生が十分な知識、スキル、能力を持っているかどうか、そしてそれらを応用できるかどうかであるが、必然的に、学生がすべてのICTの余裕を使用し、能力開発にそれらを有意義に取り入れ、複雑な実践環境でICTから派生した「能力」と有機的な脳の能力のバランスをとることができるかどうかの評価へとシフトしていくことになるだろう。私たちがこれによって意味するのは、現代の学生は、ICTへの継続的なアクセスにもかかわらず、複数のコミュニティや共同作業者とほぼ同時にコミュニケーションをとる余裕を持っているということです。

エピローグ

完璧な評価アプローチの模索は続いており、おそらく終わることはないだろう。医療従事者がテクノロジーに支えられ、従来は医師の主な付加価値であった診断や治療管理の決定などの業務が、テクノロジーによって代替されていくというものである。このような将来のシナリオでは、医療専門家には異なるスキル、能力、コンピテンシーが求められることになるだろう。患者は、自分の病気をナビゲートし、自分の状況に意味を持たせることができるようにするために、パートナーとなり、患者を支援してくれる人を必要としているだろう。明らかに、そのためには、評価の新しい再考が必要になるだろう。