医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

医学教育 における同等性と非劣性を示す

Demonstrating equivalence and non‐inferiority of medical education concepts
Martin Klasen Saša Sopka
First published: 18 November 2020 https://doi.org/10.1111/medu.14420

 

https://onlinelibrary.wiley.com/doi/full/10.1111/medu.14420?af=R

 

 

医学教育においては、特定の医療技術を教授し学習するために、いくつかの方法が存在する。教育者にとっては、コスト、インフラストラクチャーの要件、時間、教師の資格など、現実的な理由でそれらのうちの1つまたは複数の方法を決定することがよくあります。しかし、考慮すべき中心的な側面は、学習の成果である。新しい方法は、確立された標準的な方法と同様の学習の成功を達成しているか?この問いに答えるためには、学習成果の比較可能性を評価するための適切な方法が必要である。

本論文では、学習成果の比較可能性の問題に対処できる2つの本質的な統計的概念を提示する。同等性と非劣性の概念の背後にある考え方を説明し、データセットの例を用いて説明する。いくつかの概念を明確にするために、BLS(Basic Life Support)の教育と評価から理論的な例を使用する。

等価性と非劣性は、教育方法や評価方法を比較するための強力なツールになり得る。しかし、それらを正しく適用するためには、それらの長所、落とし穴、および適用分野に関する十分な知識が必要である。本論文の目的は、これらの知識を提供し、臨床研究者がこれらの方法を成功裏に適用するための実践的なガイダンスを提供することである。

 

 

 

同等性と非劣性

治療法間の比較では優位性のアプローチですが存在し、t検定が最もよく知られています。しかし、学習成果に関して比較したい場合、2つの理由から優位性テストは望ましくありません。第一に、「天井効果」、つまり、基準がすでにパフォーマンス・スケールの上限にある場合には、さらに良い結果を出すことが難しくなる可能性があります。第二に、国際的なガイドラインに合致した最適な結果が得られている場合、新規アプローチの優位性は必要ありません。この場合、新規アプローチが標準と同等の結果を得ているかどうかを検討することがより合理的である。

この問題に対処するためには、もともと薬理学研究から生まれた「同等性」と「非劣性」という2つの概念を用いることができます。同等性とは、両方の治療法の結果に差がない(または少なくとも実質的にはない)ことを意味し、非劣性とは、一方の治療法が他方の治療法よりも結果パラメータに関して悪くない(すなわち、同等またはより良い)ことを意味します。

 

差異試験が役に立たない場合
2つの治療法を比較する場合、ほとんどの研究では、違いを検定する統計的手法が適用されます。通常、これらの検定では、p値が得られます。p値が事前に定義された閾値を下回る場合、結果は有意であると解釈されます。差分検定における「有意でない」結果は、しばしば、治療法の間に違いがないという証拠として解釈されます。しかし、差分検定は,等価性を検定するのには適切ではない。

 

同等性の検定。

同等性検定は、信頼区間(CI)を介して実行される。90%信頼区間(それぞれ5%の有意水準を持つ2つの片側検定に対応)または95%信頼区間(5%の有意水準を持つ1つの両側検定に対応)を使用すべきかどうかは、文献ではコンセンサスがありません。

f:id:medical-educator:20201215061949p:plain

CIと同等性マージン。治療差のCIは-0.3から1.5までは完全に同等性マージンの範囲内であり、同等性を仮定できる。2.5から-0.5までのCIは同等性マージンと部分的にしか重なりません。

 

同等性 と 非劣性
同等性と非劣性の違いは簡単です。「非劣等」が「同等または優越」を意味することを考えると、同等性マージンの下マージンだけを考慮する必要があります。この場合、上マージン(+2)は、同等性と優越性を分離するだけなので、この場合には無関係である。

 

 

 

妥当性/非妥当性マージンの定義
非常に本質的でありながら、しばしば軽視される問題は、同等性マージンまたは非劣性マージンの定義です。適切に選択されたマージンは、研究全体の質に不可欠です。あまりにも狭いマージンを選択すると、非現実的に大きなサンプルサイズになってしまいます。また、マージンが広すぎると、治療法間の関連する違いが不明瞭になり、研究が事実上無価値になってしまいます。

 

サンプルサイズ

研究結果を有効に解釈できることを保証するためには、十分な標本数が必要である。検出力とは、所望の大きさの効果が存在する場合に、その効果を検出する検定の能力です。

サンプルサイズの計画には、望ましい検出力と有意水準、タイプ I の誤差確率を事前に定義する必要がある。

 

同等性研究や非劣性研究を行う際には、どのような研究課題に有意義に利用できるのかを知ることが重要である。この問題に対処するためには、我々は異なるタイプの研究パラダイムを詳しく見なければなりません。

エビデンスに基づいた医療の概念に基づき、医学教育研究においても無作為化比較試験(RCT)の利用が推進されている。しかし、RCT の医学教育への適用性には限界があることが指摘されており、具体的には、高度に管理された RCT の設定が、教育環境の複雑で多様な現実を十分に反映していないと批判されている 。この見解は、研究によって見出されるべき包括的な「真実」は存在しないと仮定し、関係者からデータを収集することで現象の複数の見方を 捉えようとする構築主義的な立場に近いものである。

教育は、多くの場合、多くの側面によって動かされている。有効性のほかに、実用性や実現可能性の側面、必要な資源(金銭的支出、材料、スタッフの必要性、部屋の必要性、組織、時間的支出など)も重要な役割を果たしている。実践的(または実用的)試験は、一つの結果だけに焦点を当てるのではなく、意思決定者にとって重要な様々な側面についての情報を収集し、定量的および定性的な研究手法を用いて、(最適な条件での)有効性よりも(実生活の条件下での)有効性を評価するものである。

教育内容を決定する際には、複数の側面を考慮する必要があることを考慮に入れています。既存の教育内容と同等の学習成果を持つことを示すことは、コスト、材料、スタッフ、実現可能性など、他の領域で重要な違いがある場合にのみ、現実的に意味がある。医療カリキュラムは実利的・経済的な考慮に基づいて進められており、同等性・非劣性試験は、それが学習成果を犠牲にしていないことを保証する。

まとめると、同等性と非劣性の評価は、有効性研究や基礎研究というよりも、むしろ実用的な医学教育試験のための貴重なツールである。

 

同等性研究と非劣性研究の今後の応用分野

理論的知識の習得において、非劣性性研究は将来的に必須の課題を果たすことになるかもしれません。臨床技能やチームトレーニングの分野で非劣性研究を利用することで、時には非常に精巧な方法を比較する全く新しい機会が開かれる。


同等性と非劣性は、医学教育や評価方法との関連性が高い概念である。特に、2つの教育方法や概念を学習成果に関して評価する際に非常に有用である。この二つの概念の強みは、単に違いに着目するだけではなく、実際には二つの教育方法が同じような結果を達成しているかどうかを評価できる点にある。この点で、その適用可能性は、はるかに広く使われている差分テストの一つを超えている。同等性と非劣性を評価することは、資金的、物質的、人的資源の必要性など、他の面で大きな違いがある教育方法を比較する際に特に有用である。確立された教育方法と同等の効果があるが、より効率的な代替手段を特定することは、多くの点で有益である。病院などの医学教育者は、資源を節約し、教育や患者ケアの他の側面に使用することができる。また、より簡単でコストのかからない応用は、新しい応用分野を切り開くことができる。多くの責任ある教育者や教育臨床機関は、非劣性研究から得られるこの分野での行動のための提言を早急に必要としている。さらに、この方法を用いて、職場ベースの教育の全分野を評価することも可能である。

しかし、同等性と非劣性の適用には限界がある。最も本質的なものは、サンプルサイズの計画が結果パラメータに関する事前の仮定に大きく依存することである。データの種類によっては、さまざまな統計値を事前に推定しなければならない。間違った仮定は、パワー不足の研究を引き起こし、結果を事実上無価値なものにしてしまう可能性があります。

最後に、比較試験では、ある教授法が「良い」成果を上げているか、「十分な」成果を上げているかを知ることはできないことを心に留めておく必要があります。方法の質を評価する際には、常により広い文脈で見るべきです。考え抜かれた結果の選択がなければ、同等性と非劣性試験も優越性試験も、関連性のある結果をもたらすことはできません。ほとんどの教育概念では、長期的なアウトカムが重要であるが、文献にはまだ乏しいため、この問題は特に重要である。

まとめると、同等性と非劣性は、最適な教育概念を見つけるための貴重なツールである。しかし、その特殊な要件を考慮して、いずれかの概念がすでに確立されている場合にのみ使用することを推奨する。