医学教育つれづれ

医学教育に関する論文のPOINTを書き出した備忘録的なブログです。

ランダム化研究の基礎:AMEEガイドNo. 128

Fundamentals of randomized designs: AMEE Guide No. 128
Tanya HorsleyORCID Icon, Eugene Custers & Martin G. TolsgaardORCID Icon
Published online: 27 Dec 2019
Download citation https://doi.org/10.1080/0142159X.2019.1681389

https://www.tandfonline.com/doi/full/10.1080/0142159X.2019.1681389?af=R

 

この AMEE ガイドでは、医学教育研究者にとって主要な実験デザインの選択肢である無作為化試験の基礎をまとめている。医学教育研究者は、研究デザインの選択肢の圧倒的な分類法に直面しています。実験デザインに関する情報は多岐にわたっているため、本ガイドの目的は、研究の目的と無作為化研究の使用のタイミングを一致させるための有益な情報を、医学教育研究者に提供することにあります。研究の質問が定まったら、研究計画は研究プロジェクトの複雑な入れ子状の活動の基礎となるものである。研究者は、適切なデザイン・アプローチを選択するために、多くの決定を交渉しなければならない。このガイドは入門書として書かれており、実験的・準実験的デザインアプローチに関する既存の文献のコーパスを構築し、総合的に検討しようとする医学教育研究者を対象としています。包括的なものではありませんが、医療従事者教育の分野から関連する例とともに、重要な概念を紹介しています。

 

本書の目的

医学教育の研究者のためのリソースとして書かれたこのガイドは、実験計画のアプローチに関する既存の文献のコーパスを構築し、総合することを目的としている。無作為化実験は、異なる介入を比較する際に相対的な有効性を定量化して比較することを目的としている場合には、ゴールドスタンダードとして謳われてきた。しかし、無作為化実験を実施する際には多くの方法論的課題があり、医学教育研究に特に関連する質問に答えるための無作為化デザインの役割と妥当性については、過去10年間にわたって議論されてきた。

無作為化デザインの包括的なレビューを意図したものではないが、本ガイドでは、医療従事者教育の分野における関連する事例とともに、重要な概念を提示することを目的としている。これらの重要な概念の後には、医学教育に関連する質問に答えるために無作為化実験を検討する際に研究者が直面する重要な制限と落とし穴についての議論が続き、それらを適切に回避および/または交渉する方法のヒントが示されている。

 

実験とは何か?

実験には、結果の変化に影響を与えたり、説明したりする可能性のある無関係な(意図しない)変数をできるだけ多くコントロールするための研究者の努力が含まれている。したがって、実験計画とは、実験が可能な限りバイアスの影響を受けないデータを生成できるように予防策を講じるという意図的なアプローチです。これらの注意事項は、実験の制御の程度を決定するのに役立ちます。バイアスとは、研究者が研究結果に影響を与える研究に導入する可能性のある、調査対象の介入とは無関係の、意図的または無意図的な影響のことであると理解することができる。

実験は、非常に構造化されたものから高度に構造化されていないもの(または「自然なもの」)に至るまで、課せられるコントロールの程度が大きく異なることがあります。自然実験はしばしば、研究者が介入の発生にコントロールを課さないための極端なものと考えられています。逆に、最高度の構造化コントロールは、対照無作為化デザインを用いて達成されるかもしれない。これは研究者に可能な限りの削減の余裕を与え、因果関係を推定することを目的としている。

 

因果関係の古典的な定義には、3つの原則的な構成要素(1)原因が効果に先行していなければならない、(2)原因が効果に関連していなければならない、(3)原因以外の効果のもっともらしい代替説明が見つからなければならない、というものがあります

基本的に、すべての実験研究の目的は、2つ以上の変数の間の因果関係、より具体的には治療や介入と結果の間の因果関係について推論を行うことである

f:id:medical-educator:20200324062023p:plain

 

ランダム化とは何ですか?

無作為化は、バイアスを減らし、実験計画中に研究者が十分に注意を払っていなかった可能性のある要因を考慮して、偶然に起因しないグループ間の系統的な違いを避けることを特に目的としています。

無作為化には多くのアプローチがあります。このガイドでは、無作為割付けの4つの最も一般的なアプローチについて説明します。(a) 単純ランダム化、(b) パーミューテッド・ブロック、(c) 層化ブロック、(d) 動的(適応的)です。表2は各割り当て方法の例を示しています。

 

実験の文脈における妥当性とは?

妥当性とは、心理学の伝統から生まれた構成要素です。研究における妥当性とは、研究が研究の質問にどれだけ正確に答えているか、あるいは研究の結論の強さ(結果を信頼できるか)を指します。妥当性を概念化するには、内部的な妥当性と外部的な妥当性の2つの方法があります。妥当性」という用語は、心理測定学の文献でもテストスコアの解釈を支持する証拠を説明するために使われていますが、これは研究結果の信憑性を議論する際の妥当性の概念とは全く異なります。

 

 

医学教育における無作為化研究では何が比較されるのか?

伝統的な生物医学的優越性デザインにおける研究課題は、どちらの「群」(介入)が優れているかを推定するアプローチとして、異なる介入を受けた2つ以上の群を比較することであることが多い。あるいは、医学教育の研究者は、新しい訓練方法が既存の訓練方法と同等の学習成果をもたらすかどうかを評価することに興味を持つかもしれないが、より低コストで、より短い時間で、より良い訓練へのアドヒアランス、より高い実現可能性、またはより高い利用者満足度が得られるかどうかを評価することに興味を持つかもしれない

同等性の正確な判断を行うためには、同等性の方法論を利用しなければならず、その方法論では、事前に定義された教育的または臨床的に関連性のある最大の差を必要とし、その差は、新しいタイプの研修と既存のタイプの研修を同等とみなすことができる。同等性の差を定義するための処方箋はない。その代わりに、研究者は、例えばトレーニング時間、患者の不快感、試験での不合格者の数などの一定の差が、教育的または臨床的に関連性があると考えられることを主張しなければなりません。検出力の計算はこれらの同等性の限界に基づいて行われるべきであり、優越性試験には必要以上に大きなサンプルサイズが必要となることが多い(Piaggio et al. 2012)。したがって、失敗した優越性試験は、あらかじめ定義された同等性の窓と同等性設計を考慮した検出力計算が必要であるため、同等性試験に変換することはできない。優越性研究における有意でない結果から導き出される唯一の結論は、その研究が検出するためにパワーを与えられた大きさの介入間に観察された差がなかったということである。

 

医学教育における無作為化研究における否定的な所見

ランダム化研究では、研究者が仮説を立てた結果が得られないことがある。介入間に統計的に有意な差がない場合、研究者は2つの介入が同等であると結論づけたくなるかもしれない。上述したように、2つの介入間の差の信頼区間が(ほとんど)ゼロになることはないので、これは誤解である。その代わりに、研究者は、研究に力を入れたレベル以上の統計的に有意な差はなかったと結論づけるかもしれない。

医学教育における無作為化研究の多くは、パワー不足である(Cook and Hatala 2015)。無作為化研究を計画する際には、検出力の計算が必要であり、研究者は、サンプルサイズが実現不可能な場合には、研究を進めるのではなく、研究を断念する(またはサンプリングを増やす)ことも厭わないはずです。検出力計算が慎重に行われていなければ、タイプⅠのエラー(存在しない差を示す)やタイプⅡのエラー(実際には群間に差があったのに差を特定できなかった)を起こすリスクが大きい。

無作為化研究の検出力はいくつかの方法で改善できる。第一に、参加者の数を増やすことが考えられるが、費用の増加や募集の困難さのために困難な場合がある。タスクからタスクへの学習者のパフォーマンスには個人内で大きなばらつきがあることが多いことを考えると、検出力を向上させるもう一つの方法は、より多くの観察を含めることです。研究者が参加者の間にベースラインの違いがあるかもしれないと疑っている場合、検出力を向上させ、これらの違いをコントロールするための良い方法は、事前テストを含めることです。事前テストを追加することの限界は、相互作用効果によって学習者がその後の介入を利用する方法を変える可能性があることで、研究者が事前テストと介入の複合効果から介入の効果を解剖することができなくなることです。しかし、事前テストが介入の中に組み込まれている場合(例えば、最初のパフォーマンスの間に自動的に評価される場合)、これは問題ではありません。オブザベーションを追加するもう1つの方法は、複数のポストテストを含めるか、数日/数週間/数ヶ月後に保持テストを追加することです。複数オブザベーションの利点は、反復測定統計量の使用を可能にすることで、個人内のパフォーマンスのばらつきを考慮に入れるので、統計力を大幅に向上させることができることです。このアプローチのバリエーションとして、各参加者の下で複数の患者の転帰クラスタ化することがありますが、これにはより高度な統計量(一般化推定方程式など)の使用が必要です。

医学教育における無作為化研究におけるType Iエラーのもう一つの理由は、評価スコアを支持する妥当性の証拠が不足していることである

医学教育研究でよく見られる誤りは、パフォーマンスと学習の混同であり、これも否定的な所見やその誤った解釈の原因となっている可能性があります。パフォーマンスは、教育的介入の前後に参加者がどのように行動したかのスナップショットであり、必ずしも参加者の学習における長期的な変化とは結びついていない。そのような変化は、その後のリテンション・テストや編入テストで最初に現れることがあり、学習に効果的な介入がパフォーマンスに有害な影響を与えることさえある(Bjork and Bjork 2011)。

 

ランダム化実験と内部妥当性の脅威

ランダム化研究では、内部妥当性に対するいくつかの重要な脅威に対処しているが、すべてではない。考慮すべき内部妥当性の脅威の例としては、履歴、参加者の成熟度、差動的萎縮(参加者の選択的喪失)、および試験の影響がある(Shadish et al). ランダム化は万能ではなく、これらの変数の影響を取り除くものではないが、実験群と対照群にランダムに分布していることを確認するのに役立つ。つまり、内部妥当性に対する本当の脅威は、歴史や成熟などそれ自体ではなく、それらが(非ランダムな)選択の効果と相互作用する可能性があることです。

 

無作為化実験の批判とその外部妥当性

医学教育の介入は、基礎となる概念的/理論的な枠組みがないことで非難されてきた(Norman 2003; Eva 2007)。介入の設計に理論を使用しないことは、限られた洞察を提供するだけでなく、無限の複製のリスクを伴う可能性がある。最近のメタアナリシスでは、クックはシミュレーションベースの医学教育における研究の数が、必要とされる複製の数を上回ることが多いことを示している、これは医学教育におけるRCTを実施する際に、既存の文献や理論を取り入れなかったことを反映している可能性がある。

さらに、医学教育における研究は、教育的介入がなぜ、どのように、誰のために効果があるのかを明らかにするというよりも、何もない場合と比較して、その効果を正当化することを目的としていることが多い。しかし、さまざまなタイプの教育介入の有効性を比較して相対的な有効性を明らかにするには、研修なしと比較する場合よりもかなり大きなサンプルサイズが必要である。したがって、医学教育における将来のRCTは、理論主導型の介入の要求と、能動的な対照群比較の使用によるサンプルサイズの増加によって挑戦されている。潜在的な解決策が提案されている。1つは、交絡を最小限に抑えるために、多くの研究室で行われている複数の小規模で対照的なRCTを使用すべきであるというものである。また、トレーニング効果の希釈化、不十分なサンプルサイズ、それによって介入とアウトカムの間の因果関係を確立できないことを避けるために、患者アウトカムのみに焦点を当てるのではなく、中間アウトカムと行動アウトカムを研究者が選択することも提案されている(Cook and West 2013)。

 

●実践ポイント

医学教育における無作為化研究は、心理学や生物医学研究の分野からの伝統の影響を受けています。

無作為化研究は、仮説の検証、効果の推定と比較、または新しい理論の生成に使用することができる。

医学教育の研究者は、無作為化デザインを採用する際に重要な考慮事項を交渉する必要がある。