Evaluating the quality and educational utility of YouTube videos in teaching human surface anatomy
Anas J. Mistareehi, Ibrahim Hoja, Abdulrahman Alraddadi, Heba H. Ghozlan, Ayman Mustafa, Mohammed Z. Allouh
First published: 20 November 2025 https://doi.org/10.1002/ase.70160
https://anatomypubs.onlinelibrary.wiley.com/doi/10.1002/ase.70160?af=R
研究の背景と目的
医学教育におけるインターネット、特にYouTubeの活用が急速に拡大している。体表解剖学は触診や打診、聴診など臨床実践において重要な基礎知識であるが、YouTubeにおける体表解剖学動画の質と教育的価値については十分に検証されていなかった。本研究は、YouTube上の体表解剖学動画を体系的に評価し、その質、信頼性、教育的有用性を明らかにすることを目的として実施された。
方法
2024年12月から2025年1月にかけて、頭頸部、上肢、胸部、腹部、骨盤・会陰部、下肢、背部の7つの主要身体領域について、「surface anatomy」「anatomy body painting」「living anatomy」「bone landmarks」「dermatomes」というキーワードで検索を実施した。各検索語につき上位30動画を対象とし、2名の解剖学者が独立して以下の評価ツールを用いて分析した:
- Anatomy Content Score (ACS):解剖学的内容の包括性を評価(13点以上を有用と判定)
- Global Quality Scale (GQS):動画の全体的な質を5段階評価(4点以上を有用と判定)
- modified DISCERN (mDISCERN):情報の信頼性を評価
- JAMA criteria:情報源の透明性と説明責任を評価
主要な結果
動画の選定と基本特性
検索により1,050本の動画が抽出されたが、包含基準を満たしたのはわずか85本(8%)であった。身体領域別の内訳は、上肢19本(22.4%)、腹部18本(21.2%)、頭頸部15本(17.6%)、下肢15本(17.6%)、胸部9本(10.6%)、背部8本(9.4%)、骨盤・会陰部1本(1.2%)であった。
動画の長さは82秒から5,650秒(平均794.1秒)と大きな幅があり、視聴回数は290回から1,063,133回(平均66,122.5回)と大きく異なっていた。
評価結果
- ACS評価:51本(60%)が有用と判定され、平均スコアは14点であった
- GQS評価:55本(65%)が有用と判定され、平均スコアは3.9点であった
- 両基準で有用:48本(56.5%)の動画が両方の基準で有用と判定された
重要な相関関係
- 動画の長さと有用性:有用な動画は有用でない動画よりも統計学的に有意に長かった(p<0.001)。これは、包括的な解剖学的説明には十分な時間が必要であることを示唆している。
- 人気指標と質の非相関:視聴回数、いいね比率、インタラクション指数は動画の教育的質と相関しなかった。これは、人気のある動画が必ずしも教育的に優れているわけではないことを示している。
- 評価ツール間の相関:ACSとGQSの間には強い正の相関(rs=0.754)が認められ、両者ともmDISCERNと中程度の相関を示した。
COVID-19パンデミックの影響
パンデミック前に投稿された動画は36本(42%)、パンデミック後は49本(58%)であったが、両期間の動画の有用性スコアに統計学的有意差は認められなかった。これは、動画の量は増加したものの、質の向上は見られなかったことを示唆している。
身体領域別の特徴
動画の長さは身体領域間で統計学的に有意な差が認められ(p=0.003)、頭頸部の動画が最も長く(平均876.1秒)、背部が最も短かった(平均229.6秒)。しかし、ACS、GQS、mDISCERN、JAMAのいずれのスコアにおいても、身体領域間で統計学的有意差は認められなかった。
考察
YouTubeの教育資源としての位置づけ
本研究により、YouTube上の体表解剖学動画の約60%が教育的に有用であることが示された。これは以前の研究(頭蓋骨や心臓の解剖学では約25%)と比較して高い割合である。この違いは、本研究のより厳格な包含基準と、特定のコンテンツ制作者による高品質な動画シリーズの存在によるものと考えられる。
人気指標の限界
視聴回数や「いいね」の数が教育的質と相関しないという発見は重要である。これは、YouTubeの検索・推薦システムがキーワードマッチングを重視し、教育的厳密性よりも人気のキーワードを持つ動画が優先的に表示される傾向があるためと考えられる。
長時間動画の優位性
有用な動画が統計学的に有意に長かったという結果は、複雑な空間的関係や詳細な構造説明、関連する臨床応用を適切に伝えるには十分な時間が必要であることを示している。ただし、Brameが指摘するように、長時間動画は明確に定義された教育学的に一貫性のあるセグメントに構造化される必要がある。
骨盤・会陰部の動画不足
骨盤・会陰部に関する動画がわずか1本しか見つからなかったことは重要な問題である。この領域は多くの臨床手技に不可欠であるにもかかわらず、文化的な配慮、専門的知識の不足、あるいは需要の低さなどが原因でコンテンツが不足していると考えられる。
パンデミックの影響
COVID-19パンデミック後に動画の数は増加したが、質の向上は見られなかった。これは、教育機関がYouTubeを教育ツールとして採用する動きは加速したものの、コンテンツの教育的効果は必ずしも改善されていないことを示唆している。
研究の限界
本研究にはいくつかの限界がある。第一に、評価ツールの主観性により、高い評価者間信頼性があるにもかかわらず、潜在的バイアスが存在する可能性がある。第二に、グローバルなYouTubeウェブサイトで検索を実施したが、地域による検索結果の違いを完全には捉えきれていない可能性がある。第三に、英語コンテンツのみを対象としたため、他言語の教育資源が除外されている。第四に、動画視聴後の学習者のパフォーマンスや知識の定着を評価していないため、真の教育的効果は測定されていない。
結論と推奨事項
本研究により、YouTube上の体表解剖学動画の約60%が教育的に有用であることが示された一方で、人気指標(視聴回数や「いいね」)は科学的質を確実に反映していないことが明らかになった。これらの結果は、YouTube のような プラットフォーム上で標準化された査読済み教育コンテンツの必要性を強調している。
教育資源の質を向上させるために、教育者や機関は以下を優先すべきである: