今さら聞けない医学統計の基本

医学統計の基本シリーズ第6回:
研究の質を評価する
解説1:目的に合った研究かを見極める

臨床研究の質を評価するポイントは下記の5つです。

円城寺
  1. 研究の目的は明確か
  2. 目的に合った研究がされているか
  3. 対象者の選択は適切であるか
  4. 対象者数は十分であるか
  5. 盲検化比較検討がされているか

(出典:浅井隆:いまさら誰にも聞けない医学統計の基礎のキソ 第3巻,vii-viiiページ,アトムス,2010)

私が論文を読む時は、いつも「研究の目的は明確か?」「目的に合った研究がされているか?」を必ずチェックしてるんだ。

miyakae

多くの場合、研究目的は論文の「Introduction」の項の最後に書かれています。研究目的の妥当性や、それが明確に記載されているかどうかは、研究の質に影響することもあるので、最初に目を通すべきでしょうね。

円城寺

では若林君、以下の例文を見比べてみよう。どう思う?

miyakae

例文①

心筋梗塞の既往を有する患者の再発予防に、抗血小板薬Aおよび抗血小板薬Bが有効だと知られている。しかし、抗血小板薬Aと抗血小板薬Bで、どちらの方が高い再発予防効果を示すかは示されていない。

そのため、抗血小板薬Aまたは抗血小板薬Bを投与し、どちらが有効に心筋梗塞の再発を抑制できるのか比較検討した。

例文②

心筋梗塞の既往を有する患者の再発予防に、抗血小板薬Aおよび抗血小板薬Bが有効だと知られている。しかし、抗血小板薬Aと抗血小板薬Bで、どちらの方が高い再発予防効果を示すかは示されていない。

今回、これら2つの代表薬を比較検討した。

(出典:浅井隆:いまさら誰にも聞けない医学統計の基礎のキソ 第3巻,12-13ページ,アトムス,2010)

若林

例文②は、抗血小板薬AとBをどのように比較したかが分からないですね。

そうだね。最後の一文に注目すると、例文①では研究目的が明確に書かれているけど、例文②では具体的に何を比較検討した試験か明示されていない。こういう場合は要注意だ。

miyakae
black-diamond.svg

目的に合った評価項目か?

目的に合った研究であるかを判定するためのチェックポイントが「評価項目」です。アウトカムやエンドポイントともよばれます。
若林君、下記の研究目的に合った評価項目はなんだと思う??

円城寺

【目的】

脂質異常症の治療には、スタチン薬Aおよび胆汁酸吸収阻害薬Bが有効であることが知られている。しかし、スタチン薬Aおよび胆汁酸吸収阻害薬Bで、どちらの方が高い脳血管イベント抑制効果を示すかは明らかになっていない。

そのため、スタチン薬Aおよび胆汁酸吸収阻害薬Bを投与し、どちらが脳血管イベントの発症抑制に有効であるか比較検討した。

 

【評価項目】

頚動脈の内膜中膜複合体厚(Intima Media Thickness:IMT)

若林

研究目的に合う評価項目は、「脳血管イベントの発症率」だと思うのですが、ここでは「頚動脈のIMT」が評価項目になっていますね。

そうね。本来は「脳血管イベントの発症率」を調べるべきなんだけど、それにはたくさんの症例と長い観察期間が必要だよね。この研究では、非侵襲的で繰り返し計測できる内膜中膜複合体厚を脳血管イベントの発症の代わりに使っているんじゃないかな。

円城寺

これを「サロゲートエンドポイント(surrogate endpoint)」というんだ。サロゲートマーカーともよばれるね。本命の評価項目よりも測定しやすい、短期間で測定できる、費用が少なく済むなどの理由で用いられることが多いんだ。
設定された評価項目が「本命」の代替になり得るという根拠が、論文内に明示されていれば、サロゲートエンドポイントが正当なものであると判断して良いだろう。

miyakae

臨床研究では、研究目的に合った評価項目以外に、その他の複数の項目について比較検討されることがよくあるんだけど、評価項目が複数ある場合は、研究目的に合う「本命」とそれ以外が区別されているのは知ってる?

円城寺
若林

それはいろんな論文で目にします!本命の評価項目を「主要評価項目(primary endpoint)」、それ以外を「副次評価項目(secondary endpoint)」というんですよね。

そうだね。研究目的に合った主要評価項目に関しては、想定した群間差に関する十分な検出力を確保しているのが通常なので、統計学的な結果は信頼に値すると考えてよい。しかし、副次評価項目は、事前に十分な検出力を確保しているとは限らないため、結果の解釈に注意を要するんだ。

miyakae
若林

「主要」か「副次」で信頼性は大きく変わるということですね。

black-diamond.svg

評価項目がすり替えられていないか?

評価項目のチェックが済んだら、次は「結果」「結論」を確認しましょう。
主要評価項目が研究目的に合っていても、論文を読み進めると副次評価項目が主な評価項目として扱われている場合があるからです。

円城寺

次の論文を見てみよう。

miyakae

【目的】

心筋梗塞の既往を有する患者の再発予防に、抗血小板薬Aおよび抗血小板薬Bが有効であることが知られている。しかし、抗血小板薬Aと抗血小板薬Bのどちらが再発予防効果が高いか明らかになっていない。
そのため、抗血小板薬Aまたは抗血小板薬Bを投与し、どちらが心筋梗塞の再発をより抑制するか比較検討した。

 

【評価項目】

主要評価項目:3年以内の心筋梗塞の再発
副次評価項目:3年以内の全死亡、脳卒中、心血管死

 

【結果】

心筋梗塞の再発:両群に有意な差はなし
全死亡:抗血小板薬A群で抗血小板薬B群よりも有意に低下
脳卒中:両群に有意な差はなし、心血管死:両群に有意な差はなし

 

【結論】

抗血小板薬Aは、抗血小板薬Bよりも有意に死亡リスクを低下させた。

主要評価項目は心筋梗塞の再発率であるのに、結論では副次評価項目のことが書かれているね。
原則として、副次評価項目は主要評価項目に比べ結果の信頼性が低いと判断し、参考程度の情報と考えた方が良いだろう。

miyakae
若林

ということは・・・結論で副次評価項目だけに焦点を当てている論文は注意して解釈すべきだということですね。

その通り。そのほか、評価項目は客観性によっても分類される。

miyakae

評価項目(エンドポイント)の種類

black-diamond.svg

ハードエンドポイント

死亡や心筋梗塞発症、血圧値など、基準が明確に決まっており、だれが判断しても同じ結果が得られるもの

black-diamond.svg

ソフトエンドポイント

心不全悪化による入院、PCIの施行、痛みの程度など、医療従事者や患者の意思によって結果が変わる可能性のあるもの

(出典:山崎力, 小出大介:臨床研究いろはにほ,21-22ページ,ライフサイエンス出版,2015(一部改変))

ここでは、ソフト(soft)が主観的、推論的という意味で用いられ、ハード(hard)はその反対の客観的、信頼性の高いという意味で用いられているんだ。

miyakae
若林

評価項目にも色々な分類があるんですね。よくわかりました!

目的に合った研究かを見極めたら、次は対象患者が適切かどうかをチェックしましょう

円城寺