今さら聞けない医学統計の基本

医学統計の基本シリーズ第2回:
統計解析結果を正しく解釈する
解説2:P値と有意水準

まず,用語を整理すると,P値と有意水準の言葉の使い方には注意が必要です。仮説検定におけるP値は,データと帰無仮説の矛盾の程度を測る指標です。検定の結果,P値が小さいと,データにバイアスが少ないと考える限り,帰無仮説を否定したほうがデータ上は合理的であることを意味します。一方,検定で得られたP値が小さいかどうかを判定する基準が有意水準です。

Alt tag
P値
  • データと帰無仮説の矛盾の程度を測る指標
  • 小さいP値では,帰無仮説を否定したほうが合理的と判断する。
  • 大きいP値では,帰無仮説はデータ上は矛盾しないと判断する。

有意水準
  • 帰無仮説を否定するかどうかを判定するための基準
    (一般に5%とすることが多い)

P値は検定の結果得られる値,有意水準は研究を実施する前にあらかじめ決めておく基準と理解して下さい。一般には,P値<有意水準となったとき,「有意」と判定します。この時の有意水準に別の表現を使うと,帰無仮説が正しいときに誤って有意になる確率とも言えます。

Alt tag

つまり、有意水準を5%と設定した場合に差がない集団間で,100回同じ試験をしたら、5回は偶然「グループ間に差がある」という結果が得られるかもしれない、ということだね。

Alt tag
Alt tag

統計は母集団を推測するためのものであって,たまにはその推測を誤る,その確率が5%未満と考えたら良いですか??P値<0.05で統計的に有意差があるといっても、本当は差がないことがあるってことですか??

その通り!あと大事なことは,統計的有意差があって「治療効果なし」という帰無仮説が否定されたとしても,その正確な解釈は、「全ての対象者に対してではなく,一部の対象者には治療効果がある」ということね。

Alt tag

次に注意しないといけないのは「有意差なし」は「差がない」ことを証明できない、ということ。

Alt tag
Alt tag

「有意差あり=差あり」であれば、「有意差なし=差なし」と考えるのが自然な気がしますが,なぜなんですか?

そうだね。この「有意差なし」の解釈が難しいんだ。

Alt tag

さっきも言った通り,統計はあくまで標本からの‘推測’で,P値は「帰無仮説が正しい」という前提のもとで計算された「データの帰無仮説からのズレを測る指標」だったよね。逆に言うと,このP値は「2つの治療方法には差がある」という仮説に対してはあまり意味をもたないのです。だから,P値から「有意差なし」と判定された場合は,差があるかどうかはわからないので,結論は「保留」とします。

Alt tag
Alt tag

図 有意水準とP値の解釈

P値は、差があることは証明できても、差がないことは証明できないんだ。
若林君が読んでいたニュースは、「治療薬A投与群と治療薬B+C併用群の間で有意差なしと判定された」だったね。でも、この結果からは「両群の治療効果が同等である」とはいえないということだよ。

Alt tag
Alt tag

なるほど~、そういうことだったんですね!
では、治療効果が同じということを証明するにはどうすればいいんでしょうか??

「両群の治療効果が同等である」ことを証明するには同等性試験が必要で、通常の試験とは異なるデザイン、解析方法を用いなければならないんだ。
例えば、正確に同等だと言いたいのならば、標本数、つまり症例数はそれに見合った十分なものでなければならない。また、さっきの話で「有意差なし≠差なし」というのは理解してもらえたと思うけど、だったら同等性試験にP値は使えないということになるね。

Alt tag
Alt tag

似たような試験で、非劣性試験がありますよね?これは同等性試験と同じものなんでしょうか??

非劣性試験は、すでに有効な治療薬が存在する中、新薬は副作用が少ないなど既存薬よりも利点がある場合に、有効性について既存薬に対する優越性が証明できなくても、劣っていないことが証明できればそれでよい、という考え方なんだ。

Alt tag

同等性や非劣性を理解するためには,データと矛盾しない結果の範囲を表す「信頼区間」を使う必要があるんだけど、同等性,非劣性,優越性の違いを簡単に示すと、こんな感じかな。

Alt tag
Alt tag

図 信頼区間と同等性、非劣性、優越性の関係

臨床研究を行う時には、非劣性、同等性、優越性のどれが目的なのかを明確にすれば、目標症例数などの試験デザインが決まる。ということは、研究の意図は事前にプロトコールに記載できるから、それにしたがって研究を進めなければならない。

Alt tag

優越性を目的として始められた研究であるのに、優越性が示せなかったからと言って、途中から非劣性の解析に変わっている研究も目にするけど、それはやってはいけないことなんだ。
論文で報告された研究結果の信憑性を判断するときにも役に立つことだから、覚えておこう。

Alt tag
Alt tag

なるほど~!!簡単に「同等」と言ってはいけない理由がよくわかりました!!

では、次に「有意差」と「臨床的に意義のある差」について考えてみましょう。

Alt tag