今さら聞けない医学統計の基本

医学統計の基本シリーズ第3回:
相関と回帰の基本
解説1:「相関」関係を判断するには

基本から確認しましょうか。「相関(correlation)」は、2つの変数の直線的関係を調べる解析法だよね。

Alt tag

たとえば、年齢が高くなれば収縮期血圧も高くなるのか、年齢が高くなればeGFRは低くなるのか、などの関係性を見ようとしているんだ。

Alt tag
Alt tag

先生方のおっしゃる「相関」のイメージはなんとなく掴めました。

下図が「散布図(scatter plot)」。
左上にあるr値は、「ピアソンの積率相関係数(Pearson’s product moment correlation coefficient)」、シンプルに「相関係数」「ピアソンのr(Pearson’s r)」とよばれることもあるけど、相関関係の強さを示す値です。

Alt tag
Alt tag
Alt tag

図 散布図と相関係数

相関係数は-1≦r≦1の範囲の値をとり、r値がプラスであれば正の相関(positive correlation)、r値がマイナスの場合は負の相関(negative correlation)があると言います。

Alt tag
Alt tag

図 相関係数の範囲と解釈

一般的に、r値が1または-1に近づくほど各データは直線近くに集中し、2つの変数に「強い相関がある」と解釈できます。

Alt tag

まとめると、r=0であれば相関がない、r≠0であれば相関がある、と判断できるということだね。データの散らばり具合と相関係数を見れば、2つの変数のおおよその相関関係が分かるんだ。

Alt tag

ちなみに、相関係数にはもうひとつ「スピアマンの順位相関係数(Spearman’s rank correlation coefficient)」があるので、ピアソンの相関係数と併せて憶えておこうね。
2つの変数が正規分布とみなせる場合はピアソンの積率相関係数、2つのうちどちらか一方でも正規分布とみなせなければスピアマンの順位相関係数、という風に使い分けます。

Alt tag
Alt tag

グラフ上のデータ分布とr値をみることで、2つの変数の相関関係の有無とその程度が判断できる点はわかりました。
r値がいくつ以上なら、強い相関といえるのでしょうか?

確かに、r=0.98やr=0.1であればどの程度の相関関係であるか容易に判定できるね。しかし、r値がいくつ以上なら強い相関関係、という判断基準は厳密には定められていないんだ。その代わり,P値を求めて2つの変数に「統計的に有意な」相関関係があるかどうかは判断できるんだよ。

Alt tag
Alt tag

そこで仮説検定を使うんですね。

その通り。仮説検定によってP値を求め、P<0.05となった場合は「調べた2つの変数間に統計的に有意な相関関係がある」ということになるんだ。ただし,P値を使った相関係数の解釈については,いくつか注意することがあるんだよ。例えば,数千例の標本では,r=0.1の統計的に有意な相関が見られことがあるけど,臨床的にはそれほど重要な関連は無いと考えられる場合があるんだ。また,探索的に多変数間で相関関係を評価することがあるけれど,有意水準5%では,20回に1回は偶然有意になるから,真の関連性と区別がつかないことがある。相関係数から関連性を議論するときには,個々の場合にその臨床的価値に基づいて判断したり,再現性を確認したりするべきだろうね。

Alt tag
Alt tag

ありがとうございます、相関関係の解釈が理解できました。

では、次に回帰について考えてみましょうか。

Alt tag