今さら聞けない医学統計の基本

医学統計の基本シリーズ第3回:
相関と回帰の基本 解説3

下記のように、2つの変数の関係が一直線でなく曲線になっている場合は、「回帰曲線(regression curve)」とよばれます。
一見難しそうだけど、回帰曲線の解釈も直線の場合と同じだよ。

Alt tag
Alt tag

図 回帰曲線の例

Alt tag

直線と曲線、どちらが適しているか迷う場合はどうすれば良いのでしょうか?

その場合は、それぞれの「決定係数(coefficient of determination:R2)」を求め、値の大きいほうを採用します。

Alt tag

決定係数の求め方

  1. 回帰式から得られるyの予測値と実測値の散布図を作る
  2. プロットをもとに相関係数rを求める
Alt tag

3. rを2乗することで決定係数R2が求められる

決定係数は0≦R2≦1の範囲をとり、1に近いほど回帰式の予測精度が高いと判定できるんだ。

Alt tag
Alt tag

なるほど~!ありがとうございました!

先生方のおかげで「相関」と「回帰」の基本を整理することができました!

では、最後に今回のまとめです。

Alt tag

第3回 「相関と回帰の基本」 まとめ

1.  相関は2つの変数の直線関係を調べる解析法

  • 相関関係を評価するためには、まず散布図を作成する
  • 相関関係の強さを表す値は「相関係数」と呼ばれ、r(アール)と表現される

2.  rの特徴と解釈

  • 相関係数rは-1≦r≦1の範囲の値をとる
  • r値がプラスは正の相関、マイナスは負の相関を意味する
  • rが1または-1に近いほど2つの変数は直線に近くなり、強い相関があると解釈する

3.  2つの相関係数

  • ピアソンの積率相関係数(Pearson’s product moment correlation coefficient)2つの変数の分布が“どちらも”正規分布とみなせる場合に利用される
  • スピアマンの順位相関係数(Spearman’s rank correlation coefficient)2つの変数の分布の“どちらか又は両方”が正規分布とみなせない場合に利用される

4.  相関の強さと仮説検定

  • r値を使った相関の強さの判断基準は厳密には決められていない
  • 2つの変数に「統計的に有意な」相関関係があるかどうかは仮説検定を利用可能
  • ただし、統計的に有意(p<0.05)な相関関係でも臨床的に価値がない場合もある
  • 例:数千例で計算したr=0.1(弱い相関)

5.  回帰は1つの項目(変数)の値から、もう1つの項目(変数)の値を予測するための解析法
例:BMIの値から血中コレステロール濃度を予測する

6.  回帰直線は、直線式y=a+b xで表され、xの値からyの値を予測する

  • 回帰直線に信頼区間曲線を追加して、あるxからyの平均値と信頼区間を推定可能

7.  2つの変数の関係が一直線でなく曲線の場合は回帰曲線でxからyを推定する

8.  回帰直線と回帰曲線のどちらが適しているかを判断するために「決定係数(coefficient of determination:R2)」を利用する

  • 決定係数R2は回帰式から得られるyの予測値と実測値の相関係数rの2乗
  • 決定係数は0≦R2≦1の範囲をとる
  • 決定係数R2が1に近いほど回帰式の予測精度が高いと判断する