今さら聞けない医学統計の基本

医学統計の基本シリーズ第3回:
相関と回帰の基本
解説2:回帰の基本

回帰(regression)」は、1つの項目の値から、もう1つの項目の値を予測するための解析法です。

Alt tag

たとえば、BMIが高いほど血中コレステロール濃度が高いというデータがあるとして、BMIの値から血中コレステロール濃度を予測するための計算式を作るのが「回帰」という方法なんだ。
相関と回帰の違いを簡略化すると下記のようになる。

Alt tag
Alt tag
Alt tag

図 相関と回帰の違い

散布図の上に引いた直線は、2つの変数の関係を示す「回帰直線(regression line)」で、直線式はy=a+b xで表されます。

Alt tag
Alt tag

図 回帰直線の例(年齢から収縮期血圧を予測)

Alt tag

一次関数ですね。

そう。さらに回帰直線の平均の信頼区間を求めると、与えられた年齢に対する収縮期血圧の平均値の95%信頼区間を推測することができるんだ。下記の散布図で、回帰直線の上下に書かれた2本の点線は「信頼区間曲線」とよばれ、信頼区間の上限と下限の値を示している。

Alt tag
Alt tag

図 回帰直線の例(信頼区間曲線を追加)

この曲線に挟まれた範囲が、ある年齢に対する収縮期血圧の平均値に対するデータと矛盾しない範囲になるんだ。

Alt tag
Alt tag

ということは・・・下の図でみると、年齢の値が①のとき、
線②とy軸との交点が平均収縮期血圧、
線③とy軸との交点が平均値の95%信頼区間の上限値、
線④とy軸との交点が平均値の95%信頼区間の下限値ということですか?

Alt tag

図 回帰直線の例(年齢①から収縮期血圧の平均②と信頼区間上限③、下限④を推定)

その通り!回帰直線の読み方は理解できたようだね。

Alt tag
Alt tag

一次関数の回帰式はわかりやすいのですが、2変数の関係はいつも直線で表せるものなんでしょうか?

良い質問だね。いつも直線で表せるとは限らないんだ。

Alt tag