十の並列した脳

何でも勉強する,毎週月木曜に投稿予定

基礎統計学の勘どころ #3 散布図と相関分析

前回↓

ryosuke-okubo.hatenablog.com

 

 

散布図

次のデータは,8人の健康な女性の血圧値(収縮期血圧)である。

106 113 110 124 130 128 142 155

 統計量を計算してみると,平均値:126,標準偏差:15.60となる。

f:id:ryosuke_okubo:20190201155926p:plain

図1 血圧の分布

ところで,このばらつきには何か原因があるのだろうか。例えば年齢との関係を調べてみると,次のようにまとめられた。

年齢 29 31 35 39 40 49 56 63
血圧 106 113 110 124 130 128 142 155

 年齢の高さと血圧の高さには関係がありそうである。この関係を図で表しすために「散布図」を用いてみる。散布図は2つの変数の量をプロットしたものである。

f:id:ryosuke_okubo:20190201160006p:plain

図2 年齢と血圧の関係


血圧の高さと年齢の高さには強い関係があることが,散布図から一目でわかる。 

 

相関には「正負」と「強弱」があり,散布図から読み取れる。

f:id:ryosuke_okubo:20190201160918j:plain

図3 相関の正負と強弱

今回の例では強い正の相関が見られる。

 

相関係数

相関関係を1つの数字で表したのが,相関係数である。以下,その導出手順を示す。

 

手順

  1. 各変量の平均値 \bar{x} \ , \bar{y},偏差 x_i-\bar{x} \ , y_i-\bar{y}標準偏差 s_x \ , s_yを求める。
  2. 共分散 s_{xy}を求める。

     {\displaystyle s_{xy} = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}

     この式の意味について説明する。

    f:id:ryosuke_okubo:20190131173606p:plain

    図4 (x_i-\bar{x})(y_i-\bar{y})

    散布図をそれぞれの平均を境に4つに分けると,(x_i-\bar{x})の正負と(y_i-\bar{y})の正負で分けられる。

    f:id:ryosuke_okubo:20190131173613p:plain

    図5 (x_i-\bar{x})の正負と(y_i-\bar{y})の正負による,(x_i-\bar{x})(y_i-\bar{y})の正負

    それで式中の(x_i-\bar{x})(y_i-\bar{y})の正負についてみていくと,図6のように表せられる。散布図において右上と左下が正,左上と右下が負となる。

    f:id:ryosuke_okubo:20190131173624p:plain

    図6 共分散の正負

    あとは正の区間に多いか,負の区間に多いかで,共分散の正負が決まってくる。実質,相関の正負が共分散によって決められているといえる。

  3. 相関係数 r_{xy}を求める。

      {\displaystyle r_{xy} = \frac{s_{xy}}{s_x s_y}}, \ -1\le r_{xy} \le 1

     相関係数は,共分散を-1から1の値に正規化したものである。相関係数については次のことが重要である。

    •   r_{xy}が+1に近いほど,正の相関が強い
    •  r_{xy}が-1に近いほど,負の相関が強い
    •  r_{xy}が0に近いほど,相関が弱い

 では,血圧の例について相関係数を求める。以下のような表を作成すると便利である。

  x_i y_i x_i - \bar{x} (x_i - \bar{x})^2 y_i - \bar{y} (y_i - \bar{y})^2 (x_i - \bar{x})(y_i - \bar{y})
  29 106 -13.75 189. -20 400 (-13.75) × (-20)
  31 113 -11.75 138. -13 169 (-11.75) × (-13)
               
  63 155 20.25 410. 29 841 20.25 × 29
\sum 342 1008 0 1033.5 0 1946 1360
{\displaystyle \frac{1}{n}\sum} 42.75 = \bar{x} 126= \bar{y}   129.= s_x^2   243.= s_y^2 170=s_{xy}
\sqrt{}       11.37= s_x   15.60= s_y  

これより,   {\displaystyle r_{xy} = \frac{170}{11.37 \times 15.60} = 0.958}

 

強い正の相関がみられることを,1つの値で表すことができた。

 

相関関係を解釈するときの注意点

相関係数では,線形でない関係は表せない 

f:id:ryosuke_okubo:20190203094004p:plain

図7 線形でない関係の例

例えば図7のような散布図について,相関係数は0に近い値をとる。しかし,2つの変数は2次関数で表せそうである。このような例があり得るので,相関関係を評価するには相関係数だけでなく,散布図をみて大体の関係をつかんでおく必要がある。

 

因果関係を読み取ることはできない

f:id:ryosuke_okubo:20190201155439p:plain
f:id:ryosuke_okubo:20190201155442p:plain
図8 (左)相関関係 (右)因果関係

たとえとして次のような話がある。

”交番の数と犯罪者数の関係を調べて「交番の数が多いところは,犯罪者数も多い」と結論づけて,交番の数を減らした”

......それで犯罪者数は減るのか?おそらくそんなことはないだろう。実際には「犯罪者数も多いところは,交番の数も多い」だろう。これは逆因果の例である。

因果関係はどちらが原因かがはっきりしている(図8ではX)。しかし相関関係はどちらが原因かまではわからない,わかるのは関係があることだけである。

 

第3の因子がないか注意

f:id:ryosuke_okubo:20190201155445p:plain

図9 第3の因子

例:

”アイスクリームの売り上げと水難事故の数との間には,正の相関がみられる”

じゃあアイスクリーム食べられないじゃないか!とはならない。これは擬似相関の例であり,この場合は「暑いこと」が第3の因子として考えられる。

擬似相関については,偏相関係数r_{xy \cdot z}で数値化される。

{\displaystyle r_{xy \cdot z} = \frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r^2_{xz}}\sqrt{1-r^2_{yz}}}}

 

ただの偶然もあり得る

遠く離れた出来事を無理やり結びつけることで起きやすい。ただしこれを否定するのは容易ではない。私感になるが,反証可能性に劣るということで却下,ということにはならないだろうか。

 

まとめ

相関係数に限らずデータを読むときは,「何について示されていて,何について示されていないか」を把握することが重要である。

 

参考:血圧について↓

www.ncvc.go.jp

 

次回↓

 

ryosuke-okubo.hatenablog.com