基礎統計学の勘どころ #3 散布図と相関分析
前回↓
散布図
次のデータは,8人の健康な女性の血圧値(収縮期血圧)である。
106 113 110 124 130 128 142 155
統計量を計算してみると,平均値:126,標準偏差:15.60となる。
ところで,このばらつきには何か原因があるのだろうか。例えば年齢との関係を調べてみると,次のようにまとめられた。
年齢 | 29 | 31 | 35 | 39 | 40 | 49 | 56 | 63 |
---|---|---|---|---|---|---|---|---|
血圧 | 106 | 113 | 110 | 124 | 130 | 128 | 142 | 155 |
年齢の高さと血圧の高さには関係がありそうである。この関係を図で表しすために「散布図」を用いてみる。散布図は2つの変数の量をプロットしたものである。
血圧の高さと年齢の高さには強い関係があることが,散布図から一目でわかる。
相関には「正負」と「強弱」があり,散布図から読み取れる。
今回の例では強い正の相関が見られる。
相関係数
相関関係を1つの数字で表したのが,相関係数である。以下,その導出手順を示す。
手順
- 各変量の平均値,偏差,標準偏差を求める。
-
共分散を求める。
この式の意味について説明する。
散布図をそれぞれの平均を境に4つに分けると,の正負との正負で分けられる。
それで式中のの正負についてみていくと,図6のように表せられる。散布図において右上と左下が正,左上と右下が負となる。
あとは正の区間に多いか,負の区間に多いかで,共分散の正負が決まってくる。実質,相関の正負が共分散によって決められているといえる。
-
相関係数を求める。
相関係数は,共分散を-1から1の値に正規化したものである。相関係数については次のことが重要である。
- が+1に近いほど,正の相関が強い
- が-1に近いほど,負の相関が強い
- が0に近いほど,相関が弱い
では,血圧の例について相関係数を求める。以下のような表を作成すると便利である。
29 | 106 | -13.75 | 189. | -20 | 400 | (-13.75) × (-20) | |
31 | 113 | -11.75 | 138. | -13 | 169 | (-11.75) × (-13) | |
63 | 155 | 20.25 | 410. | 29 | 841 | 20.25 × 29 | |
342 | 1008 | 0 | 1033.5 | 0 | 1946 | 1360 | |
42.75 = | 126= | 129.= | 243.= | 170= | |||
11.37= | 15.60= |
これより,
強い正の相関がみられることを,1つの値で表すことができた。
相関関係を解釈するときの注意点
相関係数では,線形でない関係は表せない
例えば図7のような散布図について,相関係数は0に近い値をとる。しかし,2つの変数は2次関数で表せそうである。このような例があり得るので,相関関係を評価するには相関係数だけでなく,散布図をみて大体の関係をつかんでおく必要がある。
因果関係を読み取ることはできない
たとえとして次のような話がある。
”交番の数と犯罪者数の関係を調べて「交番の数が多いところは,犯罪者数も多い」と結論づけて,交番の数を減らした”
......それで犯罪者数は減るのか?おそらくそんなことはないだろう。実際には「犯罪者数も多いところは,交番の数も多い」だろう。これは逆因果の例である。
因果関係はどちらが原因かがはっきりしている(図8ではX)。しかし相関関係はどちらが原因かまではわからない,わかるのは関係があることだけである。
第3の因子がないか注意
例:
”アイスクリームの売り上げと水難事故の数との間には,正の相関がみられる”
じゃあアイスクリーム食べられないじゃないか!とはならない。これは擬似相関の例であり,この場合は「暑いこと」が第3の因子として考えられる。
擬似相関については,偏相関係数で数値化される。
ただの偶然もあり得る
遠く離れた出来事を無理やり結びつけることで起きやすい。ただしこれを否定するのは容易ではない。私感になるが,反証可能性に劣るということで却下,ということにはならないだろうか。
まとめ
相関係数に限らずデータを読むときは,「何について示されていて,何について示されていないか」を把握することが重要である。
参考:血圧について↓
次回↓