十の並列した脳

何でも勉強する,毎週月木曜に投稿予定

基礎統計学の勘どころ #2 主な統計量について

前回↓

 

ryosuke-okubo.hatenablog.com

 

 

 

#1で扱ったヒストグラムや箱ひげ図は,データの特徴を視覚的にとらえるのに有効である。しかし,図である以上,見る人によって印象が変わりうるため,これだけで客観的な評価をすることはできない。そこで,データの特徴を「数字」で表すことを考える。

 

 

代表値

代表値とは,データを端的に表す数であり,平均値,中央値,最頻値の3つがある。

 

平均値

全てのデータを均したものである。しかし平均とひとことに言っても,いくつか種類がある。

  •  算術平均:{\displaystyle \mu = \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i = \frac{x_1 +x_2 + ... + x_n}{n}},全部足して個数で割る。
  • 幾何平均:{\displaystyle \mu =  \sqrt[n]{x_1 \times x_2 \times ... \times x_n}},全部かけて個数でルート,%の平均に用いられる。
  • 調和平均:{\displaystyle \mu_H = \frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+...+\frac{1}{x_n}}},逆数を全部足して個数で割ったものの逆数,速度の平均など。

 

以後,平均というときは算術平均を指す。

#1の例では,

成人男性20人の総コレステロール値を以下に示す。(単位mg/dL)

148 178 150 176 166 154 188 162 144 160 180 195 202 146 175 152 156 124 192

より,

{\displaystyle \bar{x} = \frac{148+178+ ... + 192}{20} = 168} 

 

また,度数分布表からも平均を算出することができる。この場合,各データの正確な値が切り落とされているため,上に示した平均と一致しないことが多い。

求めるには,階級値 x_i',相対度数 f_iとして

{\displaystyle \bar{x} = \sum_{i=1}^n f_i x_i' =f_1 x_1' + f_2 x_2' + ... +f_n x_n'}

 #1の例では,

階級

(総コレステロール値)

階級値 度数 累積度数 相対度数 累積相対度数
110~130 120 1 1 0.05 0.05
130~150 140 3 4 0.15 0.20
150~170 160 7 11 0.35 0.55
170~190 180 6 17 0.30 0.85
190~210 200 3 20 0.15 1.00
合計   20   1.00  

 {\displaystyle \bar{x} = 0.05\times 1 + 0.15\times 3 + ... +0.15\times 3 \simeq 167}

 

中央値

データを小さい順に並べたときに,ちょうど真ん中にくる値である。

#1ですでに導出ずみ(164)。

 

最頻値

度数分布表において,もっとも度数の大きい値である。

 #1の例では,度数7の160が最頻値である。

 

代表値の比較

以上3つが代表値であるが,なぜ3つもあるのだろうか?それを知るために,極端な例を用いて代表値を比較してみる。

例題:次のデータはマウスの体重gである。これについての代表値を求めよ。

19 22 21 20 23 200

 あからさまに変なのが混じっている(ドブネズミでも混ぜた?)が,とりあえず計算してみる。

まず,平均値は

{\displaystyle \bar{x} = \frac{19+22+ ... + 200}{6} \simeq 50.8} 

となる。6匹中5匹よりも大きい値となってしまった。これは200による影響を受けた結果である。平均値は全てのデータを反映してくれる一方で,外れ値に引きずられやすい。

次に,中央値は

下から3番目の21と4番目の22の中間で,20.5

となる。中央値では外れ値を除外することができる。ただし全てのデータを反映した値ではないという難点がある。

最頻値であるが,今回の例ではそもそも求めることができない。データが少なすぎて,同じ値がないためである。もしデータ数が多ければ,一番多い数がそのデータを代表するといっても十分説得力があるだろう。

 

このように,3つある代表値はそれぞれ特性が異なるため,意味を踏まえた上で使い分ける必要がある。

 

ばらつき

代表値からは,データの中心を読み取ることができる。しかし,その周辺がどのような分布であるかまでは分からない。

例題:次のデータの平均値を求めよ

(1) 5 10 15 20 25

(2) 15 15 15 15 15

計算してみると,どちらも平均値は15となる。だが2つのデータは明らかに見た目が違う。(1)では15の周辺でばらつきがあるが,(2)では15のみでばらつきはない。これを一つの数で表現したものが「分散」と「標準偏差」である。

 

分散

さて,(1)と(2)での違いを平均値との差である「偏差」で表してみる。

 

偏差:平均値からの差 {\displaystyle x_i - \bar{x}}

 

これに当てはめると,

(1) -10 -5 0 5 10

(2) 0 0 0 0 0

確かに違いが表せている。ではこれを代表値のように一つの数にしたいところだが,ただ足すだけでは0になってしまう。

 

{\displaystyle \sum (x_i - \bar{x}) = 0}

例:(1)  (-10)+(-5)+0+5+10 = 0

 

そこで,それぞれの値を2乗してから足す。

 

{\displaystyle \sum (x_i - \bar{x})^2}

 

すると偏差の大きさに応じて値が大きくなる。あとは平均のようにデータ数で割ったものが「分散」である。

 

{\displaystyle s^2 = \frac{1}{n} \sum (x_i - \bar{x})^2}

例:(1) {\displaystyle \frac{(-10)^2+(-5)^2+0^2+5^2+10^2}{5} = 50},(2) 0

 

これでばらつきを1つの値として表せるようになった。

 

標準偏差

ところで,この分散の値は具体的に何を表しているのだろうか?一度2乗をしているため,単位としてはもとの2乗となる。したがって,ルートをとって平均と同じ単位にした方が都合がいい。

 

 s = \sqrt{s^2}

例:(1)  \sqrt{50} (2) 0

 

これが「標準偏差」である。(1)と(2)のばらつきの違いが明確に表れている。

 

背景にある分布にもよるが,平均値と標準偏差の関係についてはひとまず次のように考えて差し支えない。

  • 平均値から標準偏差1個程度しか離れていないデータは,月並みなデータ
  • 平均値から標準偏差2個以上離れたデータは,特殊なデータ

これについては,のちに正規分布を説明する際に詳述する。

 

参考:入門書としておすすめ↓

 

完全独習 統計学入門

完全独習 統計学入門

 

 

 次回↓

ryosuke-okubo.hatenablog.com