基礎統計学の勘どころ #1 度数分布表とヒストグラム,箱ひげ図
統計学の知識を必要とする場面はとにかく多い。本記事では特に学部教養レベルの統計学について簡単に説明していく。#1ではデータの可視化について取り扱う。
度数分布表とヒストグラム
例えば次のような場面を考えてみる。
成人男性20人の総コレステロール値を以下に示す。(単位mg/dL)
148 178 150 176 166 154 188 162 144 160 180 195 202 146 175 152 156 124 192 172
...これだけではただの数字の羅列である。いくら眺めていても,このデータから何がいえるか見えてこない。そこで,このデータを大まかに分類して,それを可視化することで,データの特徴をつかめるようにする。今回は「大まかに分類」するために度数分布表,「可視化」にはヒストグラムを作成する。
度数分布表
まず度数分布表を作成する。
手順
1. データの中から最小値と最大値を見つける。
→最小値:124 最大値:202
2. おおよそ範囲が最小値から最大値になるよう区切りのいい範囲を設定して,それを小区間ごとに区切る(階級幅,階級数を決める) 。階級幅,階級数の決め方は後述。
→範囲:110〜210,20ごとに区切り5個の階級に分ける
3. 各階級を代表する値(階級値)を決める。
→階級110〜130の階級値は120,など
4. データのうち各階級に当てはまる数(度数)を数える。
→階級110〜130の度数は1(データ:124),など
5. その階級までの度数を合計した値(累積度数)を計算する。
6. 各階級の度数の,全体の中に占める割合(相対度数)を計算する。また,その階級までの相対度数を合計した値(累積相対度数)を計算する。
階級 (総コレステロール値) |
階級値 | 度数 | 累積度数 | 相対度数 | 累積相対度数 |
---|---|---|---|---|---|
110~130 | 120 | 1 | 1 | 0.05 | 0.05 |
130~150 | 140 | 3 | 4 | 0.15 | 0.20 |
150~170 | 160 | 7 | 11 | 0.35 | 0.55 |
170~190 | 180 | 6 | 17 | 0.30 | 0.85 |
190~210 | 200 | 3 | 20 | 0.15 | 1.00 |
合計 | 20 | 1.00 |
ヒストグラム
度数分布表が作成できたら,階級値と度数をもとにヒストグラムを作成する。
度数分布表やヒストグラムをみると,160や180くらいの人が多い,160を中心に減少している,などデータの大まかな傾向がわかると思う。はじめに示した数字の羅列と比べると一目瞭然である。ただし,個々のデータの情報は,度数分布表やヒストグラムには含まれなくなる点に注意が必要である。
このように,大量のデータから何かを読み取れるような形に整理することは,統計学の基礎として重要である。
補足:階級幅の決め方
階級幅を変えたときのヒストグラムを以下に示す。
あまりに細かすぎると全体の傾向がつかみにくい。逆に大ざっぱだと傾向が浮かんでこない。このため,階級幅を適切に決めて見やすくする必要がある。
実際にデータ分析を行うときは,階級幅や階級数のパラメータを試行錯誤しながらいじればよい。参考までに,階級数の目安となるスタージェスの公式を以下に示しておく。
階級数 (nはデータ数)
今回の例では,となるので,4~5個の階級数に設定するのがよい。
箱ひげ図
もう一つ可視化の道具として,箱ひげ図を紹介する。以下,同じ例を用いて箱ひげ図を作成していく。
手順
1. データを小さい順に並べる。
→ 124 144 146 148 150 152 154 156 160 162 166 172 175 176 178 180 188 192 195 202
2. データのちょうど真ん中にあたる値(中央値)を求める。
→データ数は20なので,10番目(162)と11番目(166)の平均が中央値である。→中央値:164
3. 下から数えて1/4のところのデータ(第1四分位数)と,下から数えて3/4のところのデータ(第3四分位数)を求める。
→第1四分位数:5番目(150)と6番目の平均(152)→151
第3四分位数:15番目(178)と16番目の平均(180)→179
4. 「第3四分位数 - 第1四分位数」の値(四分位範囲)を求める。
→179 - 151 = 28
これらの数値をもとに箱ひげ図を作成する。
参考:問題は以下の書籍を参考に作成した。
次回↓