基礎統計学の勘どころ #8 区間推定

前回↓

点推定では推定するパラメータを1つに定めたのに対して，区間推定では標準誤差を考慮してパラメータの区間を決める。

ここでは母平均 $\mu$ を推定するために，95%信頼区間を求めていく。

ここで間違った考え方を示す。

「母集団から標本を抽出して，得られた標本平均から95%信頼区間を求めたとき，その区間の中に95%の確率で母平均が含まれる」

正しくは，

「母集団から標本を抽出して，得られた標本平均から95%信頼区間を求める，という作業を仮に100回行ったとき，約95回はその区間の中に母平均が含まれる」

...何というか，非常に回りくどい。どうも頻度論の立場において「95%の確率で母平均が含まれる」がマズイようで，「信頼区間の中で，母平均は含まれるか含まれないかのいずれかしかない」とのこと。

f:id:ryosuke_okubo:20190503122752p:plain

参考までに他のサイトにおける信頼区間の説明について載せておく。

「母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる」（https://bellcurve.jp/statistics/course/8891.html）
「複数の信頼区間の中で真値の含まれる信頼区間は95％」（https://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/confidenceinterval.html）
「実験をたくさん、例えば100回繰り返したとき、それぞれの実験で得られたデータから計算された興味あるパラメーターが、その信頼区間に収まっている実験の頻度が、95回である」（https://qiita.com/katsu1110/items/4e8529f01a1389c03712）
「同じ母集団から抽出した20個のサンプルのうち19個（95%）で母数を含む信頼区間を得られることを示しています」（https://support.minitab.com/ja-jp/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/what-is-a-confidence-interval/）

先に結論から示す。

母分散 $\sigma^2$ が既知としたときの，標本の大きさ $n$ で標本平均 $\bar{x}$ ，不偏分散 $s^2$ の標本から推測した95%信頼区間は，

$\bar{x} - 1.96 \times \sqrt{\frac{\sigma^2}{n}} \le \mu \le \bar{x} + 1.96 \times \sqrt{\frac{\sigma^2}{n}}$

得られた標本パラメータを式に代入すればいいだけなのだが，ここで式の導出について説明しておく。

手順

標本平均 $\bar{x}$ を求める
標本平均を標準化する

中心極限定理より， $\bar{x}$ は正規分布 $N(\mu,\sqrt{\frac{\sigma^2}{n}})$ に近づくので，

$z = \frac{\bar{x}-\mu}{\sqrt{\frac{\sigma^2}{n}}}$

は標準正規分布にしたがう
標準正規分布の95%を含むzの範囲を求める

→標準正規分布表より， $-1.96 \le z \le 1.96$
3.の式を変形する

→ ${\displaystyle-1.96 \le \frac{\bar{x}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \le 1.96}$

→ $\bar{x} - 1.96 \times \sqrt{\frac{\sigma^2}{n}} \le \mu \le \bar{x} + 1.96 \times \sqrt{\frac{\sigma^2}{n}}$

しかし，母平均を推測したいのに，母分散が既知であるとは考えにくい。母分散が未知の場合，以下の点が先ほどの推定と異なる。

$t = \frac{\bar{x}-\mu}{\sqrt{\frac{s^2}{n}}}$

で定義される統計量tは，自由度 $\nu = n-1$ のt分布にしたがう。

t分布は自由度によって形状が変わり，小さいほど裾が広くなり，大きくなるにつれて標準正規分布に近づく。

母分散 $\sigma^2$ が未知としたときの，標本の大きさ $n$ で標本平均 $\bar{x}$ ，不偏分散 $s^2$ の標本から推測した95%信頼区間は，

$\bar{x} - t_{\frac{\alpha}{2}}(\nu) \times \sqrt{\frac{s^2}{n}} \le \mu \le \bar{x} + t_{\frac{\alpha}{2}}(\nu) \times \sqrt{\frac{s^2}{n}}$

手順

標本平均 $\bar{x}$ と不偏分散 $s^2$ を求める
統計量tを計算する

$t = \frac{\bar{x}-\mu}{\sqrt{\frac{s^2}{n}}}$
t分布の95%を含むtの範囲を求める

→t分布表の $\alpha$ は上側確率であるので，95%信頼区間における両側確率は $\frac{\alpha}{2} = 0.025$

例えば標本の大きさが5の場合，自由度 $\nu = 5-1 = 4$ より，

$t_{0.025}(4) = 2.776$

縦軸は自由度，横軸は上側確率（両側確率の半分）を示す

→t分布の95%を含むtの範囲は

$-t_{\frac{\alpha}{2}}(\nu) \le t \le t_{\frac{\alpha}{2}}(\nu)$

自由度4のt分布の95%区間
3.の式を変形する

→ $-t_{\frac{\alpha}{2}}(\nu) \le t \le t_{\frac{\alpha}{2}}(\nu)$

→ $\bar{x} - t_{\frac{\alpha}{2}}(\nu) \times \sqrt{\frac{s^2}{n}} \le \mu \le \bar{x} + t_{\frac{\alpha}{2}}(\nu) \times \sqrt{\frac{s^2}{n}}$