基礎統計学の勘どころ #8 区間推定
前回↓
区間推定の考え方
点推定では推定するパラメータを1つに定めたのに対して,区間推定では標準誤差を考慮してパラメータの区間を決める。
ここでは母平均を推定するために,95%信頼区間を求めていく。
ここで間違った考え方を示す。
「母集団から標本を抽出して,得られた標本平均から95%信頼区間を求めたとき,その区間の中に95%の確率で母平均が含まれる」
正しくは,
「母集団から標本を抽出して,得られた標本平均から95%信頼区間を求める,という作業を仮に100回行ったとき,約95回はその区間の中に母平均が含まれる」
...何というか,非常に回りくどい。どうも頻度論の立場において「95%の確率で母平均が含まれる」がマズイようで,「信頼区間の中で,母平均は含まれるか含まれないかのいずれかしかない」とのこと。
参考までに他のサイトにおける信頼区間の説明について載せておく。
- 「母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる」(https://bellcurve.jp/statistics/course/8891.html)
- 「複数の信頼区間の中で真値の含まれる信頼区間は95%」(https://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/confidenceinterval.html)
- 「実験をたくさん、例えば100回繰り返したとき、それぞれの実験で得られたデータから計算された興味あるパラメーターが、その信頼区間に収まっている実験の頻度が、95回である」(https://qiita.com/katsu1110/items/4e8529f01a1389c03712)
- 「同じ母集団から抽出した20個のサンプルのうち19個(95%)で母数を含む信頼区間を得られることを示しています」(https://support.minitab.com/ja-jp/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/what-is-a-confidence-interval/)
母分散が既知の場合
先に結論から示す。
母分散が既知としたときの,標本の大きさで標本平均,不偏分散の標本から推測した95%信頼区間は,
得られた標本パラメータを式に代入すればいいだけなのだが,ここで式の導出について説明しておく。
手順
母分散が未知の場合
しかし,母平均を推測したいのに,母分散が既知であるとは考えにくい。母分散が未知の場合,以下の点が先ほどの推定と異なる。
- 母分散の代わりに,不偏分散を用いる
- 標準正規分布の代わりに,t分布を用いる
で定義される統計量tは,自由度のt分布にしたがう。
t分布は自由度によって形状が変わり,小さいほど裾が広くなり,大きくなるにつれて標準正規分布に近づく。
母分散が未知としたときの,標本の大きさで標本平均,不偏分散の標本から推測した95%信頼区間は,
手順
-
標本平均と不偏分散を求める
-
統計量tを計算する
-
t分布の95%を含むtの範囲を求める
→t分布表のは上側確率であるので,95%信頼区間における両側確率は
例えば標本の大きさが5の場合,自由度より,
→t分布の95%を含むtの範囲は
-
3.の式を変形する
→
→
問題を解いてみる
例えば,新薬Aの母平均を95%信頼区間で推定してみる。
より,
整理して,
プラセボも同様にして,
棒グラフで表すと以下のようになる。黒棒の範囲が95%信頼区間である。
グラフを見てみると,平均には差があるものの, 95%信頼区間が一部重複している。つまり,母平均の差がないことも十分考えられる。
次回↓