十の並列した脳

何でも勉強する,毎週月木曜に投稿予定

基礎統計学の勘どころ #8 区間推定

前回↓

 

 

ryosuke-okubo.hatenablog.com

 

 

 

区間推定の考え方

点推定では推定するパラメータを1つに定めたのに対して,区間推定では標準誤差を考慮してパラメータの区間を決める。

ここでは母平均\muを推定するために,95%信頼区間を求めていく。

 

ここで間違った考え方を示す。

「母集団から標本を抽出して,得られた標本平均から95%信頼区間を求めたとき,その区間の中に95%の確率で母平均が含まれる」

正しくは,

「母集団から標本を抽出して,得られた標本平均から95%信頼区間を求める,という作業を仮に100回行ったとき,約95回はその区間の中に母平均が含まれる」

...何というか,非常に回りくどい。どうも頻度論の立場において「95%の確率で母平均が含まれる」がマズイようで,「信頼区間の中で,母平均は含まれるか含まれないかのいずれかしかない」とのこと。

f:id:ryosuke_okubo:20190503122752p:plain

 

参考までに他のサイトにおける信頼区間の説明について載せておく。

  

母分散が既知の場合

先に結論から示す。

母分散\sigma^2が既知としたときの,標本の大きさnで標本平均\bar{x},不偏分散s^2の標本から推測した95%信頼区間は,

{\displaystyle \bar{x} - 1.96 \times \sqrt{\frac{\sigma^2}{n}} \le \mu \le \bar{x} + 1.96 \times \sqrt{\frac{\sigma^2}{n}}}

 

得られた標本パラメータを式に代入すればいいだけなのだが,ここで式の導出について説明しておく。

手順

  1. 標本平均\bar{x}を求める

  2. 標本平均を標準化する

    中心極限定理より,\bar{x}正規分布{\displaystyle N(\mu,\sqrt{\frac{\sigma^2}{n}})}に近づくので,

    {\displaystyle z = \frac{\bar{x}-\mu}{\sqrt{\frac{\sigma^2}{n}}}}

    は標準正規分布にしたがう

  3. 標準正規分布の95%を含むzの範囲を求める

    →標準正規分布表より,-1.96 \le z \le 1.96

    f:id:ryosuke_okubo:20190504105824p:plain

  4. 3.の式を変形する

    {\displaystyle-1.96 \le \frac{\bar{x}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \le 1.96}

    {\displaystyle \bar{x} - 1.96 \times \sqrt{\frac{\sigma^2}{n}} \le \mu \le \bar{x} + 1.96 \times \sqrt{\frac{\sigma^2}{n}}}

 

 

母分散が未知の場合

しかし,母平均を推測したいのに,母分散が既知であるとは考えにくい。母分散が未知の場合,以下の点が先ほどの推定と異なる。

  • 母分散\sigma^2の代わりに,不偏分散s^2を用いる
  • 標準正規分布の代わりに,t分布を用いる

 

{\displaystyle t = \frac{\bar{x}-\mu}{\sqrt{\frac{s^2}{n}}}}

で定義される統計量tは,自由度\nu = n-1のt分布にしたがう。

f:id:ryosuke_okubo:20190504114609p:plain

自由度νのt分布と標準正規分布

t分布は自由度によって形状が変わり,小さいほど裾が広くなり,大きくなるにつれて標準正規分布に近づく。

母分散\sigma^2が未知としたときの,標本の大きさnで標本平均\bar{x},不偏分散s^2の標本から推測した95%信頼区間は,

{\displaystyle \bar{x} - t_{\frac{\alpha}{2}}(\nu) \times \sqrt{\frac{s^2}{n}} \le \mu \le \bar{x} + t_{\frac{\alpha}{2}}(\nu) \times \sqrt{\frac{s^2}{n}}}

手順

  1. 標本平均\bar{x}と不偏分散s^2を求める

  2. 統計量tを計算する

    {\displaystyle t = \frac{\bar{x}-\mu}{\sqrt{\frac{s^2}{n}}}}

  3. t分布の95%を含むtの範囲を求める

    →t分布表の\alphaは上側確率であるので,95%信頼区間における両側確率は{\displaystyle \frac{\alpha}{2} = 0.025}

    例えば標本の大きさが5の場合,自由度\nu = 5-1 = 4より,

     {\displaystyle t_{0.025}(4) = 2.776}

    f:id:ryosuke_okubo:20190504113956p:plain

    縦軸は自由度,横軸は上側確率(両側確率の半分)を示す

    →t分布の95%を含むtの範囲は

     {\displaystyle -t_{\frac{\alpha}{2}}(\nu) \le t \le t_{\frac{\alpha}{2}}(\nu)}

    f:id:ryosuke_okubo:20190504114635p:plain

    自由度4のt分布の95%区間
  4. 3.の式を変形する

    → {\displaystyle -t_{\frac{\alpha}{2}}(\nu) \le t \le t_{\frac{\alpha}{2}}(\nu)}

    {\displaystyle \bar{x} - t_{\frac{\alpha}{2}}(\nu) \times \sqrt{\frac{s^2}{n}} \le \mu \le \bar{x} + t_{\frac{\alpha}{2}}(\nu) \times \sqrt{\frac{s^2}{n}}}

 

問題を解いてみる

例えば,新薬Aの母平均を95%信頼区間で推定してみる。

\bar{x_A} = 94.95 , \ s^2 = 80.38, \ n=10, \ \nu = 10-1 = 9より,

{\displaystyle 94.95 - t_{0.025}(9) \times \sqrt{\frac{80.38}{10}} \le \mu \le 94.95 + t_{0.025}(9) \times \sqrt{\frac{80.38}{10}}}

整理して, 

{\displaystyle 88.54 \le \mu \le 101.36}

 

プラセボも同様にして,

{\displaystyle 95.54 \le \mu \le 106.38}

 

棒グラフで表すと以下のようになる。黒棒の範囲が95%信頼区間である。

f:id:ryosuke_okubo:20190504134952p:plain

グラフを見てみると,平均には差があるものの, 95%信頼区間が一部重複している。つまり,母平均の差がないことも十分考えられる。

 

次回↓

 

ryosuke-okubo.hatenablog.com