十の並列した脳

何でも勉強する,毎週月木曜に投稿予定

基礎統計学の勘どころ #6 代表的な確率分布

前回↓

ryosuke-okubo.hatenablog.com

 

確率分布の代表例として,離散確率分布から2項分布ポアソン分布,連続確率分布から正規分布標準正規分布は最低限知っておくべきである。本記事ではそれらの性質について説明する。

 

 

2項分布とポアソン分布

2項分布

「コインを投げて表が出るか裏が出るか」のように,何かを行ったときに起こる結果が「成功」か「失敗」かの2つしかない試行のことをベルヌーイ試行という。このとき表が出る(成功)確率をpとすると,裏が出る(失敗)確率は1-pである。

この試行をn回行って成功する回数Xがしたがう確率分布が2項分布であり,成功する確率をpとすると,

X \sim B(n,p)

と表記される。

この試行をn回行ってk回成功する確率は次式で表される。

{\displaystyle P(X=k)={}_n C _k p^k (1-p)^{n-k}}

 

式の意味を,具体例で説明してみる。

例:サイコロを3回投げて,1の目がk回出るときの確率変数X

 

この試行は{\displaystyle X \sim B(3,\frac{1}{6})}であり,k回成功する確率は

{\displaystyle P(X=k)={}_3 C _k(\frac{1}{6})^k (1-\frac{1}{6})^{3-k}}

 

式の意味:

{}_3 C _kの部分はk回成功する組み合わせの個数について示している。

また,{\displaystyle (\frac{1}{6})^k (1-\frac{1}{6})^{3-k}}はある1つの組み合わせについて,k回成功してn-k回失敗する確率を示している。

 

表にまとめる。

X=k 0 1 2 3
組み合わせの個数 {}_3 C _0 = 1 {}_3 C _1 = 3 {}_3 C _2 = 3 {}_3 C _3 = 1
ある1つの組み合わせについて,k回成功してn-k回失敗する確率 {\displaystyle (\frac{1}{6})^0 (1-\frac{1}{6})^{3-0}} \\ \displaystyle = \frac{5^3}{6^3} {\displaystyle (\frac{1}{6})^1 (1-\frac{1}{6})^{3-1}} \\ \displaystyle = \frac{5^2}{6^3} {\displaystyle (\frac{1}{6})^2 (1-\frac{1}{6})^{3-2}} \\ \displaystyle = \frac{5^1}{6^3} {\displaystyle (\frac{1}{6})^3 (1-\frac{1}{6})^{3-3}} \\ \displaystyle = \frac{1}{6^3}
k回成功する確率 {\displaystyle \frac{125}{6^3}} {\displaystyle \frac{75}{6^3}} {\displaystyle \frac{15}{6^3}} {\displaystyle \frac{1}{6^3}}

 グラフ

f:id:ryosuke_okubo:20190224105308p:plain

 

X \sim B(n,p)において,期待値と分散は以下のようになる。

E(X)=np, V(X)=np(1-p)(証明略,はじめのうちは暗記でもよい)

例において,{\displaystyle X \sim B(3,\frac{1}{6})}なので

{\displaystyle E(X)=3 \times \frac{1}{6} =\frac{1}{2}}, {\displaystyle V(X)=3 \times \frac{1}{6} \times (1-\frac{1}{6})=\frac{5}{12}}

 

2項分布の詳細,証明:

二項分布の平均と分散の二通りの証明 | 高校数学の美しい物語

 

ポアソン分布

ベルヌーイ試行において,nが十分大きくpが非常に低い場合, np=\lambdaとおいて,Xはポアソン分布にしたがうと考えられる(X \sim Po(\lambda))。これは交通事故の回数などに,よく当てはまるとされている。

{\displaystyle P(X=k) = e^{-\lambda}\frac{\lambda^k}{k!}}

ポアソン分布にしたがう確率変数は,期待値と分散が等しいという特徴がある。

 E(X) =\lambda,V(X) =\lambda

 

2項分布からポアソン分布を導出する過程については,ポアソンの極限定理を調べてほしい。

例:

ポアソンの極限定理 | 永田 晴久

 

なお,その他の離散確率分布については,以下の記事でざっくりと解説している。

ryosuke-okubo.hatenablog.com

 

正規分布と標準正規分布

正規分布

自然現象の多くは正規分布にしたがうと考えられており,そのため正規分布は確率分布の中でも特別視されている。正規分布は確率変数X平均\mu分散\sigma^2により規定され, X \sim N(\mu,\sigma^2)と表記される。確率密度関数f(x)

{\displaystyle  f(x)  = \frac{1}{\sqrt {2 \pi} \sigma} e^{-\frac{(x - \mu)^2}{2 \sigma^2}}}

である。また確率変数Xの期待値と分散は次のとおりである。

E(X) = \muV(X) = \sigma^2

 

グラフ(\mu=50\sigma^2=10^2

f:id:ryosuke_okubo:20190224110204p:plain 

 

正規分布が持つ性質について,以下のことは重要である。いずれも後の計算問題で多用される。

  • 確率密度は0から1の値をとる(負の値をとらない)。
  • 確率密度の合計は1
  • x = \muを軸に左右対称のグラフを描く
  • \mu - 1.96\sigma \sim \mu + 1.96\sigmaの範囲内に,全体の約95%が含まれる(重要

 

 ここで,2項分布と正規分布の関係について触れておく。離散確率分布である2項分布X \sim B(n,p)は,nが十分大きいとき,連続確率分布である正規分布 X \sim N(np,np(1-p))に近似できる。

 例:サイコロを3回投げて,1の目がk回出るときの確率変数X

をもし正規分布で近似すると,{\displaystyle X \sim B(3,\frac{1}{6})}より

{\displaystyle X \sim N(\frac{1}{2},\frac{5}{12})}

となる。

 

標準正規分布

確率変数X X \sim N(\mu,\sigma^2)にしたがうとき,

{\displaystyle Z = \frac{X - \mu}{\sigma}}XからZへの標準化

とした新たな確率変数Z X \sim N(0,1)にしたがう。この確率分布を標準正規分布という。 

 

標準化の過程を以下に図示する。

  1. 確率変数Xから平均\muを引く。

     →平均0に変換される。

    f:id:ryosuke_okubo:20190224111753p:plain

    黒:もとの確率分布 赤:平均\muを引いたもの
  2.  標準偏差\sigmaで割る。

    標準偏差分散が共に1に変換される。

    f:id:ryosuke_okubo:20190224112046p:plain

    黒:平均\muを引いたもの 赤:さらに標準偏差\sigmaで割ったもの(標準正規分布

標準化をすることで,いかなる正規分布も標準正規分布として扱えるようになる。これにより確率の計算が容易になる。 

 

計算問題の例

偏差値を例に,正規分布の計算問題を解いてみる。偏差値とは点数の分布を,平均\mu = 50,分散\sigma^2 = 10^2正規分布 X \sim N(50,10^2))に変換した指標である。

 

例題:試験の点数を偏差値に変換したとき,以下の値を求めよ。

(1) 65以下の者が占める割合

(2) 全体の95%が含まれる偏差値の範囲(平均を軸に左右対称とする)

 

解き方としては,まずは分布の標準化を行う。こうすることで後の計算が楽になる。そのあとについては

  1. 確率密度関数を範囲を指定して積分する
  2. 標準正規分布を用いる

方法がある。ここでは2. について説明する。なお標準正規分布表にはいろいろ種類があるが,本記事では統計検定の付表にある資料に基づいて説明する。

 

(1)

グラフ

f:id:ryosuke_okubo:20190226140701p:plain

緑色の範囲:65点以下

手順

  1. まずは確率変数の標準化を行う。偏差値にしたがう確率変数をXとすると,求める値はP(X \leq 65)と表せる。標準化の式は,

    {\displaystyle Z = \frac{X - 50}{10}} 

     なので,P(X \leq 65)

     P(Z \leq 1.5)

     に変換される。

    f:id:ryosuke_okubo:20190226141243p:plain

    標準化した後のグラフ,軸の目盛に注目
  2. 標準正規分布表では片側の確率しか求められないため,左右に分割する。

    f:id:ryosuke_okubo:20190226141600p:plain

  3. 左側の確率(~0)を求める。ここで

    • 確率密度の合計は1
    • x = \muを軸に左右対称のグラフを描く

    であることから,左側の確率の確率は0.5と決まる

     

  4.  右側の確率(0~1.5)を求める。標準正規分布表をみると,

     P(Z \geq 1.5) =0.0668

     であることがわかる。

     *標準正規分布表の読み方

     

    f:id:ryosuke_okubo:20190504112538p:plain

    縦軸は小数点第2位まで,横軸は小数点第3位を示す

     ここで右側全体の確率は0.5なので,求める確率は0.5-0.0668=0.432と決まる。

  5.  左側と右側を足して,0.5+0.432=0.932,つまり約93.2%が含まれる。 

 

(2)

問題について数式で表すと,P(\mu - a \leq X \leq \mu + a) = 0.95となるaを求めることになる。ここで,

  • \mu - 1.96\sigma \sim \mu + 1.96\sigmaの範囲内に,全体の約95%が含まれる

より,a = 1.96\sigmaである。あとは値を代入して,

a =1.96 \times 10 = 19.6よりP(30.4 \leq X \leq 69.6) = 0.95

つまり全体に対して,偏差値30~70の間に約95%が含まれていることになる。

f:id:ryosuke_okubo:20190226142810p:plain

 

ところで,

  • \mu - 1.96\sigma \sim \mu + 1.96\sigmaの範囲内に,全体の95%が含まれる

ことがなぜ言えるのだろうか?ここで標準正規分布表を用いて示してみる。

 

標準正規分布表をみると,

f:id:ryosuke_okubo:20190504112841p:plain



P(Z \geq 1.96) = 0.0250

 であることがわかる。また,左右対称であるためP(-1.96 \leq Z) = 0.0250である。このことから,

P(-1.96 \leq Z \leq 1.96) \simeq 0.95

となる。ここで標準化の式よりZからXに変換して,

{\displaystyle P(-1.96 \leq \frac{X - \mu}{\sigma} \leq 1.96) \simeq 0.95}

{\displaystyle P(-1.96\sigma \leq X - \mu \leq 1.96\sigma) \simeq 0.95}

{\displaystyle P(\mu-1.96\sigma \leq X \leq\mu+1.96\sigma) \simeq 0.95}

これで,

  • \mu - 1.96\sigma \sim \mu + 1.96\sigmaの範囲内に,全体の95%が含まれる

ことが示された。この文,あえて何回も繰り返して書いたが,後々区間推定や検定をする際に重要な概念なので,覚えておいてほしい。

 

正規分布のより詳しい内容は,以下の記事にまとめてある。

ryosuke-okubo.hatenablog.com

 

 

次回↓

 

ryosuke-okubo.hatenablog.com