十の並列した脳

何でも勉強する,毎週月木曜に投稿予定

基礎統計学の勘どころ #10 検定力,サンプルサイズの決め方

前回↓

 

ryosuke-okubo.hatenablog.com

 

前回は仮説検定を行うことで,新薬Aとプラセボの平均には差があることを立証できないことを示した。またその原因として,サンプルサイズが小さいことをあげた。では,どれくらいの大きさに設定すればいいのだろうか,それを今回は考察していく。

 

内容について,以下を参考にした。 

サンプルサイズの決め方 (統計ライブラリー)

サンプルサイズの決め方 (統計ライブラリー)

 

 

伝えるための心理統計: 効果量・信頼区間・検定力

伝えるための心理統計: 効果量・信頼区間・検定力

 

 

 

 

仮説検定の問題点

大まかな手順を再掲する。

  1. 仮説を立てる
  2. 検定の方法,有意水準を設定する
  3. 棄却域を設定する
  4. 統計量を計算する
  5. 仮説を棄却するか判定する

 

長い間使われてきた仮説検定であるが批判も多い。その例を以下に示す。

  • 帰無仮説は常に間違っており,それを棄却することに意味はない
  • 本当に知りたいのはp値(P(D|H_0))でなく,得られたデータに基づく帰無仮説が正しい確率(P(H_0|D))である,しかし頻度論においては考えられない量である
  • p値での判断は極端な2分法である
  • 標本の大きさが大きくなると,p値は減少する

 

中でもp値とその誤用が批判されることが多い。Cohenによると,p値が小さいことは「帰無仮説が厳密に正しいという前提が正しいとしたならば,手元のデータほど極端なデータが得られる確率は小さい」ことにすぎず,効果の大きさを表すものではないとされる。

 

そこで効果の大きさの指標として,以下のものが使われている。

  • 効果量
  • 信頼区間
  • 検定力

以降,本記事では検定力について説明していく。

 

検定力とは

ここで2種類の過誤について再掲。

  • 第1種の過誤:本当は帰無仮説が正しいのに,帰無仮説を棄却すること,有意水準\alphaは第1種の過誤を犯す確率を示す
  • 第2種の過誤:本当は帰無仮説が誤っているのに,帰無仮説を棄却しないこと,検出力1 - \betaは第2種の過誤を犯さない確率を示す

f:id:ryosuke_okubo:20190529182550p:plain

 

2種類の過誤の基本的事項を以下に示す。

  • 帰無仮説の下では,\alphaは一定である
  • 対立仮説の下では,パラメータの値により\betaは変化する
  • サンプルサイズが大きいほど,検出力は高くなる
  • 有意水準が大きいほど,検出力が大きくなる(=\alphaを大きくすると,\betaは小さくなる)

 

ここで2種類の過誤の考え方について例で示す。

例:何回かコインを投げてみて,そのコインがインチキかどうか考えたい。ここで正しいコインは「表の確率pが0.5」であるとして,インチキコインはそうではないとする。

  • 帰無仮説H_0:正しいコインである(p=0.5
  • 対立仮説H_1:インチキコインである(p \neq 0.5

ここで,棄却域として「5回投げて全て表あるいは裏のとき,H_0を棄却」となるよう設定する。

 

このときの第1種の過誤を犯す確率\alphaは,H_0が成り立っている上でのH_0を棄却する確率なので,

\alpha = p_{H_0}(x=5)+p_{H_0}(x=0)=0.5^5+0.5^5 \\ =0.0625

 

一方で第2種の過誤を犯す確率\betaは,H_1が成り立っている上でのH_0を棄却しない確率である。ここで表の確率pにより値が変わることに注意。

例えばp=0.6のとき,裏の確率は1-p=0.4であり,

\beta=1-(p(x=5)+p(x=0)) = 1-(0.6^5+0.4^5) \\ =0.912

またp=0.9のとき,裏の確率は1-p=0.1であり,

\beta=1-(p(x=5)+p(x=0)) = 1-(0.9^5+0.1^5) \\ =0.4095

 

f:id:ryosuke_okubo:20190529184739p:plain

(左)pを変化させた時のβ,検出力 (右)検出力曲線

 

p=0.5のときはH_0が成り立っているため,検出力は\alphaそのものである。インチキであればあるほど,\betaは小さくなり検出力は大きくなる。とはいえ,サンプルサイズが小さいので「1回表,4回裏(p=0.2)」のときでも,検出力は0.3280と小さい値をとる。

これより次のことがいえる。

  • 帰無仮説の下では,\alphaは一定である
  • 対立仮説の下では,パラメータの値により\betaは変化する

 

次にサンプルサイズを大きくして検出力の変化をみる。

今度はコインを100回投げて,有意水準0.0625(上の例と同じ値)となるよう棄却域を設定する。ここで計算の都合上確率分布を正規分布に近似して考える。

B(100, 0.5) \to N(50, 5^2)

計算して得られた,大体の検出力曲線を以下に示す。

f:id:ryosuke_okubo:20190530175656p:plain

横軸は表の回数,縦軸は検出力

「40回表,60回裏(p=0.4)」のときの検出力はほぼ1であり,50±7回までの誤差は検出力0.80以上の値をとる。このことから,

  • サンプルサイズが大きいほど,検出力は高くなる

ことがわかる。

 

では,有意水準の値を変えるとどうなるか。コインを100回投げて,有意水準0.25となるよう棄却域を設定した結果を重ねてみる。

f:id:ryosuke_okubo:20190530181151p:plain

黄色線が有意水準0.25の場合の検出力
  • 有意水準が大きいほど,検出力が大きくなる(=\alphaを大きくすると,\betaは小さくなる)

これより2種類の過誤がトレードオフであることがわかる。

 

サンプルサイズの設計

仮説検定では,第1種の過誤\alphaは設定次第で小さくできるが,標本の大きさが小さいと第2種の過誤\betaが大きくなることがある。これでは帰無仮説の判断の信頼ができない。そこで,検出力1-\betaがある程度大きい必要がある。

ある程度,といったのは大きすぎても困るからである。検出力が大きすぎると,わずかな差でも検出されてしまうからである。どのくらいが適切かについて,Cohenは0.80を提唱している,ただし固定された基準ではないとCohenは強調している。またKlineは,検出力が0.50を下回るのは重大な問題と指摘している。

 

検出力を大きくするのに,H_0に非常に近いH_1で行うのは困難である。そこで

  1. パラメータがH_0で示されている値よりも\Delta以上の差がある場合に,高い検出力を保証できるようにする
  2. そのような検出力が得られるようなサンプルサイズを設計する

のようなプロセスをたどることになる。

 

問題を解いてみる

数理的背景については本記事では扱いきれないので,参考書にあたってもらいたい。ここでは流れがつかめれば十分である。

 

問題(再掲)

新薬Aの血圧低下作用を知るために,患者20人を無作為に2群に分け,10人には新薬Aを,もう10人にはプラセボを投与する。何週間か投与して,最低血圧を測定すると以下の値となった。

投与                     平均 分散
新薬A 98.0 98.5 100.2 103.0 98.5 107.8 80.2 81.5 90.6 91.2 94.95 80.38
プラセボ 105.2 91.8 102.9 108.5 113.2 91.5 92.6 95.9 103.4 104.6 100.96 57.39

 

有意水準\alphaは0.05とする。

また計算の簡便のため,分散\sigma^2は共に64(=\sigma=8)とする

このとき,次の問いに答えよ。

(1) この実験における検出力を求めよ。

(2) {\displaystyle |\Delta_0| = \frac{|\mu_1 - \mu_2|}{\sigma} \ge 0.75}のとき検出力1 - \beta=0.80H_0を棄却したい場合,何人の患者が必要か。

 

(1)

t検定における検出力の計算には,自由度\phi = n_1 + n_2 -2,非心パラメータ{\displaystyle \lambda = \sqrt{\frac{n_1 n_2}{(n_1 + n_2)}} \Delta}の非心t分布 t' (\phi,\lambda)を用いる。ここで,

{\displaystyle \Delta = \frac{\mu_1 - \mu_2}{\sigma}}

である。非心t分布の分布関数については,以下の近似式がある。

{\displaystyle P(t' \le w) \simeq P \Biggl( u \le \frac{w\{1-1/(4\phi)\}-\lambda}{\sqrt{1+w^2/(2\phi)} } \Biggr)  }

 ただし u \sim N(0,1^2)である。

 

\alpha=0.05n_1=n_2=10{\displaystyle \Delta = \frac{100.96 -94.95}{8} = 0.75125}の場合,

  • 自由度\phi = n_1 + n_2 -2 = 18
  • 非心パラメータ{\displaystyle \lambda = \sqrt{\frac{n_1 n_2}{(n_1 + n_2)}} \Delta =\sqrt{\frac{10 \times 10}{(10 + 10)}} \times 0.75125 = 1.680}

の非心t分布にしたがうので,検出力は

{\displaystyle P \Biggl( u \le \frac{-2.101\{1-1/(4 \times 18)\}-1.680}{\sqrt{1+(-2.101)^2/(2 \times 18)} } \Biggr)  \\ \displaystyle+ 1 - P \Biggl( u \le \frac{2.101\{1-1/(4 \times 18)\}-1.680}{\sqrt{1+2.101^2/(2 \times 18)} }\Biggr) \\ =0.339}

 

これでサンプルサイズが小さすぎることが確認できた。

 

(2)

サンプルサイズを求めるために,以下の近似式を用いる。

のとき,

{\displaystyle n \simeq 2 \Biggl(\frac{z_{\alpha/2} - z_{1-\beta}}{\Delta_0} \Biggr)^2 + \frac{z_{\alpha/2}^2}{4} }

 

検出力1 - \beta=0.80H_0を棄却したい場合,

{\displaystyle n \simeq 2 \Biggl(\frac{z_{0.025} - z_{0.80}}{0.75} \Biggr)^2 + \frac{z_{0.025}^2}{4} \\ \displaystyle  =2 \Biggl(\frac{1.960 - (-0.842)}{0.75} \Biggr)^2 + \frac{1.960^2}{4} \\ = 28.875}

 

したがって,今回の例では最低でも29人ずつ必要である。

 

参考:「Power and Sample Size Calculation(PS)」というヴァンダービルト大学医療統計学部で提供しているフリーソフトを用いて,同じ問題を解いてみる。あの手計算は何だったんだ......

f:id:ryosuke_okubo:20190530204818p:plain
f:id:ryosuke_okubo:20190530204811p:plain
(左)検出力の計算 (右)サンプルサイズの計算