基礎統計学の勘どころ #10 検定力,サンプルサイズの決め方
前回↓
前回は仮説検定を行うことで,新薬Aとプラセボの平均には差があることを立証できないことを示した。またその原因として,サンプルサイズが小さいことをあげた。では,どれくらいの大きさに設定すればいいのだろうか,それを今回は考察していく。
内容について,以下を参考にした。
仮説検定の問題点
大まかな手順を再掲する。
- 仮説を立てる
- 検定の方法,有意水準を設定する
- 棄却域を設定する
- 統計量を計算する
- 仮説を棄却するか判定する
長い間使われてきた仮説検定であるが批判も多い。その例を以下に示す。
- 帰無仮説は常に間違っており,それを棄却することに意味はない
- 本当に知りたいのはp値()でなく,得られたデータに基づく帰無仮説が正しい確率()である,しかし頻度論においては考えられない量である
- p値での判断は極端な2分法である
- 標本の大きさが大きくなると,p値は減少する
中でもp値とその誤用が批判されることが多い。Cohenによると,p値が小さいことは「帰無仮説が厳密に正しいという前提が正しいとしたならば,手元のデータほど極端なデータが得られる確率は小さい」ことにすぎず,効果の大きさを表すものではないとされる。
そこで効果の大きさの指標として,以下のものが使われている。
- 効果量
- 信頼区間
- 検定力
以降,本記事では検定力について説明していく。
検定力とは
ここで2種類の過誤について再掲。
- 第1種の過誤:本当は帰無仮説が正しいのに,帰無仮説を棄却すること,有意水準は第1種の過誤を犯す確率を示す
- 第2種の過誤:本当は帰無仮説が誤っているのに,帰無仮説を棄却しないこと,検出力は第2種の過誤を犯さない確率を示す
2種類の過誤の基本的事項を以下に示す。
ここで2種類の過誤の考え方について例で示す。
例:何回かコインを投げてみて,そのコインがインチキかどうか考えたい。ここで正しいコインは「表の確率が0.5」であるとして,インチキコインはそうではないとする。
- 帰無仮説:正しいコインである()
- 対立仮説:インチキコインである()
ここで,棄却域として「5回投げて全て表あるいは裏のとき,を棄却」となるよう設定する。
このときの第1種の過誤を犯す確率は,が成り立っている上でのを棄却する確率なので,
一方で第2種の過誤を犯す確率は,が成り立っている上でのを棄却しない確率である。ここで表の確率により値が変わることに注意。
例えばのとき,裏の確率はであり,
またのとき,裏の確率はであり,
のときはが成り立っているため,検出力はそのものである。インチキであればあるほど,は小さくなり検出力は大きくなる。とはいえ,サンプルサイズが小さいので「1回表,4回裏()」のときでも,検出力は0.3280と小さい値をとる。
これより次のことがいえる。
- 帰無仮説の下では,は一定である
- 対立仮説の下では,パラメータの値によりは変化する
次にサンプルサイズを大きくして検出力の変化をみる。
今度はコインを100回投げて,有意水準0.0625(上の例と同じ値)となるよう棄却域を設定する。ここで計算の都合上確率分布を正規分布に近似して考える。
計算して得られた,大体の検出力曲線を以下に示す。
「40回表,60回裏()」のときの検出力はほぼ1であり,50±7回までの誤差は検出力0.80以上の値をとる。このことから,
- サンプルサイズが大きいほど,検出力は高くなる
ことがわかる。
では,有意水準の値を変えるとどうなるか。コインを100回投げて,有意水準0.25となるよう棄却域を設定した結果を重ねてみる。
- 有意水準が大きいほど,検出力が大きくなる(=を大きくすると,は小さくなる)
これより2種類の過誤がトレードオフであることがわかる。
サンプルサイズの設計
仮説検定では,第1種の過誤は設定次第で小さくできるが,標本の大きさが小さいと第2種の過誤が大きくなることがある。これでは帰無仮説の判断の信頼ができない。そこで,検出力がある程度大きい必要がある。
ある程度,といったのは大きすぎても困るからである。検出力が大きすぎると,わずかな差でも検出されてしまうからである。どのくらいが適切かについて,Cohenは0.80を提唱している,ただし固定された基準ではないとCohenは強調している。またKlineは,検出力が0.50を下回るのは重大な問題と指摘している。
検出力を大きくするのに,に非常に近いで行うのは困難である。そこで
- パラメータがで示されている値よりも以上の差がある場合に,高い検出力を保証できるようにする
- そのような検出力が得られるようなサンプルサイズを設計する
のようなプロセスをたどることになる。
問題を解いてみる
数理的背景については本記事では扱いきれないので,参考書にあたってもらいたい。ここでは流れがつかめれば十分である。
問題(再掲)
新薬Aの血圧低下作用を知るために,患者20人を無作為に2群に分け,10人には新薬Aを,もう10人にはプラセボを投与する。何週間か投与して,最低血圧を測定すると以下の値となった。
投与 | 平均 | 分散 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
新薬A | 98.0 | 98.5 | 100.2 | 103.0 | 98.5 | 107.8 | 80.2 | 81.5 | 90.6 | 91.2 | 94.95 | 80.38 |
プラセボ | 105.2 | 91.8 | 102.9 | 108.5 | 113.2 | 91.5 | 92.6 | 95.9 | 103.4 | 104.6 | 100.96 | 57.39 |
有意水準は0.05とする。
また計算の簡便のため,分散は共に64()とする
このとき,次の問いに答えよ。
(1) この実験における検出力を求めよ。
(2) のとき検出力でを棄却したい場合,何人の患者が必要か。
(1)
t検定における検出力の計算には,自由度,非心パラメータの非心t分布を用いる。ここで,
である。非心t分布の分布関数については,以下の近似式がある。
ただしである。
,,の場合,
- 自由度
- 非心パラメータ
の非心t分布にしたがうので,検出力は
これでサンプルサイズが小さすぎることが確認できた。
(2)
サンプルサイズを求めるために,以下の近似式を用いる。
- 帰無仮説:
- 対立仮説:
のとき,
検出力でを棄却したい場合,
したがって,今回の例では最低でも29人ずつ必要である。
参考:「Power and Sample Size Calculation(PS)」というヴァンダービルト大学医療統計学部で提供しているフリーソフトを用いて,同じ問題を解いてみる。あの手計算は何だったんだ......