公開日2020年5月31日 最終更新日 2021年12月18日
みなさんこんにちは、michiです。
前回は二項分布の検定と推定について学びました。
今回は二項分布の検定と推定2と称して、二つの集団に差異があるか否かを検定・推定していきます。
キーワード:「正規分布表」「ばらつきは加算」
目次
①二項分布の検定統計量の復習
二項分布の検定統計量は、\(np\)≧5 の場合は正規分布と近似することができます。よって、
\[Z=\frac{p-P_0}{\sqrt{\frac{P_0(1-P_0)}{n}}}\]
- \(n\):サンプル数
- \(p\):サンプル数のうち、注目する事象の発生する確率
- \(P_0\):注目する事象の真の発生確率
このように、二項分布では「確率」で統計量を考えることが一般的でした。
\[\]
②二集団の二項分布の検定統計量
前回までは「真の確率」と「標本の確率」を一つのものであると仮説をたて、検定・推定をしました。
二つの集団の二項分布の検定統計量は以下の通りです。
\[Z=\frac{p_A-p_B}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]
- \(\bar{p}\):AとBの集団を合わせて、注目する事象の発生する確率
- \(n_A\):集団Aのサンプル数
- \(n_B\):集団Bのサンプル数
- \(p_A\):集団Aで注目する事象の発生する確率
- \(p_B\):集団Bで注目する事象の発生する確率
\[\bar{p}=\frac{x_A+x_B}{n_A+n_B}\]
- \(x_A\):集団Aで注目する事象の発生する回数
- \(x_B\):集団Bで注目する事象の発生する回数
前回と比較したイメージ図を下に描いておきます。
それでは、二つの集団の検定統計量がなぜ下の式で表されるのか、分母と分子にわけて少しずつ考えていきましょう。
\[Z=\frac{p_A-p_B}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]
\[\]
③二集団の二項分布の検定統計量(分子編)
先ほどの検定統計量\(Z\)の分子の計算をしてみます。
そもそも、この検定統計量は二つの集団の違いを比べるものでした。
集団Aと集団Bの検定統計量は、それぞれ、
\[Z_A=\frac{p_A-\bar{p}}{\sqrt{\frac{\bar{p}(1-\bar{p})}{n_A}}},\qquad Z_B=\frac{p_B-\bar{p}}{\sqrt{\frac{\bar{p}(1-\bar{p})}{n_B}}} \]
前回学んだの二項分布の検定統計量と比べると、\(P_0\) ⇒ \(\bar{p}\) となっています。
この理由は、「真の値」が「AとB全体での確率」と置き換えられているためです。
(。´・ω・)?
少しわかりにくいのですが、「AとBの合わせた集団」から見て、AとBに差異があるか否かを検定・推定するのです。
よって、検定統計量の分子は、
\[Z’_A-Z’_B=(p_A-\bar{p})-(p_B-\bar{p})=p_A-p_B\]
\[\]
④二集団の二項分布の検定統計量(分母編)
では、分母についても同様に計算してみましょう。
\[Z”_A-Z”_B=\frac{1}{\sqrt{\bar{p}(1-\bar{p})/n_A}}\frac{1}{\sqrt{\bar{p}(1-\bar{p})/n_B}}\]
\[=\frac{1}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}-\frac{1}{n_B})}}\]
できた!
ヾ(´・∀・)ノ カンタンだね!
\[\]
ってなりそうですが、違います!
Σ(・ω・ノ)ノ!
なぜでしょうか?
それは、「独立な二つ以上の正規確率変数の和及び差は正規確率変数である」という定義があるからです。
簡単に説明すると、ばらつきは加算されるということになります。
※記事「t分布とは」をご参考ください
\[\]
どういうことでしょうか?次の例を考えてみましょう。
問)長さ5、標準偏差0.3の棒Aと、長さ3、標準偏差0.4の棒Bがある
①棒Aと棒Bを足した時の全長、およびその時の標準偏差はどうなるか?
全長=5+3 =8 , 標準偏差=\(\sqrt{0.3^2+0.4^2}\)=0.5
②棒Aと棒Bを引いた時の全長、およびその時の標準偏差はどうなるか?
全長=5-3 =2 , 標準偏差=\(\sqrt{0.3^2+0.4^2}\)=0.5
\[\]
このように、全長は足し算か引き算かで値が変わりますが、標準偏差すなわち「ばらつき」は加算されていくということが重要になります。
以上のことから、二集団の二項分布の検定統計量の分母は、
\[Z”_A-Z”_B=\frac{1}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]
よって、二集団の二項分布の検定統計量は、
\[Z=\frac{p_A-p_B}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]
\[\]
⑤二集団の二項分布の推定
検定の次は推定を行います。
点推定は \(p_A-p_B\)
区間推定は \(p_A-p_B±Z(\frac{α}{2})\sqrt{\frac{p_A(1-p_A)}{n_A}+\frac{p_B(1-p_B)}{n_B}}\) となります。
\[\]
まず点推定ですが、「二項分布の検定と推定 1」で紹介したように、ある一つの集団の点推定は、\(p=\frac{x}{n}\) (\(n\):サンプル数、\(x\):発生回数) でした。
なので、二つの集団のAとBの差は \(p_A-p_B\) となります。
\[\]
この時 \(p_A-p_B\) がマイナスになることがありますが、標準化された正規分布では中心が 0 で左右対称な形になるのことを利用し、正規分布表の値を使います。
※詳細は、記事「平均値に関する検定1:正規分布」をご参考ください。
次に区間推定なのですが、
\[p_A-p_B±Z(\frac{α}{2})\sqrt{\frac{p_A(1-p_A)}{n_A}+\frac{p_B(1-p_B)}{n_B}}\]
平方根(\(\sqrt〇\))の中身が、検定までは\(\bar{p}\)だったのが、\(p_A\)と\(p_B\)に変わっています。
\[\]
少し不思議な気もしますが、「ばらつきは加算される」ということを思い出してみてください。
もしも \(\bar{p}\) をそのまま使っていると、実際よりゆるい設定になってしまうのです。
(。´・ω・)?
実際に例題を考えてみましょう。
\(n_A=10,p_A=0.1,n_B=1000,p_B=0.01\)の場合を考えます。
このとき\(\bar{p}=\frac{11}{1010}≒0.0109\) です。
\[ \bar{p}=\frac{10\times 0.1 +1000\times 0.01}{1000+10} \]
※分子は不良数の合計、分母はサンプル数の合計 です。
\[\]
仮に\(p_A=p_B=\bar{p}\) として考えると、平方根の中身(\(\sqrt〇\))は
\[\frac{\bar{p}(1-\bar{p})}{n_A}+\frac{\bar{p}(1-\bar{p})}{n_B}\]
\(\frac{\bar{p}(1-\bar{p})}{n_B}\) は、\(n_A\) ⋘ \(n_B\) (100倍) なので無視できます。すると、
\[\frac{\bar{p}(1-\bar{p})}{n_A}+\frac{\bar{p}(1-\bar{p})}{n_B}⇒\frac{\bar{p}(1-\bar{p})}{n_A}\]
上のように平方根の中身(\(\sqrt〇\))は、ほぼ\(\frac{\bar{p}(1-\bar{p})}{n_A}\) で決まります。
また、\(1-\bar{p}\)はほぼ 1 とみなすことができるので、(\(\bar{p}\) ⋘ \(1\))
\[\frac{\bar{p}(1-\bar{p})}{n_A}+\frac{\bar{p}(1-\bar{p})}{n_B} ⇒\frac{\bar{p}(1-\bar{p})}{n_A} ⇒ \frac{0.0109}{10}\]
\[\]
ここまでの計算をおさらいすると、
\(\frac{p_A(1-p_A)}{n_A}≒0.01\) に対し、\(\frac{\bar{p}(1-\bar{p})}{n_A}≒0.00109\) となります。
桁が一桁変わってしましました。
このように、平均化されたばらつきを使用すると、大きなばらつきを小さくして見積もってしまうために、適切に推定ができなくなってしまうのです。
そのため推定では、集団ごとの確率とサンプル数から計算します。
\[p_A-p_B±Z(\frac{α}{2})\sqrt{\frac{p_A(1-p_A)}{n_A}+\frac{p_B(1-p_B)}{n_B}}\]
\[\]
まとめ
①二項分布は正規分布に近似して検定・推定をする
②二つの集団の二項分布の検定統計量は
\[Z=\frac{p_A-p_B}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]
③\(P_0\) ではなく、\(\bar{p}\)を使用
④「ばらつき」は加算されるため、平方根の中身は + 足し算
⑤二項分布の推定では、\(\bar{p}\)は使わず、\(p_A\)、\(p_B\)と分けて考える
\[\]
以上、今回は二つの集団に対する二項分布の検定・推定を行いました。
次回はポアソン分布について、検定・推定を学んでいきましょう!
[…] さて、二項分布の検定・推定2では、二つの集団を比較する際の検定統計量を求めました。 […]
[…] 次回は二つの成分からなる二項分布の検定・推定を勉強しましょう! […]
いつも大変勉強になっております。
教えて頂きたいのですが、例題nA=10,pA=0.1,nB=1000,pB=0.1部分で計算した時に先ず自分が間違えたのが分子部分で0.2としてしまい、次にx=npと考え、nAを1、nBを100としてしまい、11/1010に至らないので、私の考え違いをご指摘願頂けないでしょうか?宜しくお願い致します。
いつも参考にしていただき、ありがとうございます。
ご指摘ありがとうございます。
誤記です。
ご迷惑をおかけして申し訳ありません。
正しくは、
〇pB=0.01
× pB=0.1 です。
記事を修正しました。
これからも当ブログを参考にしていただければ幸いです。
よろしくお願いいたします。