QC検定2級 出題範囲

二項分布の検定と推定 2

公開日2020年5月31日  最終更新日 2021年12月18日

みなさんこんにちは、michiです。

前回は二項分布の検定と推定について学びました。

今回は二項分布の検定と推定2と称して、二つの集団に差異があるか否かを検定・推定していきます。

キーワード:「正規分布表」「ばらつきは加算」

目次

①二項分布の検定統計量の復習

二項分布の検定統計量は、\(np\)≧5 の場合は正規分布と近似することができます。よって、

\[Z=\frac{p-P_0}{\sqrt{\frac{P_0(1-P_0)}{n}}}\]

  • \(n\):サンプル数
  • \(p\):サンプル数のうち、注目する事象の発生する確率
  • \(P_0\):注目する事象の真の発生確率

このように、二項分布では「確率」で統計量を考えることが一般的でした。

\[\]

②二集団の二項分布の検定統計量

前回までは「真の確率」と「標本の確率」を一つのものであると仮説をたて、検定・推定をしました。

二つの集団の二項分布の検定統計量は以下の通りです。

\[Z=\frac{p_A-p_B}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]

  • \(\bar{p}\):AとBの集団を合わせて、注目する事象の発生する確率
  • \(n_A\):集団Aのサンプル数
  • \(n_B\):集団Bのサンプル数
  • \(p_A\):集団Aで注目する事象の発生する確率
  • \(p_B\):集団Bで注目する事象の発生する確率

\[\bar{p}=\frac{x_A+x_B}{n_A+n_B}\]

  • \(x_A\):集団Aで注目する事象の発生する回数
  • \(x_B\):集団Bで注目する事象の発生する回数

前回と比較したイメージ図を下に描いておきます。

前回:一つ集団に対する二項分布の考え方
今回:二つの集団に対する二項分布の考え方

それでは、二つの集団の検定統計量がなぜ下の式で表されるのか、分母と分子にわけて少しずつ考えていきましょう。

\[Z=\frac{p_A-p_B}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]

\[\]



③二集団の二項分布の検定統計量(分子編)

先ほどの検定統計量\(Z\)の分子の計算をしてみます。

そもそも、この検定統計量は二つの集団の違いを比べるものでした。

集団Aと集団Bの検定統計量は、それぞれ、

\[Z_A=\frac{p_A-\bar{p}}{\sqrt{\frac{\bar{p}(1-\bar{p})}{n_A}}},\qquad Z_B=\frac{p_B-\bar{p}}{\sqrt{\frac{\bar{p}(1-\bar{p})}{n_B}}} \]

前回学んだの二項分布の検定統計量と比べると、\(P_0\) ⇒ \(\bar{p}\) となっています。

この理由は、「真の値」が「AとB全体での確率」と置き換えられているためです。

(。´・ω・)?

少しわかりにくいのですが、「AとBの合わせた集団」から見て、AとBに差異があるか否かを検定・推定するのです。

よって、検定統計量の分子は、

\[Z’_A-Z’_B=(p_A-\bar{p})-(p_B-\bar{p})=p_A-p_B\]

\[\]

④二集団の二項分布の検定統計量(分母編)

では、分母についても同様に計算してみましょう。

\[Z”_A-Z”_B=\frac{1}{\sqrt{\bar{p}(1-\bar{p})/n_A}}\frac{1}{\sqrt{\bar{p}(1-\bar{p})/n_B}}\]

\[=\frac{1}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}-\frac{1}{n_B})}}\]

できた! 

ヾ(´・∀・)ノ カンタンだね!

\[\]

ってなりそうですが、違います!

Σ(・ω・ノ)ノ!

なぜでしょうか?

それは、「独立な二つ以上の正規確率変数の和及び差は正規確率変数である」という定義があるからです。

簡単に説明すると、ばらつきは加算されるということになります。

※記事「t分布とは」をご参考ください

\[\]

どういうことでしょうか?次の例を考えてみましょう。

問)長さ5、標準偏差0.3の棒Aと、長さ3、標準偏差0.4の棒Bがある

①棒Aと棒Bを足した時の全長、およびその時の標準偏差はどうなるか?

全長=5+3 =8 , 標準偏差=\(\sqrt{0.3^2+0.4^2}\)=0.5

②棒Aと棒Bを引いた時の全長、およびその時の標準偏差はどうなるか?

全長=5-3 =2 , 標準偏差=\(\sqrt{0.3^2+0.4^2}\)=0.5

\[\]

このように、全長は足し算か引き算かで値が変わりますが、標準偏差すなわち「ばらつき」は加算されていくということが重要になります。

以上のことから、二集団の二項分布の検定統計量の分母は、

\[Z”_A-Z”_B=\frac{1}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]

よって、二集団の二項分布の検定統計量は、

\[Z=\frac{p_A-p_B}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]

\[\]



⑤二集団の二項分布の推定

検定の次は推定を行います。

点推定は \(p_A-p_B\)

区間推定は \(p_A-p_B±Z(\frac{α}{2})\sqrt{\frac{p_A(1-p_A)}{n_A}+\frac{p_B(1-p_B)}{n_B}}\)  となります。

\[\]

まず点推定ですが、「二項分布の検定と推定 1」で紹介したように、ある一つの集団の点推定は、\(p=\frac{x}{n}\) (\(n\):サンプル数、\(x\):発生回数) でした。

なので、二つの集団のAとBの差は \(p_A-p_B\) となります。

\[\]

この時 \(p_A-p_B\) がマイナスになることがありますが、標準化された正規分布では中心が 0 で左右対称な形になるのことを利用し、正規分布表の値を使います。

※詳細は、記事「平均値に関する検定1:正規分布」をご参考ください。

次に区間推定なのですが、

\[p_A-p_B±Z(\frac{α}{2})\sqrt{\frac{p_A(1-p_A)}{n_A}+\frac{p_B(1-p_B)}{n_B}}\]

平方根(\(\sqrt〇\))の中身が、検定までは\(\bar{p}\)だったのが、\(p_A\)と\(p_B\)に変わっています。

\[\]

少し不思議な気もしますが、「ばらつきは加算される」ということを思い出してみてください。

もしも \(\bar{p}\) をそのまま使っていると、実際よりゆるい設定になってしまうのです。

(。´・ω・)?

実際に例題を考えてみましょう。

\(n_A=10,p_A=0.1,n_B=1000,p_B=0.01\)の場合を考えます。

このとき\(\bar{p}=\frac{11}{1010}≒0.0109\) です。

\[ \bar{p}=\frac{10\times 0.1 +1000\times 0.01}{1000+10} \]

※分子は不良数の合計、分母はサンプル数の合計 です。

\[\]

仮に\(p_A=p_B=\bar{p}\) として考えると、平方根の中身(\(\sqrt〇\))は

\[\frac{\bar{p}(1-\bar{p})}{n_A}+\frac{\bar{p}(1-\bar{p})}{n_B}\]

\(\frac{\bar{p}(1-\bar{p})}{n_B}\) は、\(n_A\) ⋘ \(n_B\) (100倍) なので無視できます。すると、

\[\frac{\bar{p}(1-\bar{p})}{n_A}+\frac{\bar{p}(1-\bar{p})}{n_B}⇒\frac{\bar{p}(1-\bar{p})}{n_A}\]

上のように平方根の中身(\(\sqrt〇\))は、ほぼ\(\frac{\bar{p}(1-\bar{p})}{n_A}\) で決まります。

また、\(1-\bar{p}\)はほぼ 1 とみなすことができるので、(\(\bar{p}\) ⋘ \(1\))

\[\frac{\bar{p}(1-\bar{p})}{n_A}+\frac{\bar{p}(1-\bar{p})}{n_B} ⇒\frac{\bar{p}(1-\bar{p})}{n_A} ⇒ \frac{0.0109}{10}\]

\[\]

ここまでの計算をおさらいすると、

\(\frac{p_A(1-p_A)}{n_A}≒0.01\) に対し、\(\frac{\bar{p}(1-\bar{p})}{n_A}≒0.00109\) となります。

桁が一桁変わってしましました。

このように、平均化されたばらつきを使用すると、大きなばらつきを小さくして見積もってしまうために、適切に推定ができなくなってしまうのです。

そのため推定では、集団ごとの確率とサンプル数から計算します。

\[p_A-p_B±Z(\frac{α}{2})\sqrt{\frac{p_A(1-p_A)}{n_A}+\frac{p_B(1-p_B)}{n_B}}\]

\[\]



まとめ

①二項分布は正規分布に近似して検定・推定をする

②二つの集団の二項分布の検定統計量は

\[Z=\frac{p_A-p_B}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]

③\(P_0\) ではなく、\(\bar{p}\)を使用

④「ばらつき」は加算されるため、平方根の中身は + 足し算

⑤二項分布の推定では、\(\bar{p}\)は使わず、\(p_A\)、\(p_B\)と分けて考える

\[\]

以上、今回は二つの集団に対する二項分布の検定・推定を行いました。

次回はポアソン分布について、検定・推定を学んでいきましょう!

⇒オススメ書籍はこちら

⇒サイトマップ





POSTED COMMENT

  1. […] さて、二項分布の検定・推定2では、二つの集団を比較する際の検定統計量を求めました。 […]

  2. […] 次回は二つの成分からなる二項分布の検定・推定を勉強しましょう! […]

  3. 統計君ファン より:

    いつも大変勉強になっております。
    教えて頂きたいのですが、例題nA=10,pA=0.1,nB=1000,pB=0.1部分で計算した時に先ず自分が間違えたのが分子部分で0.2としてしまい、次にx=npと考え、nAを1、nBを100としてしまい、11/1010に至らないので、私の考え違いをご指摘願頂けないでしょうか?宜しくお願い致します。

    • michi より:

      いつも参考にしていただき、ありがとうございます。
      ご指摘ありがとうございます。
      誤記です。
      ご迷惑をおかけして申し訳ありません。
      正しくは、
      〇pB=0.01
      × pB=0.1 です。
      記事を修正しました。

      これからも当ブログを参考にしていただければ幸いです。
      よろしくお願いいたします。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です