公開日2020年6月21日 最終更新日 2021年9月20日
みなさん、こんにちは、michiです。
今回の記事は前回の記事の補足的な内容について学んでいきます。
前回の記事では分割表を使った検定を行いましたが、ピアソンの適合度基準が\(χ^2\) カイ二乗 になる理由を説明していませんでした。
ですので、今回はピアソンの適合度基準が\(χ^2\) 分布になる理由を勉強します。
キーワード:「二項分布」「確率の独立性」
目次
①\(χ^2\) カイ二乗分布のおさらい
前回の記事では、ピアソンの適合度基準なるものを学びました。
\[χ^2=\displaystyle \sum_{i=1}^k \frac{(f_i-np_i)^2}{np_i} \]
\(f_i\):測定度数 \(np_i\):期待度数
\[\]
右辺の式がなぜ\(χ^2\) 分布になるのかを考えていきます。
その前に、\(χ^2\) 分布のおさらいです。\(χ^2\) 分布は以下の式で表されます。
\[χ^2 \qquad= Z_1^2+Z_2^2+・・・+Z_k^2 \qquad=\frac{S(平方和)}{σ^2(母分散)}\]
この時、\(Z_1,Z_2,・・・,Z_k\)は標準正規分布\(N(0,1)\)に従う独立確率変数としました。
独立というのは、\(Z_1\)の分布は\(Z_2,Z_3,・・・,Z_k\)の分布とは関係なく決まるということです。
分布が正規分布に従う時の検定統計量\(Z\) は、以下の式で表されます。
\[Z=\frac{\bar{x}-μ_0}{\sqrt{\frac{σ^2}{n}}}=\frac{標本平均-母平均}{\sqrt{\frac{母分散}{サンプル数}}}\]
\(\bar{x}:標本平均、μ_0:母平均、σ^2:母分散、n:サンプル数\)
\[\]
分布が二項分布に従う時の検定統計量\(Z\) は、以下の式で表されます。
\[Z=\frac{p-P_0}{\sqrt{P_0(1-P_0)/n}}\]
\(p:標本の確率、P_0:母集団の確率、n:サンプル数\)
なぜ二項分布の検定統計量の話をするのかというと、分割表に書かれる数字は基本的に離散的な値(計数値)だからです。
例えば、前回のコインとサイコロの目の分割表では、サイコロの目の出方は1~6の6種類であり、間の1.5や3.71といったサイコロの目の出方はありません。
\[\]
後々のため、二項分布の検定統計量の分母と分子にサンプル数\(n\)を掛け算します。
\[Z=\frac{n}{n}×\frac{p-P_0}{\sqrt{P_0(1-P_0)/n}}\]
\[Z=\frac{np-nP_0}{\sqrt{nP_0(1-P_0)}}\]
なんとなくピアソンの適合度基準っぽくなってきましたね。
ヾノ´゚д゚`)ナイナイ
\[\]
②\(i=2\) でピアソンの適合度基準を計算
まず、ピアソンの適合度基準を\(i=2\) で計算してみます。
\[χ^2\qquad=\displaystyle \sum_{i=1}^2 \frac{(f_i-np_i)^2}{np_i} \qquad=\frac{(f_1-np_1)^2}{np_1}+\frac{(f_2-np_2)^2}{np_2}\]
この時、\(p_2\)は\(p_1\)ではない状態すべてを表すので、\(p_2=1-p_1\)となります。
また、\(p_1=\frac{f_1}{n}\) , \(p_2=\frac{f_2}{n}\) より、\(f_2=n(1-p_1)=n-f_1\) となります。よって、
\[χ^2 \qquad=\frac{(f_1-np_1)^2}{np_1}+\frac{(f_2-np_2)^2}{np_2}\]
\[=\frac{(f_1-np_1)^2}{np_1}+\frac{(n-f_1-n+np_1)^2}{n(1-p_1)}\]
\[=\frac{(1-p_1)(f_1-np_1)^2+p_1(-f_1+np_1)^2}{np_1(1-p_1)}\]
\[=\frac{(f_1-np_1)^2-p_1(f_1-np_1)^2+p_1((-1)(f_1-np_1))^2}{np_1(1-p_1)}\]
\[=\frac{(f_1-np_1)^2}{np_1(1-p_1)}\]
\[=( \frac{f_1-np_1}{\sqrt{np_1(1-p_1)}} )^2\]
\[\]
むむむ・・・
\(f_1\) は観測度数で、\(np_1\) は理論度数でした。
二項分布の検定統計量\(Z’\) は、以下の式で表されます。
\[Z’=\frac{np-nP_0}{\sqrt{nP_0(1-P_0)}}\]
\(p\)は標本から得られた確率で、\(P_0\)は母集団の確率です。
母集団の確率というのは言い換えると「理論上の確率」になります。
よって、\(i=2\) で計算したピアソンの適合度基準は、二項分布の検定統計量を使って、以下の式で表されます。
\[χ^2=( \frac{f_1-np_1}{\sqrt{np_1(1-p_1)}} )^2= (Z’^2)\]
\[\]
ここまでは、(\(i=2\)までは)教科書に書いてあったり、ネットに転がっているので知っている人もいるかもしれません。
重要なのはここからで、\(i≧3\) ではどうなるのでしょうか?
(。´・ω・)?ドウナルノ?
\[\]
③\(i≧3\) でピアソンの適合度基準の計算
\(i=2\) の計算では、状態が二種類しかありませんでした。
そのため、\(p_2=1-p_1\), \(f_2=n-f_1\) と計算することができました。
では、\(i≧3\) ではどうすればよいのでしょうか? \(i=3\) で考えてみます。
\(i=3\) の場合は、\(p_2=1-p_1-p_3,f_2=n-f_1-f_3,p_3=1-p_1-p_2,f_3=n-f_1-f_2\) となります。
まじめに計算すると大変そうです。
(´・д・`)ヤダ
\[\]
そこで、「1の状態\(f_1\) と 1以外の状態\(f’_2\)」という二種類の状態のみで考えます。
すると、\(f’_2=f_2+f_3, p’_2=p_2+p_3\)となりますが、計算自体は②で考えたものと同じになるので、
\[χ^2\qquad=\displaystyle \sum_{i=1}^3 \frac{(f_i-np_i)^2}{np_i} \qquad=\frac{(f_1-np_1)^2}{np_1}+\frac{(f’_2-np’_2)^2}{np’_2}\]
\[=・・・\]
\[=( \frac{f_1-np_1}{\sqrt{np_1(1-p_1)}} )^2\]
\[\]
この計算では「1の状態\(f_1\) と 1以外の状態\(f’_2\)」のみで考え始めました。
しかし最終的には、「状態1とそれ以外の状態」を\(p_1, f_1\)のみで表せました。
この考え方は\(f’_2\) にも応用でき、「2の状態\(f_2\) と 3の状態\(f_3\)」の二種類のみで考えることができます。
そうすると、状態2と状態3でのピアソンの適合度基準は
\[χ^2\qquad=\displaystyle \sum_{i=2}^3 \frac{(f_i-np_i)^2}{np_i} \qquad=\frac{(f_2-np_2)^2}{np_2}+\frac{(f_3-np_3)^2}{np_3}\]
\[=・・・\]
\[=( \frac{f_2-np_2}{\sqrt{np_2(1-p_2)}} )^2\]
\[\]
ここで、正規分布の検定統計量は独立の確率変数であることを思い出してください。
状態1、状態2、状態3はそれぞれ独立した状態であり、独立した検定統計量\(Z\)を持ちます。
そのため、状態1とそれ以外(状態2’)、それ以外(状態2’)の中身は状態2と状態3・・・、と繰り返して計算することができます。
したがって、ピアソンの適合度基準
\[χ^2=\displaystyle \sum_{i=1}^k \frac{(f_i-np_i)^2}{np_i} \]
は、「\(χ^2 = Z_1^2+Z_2^2+・・・+Z_k^2\) 」より、\(χ^2\) 分布となります。
\[\]
④分割表における独立性
前回の記事では、ピアソンの適合度基準を分割表の検定統計量に適応する際に、\(np_i ⇒np_i・p_j\)としました。
正確に言うと、\(np_i ⇒np_{ij} =np_i・p_j\) が成立する理由を考えていきます。
\[\]
例として、上の表の黄色い部分の確率を考えてみます。
黄色い部分の確率は、\(P_{4,表}\)になります。
この時に\(P_{4,表} =P_4・P_表\) として計算します。
なぜ\(P_{4,表} =P_4・P_表\)の式が成り立つかというと、「サイコロの目の出方とコインの目の出方は独立しているはずだ!」という前提があるからです。
実は分割表における検定の帰無仮説はこの前提である「属性A、Bが互いに独立であること」を検定していたのです。
(。´・ω・)?
属性A,Bが独立していることとは、どういうことでしょうか?
サイコロを2回投げる場合を考えてみます。
問)サイコロを2回連続で投げて、1の目が連続で出る確率は?
\[\frac{1}{6}×\frac{1}{6}=\frac{1}{36}\]
簡単ですね。
┐(´д`)┌ヤレヤレ
では次の問題です。
問)サイコロを2回投げて、1回目に1の目が出た場合、2回目に1回投げなおすチャンスがある場合の確率は?
\[\frac{1}{6}×\frac{1}{6}+\frac{1}{6}×\frac{5}{6}×\frac{1}{6}=\frac{11}{216}\]
( ̄- ̄)シーン…
「+」の前までは同じ計算式で、「2回連続で1の目がでる確率」です。
「+」の後ろは「1回目に1が出て、2回目をやり直して1の目がでた確率」です。
このように、1回目の結果次第で2回目の結果が変わる場合は、単純な積(掛け算)では計算できなくなります。
逆に、1回目の結果と2回目の結果が関係しない場合(独立している場合)は、それぞれの確率の積で求めることができます。
\[\]
前回の記事の分割表の話に戻ると、コインの表裏の出方はサイコロの目の出方には影響しないと仮定していました。
ですので、理論度数は \(e_{ij}=np_ip_j=f_if_j/n\) と積で求めることができます。
まとめ
①分割表では、離散的な値を使うので、二項分布で考える
②\(i=2\) で考えて、ピアソンの適合度基準がカイ二乗になった
③\(i≧3\) でもカイ二乗になる
④独立な確率は積(掛け算)で求めることができる
今回で検定・推定についてはひと段落です。
次回からは相関・回帰分析について学んでいきましょう!
[…] 次回はなぜ分割表の検定統計量が(χ^2)になるのかを学びましょう! […]