公開日2020年6月6日 最終更新日 2021年9月20日
みなさんこんにちは、michiです。
前回までは、二項分布について検定と推定を行いました。
今回はポアソン分布について、検定と推定を学んでいきましょう!
キーワード:「二項分布」「期待値」「分散」
目次
①ポアソン分布を使う場合
みなさん、ポアソン分布ってなんだか覚えていますか?
記事「ポアソン分布について」で詳細を書いているのですが、簡単に言うと「二項分布の親戚」です。
二項分布の検定・推定では、不良数や寝坊などの回数に注目しました。
ポアソン分布も回数に注目するのですが、「単位〇〇あたりの回数」に注目して検定・推定を行います。
\[\]
具体的な例をあげると、記事「二項分布の検定と推定 1」では、Aさんの寝坊回数について検定と推定をしました。
では、北海道に住んでいる人全体と沖縄に住んでいる人全体で、寝坊のしやすさを比較するにはどうすればよいでしょうか?
単純に住む人全体で寝坊した回数で比較することはできません。
なぜなら「人口が違うから」です。
比較する集団のサイズが違う場合は、「人口1000人あたりで寝坊した人」のように、「単位〇〇あたりの~」で考えます。
このように率で考える場合に、ポアソン分布が有効になります。
\[\]
②ポアソン分布の検定統計量(一つの集団)
ではつぎにポアソン分布の検定統計量を考えていきます。
ポアソン分布を表す確率密度関数は以下の式で表されます。
\[Z=\frac{μ^xe^{-μ}}{x!}\]
\(μ\):母平均、\(x\):注目する事象の発生回数、\(e\):ネイピア数
※詳細は、記事「ポアソン分布について」をご参考ください。
この時の期待値\(E(x)\)と分散\(V(x)\)は、以下のようになります。
\[E(X)=λ, \qquad V(X)=λ\]
\[\]
ポアソン分布は二項分布の親戚であるといいました。
二項分布の期待値\(E(x)\)と分散\(V(x)\)は、以下のようになります。
\[E(X)=np, \qquad V(X)=p(1-p)\]
このとき、二項分布の検定統計量は以下の式で表されます。
\[Z=\frac{p-P_0}{\sqrt{\frac{P_0(1-P_0)}{n}}}\]
\(p\):サンプルの確率、\(P_0\):母集団の確率、\(n\):サンプル数
さて、二項分布の統計量で使われる\(p\)や\(P_0\)は、確率を表していました。
確率ということは、単位回数あたりの目標とする事象の発生回数を表しています。
つまり、「二項分布の確率 \(p\) ⇒ ポアソン分布の回数 \(λ\)」と置き換えられます。
よって、ポアソン分布の検定統計量は、
\[Z=\frac{λ-λ_0}{\sqrt{\frac{λ_0}{n}}}\]
となります。
\[\]
(。´・ω・)?
\(p ⇒ λ\)、\(P_0 ⇒ λ\)と置き換えたのですが、疑問がありますよね
分母は \(\sqrt{λ_0(1-λ_0)/n}\) では?
確かに \(P_0 ⇒ λ\) なら、”正確には”こちらが正しいです。
しかし、ポアソン分布で考えられている分布というのは、「非常にまれに発生すること」を対象にしています。
つまり、 \(λ_0\) ⋘ 1 なので、「1-\(λ_0\)⇒ 1」でいいじゃんとなるわけです。
\[\]
また、分母は\(\sqrt{分散/サンプル数}\) でしたから、ポアソン分布の分散\(V(x)=λ_0\)をサンプル数 \(n\) で割った平方根と考えることもできます。
\[\]
③ポアソン分布の推定(一つの集団)
ポアソン分布の推定も、今までの推定のように点推定と区間推定があります。
点推定: \(λ=\frac{T}{n}\) (単位回数あたりの注目する事象の発生回数)
\(T\):注目する事象の発生回数 \(n\):全体の回数
区間推定: \(λ±Z(\frac{α}{2})\sqrt{\frac{λ}{n}}\)
\[\]
点推定は二項分布では\(p\)でした。二項分布⇒ポアソン分布では \(p⇒λ\)としたので、単に\(λ\) となります。
区間推定ですが、二項分布の区間推定の範囲は以下の式になります。
\[p±Z(\frac{α}{2})\sqrt{\frac{p(1-p)}{n}}\]
\(p(1-p)\) は二項分布の標本分散を表しており、ポアソン分布においては、\(λ\)が該当します。
よって、
\[λ±Z(\frac{α}{2})\sqrt{\frac{λ}{n}}\]
棄却域の設定方法に関しては、二項分布と同様に正規分布表を使用します。
推定の内容にもよりますが、信頼度95%の両側検定の場合は\(Z(\frac{α}{2})=1.96\) を使います。
※詳細は記事「平均値に関する検定1:正規分布」をご参考ください。
\[\]
④ポアソン分布の検定統計量(二つの集団)
さて、二項分布の検定・推定2では、二つの集団を比較する際の検定統計量を求めました。
ポアソン分布の検定統計量は、以下の式になります。
\[Z=\frac{λ_A-λ_B}{\sqrt{λ×(\frac{1}{n_A}+\frac{1}{n_B})}}\]
※\(λ_A=\frac{T_A}{n_A}, λ_B=\frac{T_B}{n_B}, λ=\frac{λ_A+λ_B}{n_A+n_B}\) は、集団A,Bの期待値、全体の分散を表します。
\[\]
二項分布における二つの集団の検定統計量は、
\[Z=\frac{p_A-p_B}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_A}+\frac{1}{n_B})}}\]
でしたから、\(p_A⇒λ_A\)、\(p_B⇒λ_B\)、\(\bar{p}(1-\bar{p})⇒λ\)と変換しただけです。
特に分母の(\(\frac{1}{n_A}+\frac{1}{n_B}\))は理解しておきましょう。
なぜ分母がこのような式になるのかは、二項分布の検定・推定2をご参考ください。
※ヒント:ばらつきは加算される
\[\]
⑤ポアソン分布の推定(二つの集団)
二つの集団のポアソン分布の推定は、以下の式で表されます。
点推定: \(λ_A-λ_B\)
区間推定: \(λ_A-λ_B±Z(\frac{α}{2})\sqrt{\frac{λ_A}{n_A}+\frac{λ_B}{n_B}}\)
\[\]
これまた二つの集団の二項分布の推定と比較すると、
\[Z=p_A-p_B±Z(\frac{α}{2})\sqrt{\frac{p_A}{n_A}+\frac{p_B}{n_B}}\]
\(p_A⇒λ_A\)、\(p_B⇒λ_B\)と変換しただけなので簡単です。
\[\]
平方根の中身が、「\(λ×(\frac{1}{n_A}+\frac{1}{n_B})\)」 にならなり理由は、正確に推定できなくなってしまうからです。
詳細は、これまた前回の記事「二項分布の検定・推定2」をご参考ください。
\[\]
⑥問題を解いてみる(読まなくていいカモ)
ポアソン分布の検定・推定は、基本的に二項分布のパラメータを変換するだけなので、あまり難しく考えないようにしましょう。
それでは、実践として以下の問題を解いてみましょう。
問)Aさんは半年前までは出勤の途中で猫に会うことがあった(1ヵ月に3回)。ところが、最近はNNNに目をつけられたようで、1ヵ月で7回も猫に会っている。NNNに目を付けられる以前に比べ、猫に会う頻度は増えたといえるだろうか、信頼度95%で答えよ。
注)NNN: ねこねこネットワークの略
\[\]
まずは仮説を立てます。
帰無仮説は、「半年前も今も猫に会う頻度は変わらない」。対立仮説は、「半年前と今では猫に会う回数が増えた」となります。
今回の問題は猫に会う回数が増えたか?という質問で方向性があります。
よって、片側検定をすることになります。
\[\]
次に、検定統計量\(Z\)は、\(λ_A=\frac{3}{30}≒0.1\),\(λ_B=\frac{7}{30}≒0.233\),\(λ=\frac{3+7}{60}≒0.167\) より、
\[Z=\frac{λ_A-λ_B}{\sqrt{λ×(\frac{1}{n_A}+\frac{1}{n_A})}}\]
\[=\frac{0.1-0.233}{\sqrt{0.167×(\frac{1}{30}+\frac{1}{30})}}\]
\[=\frac{-0.133}{\sqrt{0.167×\frac{1}{15}}}\]
\[≒1.261\]
\[\]
正規分布表を見ると・・・
\(α=5\)%の時の検定統計量は、上の表より\(Z=1.645\)
先ほど計算したポアソン分布の検定統計量\(Z\)と比較すると、
ポアソン分布の検定統計量\(Z=-1.261\) > 正規分布表の検定統計量\(Z=\frac{α}{2}=-1.645\) となるので、今回の検定統計量は採択域内にあると判断します。
よって、帰無仮説が採択され、「半年前も今も猫に会う確率は変わったとは言えない」となります。
この時のイメージは下図のようになります。
\[\]
では、1か月に7回猫に会うことができる状態は、1か月に会える回数がどのくらいの範囲だと変化がないといえるのでしょうか?
推定をしてみましょう。
点推定は、\(λ=\frac{7}{30}=0.233\) になります。
区間推定は、
\[Z=λ±(\frac{α}{2}\sqrt{\frac{λ}{n}})\]
\[=0.233±1.96\sqrt{\frac{0.233}{30}}\]
\[=0.233±0.1727\]
よって、信頼区間は 0.06~0.405
\[\]
信頼区間は求まりましたが、この数値だけを見ても意味がよくわかりません。
そもそも求めた値というのは何なのでしょうか?
(。´・ω・)?
この記事の最初の方に「ポアソン分布は単位〇〇あたりの回数」と書きました。すなわち確率です。
先ほどの信頼区間 0.06~0.405 は、単位日数あたりの猫に会う回数となります。
※計算では1か月を30日として計算してきました。
単位日数あたりが分かったということは、例えば「2か月で猫に会う回数」を計算することができるようになります。
先ほどの例で計算すると、 (0.06~0.405)×60 =3.6~24.3
2か月で猫に会う回数が3回以下だとNNNから嫌われ、2か月で猫に会う回数が25回以上だと、NNNにターゲットにされていると判断します。
\[\]
このように、統計的に計算することで、客観的に変化を判断することができるようになりました。
しかし、あくまで数値上の話で質的な変化は考慮されていません。
例えば今回の例題では、猫に会う回数に変化はないと統計的には判断できても、会ったときの鳴き声やすり寄り方、しっぽピーンなどは反映されていません。
質的な変化を捉える方法はもう少し先の話になりそうですが、いずれ紹介したいと思います。
\[\]
まとめ
①ポアソン分布は率で考える場合に有効
②二項分布の\(p\)⇒\(λ\) と置き換えて考える
③区間推定の平方根内は、\(p(1-p)⇒λ\) で考える
④二集団の検定統計量のサンプル数は逆数を足し算(\(\frac{1}{n_A}+\frac{1}{n_B}\))
⑤統計的な評価では質的な変化を捉えることができない場合がある。
\[\]
今回は、ポアソン分布の検定・推定について勉強しました。
次回は分割表による検定を学びましょう!
[…] 正直私はチューキーさんの頭の中がわからないので、正しい答えか自信はありませんが、記事「ポアソン分布の検定と推定」を思い出してみましょう。 […]
[…] 次回はポアソン分布について、検定・推定を学んでいきましょう! […]
[…] ポアソン分布の検定統計量 […]