公開日2021年5月29日 最終更新日 2021年6月6日
みなさんこんにちは、michiです。
前回の記事「【実践 3】相関関係」に引き続き、今回はQC検定実践編として、適合度の検定・分割表について考えていきます。
似たものに分割表を用いた分析があります。
分割表についての詳細は記事「分割表を使った検定 1」をご参照ください。
この記事を読めば、QC検定1級の論述対策になる!…カモ
キーワード:「分割表」「カイ二乗検定」
目次
①適合度の検定の前提条件
分割表は計数値の検定に使われます。
分割表の検定統計量は、\(χ^2\) となります。
\(χ^2\) を使うということは、基となるデータの分布は、正規分布に従うということが前提条件となります。
\[\]
理論的にデータの分布が正規分布に従うことがわかっていればよいのですが、そうでない場合は正規分布に従うか検定する必要があります。
分布が正規分布に従うか否かを判断する方法は、そのうち別記事で紹介します。
( `・д・)っ))ナンデヤネンッ
今回はデータは正規分布に従うという前提で記事を進めていきます。
\[\]
②なぜ適合度の検定なのか
さて、なぜ分割表を使うと良いのか考えてみましょう。
(。´・ω・)?
その理由の一つは、「楽だから」です。
\[\]
例えば、年中無休のパン屋さんがあるとします。
パン屋さんは毎日パンを作っていますが、たまに失敗することもあります。
この時、月ごとのパンの製作失敗数に差があるかを検定する場合を考えます。
\[\]
年間のパン製作失敗数を母集団として、各月ごとに「成功 or 失敗」の二項分布で検定をする必要があります。
1年は12か月ですから、各月ごとに検定しようとすると、11!(11×10×・・・)通りの検定が必要になります。
これが週ごと、日ごとに分析しようとすると、すごくめんどくさいです。
_(:3」∠)_
しかし、分割表であれば表を作ってエクセル関数を打ち込めば、一瞬で片付きます。
\[\]
③検定統計量の計算
適合度の検定とは、期待値とのずれを検定する手法になります。
検定統計量は \(χ^2\) より求めます。
エクセル関数では、「CHISQ.INV.RT」を使えば簡単に求めることができます。
このエクセル関数をを使って\(χ^2\) 表を作ると、下図のようになります。
こんな感じでやってくと・・・
できました!
\[\]
④実際に解いてみる
では、パン屋さんを例に実際に解いてみましょう。
パン屋さんの月ごとの製作失敗数は次の通りです。
\[\]
適合度の検定はつぎの手順で行います。
- データ表の作成
- 有意水準αの設定
- 棄却域の設定
- 検定統計量の計算
- 判定
- 基準化残差の検討
\[\]
①データ表の作成
データ表は既にありますね。
この時、帰無仮説と対立仮説は次のようになります。
帰無仮説\(H_0\):月ごとのパンの製作失敗数の出方は一様である。
対立仮説\(H_1\):月ごとのパンの製作失敗数の出方は一様ではない。
\[\]
②有意水準αの設定
今回は\(α=0.05\) (=5%) としましょう。
\[\]
③棄却域の設定
棄却限界値はエクセル関数「CHISQ.INV.RT」 を使って求めます。
確率は\(α=0.05\) 、自由度は 11 なので、\(χ^2(11,0.05)=19.68\) となります。
\[\]
④検定統計量の計算
期待値は月ごとのパンの製作失敗数になります。
年間のパン製作失敗数を12か月で割ることで求めることができます。
先ほどの表より、一年間のパン製作失敗数は63なので、月ごとのパン製作失敗数の期待値は「5.25」となります。
\[\]
次に検定統計量\(χ^2\) を計算します。
\(χ^2\) は次の計算式より求めます。
\[χ^2=\displaystyle \sum_{i=1}^n \frac{(x_i-t_i)^2}{t_i} \]
\(x_i\):月ごとのパン製作失敗数 \(t_i\):期待値
\[\]
計算をわかりやすくするため、パンの製作失敗数の表の下に期待値を書きます。
さらに期待値の下にカイ二乗の値を求める計算式を打ち込みます。
すると、最終的に次の表のようになります。
検定統計量\(χ_0^2\) は、各月ごとの\(χ^2\) の値の合計値になるので、
\[0.96+0.30+0.96+…+0.11=38.14\]
となります。
\[\]
⑤判定
④で計算した検定統計量と棄却限界値を比較します。
すると、「\(χ_0(=38.14) > χ^2(11,0.05)(=19.68)\)」となります。
さらに、「\(χ_0 > χ^2(11,0.01)(=24.72)\)」より、高度に有意であるといえます。
\[\]
検定統計量は棄却限界値よりも大きいので、帰無仮説は棄却されます。
つまり、月ごとによってパンの製作失敗数は一様ではないといえます。
\[\]
確かに表を見ると、4月と5月のパン製作失敗数が多いですね。
原因は、新人さんが加わったからかもしれませんし、難易度の高い新メニューを春に作っているからかもしれません。
原因がなにかまでは検定ではわかりませんが、違いがあるということは統計的に判定できました。
\[\]
⑥基準化残差の検討
最後に聞きなれない言葉が出てきました。
基準化残差とは次の計算式で計算できる値になります。
\[e_i=\frac{x_i-t_i}{\sqrt{t_i}}\]
\(e_i\):基準化残差 \(x_i\):実測値 \(t_i\):期待値
\[\]
この基準化残差\(e_i\) が 2.5以上 である場合、その分類を特徴があると判定します。
\[\]
パンの製作失敗数について、基準化残差を求めてみましょう。
この計算を全ての月に対して行うと・・・
基準化残差が2.5を超えているのは、4月と5月のみ
やはり4月と5月は何かしらの要因でパンの製作失敗数が多いようですね。
\[\]
まとめ
①データの分布が正規分布に従うことを確認!
②適合度の検定をする理由は、楽だから!
③検定統計量の計算は、エクセルでちょちょいのチョイ
\[\]
今回は適合度の検定について学びました。
なぜこの検定を取り上げようと思ったかというと、QC検定1級に出てきて解けなかったから・・・
そんな背景もあり勉強し直すと、以外と使えるじゃん!ってことで書きました。
ぜひほかの記事も読んでみてください。
\[\]
[…] 前回の記事「【実践 4】適合度の検定」に引き続き、今回はQC検定実践編として、OC曲線の考え方・作り方について学んでいきます。 […]
別記事ですが「分割表を使った検定 2」は、検定統計量が何故あの形になるのかについての、はじめて出会った納得感の得られる解説で(χ二乗統計量の加成性を分かった上で、となりましょうが)、「神記事!」と評価しております。さて、「基準化残差」について、確かに聞き慣れない表記です。クロス表の事後分析としては標準正規分布を仮定した「調整済み残差」という統計量を用いることが多いように思いますが、適合度検定の場合には何か事情がことなるのでしょうか。「2.5」という数値の扱いも理解できておりません。ご教示頂ければ幸いです。
ご参考にしていただきありがとうございます。
かなり専門的な質問で、しっかり答えられるか自信はないです。
「調整済み残差」ですが、クロス表では残差分散を計算するために縦周辺和と横周辺和を使用して計算します。
クロス表には縦と横の二次元のデータがあり、その両方を使います。
一方適合度の検定では、一次元のデータしかありません。
「調整済み残差」の計算はそのままでは適合度の検定に適用できないようです。
基準化残差の「2.5」という数値については、私が読んできた図書・文献では理由までは書いていませんでした。
「経験的に」が答えかもしれません。
あまり参考にならず恐縮ですが、引き続き学んでいきますので、
当ブログをご贔屓していただければ幸いです。