公開日2021年12月4日 最終更新日 2021年12月11日
みなさんこんにちは、michiです。
前回はウェルチの検定について勉強しました。
今回も2つの集団の平均値の差に対する検定を学びます。
ただし、今回は対応のあるデータの検定です。
キーワード:「対応のあるデータ」「t検定」「差分」
目次
①対応のあるデータ とは
対応のあるデータとは、2つの集団の一対のデータのことです。
(。´・ω・)?
\[\]
具体例で考えてみます。
5つのみかん農園全体で、 1日あたりの収穫量を去年と今年で比較する場合を考えます。
1日毎にデータがあり、分散と平均値は計算できるとします。
与えられた情報から、前回学んだ Welchの検定 が可能です。
\[\]
しかし、前提条件に気をつける必要があります。
φ(・ω・ )フムフム…
\[\]
去年と今年をWelchの検定で比較する場合、5つの農園それぞれの収穫量を無視して、合計で考えます。
みかんの収穫量は農園毎に差がありそうなので、収穫量全体で考えない方がよさそうです。
こんな時は農園毎に去年と今年の収穫量の差を検定します。
\[\]
データに対応のある検定では、ある条件下の差分に対して検定をします。
\[\]
②対応のあるデータの検定
対応のあるデータの検定では、2つの集団の対応するデータの差分で検定をします。
(;´・ω・)
\[\]
具体的に計算をしながら考えてみます。
5つのみかん農園で、去年と今年の収穫量が下表の結果でした。
それでは、対応のあるデータの検定をしていきましょう!
o(・ω・´o)
\[\]
手順1 仮説の設定と有意水準の設定
検定を行うために仮説を設定します。
今回は、「去年よりも今年の方が収穫量が多いか」を検定します。
検定では、去年と今年の収穫量の差分に着目します。
- 帰無仮説:\(\delta=0\) (\(\delta=\mu_A-\mu_B\))
- 対立仮説:\(\delta<0\) (\(\mu_A<\mu_B\))
※\(\mu_A\):去年の収穫量、 \(\mu_B\):今年の収穫量
有意水準 \(\alpha=0.05\) とします。
\[\]
手順2 棄却域の設定
棄却域はt分布表から求めます。
※エクセルを使う場合は、「=TINV(有意水準,自由度)」で求めます。
\(t_0 \leq -t(\phi,2\alpha) = -t(4,0.10) = -2.132\)
棄却限界値は \(-2.132\) となります。
\[\]
農園は5つあるため、自由度\(\phi=5-1=4\)
2\(\alpha\) とする理由は、片側検定となるためです。
※詳細は記事「平均値に関する検定2:t分布 t検定」をご参照ください。
\[\]
手順3 検定統計量の計算
対応のあるデータの場合は、検定統計量はその差分に着目します。
そこで、みかん農園の収穫量のデータに差分を付け加えます。
\[\]
・データの差の平均値 \(\bar{d}\) の計算
\[\bar{d}=\frac{\sum d_i}{5}=\frac{(-10)+(10)+(40)+(-40)+(-20)}{5}\]
\[=-5\]
※農園毎の去年と今年の収穫量の差分の平均になります。
\[\]
・平方和 \(S_d\) の計算
\[S_d=\sum d_i^2 – \frac{(\sum d_i)^2}{n} = 3800-\frac{(-5)^2}{5}\]
\[=3795\]
※差の二乗の和ひくサンプル分の差の和の二乗です。
計算式の説明・暗記方法については、記事「平方和の式の暗記法」をご確認ください。
\[\]
・分散 \(V_d\) の計算
\[V_d=\frac{S_d}{n-1}=\frac{3795}{4}=948.75\]
\[\]
・検定統計量 \(t_0\) の計算
\[t_0=\frac{\bar{d}}{\sqrt{\frac{V_d}{n}}}\]
\[= \frac{\bar{-1}}{\sqrt{\frac{948.75}{5}}} \]
\[=-0.0726…\]
\[\]
手順4 判定
検定統計量 \(t_0\) を手順1で求めた棄却限界値と比較します。
\[-t(4,0.10) = -2.132\]
\[t_0=-0.0726\]
検定統計量\(t_0\) は採択域内にあることから、「去年と今年でみかんの収穫量に差があるとは言えない」となります。
\[\]
手順5 母平均の推定
点推定値は、
\[\delta=\bar{d}=-5\]
信頼率95%の区間推定は、次の公式から求めます。
\[\bar{d}\pm t(4,0.05)\sqrt{\frac{V_d}{n}} \]
よって
\[\bar{d}\pm t(4,0.05)\sqrt{\frac{V_d}{n}}= -5 \pm 2.776 \sqrt{\frac{948.75}{5}} \]
\[=-5 \pm 13.77\]
\[-18.77 , 8.77\]
となります。
95%の信頼区間なので、分布の両サイド2.5%ずつを省いた範囲が区間推定の範囲になります。
この信頼区間は「2つの集団の差の信頼区間」であることに気をつけてください。
\[\]
今回の結果をみると、不思議な気持ちになりませんか?
(;´・ω・)ウーン・・・
農園A,Bは±10の変動なのに、農園C,Dは±40の変動をしています。
それなのに、 去年と今年では収穫量に差があるとは言えない なんです。
\[\]
この不思議な気持ちの答えは、「差分の平均値に対し、ばらつきが大きい」からです。
差分の平均値とは、分子の \( \bar{d} = -5\) のことです。
ばらつき とは、分母の \(\sqrt{\frac{V_d}{n}} =13.77\) のことです。
Σ(・ω・ノ)ノ!
そうです、ばらつきが大きいんです。
また、いい感じで収穫量の差分が打消しあって平均値が小さくなっていることも原因です。
このことについて考えてみましょう。
\[\]
③対応のあるデータの注意点
対応のあるデータに対して、検定を行いました。
2つデータの差分に着目することで、1つの分布(差の分布)に対する検定と推定ができました。
\[\]
対応のあるデータの注意点は、「層別」です。
次の表を見てください。
(?。_。) どれどれ
この表から得られるデータで、データに対応のある検定を行うと、差があるとは言えないという結果になります。
なぜなら、去年と今年では差の平均が 0 となるためです。
\[\]
しかしその内訳は、みかん農園1~4は収穫量が減少、農園5のみが収穫量増加という状態です。
5つの農園全体としては変化があるとは言えない という検定結果になります。
\[\]
ここで層別をしてみます。
農園1~4、農園5で分けて対応のあるデータの検定を行うと、検定結果は変わります。
データに対応がある場合に限らず、検定を行うときは、「層別できないか」「一つとみなせないか」という視点で分析をしましょう。
\[\]
まとめ
①対応のあるデータとは、2つの集団の一対のデータ
②対応のあるデータの検定では、一対のデータの差分で検定
③検定の際には、層別または統合の必要性を考える。
\[\]
今回は対応のあるデータの検定を学びました。
たまにQC検定2級でも出題されることから、QC検定2級受検者の方も概要は理解しておきましょう。
\[\]
Welchの検定とは異なり差分に着目することで、見落としていた変化点に気づけるかもしれません。
ぜひお仕事で活用してみましょう!
\[\]