公開日2020年4月19日 最終更新日 2022年6月4日
みなさんこんにちは、michiです。
記事「正規分布表のミカタ」では、「標準化」について説明しました。
データの標準化は
\[Z=\frac{測定値 - 平均値}{標準偏差(=\sqrt{分散})}\]
この式で使われている平均値と標準偏差は、いずれも「母平均」」と「母分散」です。
今回はその内容について勉強していきましょう。
キーワード「母集団」「標本」「1/\( \sqrt{n}\)倍」
目次
①母集団と標本
母集団は、これから知りたいと思う「集団全体」のことで、「母平均」や「母分散」とは、この母集団の平均や分散のことです。
標本は、分析のために母集団から「抽出されたもの」のことです。
標本平均と標本分散は、母集団から抽出されたサンプルの平均値や分散のことを言います。
\[\]
例)選挙:選挙の母集団は選挙で投票した人全員ですが、最初の数%を開票すれば当選確実の判断ができます。
これは標本から母集団を推定しているためです。
\[\]
②なぜ母集団を調べないのか
選挙の開票なんて早く知ったところで意味あるの?投票者全員の開票結果を待てばいいのに… そんな声があるかもしれません。
同様に、品質管理が要求される現場でも、すべての製品を検査・調査すればよいのではないでしょうか?
そうすれば、すべての製品に対して「品質」を保証できますよね。
しかし、それができない場合があります・・・
(。´・ω・)?
\[\]
1. 母集団が非常に多くの要素からなる場合
日本人全員や培養した細菌全体など、母集団が非常に大きい場合は現実的に費用がかかり、難しいです。
2.破壊検査の場合や検査・調査に費用がかかる場合
車の衝突試験のように、すべての車を衝突試験なんかしたら、世の中に車はなくなってしまいますよね。
検査費用も高額です。
3.将来予測のため、現在の測定が不可能な場合
来年の新生児出生数は、正確には来年にならないとわかりません。
しかし、データを分析すれば、ある程度は予測できます。
\[\]
このように、母集団全体を検査できない場合は、母集から抽出した標本を分析することで母集団全体を推測します。
この推測のことを「統計的推測」といいます。(QC検定2級にはこの言葉はでないと思います。)
\[\]
③母集団と標本の違い
標本から母集団を推測できるといいましたが、推測するためには母集団と標本の違いを理解する必要があります。
標本は母集団から抽出されたものですので、その集団の性質を表す標本の「統計量」は、例えば平均値であれば
\[Z’=\frac{\bar{x}-μ}{σ’}=\frac{測定の平均 - 母平均}{(母)標準偏差(=\sqrt{分散})}\]
と書けそうです・・・
が、違います! (๑ÒωÓ๑)
\[\]
標本の統計量はサンプル数\(n\)に対して
\[Z’=\frac{\bar{x}-μ}{\frac{σ’}{\sqrt{n}}}=\frac{測定の平均 - 母平均}{\frac{(母)標準偏差(=\sqrt{分散})}{\sqrt{サンプル数}}}\]
母集団の推定の値より分母が\(\frac{1}{\sqrt{n}}\) 倍されているので、分母(=分散)は小さくなり、全体としては値が大きくなります。
この式は違和感を感じませんか?\(n\)数が増えると分散が小さくなる!?
(。´・ω・)?
ここでのポイントは母分散ではなく標本の標準偏差(標本分散)が小さくなることです。
\[\]
標本分散の値が小さくなるイメージをつかむために、イカサマサイコロの例を考えます。
測定の平均値をサイコロの出る目の期待値として、考えてみます。
\[\]
1の目が出る確率を\(\frac{1}{4}\)、6の目が出る確率を\(\frac{1}{12}\)、その他の目が出る確率を\(\frac{1}{6}\)とします。
このサイコロを3回投げたとしましょう、おそらく誰もイカサマサイコロとは気づかないでしょう。
( *゚ω゚))コクコク
\[\]
では3,000回ではどうでしょう。流石に3,000回も投げれば気づけそうです。なぜなら、サイコロの目の期待値が2.67に収束するためです。(通常なら3.5)
この時の1の目の出る回数は、750回くらいになります。(2~5の目は500回くらい)
\[\]
さらに30,000回サイコロを投げたとしましょう、すると1の目の出る回数は、10倍の7,500回くらい出るはずです。
\[\]
ではサイコロを投げた回数が3,000回と30,000回で、「期待される1の目が出る回数より実際に1の目が出た回数が10回少なかった」場合はどうなるでしょうか。
この10回のずれは、1の目が出る回数の期待値が750回の場合は、 \(\frac{10}{750}\) ≒ 1.3% のずれですが、7,500回の場合は 0.13% まで下がります。
このように考えると、サンプル数\(n\)が増えると、期待値のばらつきが小さくなるイメージができますね。
\[\]
④期待値は収束! 大数の法則とは
何となく期待値のばらつき(=分散)が小さくなるイメージはできました。
数式を使って、ちょっとそれっぽく考えてみましょう。
\[\]
\(n\)回サイコロを投げた時の出る目の期待値を考えます。
すると、平均値の期待値\(E(X)\)は、相加平均で考えると
\[E(\bar{X})=E(\frac{1}{n}(X_1 + X_2+・・・+X_n))\]
\[=\frac{nμ}{n}=μ\]
※ 相加平均とは、\(\bar{X}=\frac{X_1 + X_2+・・・+X_n}{n}\) のことです。
ほかにも色んな「平均」があります。
\[\]
この計算では、 \(E(X_1)=E(X_2)=・・・=E(X_n)=μ\)(\(μ\)は母平均) としました。
\(X_1~X_n\)まで \(n\)個の\(X_{ナンチャラ}\) があるので、
\[E(X_1)+E(X_2)+・・・+E(X_n)=nμ\]
サンプル数\(n\)を増やしても、平均値の期待値\(E(\bar{X})\)は変化しません。
むしろ、\(E(\bar{X})→μ\)へと期待値は収束します。
このことを大数の法則と言います。(QC検定2級に言葉はでないかなぁ)
\[\]
⑤なぜ標本の標準偏差は1/\( \sqrt{n}\)倍されるのか
さて、最後に標本の標準偏差について考えていきます。
母標準偏差に対しサンプル数\(n\)の標本の標準偏差は、1/\( \sqrt{n}\)倍されていました。
つまり、分散が小さくなります。
なぜでしょうか? (。´・ω・)?
\[\]
期待値と同様に、平均の分散について考えてみます。
\[V(\bar{X})=V(\frac{1}{n}(X_1 + X_2+・・・+X_n))\]
\[=\frac{1}{n^2}V(X_1 + X_2+・・・+X_n)\]
\[=\frac{n}{n^2}V(X)=\frac{1}{n}σ^2\]
※ \(V(\bar{X_1})=V(\bar{X_2})=・・・=V(\bar{X_n})=σ^2\) としました。
\(σ^2\) は母分散(=標準偏差\(σ\)の2乗)です。
1行目から2行目の変形で、なんで\(\frac{1}{n}→\frac{1}{n^2}\) になるんだ? と思った方は、「期待値と分散の性質」をご参考ください。
\[\]
\(n\)回試行したときの分散が\(V(\bar{X})=\frac{σ^2}{n}\) ですから、この時の標本の標準偏差は、\(\frac{σ}{\sqrt{n}}\) となります。
そう、サンプル数\(n\)に対し、標本の標準偏差は 1/\( \sqrt{n}\) 倍されるのです。
\[\]
まとめ
①母集団から抽出されたものが「標本」
②いつも母集団全体を調べられるとは限らない
③標本の平均値の統計量は、
\[Z’=\frac{\bar{x}-μ}{\frac{σ’}{\sqrt{n}}}=\frac{測定の平均 - 母平均}{\frac{(母)標準偏差(=\sqrt{分散})}{\sqrt{サンプル数}}}\]
④期待値はサンプル数が増えると母平均に収束する
⑤標本の標準偏差(=\(\sqrt{標本分散}\))は、サンプル数\(n\)が増えると、1/\( \sqrt{n}\)倍される
\[\]
だんだん難しくなってきましたね。次回は「\(χ^2\)分布(カイ二乗分布)」について勉強していきましょう!
[…] 詳しくは、記事「母集団と標本」をご参照ください。 […]
[…] 前回の記事では母集団と標本の違いについて勉強しました。今回は (χ^2)分布(カイ二乗分布)について勉強していきましょう! […]