QC検定2級 出題範囲

母集団と標本

公開日2020年4月19日  最終更新日 2022年6月4日

みなさんこんにちは、michiです。

記事「正規分布表のミカタ」では、「標準化」について説明しました。

データの標準化は 

\[Z=\frac{測定値 - 平均値}{標準偏差(=\sqrt{分散})}\]

この式で使われている平均値と標準偏差は、いずれも「母平均」」と「母分散」です。

今回はその内容について勉強していきましょう。

キーワード「母集団」「標本」「1/\( \sqrt{n}\)倍」

目次

①母集団と標本

母集団は、これから知りたいと思う「集団全体」のことで、「母平均」や「母分散」とは、この母集団の平均や分散のことです。

標本は、分析のために母集団から「抽出されたもの」のことです。

標本平均と標本分散は、母集団から抽出されたサンプルの平均値や分散のことを言います。

\[\]

例)選挙:選挙の母集団は選挙で投票した人全員ですが、最初の数%を開票すれば当選確実の判断ができます。

これは標本から母集団を推定しているためです。

\[\]

②なぜ母集団を調べないのか

選挙の開票なんて早く知ったところで意味あるの?投票者全員の開票結果を待てばいいのに… そんな声があるかもしれません。

同様に、品質管理が要求される現場でも、すべての製品を検査・調査すればよいのではないでしょうか?

そうすれば、すべての製品に対して「品質」を保証できますよね。

しかし、それができない場合があります・・・

(。´・ω・)?

\[\]

 1. 母集団が非常に多くの要素からなる場合

 日本人全員や培養した細菌全体など、母集団が非常に大きい場合は現実的に費用がかかり、難しいです。

 2.破壊検査の場合や検査・調査に費用がかかる場合

 車の衝突試験のように、すべての車を衝突試験なんかしたら、世の中に車はなくなってしまいますよね。

 検査費用も高額です。

 3.将来予測のため、現在の測定が不可能な場合

 来年の新生児出生数は、正確には来年にならないとわかりません。

 しかし、データを分析すれば、ある程度は予測できます。

\[\]

このように、母集団全体を検査できない場合は、母集から抽出した標本を分析することで母集団全体を推測します。

この推測のことを「統計的推測」といいます。(QC検定2級にはこの言葉はでないと思います。)

\[\]



③母集団と標本の違い

標本から母集団を推測できるといいましたが、推測するためには母集団と標本の違いを理解する必要があります。

標本は母集団から抽出されたものですので、その集団の性質を表す標本の「統計量」は、例えば平均値であれば

\[Z’=\frac{\bar{x}-μ}{σ’}=\frac{測定の平均 - 母平均}{(母)標準偏差(=\sqrt{分散})}\]

と書けそうです・・・

が、違います! (๑ÒωÓ๑)

\[\]

標本の統計量はサンプル数\(n\)に対して

\[Z’=\frac{\bar{x}-μ}{\frac{σ’}{\sqrt{n}}}=\frac{測定の平均 - 母平均}{\frac{(母)標準偏差(=\sqrt{分散})}{\sqrt{サンプル数}}}\]

母集団の推定の値より分母が\(\frac{1}{\sqrt{n}}\) 倍されているので、分母(=分散)は小さくなり、全体としては値が大きくなります。

この式は違和感を感じませんか?\(n\)数が増えると分散が小さくなる!?

(。´・ω・)?

ここでのポイントは母分散ではなく標本の標準偏差(標本分散)が小さくなることです。

\[\]

標本分散の値が小さくなるイメージをつかむために、イカサマサイコロの例を考えます。

測定の平均値をサイコロの出る目の期待値として、考えてみます。

\[\]

1の目が出る確率を\(\frac{1}{4}\)、6の目が出る確率を\(\frac{1}{12}\)、その他の目が出る確率を\(\frac{1}{6}\)とします。

このサイコロを3回投げたとしましょう、おそらく誰もイカサマサイコロとは気づかないでしょう。

( *゚ω゚))コクコク

\[\]

では3,000回ではどうでしょう。流石に3,000回も投げれば気づけそうです。なぜなら、サイコロの目の期待値が2.67に収束するためです。(通常なら3.5)

この時の1の目の出る回数は、750回くらいになります。(2~5の目は500回くらい)

\[\]

さらに30,000回サイコロを投げたとしましょう、すると1の目の出る回数は、10倍の7,500回くらい出るはずです。

\[\]

ではサイコロを投げた回数が3,000回と30,000回で、「期待される1の目が出る回数より実際に1の目が出た回数が10回少なかった」場合はどうなるでしょうか。

この10回のずれは、1の目が出る回数の期待値が750回の場合は、 \(\frac{10}{750}\) ≒ 1.3% のずれですが、7,500回の場合は 0.13% まで下がります。

このように考えると、サンプル数\(n\)が増えると、期待値のばらつきが小さくなるイメージができますね。

\[\]



④期待値は収束! 大数の法則とは

何となく期待値のばらつき(=分散)が小さくなるイメージはできました。

数式を使って、ちょっとそれっぽく考えてみましょう。

\[\]

\(n\)回サイコロを投げた時の出る目の期待値を考えます。

すると、平均値の期待値\(E(X)\)は、相加平均で考えると

\[E(\bar{X})=E(\frac{1}{n}(X_1 + X_2+・・・+X_n))\]

\[=\frac{nμ}{n}=μ\]

※ 相加平均とは、\(\bar{X}=\frac{X_1 + X_2+・・・+X_n}{n}\) のことです。

ほかにも色んな「平均」があります。

\[\]

この計算では、 \(E(X_1)=E(X_2)=・・・=E(X_n)=μ\)(\(μ\)は母平均) としました。

\(X_1~X_n\)まで \(n\)個の\(X_{ナンチャラ}\) があるので、

\[E(X_1)+E(X_2)+・・・+E(X_n)=nμ\]

サンプル数\(n\)を増やしても、平均値の期待値\(E(\bar{X})\)は変化しません。

むしろ、\(E(\bar{X})→μ\)へと期待値は収束します。

このことを大数の法則と言います。(QC検定2級に言葉はでないかなぁ)

\[\]

⑤なぜ標本の標準偏差は1/\( \sqrt{n}\)倍されるのか

さて、最後に標本の標準偏差について考えていきます。

母標準偏差に対しサンプル数\(n\)の標本の標準偏差は、1/\( \sqrt{n}\)倍されていました。

つまり、分散が小さくなります。

なぜでしょうか? (。´・ω・)?

\[\]

期待値と同様に、平均の分散について考えてみます。

\[V(\bar{X})=V(\frac{1}{n}(X_1 + X_2+・・・+X_n))\]

\[=\frac{1}{n^2}V(X_1 + X_2+・・・+X_n)\]

\[=\frac{n}{n^2}V(X)=\frac{1}{n}σ^2\]

※ \(V(\bar{X_1})=V(\bar{X_2})=・・・=V(\bar{X_n})=σ^2\) としました。

\(σ^2\) は母分散(=標準偏差\(σ\)の2乗)です。

1行目から2行目の変形で、なんで\(\frac{1}{n}→\frac{1}{n^2}\) になるんだ? と思った方は、「期待値と分散の性質」をご参考ください。

\[\]

\(n\)回試行したときの分散が\(V(\bar{X})=\frac{σ^2}{n}\) ですから、この時の標本の標準偏差は、\(\frac{σ}{\sqrt{n}}\) となります。

そう、サンプル数\(n\)に対し、標本の標準偏差は 1/\( \sqrt{n}\) 倍されるのです。

\[\]



まとめ

①母集団から抽出されたものが「標本」

②いつも母集団全体を調べられるとは限らない

③標本の平均値の統計量は、

\[Z’=\frac{\bar{x}-μ}{\frac{σ’}{\sqrt{n}}}=\frac{測定の平均 - 母平均}{\frac{(母)標準偏差(=\sqrt{分散})}{\sqrt{サンプル数}}}\]

④期待値はサンプル数が増えると母平均に収束する

標本の標準偏差(=\(\sqrt{標本分散}\))は、サンプル数\(n\)が増えると、1/\( \sqrt{n}\)倍される

\[\]

だんだん難しくなってきましたね。次回は「\(χ^2\)分布(カイ二乗分布)」について勉強していきましょう!

⇒オススメ書籍はこちら

⇒サイトマップ





COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です