公開日2020年2月8日 最終更新日 2022年4月2日
みなさんこんにちは michiです。
前回の勉強で平方和の計算方法とその意味を学びました。
平方和によって平均からのずれ(=ばらつき)を評価できるようになったのに、なぜ「不偏分散」を考える必要があるのでしょうか?
その答えは、「サンプル数が異なっても、評価を可能にするため」です。
(。´・ω・)?
どういうことか、学んでいきましょう!
キーワード:「不偏分散」「自由度」
\[ \]
目次
①不偏分散とはなにか
Weblio 辞書(https://www.weblio.jp/content/不偏分散) によると、不偏分散とは、「観測値の散らばりを表すと同時に、その観測値が得られた母集団における散らばりの推定値でもある(“母分散の不偏推定値”という)。」 とあります。
(。´・ω・)?
ちょっと何言ってるかわからない ですね。
\[\]
統計学では、「調べたいグループ(母集団)」のすべてに対し、調査をすることはほとんどありません。
大変だからです。
(o´Д`)=з
\[\]
調査では、「調べたいグループ(母集団)」の中から抽出したいくつかのサンプルの「観測値」から、全体の状況を把握します。
例えば、テレビの視聴率や、就職率、結婚率など身の回りにたくさんあります。
「木を見て森を見る」わけです。
全体を把握するために、平均値や中央値、最頻値などの統計量が使われます。
前回学んだ平方和も、データのばらつきを評価するための統計量になります。
平方和は、「すべての平均値と観測値の差 の2乗 の合計」です。
\[\]
平方和で「ばらつき」を評価すると、本来同じ程度の「ばらつき」であっても、サンプル数が多くなると「ばらつき」が大きくなったように見えます。
これは、平方和は「すべての平均値と観測値の差 の2乗 の合計」だからです。
サンプル数が増えることで、合計値が大きくなってしまいます。
\[\]
平方和の弱点を克服するため、サンプル数が異なってもばらつきを評価する統計量が必要となります。
それが 不偏分散 です!
不偏分散(V)は、以下の式で表されます。
\[不偏分散(V)= \frac {平方和(S)}{自由度(Φ)} \]
\[ = \frac {\sum (x_i – \overline{x})^2}{n-1} \]
不偏分散では、サンプル数の影響を受けないように、平方和を自由度(サンプル数 – 1)で割り算して求めます。
\[ \]
②自由度(\(Φ\))とは
さて、「自由度」という聞きなれない言葉が出てきました。
Weblio 辞書(https://www.weblio.jp/content/自由度) を再度参考にさせていただくと、自由度とは
「 ケース数 n の標本を k 個のカテゴリーに分割する場合,k-1 個のカテゴリーには任意のケースを割り振れるが,残る 1 カテゴリーに割り振れるケース数は必然的に定まる。すなわち,・・・」 とあります。
(´・ω・`)?
またしても、ちょっと何言ってるかわからない ですよね。
\[\]
わかりやすい例を考えてみましょう。
「教室に椅子が10個あります。10人の生徒のうち何人が椅子を自由にえらぶことができるでしょうか?」
\[\]
答えは・・・9人です。なぜなら、10人目の人は残った椅子以外に選択の自由がない(えらべない)からです。
(座らないというのは、なしですよ。)
これは、椅子の数が10個という制約条件が発生しているためです。
では、なぜ不偏分散の計算ではサンプル数ではなく、自由度を使うのでしょうか?
\[ \]
③不偏分散で自由度を使う理由
不偏分散でも何かしらの制約条件が発生していたため、先ほどの椅子の例のように、サンプル数ではなく、自由度を使うと考えられます。
では、その制約条件とは何なのでしょうか?
平方和の定義式をもう一度考えましょう。
\[ 平方和 (S) = \sum (x_i – \overline{x})^2 \]
使われている値は、各観測値と平均値です。
…そう、この平均値が制約条件になってしまいます。
(。´・ω・)?
\[\]
例えば次の問題を考えてみましょう。
「10個のサンプルがあって、平均値が決まっています。何個目のサンプルまで、自由に値をえらぶことができるでしょうか?」
\[\]
先ほどの椅子の例とおなじように、今回も9個目のサンプルまでが、自由に値をえらぶことができます。
不偏分散は、平均値が決まっている平方和から算出されるため、自由度(サンプル数 – 1)が使われます。
「– 1」 は、最後のひとつの観測値は自由にえらべないことを意味します。
\[\]
まとめ
①「不偏分散」は、「平方和」を「自由度」で割ることでもとめる。
②「自由度」とは、「サンプル数-1」の値のこと
③不偏分散の計算で自由度を使う理由は、平均値という制約条件があるため
\[\]
今回は不偏分散について学びました。
しかし、これでもまだデータを加工する必要があります。
次回の記事では、不偏分散から標準偏差について勉強していきましょう!
\[\]
[…] ※自由度の詳細は記事「平方和ではだめ?不偏分散とは」をご参考ください。 […]
[…] 自由度とは何かについては、記事「平方和ではだめ?不偏分散とは」をご参照ください。 […]
[…] 次回の記事では「平方和」から「不偏分散」を考えてみましょう! […]
[…] 前回の記事で不偏分散の計算方法とその意味をまなびました。 […]
[…] 不偏分散は、平方和を自由度で割った値になります。※詳細はこちら […]
[…] 「平方和ではだめ?不偏分散とは」 […]
[…] 不偏分散 (V) の計算式 […]