QC検定2級 出題範囲

平均=普通?

公開日2020年1月21日  最終更新日 2021年9月20日

みなさんこんにちは、michiです。

今回のテーマ「平均=普通?」について学んでいきます。

・・・平均って普通のことでしょ?といままでの経験から答えは出てそうです。

果たして実際はどうなのか、勉強していきます。

QC検定でも出題される基礎的な内容になります。

キーワード 「平均値」「中央値(メディアン)」「最頻値(モード)」

①平均値とは

突然ですが、みなさん「平均値」はご存知でしょうか?

おそらく多くの人がご存知でしょう。みなさんが一番慣れ親しんでいる統計値の一つだと思います。

計算式は、次の通りになります。

\[平均値 = データの合計 ÷ データの数\]

\[\]

では、次の質問です。

日本人(10歳以上)一人当たりの一日の平均勉強は何時間でしょうか?

┐(‘~`;)┌ シラネ

\[\]

答えは、“全年代で考えると” 一日の平均勉強時間は約13分です(下図)。

(社会生活基本調査、平成28年社会生活基本調査、調査票Aに基づく結果、生活時間に関する結果、主要統計表、票番号1-1より) 

\[\]

グラフを見ると、学生世代(10~24歳)が勉強時間の平均を押し上げていることが分かります。

30代以上の全世代が平均以下の勉強時間ですので、「平均=普通」と考えると、30代以上の全世代はすべて普通ではないことになります。

世代別平均勉強時間の調査結果からわかるように、データのばらつきの差が大きい場合や、極端な値があると「平均=普通」と考えづらくなります。

 ※この傾向は年収や保有資産などのデータにもあらわれます。

\[\]

では、何を普通とすればよいのでしょうか?

その答えの手がかりに「中央値」と「最頻値」という考えがあります。

\[\]

②中央値とは

中央値(メディアン)」は、値を大小順に並べていき、その中央に来る値です。

\[\]

例えば、何か実験をして得られたデータが次の通りだったとします。

得られたデータ 「\(1,3,5,5,5,7,7,8,13\)」 

このとき、得られたデータ数は9個(奇数)なので、小さい順で5番目と大きい順で5番目の値は同じ値になります。

今回の場合は、\(\boldsymbol{5}\) になりますね。

得られたデータ 「\(1,3,5,5,\boldsymbol{5},7,7,8,13\)」

\[\]

では、得られた全データ数が偶数の場合はどうでしょうか?

得られたデータ 「\(1,3,5,5,5,7,7,8,13,21\)」

このとき、全データ数は10個(偶数)なので、奇数の時のように得られたデータの中に中央値はありません。

では、どうすればよいのか?というと、間を取ります

\[\]

今回の例の場合は、\(\boldsymbol{5,7}\) になりますね。

得られたデータ 「\(1,3,5,5,\boldsymbol{5,7},7,8,13,21\)」

つまり、その間を取るわけですから、中央値は

\[中央値=\qquad \frac{5+7}{2}=\qquad 6\]

以上が中央値の考え方です。

中央値(メディアン)

ちなみに、得られたデータが上記「\(1,3,5,5,5,7,7,8,13,21\)」の平均値は、「7.5」となります。

中央値より少し大きな値です。

これは、「21」という大きなデータが全体の平均値を押し上げているためです。

\[\]



③最頻値とは

最頻値(モード)」は、データの中で一番多く出てくる値のことになります。

中央値の説明で使用した得られたデータをもう一度見てみましょう。

得られたデータ 「\(1,3,5,5,5,7,7,8,13,21\)」

\[\]

この時の最頻値は \(\boldsymbol{5}\) になります。

なぜなら、\(5\) が得られたデータ(全10回)の中で一番多く出てくる数字だからです。

最頻値(モード)

\[\]

データの分布に偏りがある場合、一般的に

データが小さいほうに偏っている場合は、「最頻値<中央値<平均値

データが大きいほうに偏っている場合は、「平均値<中央値<最頻値

となります。

\[\]

④日本人の平均勉強時間を考える

さて、「平均値、中央値、最頻値」を学んだので、冒頭のデータをもう一度見直してみましょう。

平均値の説明では、平均の勉強時間が約13分になりました。

この時の中央値は9分 最頻値が7分となります。 

どうでしょうか?平均値よりも中央値や最頻値の方が、がグラフ的にも「普通」っぽいですよね?

これで日本人の1日の「普通」の勉強時間がわかった! と思いませんでしたか?

(。´・ω・)?チガウノ?

\[\]

実はこのデータから得られる中央値の9分や、最頻値の7分という値もまた、各世代の「平均値」なのです。

「30~34歳の平均勉強時間が7分」ということが、このデータからはわかりますが、極端に言うと次の場合が考えられます。

  1. 70分勉強している人 1人+0分勉強している人(勉強していない人) 9人
  2. 7分勉強している人 10人

どちらの方が現実的でしょうか?

集団全員が7分きっかり勉強していると考えるより、「勉強している人としていない人がいる」と考えるほうが自然ではないでしょうか。

つまり、「30~34歳の平均勉強時間が7分」は、勉強時間0時間の人たちが、勤勉な人たちの足をひっぱっている結果かもしれないのです。

\[\]

みなさん、「平均=普通」とは限りません!

「このデータの平均値は・・・」という人にあったら、「中央値と最頻値は?」と聞いてみましょう。

真実が見えてくるかもしれません。

※平均値が全体を表している場合も、もちろんありますよ

\[\]



⑤まとめ

①平均値=全データの合計÷データ数

②中央値=大小順番に並べ、両端から数えて真ん中に来る値

③最頻値=全データの中で一番多く出てくる値

④日本人の平均勉強時間は13分だけど、現実を表してはいない

\[\]

これから学んでいくQC検定などの多くの統計学では、「平均値」が頻繁に使われます。それは、正規分布に従うことを前提にしたデータ解析が多いためです。

次回は「平方和の式の暗記法」をテーマに、平方和について勉強していきましょう!

⇒オススメ書籍はこちら

⇒サイトマップ

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です