公開日2021年9月26日 最終更新日 2021年10月16日
みなさんこんにちは、michiです。
前回は指数分布について勉強しました。
今回は、共分散と相関係数について勉強していきます。
QC検定1級でも度々問われるので、しっかり理解しましょう!
キーワード:「共分散」「相関係数」「分散の加法性」
目次
①共分散とは
共分散とは、二つの確率変数 \(X\) と \(Y\) の偏差の積の期待値のことです。
数式で書くと、次のようになります。
\[共分散 Cov(x,y)=\frac{S_{xy}}{n-1}\]
\[=\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+…+(x_n-\bar{x})(y_n-\bar{y})}{n-1}\]
\[=\frac{\sum{x_i y_i}-\frac{(\sum{x_i})(\sum{y-i})}{n}}{n-1}\]
\[\]
\(Cov(x,y)\) は、\(V_{xy}\) と表すこともあります。
(´・ω・`;)
この式だけを見てもイメージがつかないですよね。
そんな場合は、記事「相関関係1 相関係数とは」をご参照ください。
\[\]
さて、この共分散ですが、QC検定2級でも出てきました。
分散の加法性についてです。
確率変数 \(x\) と \(y\) が互いに独立な場合、分散の合計は次のように計算できます。
\[V(x+y)=V(x)+V(y) \qquad V(x-y)=V(x)+V(y)\]
\[\]
例えば、ペンのばらつき\(V(x)\) とリンゴのばらつき\(V(y)\) は、それぞれ互いに独立であるとします。
すると、アッポーペンのばらつき\(V(x+y)\) は、ペンのばらつき\(V(x)\) とリンゴのばらつき\(V(y)\) がそのまま足されるイメージです。
ウ~( ˘•ω•˘ )~ン 古い・・・
\[\]
ここでのポイントは、確率変数 \(x\) と \(y\) が互いに独立であることです。
互いに独立であるから、合計の分散\(V(x+y)\) は、それぞれの分散を単純に加算して計算できました。
では、互いに独立ではない場合の分散はどうなるのでしょうか?
(。´・ω・)?
\[\]
確率変数 \(x\) と \(y\) が互いに独立ではない場合、分散の合計は次のように計算できます。
\[V(x+y)=V(x)+V(y)+2Cov(x,y) \qquad V(x-y)=V(x)+V(y)-2Cov(x,y)\]
\[\]
でてきましたね、共分散\(Cov(x,y)\) !
QC検定2級までは「互いに独立ではない確率変数の分散は、各確率変数のばらつの和と等しくならない」と覚えていれば十分でした。
QC検定1級では、その先の計算が求められます。

\[\]
②共分散を相関係数で表す
共分散\(Cov(x,y)\)は、偏差積和\(S_{xy}\)を用いて、次のように表せます。
\[V_{xy}=\frac{S_{xy}}{n-1}\]
この偏差積和\(S_{xy}\) はどこかで見覚えがありませんか?
(。´・ω・)?
・・・そうです、相関係数 \(r\) です!
相関係数\(r\)は次の式で表されます。
\[r=\frac{S_{xy}}{\sqrt{S_x・S_y}}\]
\[\]
偏差積和\(S_{xy}\) がでてきましたね。
\(S_x\) と\(S_y\) は、それぞれ\(x\) と\(y\) の平方和です。
平方和を不偏分散で表すと、
\[V_x=\frac{S_x}{n-1}\qquad V_y=\frac{S_y}{n-1}\]
\[\]
相関係数\(r\) を不偏分散を用いて表すと
\[r=\frac{S_{xy}}{\sqrt{S_x・S_y}}=\frac{(n-1)V_{xy}}{\sqrt{(n-1)^2V_x V_y}}\]
\[r=\frac{V_{xy}}{\sqrt{V_x V_y}}\]
以上の計算結果から、共分散 \(Cov(x,y)\) = \(V_{xy}\) を相関係数\(r\)で表すと、
\[Cov(x,y)=V_{xy}=r\sqrt{V_x V_y}\]
\[\]
③独立ではない確率変数の分散
共分散 \(Cov(x,y)\) を相関係数\(r\) で表すことができました。
ここでもう一度復習しましょう。
独立した確率変数の分散の和(差)は次の式で表されます。
- \(V(x+y)=V(x)+V(y)\)
- \(V(x-y)=V(x)+V(y)\)
一方、独立ではない確率変数の分散の和(差)は次の式で表されます。
- \(V(x+y)=V(x)+V(y)+2cov(x,y)\)
- \(V(x-y)=V(x)+V(y)-2cov(x,y)\)
共分散 \(Cov(x,y)\)を相関係数\(r\) を用いて表すと、
- \(V(x+y)=V(x)+V(y)+2r\sqrt{V_x V_y}\)
- \(V(x-y)=V(x)+V(y)-2r\sqrt{V_x V_y}\)
\[\]
相関係数\(r\) は (\(-1≦r≦1\)) の値をとる定数です。
もし、\(r=0\) の場合を考えると、
\[V(x±y)=V(x)+V(y)±2r\sqrt{V_x V_y}=V(x)+V(y)\]
となり、独立した確率変数の分散の和(差)と同じ式になります。
これは 相関係数\(r=0\) 、すなわち二つの確率変数が相関関係にない状態を表します。
\[\]
実務的には、実験から得られた相関係数\(r\) がピッタリ\(r=0\) とならなくても、二つの確率変数が独立であることが明らかな場合は、相関係数\(r=0\)とします。
逆に、相関係数\(r\) が\(r≠1\) であっても、二つの確率変数に相関関係があることが明確であるならば、相関係数\(r=1\) とします。
\[\]
例えば、1本の木の角柱から四角い枠を作る場合を考えます。
使える角柱の材料の長さが決まっているので、四角い枠の縦の長さと横の長さは相関関係にあります。

\[\]
④無相関の検定
相関係数\(r\) が0か1で明確な場合は、分散の計算はできます。
問題は、相関関係があるかないかの判断が必要なときです。
そこで、母相関係数\(ρ=0\) かどうかを検定する方法があります。
それが無相関の検定です。
\[\]
無相関の検定統計量\(t_0\) は次の式で計算します。
\[t_0=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\]
この検定統計量\(t_0\) は、自由度 \(n-2\) の t分布に従います。
また、相関係数\(r\) は、母相関係数\(ρ=0\) の母集団からサンプリングされた標本の相関係数になります。
\[\]
標本の相関係数\(r\) を使って、母集団の相関係数\(ρ\) に対する仮説検定を行っています。
このとき、帰無仮説\(H_0:ρ=0\)、対立仮説\(H_1:ρ≠0\) となります。
\(t_0=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\) は、QC検定2級でも出題されるので、覚えておきましょう!
\[\]
まとめ
①\(共分散 Cov(x,y)=\frac{S_{xy}}{n-1}\)
②\(共分散 Cov(x,y)=r\sqrt{V_x V_y}\)
③独立ではない確率変数の分散の和(差)は
- \(V(x+y)=V(x)+V(y)+2cov(x,y)\)
- \(V(x-y)=V(x)+V(y)-2cov(x,y)\)
④無相関の検定統計量 \(t_0\)は
\[t_0=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\]
\[\]
今回は独立ではない場合のばらつきについて学びました。
このあたりからQC検定1級は難しくなってきます。
無相関の検定統計量は、QC検定2級でも満点阻止問題(?)として出題されることがあるので、覚えておきましょう!
\[\]
QC検定対策の情報を収集しようと、youtube等いろいろ探して試験日前日にこのサイトにたどり着きました。結果的にmichiさんの解説が分かりやすく一番役に立ちそうです。3か月前に出会ってなかったのが悔やまれます。因みにリクエストなんですが(次回受援のために??)、今後相関分析におけるz変換についての情報をupしていただけないでしょうか?関数電卓なしに、なぜあんな計算ができるのかが謎なのです。。よろしくお願いいたします。
ご参考にしていただきありがとうございます。
相関分析・Z変換については、これからUPしていきます。
他にも書きたい記事(書ける記事)からUPしていこうと考えているので、
少し時間がかかるかもしれません。
できるだけみなさまのご期待に応えられるよう、
更新してまいりますので、引き続き当サイトをご贔屓していただければ幸いです。