公開日2020年6月28日 最終更新日 2021年9月20日
みなさんこんにちは、michiです。
前回の記事では分割表でカイ二乗検定が使われる理由を解説しました。
今回は一度は聞いたことがある「相関」について学んでいきます。
キーワード:「相関」「回帰」「相関関係係数」
目次
①相関と回帰
様々なデータを分析していく中で重用なのが「相関」と「回帰」です。
「相関」は聞いたことがあるけど、「回帰」は知らない人も多いカモしれません。
それぞれの意味は次のようになります。
- 相関:変数\(x\) と変数\(y\) の間の相互関係を対等にみる見方や方法
- 回帰:変数\(x\) から変数\(y\) が決定される様子や程度
\[\]
具体的な例を考えてみましょう
設定)父と母から生まれた兄と弟がいます。
・兄と弟は顔が似ています。この時兄弟で顔が似ているのは「相関」になります。
・兄弟は両親にも顔が似ています。兄弟の顔が両親に似ているのは「回帰」になります。
(。´・ω・)?
どういうことでしょうか?
兄弟間で顔が似ているのは、兄の影響で弟の顔が変わったわけでも、弟の影響で兄の顔が変わったわけでもありません。
しかし、顔が似ているということは、事実です。
このように兄⇔弟でどちらかの影響で一方が決まっていないときが「相関」になります。
\[\]
では、兄弟が両親に似ていることはどうでしょうか?
兄弟の顔が両親に似ているのは、両親の遺伝子というデータを基に兄弟が造られた(生まれた)ためです。
兄弟の顔に合わせて両親の顔が決まったわけではないので、遺伝子というデータには方向性があるといえます。
このように、一方による影響で片方が決まる場合が「回帰」になります。
今回の記事では「相関」について学んでいきます。
\[\]
②相関係数
いきなりですが、相関係数\(r\) は以下の式で表されます。
\[r=\frac{S_{xy}}{\sqrt{S_x}×\sqrt{S_y}}\]
\(S_{xy}\):\(x\) と\(y\) の偏差積和, \(S_x\):\(x\) の平方和, \(S_y\):\(y\) の平方和
いきなり定義の式を出しましたが、そもそもなぜこんな煩わしい計算が必要なのでしょうか?
(?´・ω・`)ナニナニ
\[\]
それは相関関係を「数値化」するためです。
「①相関と回帰」では、兄弟の顔が似ている例をあげました。
しかし違う人間ですので、似ていない部分もあるはずです。
このままでは「似ているけど兄弟の割には似ていない」など、人によって捉え方の違う曖昧な表現を使うことになってしまいます。
そこで、相関係数\(r\) を定義することで、客観的に相関関係を数値化して評価することができるようになります。
もう一度、相関係数\(r\) をみてみましょう。
\[r=\frac{S_{xy}}{\sqrt{S_x}×\sqrt{S_y}}\]
\(S_{xy}\):\(x\) と\(y\) の偏差積和, \(S_x\):\(x\) の平方和, \(S_y\):\(y\) の平方和
はい、見慣れないものがありますね、「\(S_{xy}\)」です。
「\(S_{xy}\)」は「偏差積和」といわれ、以下の式で表されます。
\[S_{xy}=\displaystyle \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})\]
\(x_i,y_i\) はそれぞれ観測値で、\(\bar{x},\bar{y}\) は\(x,y\)の平均値を表します。
また、偏差積和の計算式は次のように変形することができます。
\[S_{xy}=\displaystyle \sum_{i=1}^n (x_i・y_i)-\frac{(\sum x_i)(\sum y_i)}{n}\]
\(n\) はサンプル数になります。
平方和の計算式「庭にひくサンプル分のワニ」に似ていますよね。
\[\]
話を戻します。
偏差積和の定義式を平方和\(S_x,S_y\) と比較すると、
\[S_x=\displaystyle \sum_{i=1}^n (x_i-\bar{x})^2 \qquad S_y=\displaystyle \sum_{i=1}^n (y_i-\bar{y})^2 \]
\[⇓\]
\[S_x=\displaystyle \sum_{i=1}^n (x_i-\bar{x})(x_i-\bar{x}) \qquad S_y=\displaystyle \sum_{i=1}^n (y_i-\bar{y})(y_i-\bar{y}) \]
なんとなく見えてきましたね。
偏差積和\(S_{xy}\) は「\(i\)番目の\(x_i,y_i\)の平均からのずれを毎回掛け算し、それを\(n\)番目まで足した合計値」になります。
分母の\(\sqrt{S_x}\) は、「\(i\)番目から\(n\)番目までの各測定値と平均の差の合計の二乗の平方根」になります。
\[\]
二乗の平方根って意味ないじゃんって気がしますが、「マイナスにならない計算」をしていると考えてください。
\(\sqrt{S_y}\)の計算も、\(\sqrt{S_x}\)と同じです。
パット見 \(S_{xy}\)と\(\sqrt{S_x}\)×\(\sqrt{S_y}\)の違いが判りませんが、「二乗の和(合計)」と「和(合計)の二乗」は違うので気を付けましょう。
\[\]
さて、最後にもう一度、分子の偏差積和の式を見てみましょう。
\[S_{xy}=\displaystyle \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})\]
ここでポイントになるのが、偏差積和\(S_{xy}\)は「マイナス」を取りうることです。
例えばある観測値(\(x_i,y_i\)) において、\(x_i\) が平均値\(\bar{x}\) 以上で、\(y_i\) が平均値\(\bar{y}\) 以下の場合、偏差積和\(S_{xy}\) は「マイナス」になります。
分母は二乗の平方根ですので、「プラス」になります。
したがって、相関係数\(r\) は分子の偏差積和\(S_{xy}\)の符号によってプラスかマイナスが決まることになります。
この時 \(r>0\) を正の相関、\(r,0\) を負の相関 といいます。
\[\]
③相関係数の意味(相関がないとき)
相関係数\(r\) は以下の式で表されました。
\[r=\frac{S_{xy}}{\sqrt{S_x}×\sqrt{S_y}}\]
\(S_{xy}\):\(x\) と\(y\) の偏差積和, \(S_x\):\(x\) の平方和, \(S_y\):\(y\) の平方和
ところで、この相関係数\(r\) とはいったい何者なのでしょうか?
曲者っっっ!(`・ω・)ノ ≡=[IIIニニフ
\[\]
二つの例題を考えてみましょう。
例1)測定値1,2,3の測定結果(\(x,y\)) の結果は次のようになった。
測定値1(\(2,1\)),測定値 2(\(4,1\)),測定値3(\(3,4\)) この時の平均値は(\(3,2\)) になります。
この時の様子を図示すると、下図のようになります。
\[\]
この時の偏差積和\(S_{xy}\)、平方和の平方根\(\sqrt{S_x},\sqrt{S_y}\) を求めると、
\[S_{xy}=\displaystyle \sum_{i=1}^3 (x_i-\bar{x})(y_i-\bar{y}) =(2-3)(1-2)+(4-3)(1-2)+(3-3)(4-2)\]
\[=1-1+0 =0\]
\[\sqrt{S_x}=\displaystyle \sum_{i=1}^3 (x_i-\bar{x})^2=\sqrt{(2-3)^2+(4-3)^2+(3-3)^2}\]
\[=\sqrt{1+1+0}=\sqrt{2}\]
\[\sqrt{S_y}=\displaystyle \sum_{i=1}^3 (y_i-\bar{y})^2=\sqrt{(1-2)^2+(1-2)^2+(4-2)^2}\]
\[=\sqrt{1+1+4}=\sqrt{6}\]
分子である偏差積和\(S_{xy}\) が0なので、相関係数\(r\) も0になります。
\[\]
ここで、図形からわかることを考えてみましょう!
偏差積和の式をよく見ると、平均値と測定値で作る面積の合計を求めていることがわかります。
ただし、グラフを見て平均値より左下にある測定値と作る面積はプラスで、平均値より右下にある測定値と作る面積はマイナスになっています。
今回は測定値1と平均値で作る面積と、測定値2と平均値で作る面積が等しく、測定値3とは面積を作れていません。
その結果、偏差積和の合計は0になりました。
\[\]
一般的に \(-0.4≦r≦0.4\)の時は、相関関係はほとんどないと判断されます。
\[\]
④相関係数の意味(相関があるとき)
先ほどは相関がない場合の計算をしました。
今度は違う例題を解いてみましょう。
例2)測定値A,B,Cの測定結果(\(x,y\)) の結果は次のようになった。
測定値A(\(1,1\)),測定値 B(\(2,1.5\)),測定値C(\(6,3.5\)) この時の平均値は(\(3,2\)) になります。
この時の様子を図示すると、下図のようになります。
先ほどと同様に偏差積和\(S_{xy}\)、平方和の平方根\(\sqrt{S_x},\sqrt{S_y}\) を求めると、
\[S_{xy}=\displaystyle \sum_{i=1}^3 (x_i-\bar{x})(y_i-\bar{y}) =(1-3)(1-2)+(2-3)(1.5-2)+(6-3)(3.5-2)\]
\[=2+0.5+4.5 =7\]
\[\sqrt{S_x}=\sqrt{\displaystyle \sum_{i=1}^3 (x_i-\bar{x})^2}=\sqrt{(1-3)^2+(2-3)^2+(6-3)^2}\]
\[=\sqrt{4+1+9}=\sqrt{14}\]
\[\sqrt{S_y}=\sqrt{\displaystyle \sum_{i=1}^3 (y_i-\bar{y})^2}=\sqrt{(1-2)^2+(1.5-2)^2+(3.5-2)^2}\]
\[=\sqrt{1+0.25+2.25}=\sqrt{3.5}\]
\[\]
\[\sqrt{S_x}×\sqrt{S_y}=\sqrt{14}×\sqrt{3.5}\]
\[=\sqrt{4×3.5}×\sqrt{3.5}=2×3.5=7\]
よって相関係数\(r\) は、
\[r=\frac{S_{xy}}{\sqrt{S_x}×\sqrt{S_y}}=1\]
「③相関係数の意味(相関係がないとき)」では、分子の偏差積和は平均値と測定値で作る面積の合計値と書きました。
今回も偏差積和に対しての理解は同じなのですが、分母の\(\sqrt{S_x}×\sqrt{S_y}\) は何を意味するのでしょうか?
曲者っっっ!(`・ω・)ノ ≡=[IIIニニフ
\[\]
\(\sqrt{S_x}=\sqrt{\displaystyle \sum_{i=1}^3 (x_i-\bar{x})^2}\) この式は、平均値と測定値の差の二乗の平方根を計算しています。
簡単に言い換えると、「平均値と測定値のずれ」を表しています。
\(x\) のずれの合計\(S_x\) と\(y\) のずれの合計\(S_y\) を掛け算しているので、分母は平均からのずれの合計を表しています。
分母に当たる「ずれ」は加算されて計算されていることを気をつけましょう!
分子の偏差積和との違いは、ずれは加算されるため「プラスの値しかとらない」というところになります。
\[\]
⑤相関係数が\(-1≦r≦1\) の理由
ここまで、相関がない場合(r=0)と相関がある場合(r=1)で例題を考えてみました。
二つの場合のイメージを比較しながら、まとめてみます。
- 分子の「偏差積和」はプラスにもマイナスにもなる面積の合計
- 分母の「平方和の平方根の掛け算」はプラスのみの面積の合計
\[\]
「偏差積和」は、平均値と測定値で作る面積の符号が、平均値に対し測定値が左下か右下かでプラスかマイナスか変わるという特徴がありました。
一方「平方和の平方根の掛け算」は、ずれの合計なのでプラスのみしかありません。
どちらも平均値と測定値で作る面積を計算していますが、分子は足したり引いたり、分母は足し算のみの計算です。
このように考えると、分母≧分子 が常に成り立つことが分かります。
よって、分母≧分子 ⇒ 1≧\(\frac{分子}{分母}\) が成立します。
ただし、分子の偏差積和はマイナスも取りうる値でした。
なので、 1≧\(\frac{分子}{分母}\)≧-1 ⇒ \(-1≦ 相関係数 r ≦1\)
相関係数は0に近いほど相関が弱く、±1に近いほど相関が強いと判断されます。
\[\]
最後にワンポイント
「偏差積和」は、平均値に対して測定値が左下にある場合はプラス、測定値が右下にある場合はマイナスになりました。
さらに「偏差積和」は、平均値に対して測定値が右上にある場合もプラス、測定値が左上にある場合もマイナスになることを覚えておきましょう。
\[\]
まとめ
①相関はA⇔B、回帰はA⇒B
②相関係数は\(r=\frac{S_{xy}}{\sqrt{S_x}×\sqrt{S_y}}\)
③相関係数の分子 偏差積和はプラスにもマイナスにもなる
④相関係数の分母 \(\sqrt{S_x}×\sqrt{S_y}\) はプラスしかとれない
⑤相関係数\(r\)は \(-1≦r≦1\) の範囲しかとらない
\[\]
今回は相関係数に着目して、勉強しました。
次回は今回紹介しきれなかった相関の特徴について学んでいきます!
[…] 記事「相関関係1 相関係数とは」で学んだ相関関係との違いは、目的変数(y) を説明変数(x) で説明しようとすることです。 […]
[…] 今回の内容の詳細な説明は、記事「相関関係1 相関係数とは」をご参照ください。 […]
[…] 今回の内容の詳細な説明は、記事「相関関係1 相関係数とは」をご参照ください。 […]
[…] 今回の内容の詳細な説明は、記事「相関関係1 相関係数とは」をご参照ください。 […]
[…] 今回の内容の詳細な説明は、記事「相関関係1 相関係数とは」をご参照ください。 […]
[…] 次回からは相関・回帰分析について学んでいきましょう! […]
[…] 前回の記事では、相関係数について初歩的なことを学びました。 […]