第 5 回 相関係数、第5回課題

本日の内容


このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。

5-1. 相関関係

二つの確率変数X,Yが独立でなく、分布に特定の関係を持つことを相関関係という。 この時、この相関関係の強さに注目する。 得られたデータから相関関係を調べるには、まずは、散布図などデータの関係を可視化する必要がある。 そして、もし、散布図が円や長方形ではなく、特定の図形に見える場合、何らかの相関関係があると考えることができる。

共分散\sigma_XY=Cov(X,Y)=\sum (Xi-\mu_X)(Y_i-\mu_Y)に対して、 ピアソンの積率相関係数\rho_XYは \sigma(X,Y)/\sigma_X, \sigma_Y あるいは、不偏共分散 s_XY、不偏分散 s_X^2, s_Y^2用いると s_XY/s_X s_Y とする。これらは等しい(つまり、nで割るかn-1で割るかは、統一していれば良い)。 この相関係数は -1\leq \rho_XY\leq 1 という関係があり、 0は無相関、正の値なら正の相関、負の値なら負の相関であると言う。 絶対値が1に近ければ相関が強い。

相関関係は関係の強さを分析するものです。 一方、回帰分析は2つの確率変数 X,Y の関係を求めるもので、因果関係が あることを 前提としている。 また、相関係数は関係式の係数ではなく、あくまでも相関の強さを示している。

5-2. 確率(4)

Cov(X,Y)= 1/n \sum (X-\mu_X)(Y-\mu_Y)= \sum (XY -\mu_X Y - X\mu_Y +\mu_X\mu_Y)= Ex(XY)-\mu_X Ex(Y)-Ex(X)\mu_Y+\mu_X\mu_Y= Ex(XY)-\mu_X\mu_Y

なお、 XとYが独立なら Ex(XY)=Ex(X)Ex(Y)より、 Cov(X,Y)=Ex(XY)-\mu_X\mu_Y =Ex(X)Ex(Y)-\mu_X\mu_Y=0

Cov(aX+b,cY+d)= \sum (aX+b-a\mu_X-b)(cY+d-c\mu_Y-d)= \sum (aX-a\mu_X)(cY-c\mu_Y)= ac\sum (X-\mu_X)(Y-\mu_Y)= acCov(X,Y)

不偏共分散と共分散の関係

n s_XY = \sum (X-\bar{X})(Y-\bar{Y})= \sum (X-\mu_X+\mu_X-\bar{X})(Y-\mu_Y+\mu_Y-\bar{Y})= \sum (X-\mu_X)(Y-\mu_Y) +(X-\mu_X)(\mu_Y-\bar{Y}) +(\mu_X-\bar{X})(Y-\mu_Y) +(\mu_X-\bar{X})(\mu_Y-\bar{Y}) = n\sigma_XY-n 1/n^2 \sum(Xi-\mu_X)\sum(Y_i-\mu_Y) = 番号の違うのと同じのを区別して n\sigma_XY -n(1/n^2 \sum(Xi-\mu_X)(Y_i-\mu_Y) + 2/n^2 \sum(Xi-\mu_X)(Y_j-\mu_Y) = 番号が違うのは独立なので n\sigma_XY- \sigma_XY - 2n Ex(Xi-\mu_X)Ex(Y_j-\mu_Y) =(n-1)\sigma_XY

5-3. 課題

課題1

ある店舗で販売されている10種類の商品について、価格(円)と1か月間の売上個数(個)を以下に示します。このデータをもとに、価格と売上個数の関係を分析してください。

商品番号 価格 (円) 売上個数 (個)
120050
240045
380030
4100020
5150010
650040
7120015
830055
970025
1060035
  1. 散布図を描き、価格と売上個数の関係を視覚的に確認してください。
  2. 相関係数を計算し、価格が売上個数に与える影響を解釈してください。

課題2

身長とジャンプ力の関係 あるスポーツチームの10人の選手について、身長(cm)とジャンプ力(cm)のデータが記録されています。ただし、ジャンプ力は選手の身長の影響を受けるため、単純な相関ではその関係が見えにくい可能性があります。

選手番号 身長 (cm) ジャンプ力 (cm)
117060
218065
319070
416050
517562
618568
715545
816555
917258
1018266
  1. 散布図を描き、身長とジャンプ力の関係を視覚的に確認してください。
  2. 身長がジャンプ力に影響している場合、どのような前処理を行うべきか考え、データを加工してください。 ヒント: 身長が高いほどジャンプ力が高いというバイアスを補正するために、ジャンプ力を身長で割った「身長当たりジャンプ力」を計算するのも一案です。 前処理後のデータについて相関係数を計算し、ジャンプ力に対して身長の影響を排除した場合の関係を解釈してください。

坂本直志 <sakamoto@c.dendai.ac.jp>
東京電機大学工学部情報通信工学科