第 4 回 パラメトリック検定、第4回課題

本日の内容


このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。

4-1. パラメトリック検定

今回はデータ系列が特定の確率分布、特に正規分布を仮定した検定を取り 上げます。

2つのデータ系列 X1,...,Xn1 と Y1,...,Yn2 があったとして、それぞれ N(mu1,sigma1^2), N(mu2, sigma2^2) に従っているとします。 帰無仮説として、 「sigma1=sigma2」 や sigma1=sigma2 のときに mu1=mu2 かどうかを考え ます。

例えばもともと正規分布に従うデータが観測されるような系について、事 前と事後でそれぞれ観測した結果に対して、事前と事後で系に変化が無い という帰無仮説 を立てることで、学習とか広告とかの効果の有無を確認することができま す。

F検定

2つのデータ系列が正規分布に従うとして、それの分散が等しいかどうか について、不偏分散S1, S2 の比 F=S1/S2 を考えます。 この比はデータ数が、 n,m 個のとき、 S1 は自由度 n-1、 S2 は自由度m-1 のカイ自乗分布に従います。 そして、 F=S1/(n-1) / S2/(m-1) は自由度(n-1,m-1)の F分布に従うため、 検定に用います。

t検定

N(mu, sigma^2) に従うとされる観測値 X1,..., Xn に対して、平均値 \bar{X}=(X1+...Xn)/n の確率分布を考える。 正規分布は再生性があるため、 (X1+...Xn)はN(nmu,nsigma^2) に従う。 そのため、 W=\sum (Xi-mu)/\sqrt{nsigma^2} は N(0,1)に従う。 このとき、真の分散ではなく、不偏分散 s を用いることで、 T=(\bar{X}-\mu)/s/\sqrt{n} =W/\sqrt(s^2/\sigma^2) は 自由度n-1 のt分布に従う。

具体的な検定は T値=(平均の差) /(平均の差の標本誤差) となるが、 この平均の差の標本誤差は 2つの分散が等しいとの仮定により、 プールされた分散sp^2=Var(\bar{XA}-\bar{XB})を考えると Var(A-B)=Var(A)+Var(B)より、 Var(\bar{XA}-\bar{XB})=Var(\bar{XA})+Var(\bar{XB}) また、Var((X1+...+Xn)/n)=Var(X)/n より、標本分散から統合した分散sp^2= ((n-1)Sa^2+(m-1)sb^2)/(n-1+m-1) に対して、平均の差の標本誤差は \sqrt{sp^2/na+sp^2/nb) となる。

4-2. 確率(3)

F分布

標本分散は自由度n-1のchi^2分布になる

chi^2分布よりF分布の導出

    F(n-1,m-1)=標本分散A/(n-1)/標本分散B/(m-1) は
  2つの確率分布の同時確率分布で、
  fの確率密度関数は2つのchi^2分布の確率密度関数の積になるため、
  f(x,y)=
  1/(2^{(n-1)/2}\Gamma((n-1)/2))x^{(n-1)/2-1}e^{-x/2}
  1/(2^{(m-1)/2}\Gamma((m-1)/2))y^{(m-1)/2-1}e^{-y/2}


  ここで、変数変換として
  z=((x/(n-1)) / (y/(m-1))
  w=x+y
    より、
    
    f(z;d1,d2)
    =(d1/d2)^(d1/2)z^(d1/2-1)/B(d1/2,d2/2)(1+d1/d2z)^((d1+d2)/2)
  

t分布

U=(n-1)s^2/\sigma^2=

4-3. 課題

2つのグループの体重が次のように得られるとする。

グループAの体重(kg): 72, 74, 68, 70, 69, 71, 73, 75
グループBの体重(kg): 65, 66, 68, 64, 67, 66, 65, 68

課題1

このグループごとの分散が等しいことを有意水準5%のF検定で示せ

課題2

このグループごとの平均が異なることを有意水準5%のt検定で示せ


坂本直志 <sakamoto@c.dendai.ac.jp>
東京電機大学工学部情報通信工学科