第 3 回 ノンパラメトリック検定、第3回課題

本日の内容


このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。

3-1. 確率(2)

ポアソン分布

t時間内にk回 独立に事象が起きる確率 を p t,k とし、微小時間 ΔtΔtλ の確率で事象が起きるとする。 このとき、次の式が成り立つとする。

{ p t + Δ t , 0 = p t , 0 ( 1 - Δ t λ ) p t + Δ t , k + 1 = p t , k + 1 ( 1 - Δ t λ ) + p t , k λ Δ t

このとき、 次が成り立つことを示す

p t , k = ( λ t ) k k ! e - λ t
  1. lim Δ t 0 p t + Δ t , 0 - p t , 0 Δ t = - λ p t , 0
    p t , 0 p t , 0 = - λ t
    p 0 , 0 = 1 より、
    p t , 0 = e - λ t
    これは k=0 のときの式を満たす。
  2. lim Δ t 0 p t + Δ t , k + 1 - p t , k + 1 Δ t = - λ p t , k + 1 + λ p t , k
    p t , k + 1 t + λ p t , k + 1 = λ ( λ t ) k k ! e - λ t
    t ( e λ t p t , k + 1 ) = λ k + 1 k ! t k
    p t , k + 1 = λ k + 1 ( k + 1 ) ! t k + 1 e - λ t

ここで、t=1を代入したもの P ( X = k ) = λ k k ! e - λ ポアソン分布と呼ぶ。

指数関数のマクローリン展開 e x = e 0 + 1 1 ! x 1 + 1 2 ! x 2 + ... = k = 0 1 k ! x k を使うと

k = 0 P ( X = k ) = k = 0 λ k k ! e - λ = e - λ e λ = 1
Ex ( X ) = k = 0 k λ k k ! e - λ = λ k = 0 λ k k ! e - λ = λ
Var ( X ) = k = 0 ( k - λ ) 2 λ k k ! e - λ = k = 0 ( k ( k - 1 ) + k - 2 λ k + λ 2 ) λ k k ! e - λ = λ 2 + λ - 2 λ 2 + λ 2 = λ

なお、中心極限定理より、平均 λ のポア ソン分布 Po (λ ) N (λ,λ ) に近似できる

χ2分布

Xiを互いに独立な N( 0,1 ) に従う確率変数とする。

このとき、 χk2 = i=1 k X i 2 の確率分布を求める。 確率母関数を考えると

M χk2 ( t ) = Ex ( e t χk2 )
= Ex ( e t ( X 1 2 + ... + X k 2 ) )
= ( Ex ( e t X i 2 ) ) k
= ( -∞ e t x 2 1 2 π e - x 2 2 x ) k
= ( 1 2 π -∞ e - 1 - 2 t 2 x 2 x ) k
= ( 1 2 π -∞ e - s 2 2 1 - 2 t s ) k
= 1 ( 1 - 2 t ) k 2
特性関数を φ χk2 ( t ) = 1 ( 1 - 2 i t ) k 2
確率密度関数は f ( x ) = 1 2 π -∞ e i t x φ χ k 2 ( t ) t
= 1 2 k / 2 Γ ( k / 2 ) x k / 2 - 1 e - x / 2
累積分布関数は F ( x ) = γ ( k / 2 , x / 2 ) Γ ( k / 2 )

定理

Xiを互いに独立な N( μ, σ2 ) に従う確率変数とする。 X を標本平均とする。 ここで、 Y = 1 σ2 i=1 n ( Xi - X ) 2 は自由度 n-1 のχ2分布に従う。

(証明)

Y = 1 σ2 i=1 n ( Xi - X ) 2 = 1 σ2 i=1 n ( Xi - μ + μ - X ) 2 =

3-2. ノンパラメトリック検定

統計的仮説検定とは

統計的仮説検定とは、ある母集団に対する仮説を立てて、その仮説の有効 性を、標本値を元に確率で判断する。 仮説としては、帰無仮説と呼ばれる、可能性の低そうな仮説 を立て、標本値からその仮説の成立する確率を計算し、十分低い確率であ る場合、 その帰無仮説を棄却するというものである。 このとき、棄却するための確率を有意水準と呼ぶ。 通常は、5%や 1% などの値を選ぶ。

χ 2 検定

事象が k種類に分類されるとして、 それぞれが O1,..., Ok だったとする。 全事象の数が N 個だったとすると、 Ok = N - O1 - ... - O k-1 となる。 各 i番目の観測値に対する期待値を Ei で表すとき、 OiPo ( Ei ) に従うと仮定して、分布のズレを考える。 ズレを正規化するため、 Po ( Ei ) を正規化するため、 ズレの分布を正規分布 N ( 0,1 ) に近似し、その2乗和を考える。 つまり、 χ 2 = i = 1 k ( Oi - Ei ) 2 Ei を考える。 このとき、 帰無仮説を「ズレは正常の範囲内」とするとき、 χ2分布の確率密度関数 F ( x X ) について、 有意水準を αとすると、 F ( x χ 2 ) > 1 - α であれば、帰無仮説は棄却される。

課題1

ある学校で、生徒たちが好きなスポーツに関する調査を行いました。スポーツ は1つだけ選ばせています(野球、サッカー、バスケットボール)。また、 生徒たちの性別(男性・女性)も記録しています。以下は、200人の生徒 のデータです。このデータを基に、性別とスポーツの好みに有意な関連が あるかを 有意水準5%で検定しなさい。

野球が好きサッカーが好きバスケットボールが 好き合計
男性 504030120
女性20303080
合計707060200

課題2

あるサイコロが公平かどうかを調べるために、600回のサイコロ投げを行っ た。その結果は次の通りであった。サイコロが公平であるかどうかを有意 水準5%で検定しなさい。

出目123456合計
回 数9011095100105100600

坂本直志 <sakamoto@c.dendai.ac.jp>
東京電機大学工学部情報通信工学科