第 2 回 Q-Qプロット、第2回課題

本日の内容


このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。

2-1. 確率(1)

定義

事象により、確率変数 X はある値をとる。 Xの変域として実数を考える。 Xx以下の 値を取る確率 Pr( Xx ) を累積分布関数 F ( x ) という。 累積分布関数 F の導関数 f を確率密度関数といい、 F ( x ) = -∞ x f ( t ) t で定義する。 これは F ( -∞ ) = 0 F ( ) = -∞ F ( t ) = -∞ f ( t ) t = 1 を満たす。 Pr ( X < a , Y < b ) = Pr ( X < a ) Pr ( Y < b ) のとき、 XY は独立であると言う。

平均 μ = Ex ( X ) -∞ x F ( x ) = -∞ x f ( x ) x である。 分散は σ 2 = Var ( X ) = Ex ( ( x - μ ) 2 )

Ex ( a X + Y + b ) = a Ex ( X ) + Ex ( Y ) + b
Var ( X ) = -∞ ( x - μ ) 2 f ( x ) x = -∞ x 2 f ( x ) x - 2 μ -∞ x f ( x ) x + μ 2 = Ex ( X 2 ) - Ex ( X ) 2
Var ( a X + b ) = Ex ( ( a X + b ) 2 ) - Ex ( a X + b ) 2 = a 2 Ex ( X 2 ) + 2 a b Ex ( X ) + b 2 - a 2 Ex ( X ) 2 - 2 a b Ex ( X ) - b 2 = a 2 Var ( X )

確率変数 X が平均 0、分散1のとき、 Y = σ X + μ は平均 μ、分散 σ2 になる。 X の 確率密度関数が f ( x ) であるとき、 Y の 確率密度関数は Pr( Yy ) = Pr( σ X + μ y ) = -∞ y - μ σ f ( t ) t = -∞ y 1 σ f ( s - μ σ ) s より 1 σ f ( x - μ σ ) となる。

モーメント母関数(積率母関数)を M X ( t ) = Ex ( e t X )

特性関数を φ X ( t ) = Ex ( e i t X ) = -∞ e i t x F ( x ) = -∞ e i t x f ( x ) x とする。 これは確率密度関数のフーリエ変換になるので、 逆フーリエ変換を考えると次が成り立つ。 f ( x ) = 1 2 π -∞ e i t x φ X ( t ) t

中心極限定理と正規分布

X1 , ... , Xn を 独立で、 平均が μで 分散が σ2 となる、任意の同じ確率分布の確率変数とする。 このとき、 Sn = X1 + ... + Xn nが大きくなると 平均 nμ 、 分散 n σ2 の正規分布に収束する。

証明

Zn = Sn - n μ n σ2 が平均0, 分散 1 の正規分布に従うことを示す。

Zn の積率母関数を考える。

M Z n ( t ) = Ex ( e t Zn ) = Ex ( e t X1 - μ n σ2 ) · ... · Ex ( e t Xn - μ n σ2 ) = Ex ( e t X - μ n σ2 ) n
= Ex ( 1 + 1 1 ! X - μ n σ2 t + 1 2 ! ( X - μ n σ2 ) 2 t 2 + O ( n - 3 2 ) ) n
= ( 1 + t n σ2 ( Ex ( X ) - μ ) + 12 ( t n σ2 ) 2 Ex ( ( X - μ ) 2 ) + O ( n - 3 2 ) ) n
= ( 1 + t n σ2 ( μ - μ ) + 12 t 2 n σ 2 σ2 + O ( n - 3 2 ) ) n
= ( 1 + 0 + t 2 2 n + O ( n - 3 2 ) ) n
e t 2 2

特性関数は φ Zn ( t ) = M Zn ( i t ) = e - t 2 2 となるので、これを逆フーリエ変換して確率密度関数関数を求める。

f ( x ) = 1 2 π -∞ e i x t e - t 2 2 t = 1 2 π -∞ e - x 2 2 e - ( t - i x ) 2 2 t = 1 2 π e - x 2 2 -∞ e - s 2 2 s = 1 2 π e - x 2 2

Q.E.D.

平均 μ 分散 σ2 の正規分布を N ( μ , σ2 ) で表す。 確率密度関数は 1 2 π σ e - 1 2 ( x - μ σ ) 2 Φ ( x ) = 1 2 π -∞ x e - t 2 2 t とすると、累積分布関数は Φ ( x - μ σ )

モーメント母関数は
Ex ( e X t ) = -∞ e x t 1 2 π σ 2 e - ( x - μ ) 2 2 σ 2 x
= 1 2 π σ 2 e μ t + σ 2 2 t 2 -∞ e - s 2 2 σ 2 s
= e μ t + σ 2 2 t 2

様々な確率分布(1)

指数分布
平均 1/λ 、 分散 1/λ2 の指数分布の確率密度関数は f ( x ) = λ e - λ x 、累積分布関数は f ( x ) = λ e - λ x 。 モーメント母関数は 1 1 - t / λ
対数正規分布
確率密度関数は 1 2 π σ 2 x exp ( - 1 2 ( ln x - μ σ ) 2 ) 、累積分布関数は Φ ( ln x - μ σ )

再生性

確率分布族に含まれる確率分布 F1, F2 に従う確率変数 X1, X2 に対して、 Y = X1 + X2 の確率分布が同じ確率分布族に含まれるとき、 その確率分布族は再生性があると言います。

直接確率分布を計算する他に、モーメント母関数から求める方法がありま す。 Yのモーメント母関数は Ex ( e Y t ) = Ex ( e ( X 1 + X 2 ) t ) = = Ex ( e X 1 t ) Ex ( e X 2 t ) より、モーメント母関数の積が同じ確率分布族になる場合、再生性がある と言える。

正規分布
N ( μ 1 , σ 1 2 ) , N ( μ 2 , σ 2 2 ) のそれぞれのモーメント母関数 e μ 1 t + σ 1 2 2 t 2 , e μ 2 t + σ 2 2 2 t 2 の積を考えると e ( μ 1 + μ 2 ) t + ( σ 1 2 + σ 2 2 ) 2 t 2 となり、 N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) のモーメント母関数となるため、再生性を持つ。
指数分布
対数正規分布

2-2. Q-Qプロット

Q-Qプロットの Q は quantiles分位数を意味します。 累積分布関数Fを持つ確率分布に従うとき、 q分位数 Qqq= F ( Qq ) となる値である。 Q-Qプロットは定義とすれば、2つの確率分布 D1, D2 について、 q分位数 がそれぞれ Q1 ( q ) , Q2 ( q ) とすると、 q をパラメータとして ( Q1 ( q ) , Q2 ( q ) ) をプロットしたものが Q-Qプロットになる。 もし、 D1D2 が同じ分布のとき、 このグラフは y = x のグラフになる。 n個のデータ x1 , ... , xn , ( x1 ... xn ) の i番目のデータを in 分位数 とみなし、 また、このデータが従う確率分布の累積分布関数が F ( X ) のとき、 ( xi , F -1 ( i n ) ) をプロットすると、 y = x 上に並ぶ。 もし、 このデータ系列が また、このデータが従う確率分布の累積分布関数が F ( σ X + μ ) に従っているとき、 ( xi , F -1 ( i n ) ) をプロットすると、 y = σ x + μ 上に点が並ぶ。 つまり、平均、分散をパラメータとして与えられる確率分布に 従うデータに関しては、 平均0、分散1の確率分布の分位数を考えることで、 Q-Qプロットで直線が得られる。

特に、 N ( 0 , 1 ) の累積分布関数 Φ に関して、 ( xi , Φ -1 ( i n ) ) をプロットするのを 正規確率プロット と呼ぶ。

Q-Qプロットをすると、与えられたデータが仮定した確率分布とどの程度 類似しているかを可視化できる。 なお、仮定する確率分布として、正規分布の他、指数分布や対数正規分布など、 様々なものが使われる。

課題

以下のデータをダウンロードし、何らかの確率分布を仮定し、Q-Qプロット で類似性を可視化すること。 また、Q-Qプロットから確率分布を推定しなさい。

  1. data21.csv
  2. data22.csv

坂本直志 <sakamoto@c.dendai.ac.jp>
東京電機大学工学部情報通信工学科