第 6 回外れ値、第6回課題

本日の内容

6-1. 外れ値
6-2. 確率(5)
6-3. 課題

このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。

6-1. 外れ値

外れ値はデータセットの中で本来の確率分布に従った上で、低い確率で生じた値か、雑音などが混入したものである。そもそも本来の確率分布に従った値にしても一定の範囲を外れた値が生じる確率はとても低い。これを示したのがチェビシェフの不等式である。

チェビシェフの不等式

Pr [| X - μ | \geq k σ] \leq \frac{1}{k^{2}}

zスコア

平均からの距離が標準偏差の3倍を超えるデータを外れ値とするもの。チェビシェフの不等式から、各データが外れ値になる確率は 1/9以下。なお、データの分布が正規分布に従っている場合は、各データが外れ値になる確率は0.27% そのため、zスコア法は確率分布が正規分布に近くないと適切に機能しない場合があります。

1変数におけるIQR法

チェビシェフの不等式によりデータセットの平均の周辺にデータが集まることが多い。そこで、分位(quantile)を考える。中央値を基準に上位下位それぞれ何割って区分を考えると、高い確率でデータセットの

四分位とは、データセットの中のデータの1/4の位置を Q_1/4、 3/4の位置を Q_3/4で表す。このとき、ようやく統計量として、 (最小値, Q_1/4, 中央値, Q_3/4, 最大値) を五数要約という。さらに、IQR=Q_3/4-Q_1/4 として、下のひげ(lower wisker) を Q_1/4-1.5 IQR, 上のひげ(upper wisker) を Q_3/4+1.5 IQRとし、このひげの範囲の外側の値を外れ値として表示するのを箱ひげ図という。

データの解析において、まず、箱ひげ図を作成し、データの分布と生じている外れ値の関係に異常性が無いかを確認します。そして、下のひげから上のひげ $[Q_{1 / 4} - 1.5 IQR, Q_{3 / 4} + 1.5 IQR]$ の区間のデータを採用し、それを外れるものを除外します。なお、データが正規分布に従うときは、99.3%のデータが区間に含まれます。

2変数の回帰分析における外れ値の取り扱い

回帰分析における各データ点が与える回帰モデルへの影響を示す

レバレッジ値 $h_{i, i}$: 説明変数から作られるハット行列の対角要素。説明変数の特異性を示す。
標準化残差 $r_{i}$: 実測値と予測値の差を標準誤差で割ったもの。 2より大きいと外れ値の可能性が高い
クックの距離 $D_{i}$: $i$ 番目のデータを取り除いた時の回帰モデルへの影響を示す。この定義に対して、レバレッジ値と標準化残差からも定義できる。

これらには次のような関係がある。

高レバレッジ値だが残差が小さい場合:: 例: 説明変数が極端だが、モデルの予測と実測がほぼ一致。 Cookの距離は小さい。モデルに与える影響は限定的。
低レバレッジ値だが残差が大きい場合:: 例: 説明変数は平均的だが、応答変数が異常に外れた値を取る。 Cookの距離は中程度。モデルの影響は残差による。
高レバレッジ値かつ残差が大きい場合:: 例: 説明変数も応答変数も異常な値。 Cookの距離は非常に大きい。モデル全体に大きな影響を与える可能性が高い。

変数 X,Y の回帰分析における外れ値を取り扱う場合は、次のように、分析します。

データを可視化し、処理すべき外れ値などの分布を把握する
個別のX, Y のそれぞれで、まずIQR法などで
次に関係性が回帰モデルに与える影響を調べます
- 回帰モデルにおいて、実測値と予測値の差を考え、標準化残差が±3を超えるデータは外れ値の可能性がある。
- Cookの距離が一定の値(0.5 や 1 )を超えるのは外れ値の候補とする

6-2. 確率(5)

マルコフの不等式

確率変数 X が非負の時、 $Pr [X > a] \leq \frac{Ex [X]}{a}$

Proof)

Ex [X] = \int_{-∞}^{∞} x ⅆ F (x)

= \int_{-∞}^{a} x ⅆ F (x) + \int_{a}^{∞} x ⅆ F (x) \geq \int_{a}^{∞} x ⅆ F (x) \geq \int_{a}^{∞} a ⅆ F (x) = a \int_{a}^{∞} ⅆ F (x) = a Pr [X > a]

Pr [X > a] \leq \frac{Ex [X]}{a}

チェビシェフの不等式

kが正の値の時、 $Pr [| X - μ | \geq k σ] \leq \frac{1}{k^{2}}$

Proof) マルコフの不等式に確率変数として (X-μ)² 定数 a=(kσ)² を代入する。すると、マルコフの不等式の左辺は Pr[(X-μ)²≥(kσ)²] = Pr[|X-μ|≥kσ] 。一方右辺は Ex((X-μ)²)/(kσ)² = σ²/(kσ)² = 1/k²

正規分布におけるIQR法四分位の1.5倍の範囲

正規分布N(0,1)の累積分布関数を Φ(x)とする。 Φ^-1(1/4)=-0.674, Φ^-1(3/4)=0.674, より IQR = Φ^-1(3/4)-Φ^-1(1/4)=0.674+0.674=1.348。 Φ(-0.674-1.5×1.348)=Φ(-2.696)=0.003467。 Φ(0.674+1.5×1.348)=Φ(2.696)=0.996533。 [Q₁-1.5IQR, Q₃+1.5IQR]は0.996533-0.003467≒99.3%

ハット行列とレバレッジ値

n個の p-1次元の説明変数と従属変数に対して $((x_{0, 0}, ..., x_{0, p - 2}, y_{0}), ..., (x_{n - 1, 0}, ..., x_{n - 1, p - 2}, y_{n - 1}))$ でデザイン行列を $X = (\begin{matrix} 1 & x_{0, 0} & ... & x_{0, p - 2} \\ ⋮ & ⋮ & ⋮ \\ 1 & x_{n - 1, 0} & ... & x_{n - 1, p - 2} \end{matrix})$ $y = {(y_{0}, ..., y_{n - 1})}^{T}$ 係数行列 $β = {(β_{0}, ..., β_{p - 1})}^{T}$ $ε \sim {N (0, σ^{2})}^{n}$

y = X β + ε

ハット行列は $H = (h_{i, j}) = X {(X^{T} X)}^{-1} X^{T}$ ここで、レバレッジ値はハット行列の対角要素 $h_{i, i}$ である。

標準化残差

残差ベクトル $e = y - \hat{y} = {(e_{0}, ..., e_{n - 1})}^{T}$ に対して、平均自乗誤差を $s^{2} = \frac{e^{T} e}{n - p}$ とする。標準化残差を $r_{i} = \frac{e_{i}}{\sqrt{s^{2} (1 - h_{i, i})}}$

Cookの距離

Cook の距離は各 $i$ 番目のデータに対して、それがどの程度予測値に影響を与えているかを示す。

D_{i} = \frac{\sum_{j = 0}^{n - 1} {(\hat{y_{j}} - \hat{y_{j (- i)}})}^{2}}{p s^{2}} = \frac{{e_{i}}^{2}}{p s^{2}} \frac{h_{i, i}}{{(1 - h_{i, i})}^{2}} = \frac{{r_{i}}^{2}}{p} \frac{h_{i, i}}{1 - h_{i, i}}

6-3. 課題

課題1

以下のデータセットが与えられています。このデータはある製品の測定値を表しており、一部に異常値が含まれている可能性があります。外れ値を判定し、取り除く処理を行い、データの統計量を比較してください。

データ=[12,15,14,16,100,13,15,14,11,12,13,200,14,15]

課題

データの基本統計量を計算

次の値を計算してください。

平均値
中央値
標準偏差

IQR法による外れ値の判定

IQR法を用いて外れ値を判定し、その範囲を以下の手順で求めてください：

データを昇順に並べる。
第一四分位数 (Q₁) と第三四分位数 (Q₃) を計算する。
四分位範囲 (IQR=Q₃−Q₁) を求める。
外れ値とみなす範囲を以下の式で計算する：範囲外=[Q₁−1.5×IQR, Q₃+1.5×IQR]

外れ値の除去

上記の基準に基づき、外れ値を取り除いた新しいデータセットを作成してください。

外れ値除去後の統計量を計算

外れ値を取り除いた後のデータの平均値、中央値、標準偏差を再計算してください。

考察

外れ値を除去する前と後で統計量（特に平均値と標準偏差）がどのように変化したかを記述してください。
平均値よりも中央値が外れ値の影響を受けにくい理由について説明してください。

課題2

以下は、ある商品の価格（単位：円）とその1日の売上（単位：個数）を示したデータです。

データ: {(100,50),(200,45),(300,40),(400,35),(500,30),(600,25),(700,20),(800,100),(900,15),(1000,10)}
価格（ $X$ ）: 商品の1個あたりの販売価格（円）
売上（ $Y$ ）: 1日の売上個数

第 6 回外れ値、第6回課題

本日の内容

6-1. 外れ値

zスコア

1変数におけるIQR法

2変数の回帰分析における外れ値の取り扱い

6-2. 確率(5)

マルコフの不等式

チェビシェフの不等式

正規分布におけるIQR法四分位の1.5倍の範囲

ハット行列とレバレッジ値

標準化残差

Cookの距離

6-3. 課題

課題1

課題

データの基本統計量を計算

IQR法による外れ値の判定

外れ値の除去

外れ値除去後の統計量を計算

考察

課題2

課題

データの可視化

単回帰分析の実行

残差の計算

Cookの距離を用いた外れ値の特定

外れ値の除去

外れ値除去後の再回帰分析

モデルの比較と考察

第 6 回 外れ値、第6回課題

本日の内容

6-1. 外れ値

zスコア

1変数におけるIQR法

2変数の回帰分析における外れ値の取り扱い

6-2. 確率(5)

マルコフの不等式

チェビシェフの不等式

正規分布におけるIQR法四分位の1.5倍の範囲

ハット行列とレバレッジ値

標準化残差

Cookの距離

6-3. 課題

課題1

課題

データの基本統計量を計算

IQR法による外れ値の判定

外れ値の除去

外れ値除去後の統計量を計算

考察

課題2

課題

データの可視化

単回帰分析の実行

残差の計算

Cookの距離を用いた外れ値の特定

外れ値の除去

外れ値除去後の再回帰分析

モデルの比較と考察

第 6 回外れ値、第6回課題