第 6 回 外れ値、第6回課題
本日の内容
このドキュメントは
http://edu.net.c.dendai.ac.jp/
上で公開されています。
外れ値はデータセットの中で本来の確率分布に従った上で、低い確率で生
じた値か、雑音などが混入したものである。
そもそも本来の確率分布に従った値にしても一定の範囲を外れた値が生じ
る確率はとても低い。
これを示したのがチェビシェフの不等式である。
チェビシェフの不等式
zスコア
平均からの距離が標準偏差の3倍を超えるデータを外れ値とするもの。
チェビシェフの不等式から、各データが外れ値になる確率は 1/9以下。
なお、データの分布が正規分布に従っている場合は、各データが外れ値に
なる確率は0.27%
そのため、zスコア法は確率分布が正規分布に近くないと適切に機能しない場
合があります。
1変数におけるIQR法
チェビシェフの不等式により
データセットの平均の周辺にデータが集まることが多い。
そこで、分位(quantile)を考える。
中央値を基準に上位下位それぞれ何割って区分を考えると、高い確率でデー
タセットの
四分位とは、データセットの中のデータの1/4の位置を
Q1/4、
3/4の位置を Q3/4で表す。
このとき、ようやく統計量として、
(最小値, Q1/4, 中央値, Q3/4, 最大値)
を五数要約という。
さらに、IQR=Q3/4-Q1/4 として、
下のひげ(lower wisker) を Q1/4-1.5 IQR,
上のひげ(upper wisker) を Q3/4+1.5 IQRとし、
このひげの範囲の外側の値を外れ値として表示するのを
箱ひげ図という。
データの解析において、まず、箱ひげ図を作成し、データの分布と生じて
いる外れ値の関係に異常性が無いかを確認します。
そして、
下のひげから上のひげ
の区間のデータを採用し、それを外れるものを除外します。
なお、データが正規分布に従うときは、99.3%のデータが
区間に含まれます。
2変数の回帰分析における外れ値の取り扱い
回帰分析における各データ点が与える回帰モデルへの影響を示す
- レバレッジ値
-
説明変数から作られるハット行列の対角要素。
説明変数の特異性を示す。
- 標準化残差
-
実測値と予測値の差を標準誤差で割ったもの。
2より大きいと外れ値の可能性が高い
- クックの距離
-
番目のデータを取り除いた時の回帰モデルへ
の影響を示す。
この定義に対して、レバレッジ値と標準化残差からも定義できる。
これらには次のような関係がある。
- 高レバレッジ値だが残差が小さい場合:
-
例: 説明変数が極端だが、モデルの予測と実測がほぼ一致。
Cookの距離は小さい。モデルに与える影響は限定的。
-
低レバレッジ値だが残差が大きい場合:
-
例: 説明変数は平均的だが、応答変数が異常に外れた値を取る。
Cookの距離は中程度。モデルの影響は残差による。
-
高レバレッジ値かつ残差が大きい場合:
-
例: 説明変数も応答変数も異常な値。
Cookの距離は非常に大きい。モデル全体に大きな影響を与える可能性が高い。
変数 X,Y の回帰分析における外れ値を取り扱う場合は、次のように、分
析します。
- データを可視化し、処理すべき外れ値などの分布を把握する
- 個別のX, Y のそれぞれで、まずIQR法などで
- 次に関係性が回帰モデルに与える影響を調べます
- 回帰モデルにおいて、実測値と予測値の差を考え、標準化残差
が±3を超えるデータは外れ値の可能性がある。
- Cookの距離が一定の値(0.5 や 1 )を超えるのは外れ値の候補と
する
マルコフの不等式
確率変数 X が非負の時、
Proof)
チェビシェフの不等式
kが正の値の時、
Proof)
マルコフの不等式に確率変数として (X-μ)2 定数
a=(kσ)2
を代入する。
すると、マルコフの不等式の左辺は
Pr[(X-μ)2≥(kσ)2]
=
Pr[|X-μ|≥kσ]
。
一方右辺は
Ex((X-μ)2)/(kσ)2
=
σ2/(kσ)2
=
1/k2
正規分布におけるIQR法四分位の1.5倍の範囲
正規分布N(0,1)の累積分布関数を Φ(x)とする。
Φ-1(1/4)=-0.674,
Φ-1(3/4)=0.674,
より
IQR =
Φ-1(3/4)-Φ-1(1/4)=0.674+0.674=1.348。
Φ(-0.674-1.5×1.348)=Φ(-2.696)=0.003467。
Φ(0.674+1.5×1.348)=Φ(2.696)=0.996533。
[Q1-1.5IQR, Q3+1.5IQR]は0.996533-0.003467≒99.3%
ハット行列とレバレッジ値
n個の p-1次元の説明変数と従属変数に対して
で
デザイン行列を
係数行列
ハット行列は
ここで、レバレッジ値はハット行列の対角要素
である。
標準化残差
残差ベクトル
に対して、平均自乗誤差を
とする。
標準化残差を
Cookの距離
Cook の距離は各番目のデータに対して、
それがどの程度予測値に影響を与えているかを示す。
課題1
以下のデータセットが与えられています。このデータはある製品の測定
値を表しており、一部に異常値が含まれている可能性があります。外れ値を
判定し、取り除く処理を行い、データの統計量を比較してください。
データ=[12,15,14,16,100,13,15,14,11,12,13,200,14,15]
課題
データの基本統計量を計算
次の値を計算してください。
IQR法による外れ値の判定
IQR法を用いて外れ値を判定し、その範囲を以下の手順で求めてください:
- データを昇順に並べる。
- 第一四分位数 (Q1) と第三四分位数 (Q3) を
計算する。
- 四分位範囲 (IQR=Q3−Q1) を求める。
- 外れ値とみなす範囲を以下の式で計算する:
範囲外=[Q1−1.5×IQR, Q3+1.5×IQR]
外れ値の除去
上記の基準に基づき、外れ値を取り除いた新しいデータセットを作成し
てください。
外れ値除去後の統計量を計算
外れ値を取り除いた後のデータの平均値、中央値、標準偏差を再計算し
てください。
考察
- 外れ値を除去する前と後で統計量(特に平均値と標準偏差)がどのよ
うに変化したかを記述してください。
- 平均値よりも中央値が外れ値の影響を受けにくい理由について説明し
てください。
課題2
以下は、ある商品の価格(単位:円)とその1日の売上(単位:個数)を示
したデータです。
- データ
- {(100,50),(200,45),(300,40),(400,35),(500,30),(600,25),(700,20),(800,100),(900,15),(1000,10)}
- 価格()
- 商品の1個あたりの販売価格(円)
- 売上()
- 1日の売上個数
課題
データの可視化
散布図を作成して、データの分布を確認してください。
データが線形関係に従っているか視覚的に判断してください。
単回帰分析の実行
- 線形回帰モデル
を構築し、次を計算してください:
- モデルを散布図上にプロットしてください。
残差の計算
各データ点について残差(観測値 と予測値
の差)を計算してください:
Cookの距離を用いた外れ値の特定
- 各データ点の Cookの距離
を計算してください(簡単な計算式に基づく近似で良い)。
-
のデータ点を高影響力とみなし、外れ値としてマークしてください。
外れ値の除去
特定した外れ値(例: Cookの距離が閾値を超えた点)を除去し、新しいデータセットを作成してください。
外れ値除去後の再回帰分析
- 外れ値を除去したデータで再度回帰分析を行い、モデルを再構築してく
ださい。
-
新しい回帰係数
と切片
を計算し、モデルを散布図にプロットしてください。
モデルの比較と考察
- 外れ値を除去する前後で回帰係数、切片、およびモデルの決定係数 (
) がどのように変化した
かを比較してください。
-
外れ値がモデル全体に与える影響について考察してください。
坂本直志 <sakamoto@c.dendai.ac.jp>
東京電機大学工学部情報通信工学科