071_外れ値・異常値・欠損値とは何かそれぞれ知っていて、指示のもと適切に検出と除去・変換などの対応ができる

解説

外れ値とは、統計において他の値から大きく外れた値のことです。
異常値とは、外れ値のうち、原因(測定ミス、記録ミスなど)がわかっている値のことをいいます。
一般的に、外れ値と異常値は一緒にされることも多いため、本記事でも同じものとして扱うことにします。

・検出方法について
!正規分布に従う場合

・除去、変換方法について

欠損値とは、アンケートの無回答やアプリケーションのバグにより取得・出力できなかった値のことです。
欠損値の3つのパターンについて、以下の表にまとめます。

欠損値のパターン 概要
MCAR ランダムに欠損している ランダムに欠損している
MAR 他の変数の値と関係して欠損している
MNAR 欠損が発生しているデータ自身と関係して欠損している

・検出方法
可視化する?あとはなんかプログラムあるでしょ。

・除去、変換方法

対処法 概要
リストワイズ法 欠損値をもつサンプルの削除
ペアワイズ法 相関係数や分散等の算出において、2変数のいずれかが欠損値をもつサンプルを削除
平均値代入法 平均値により欠損値を補完
回帰代入法 欠損値のないサンプルに回帰分析を行い、欠損値を含む項目の推定式を元に欠損値を補完
確率的回帰代入法 回帰代入法により確定した値にランダムに誤差を加えて欠損値を補完
完全情報最尤推定法 サンプル毎に欠損パターンに応じた尤度関数を仮定して最尤推定を実施して得られる多変量正規分布を用いて平均値や分散共分散行列を推定
多重代入法 欠損値に代入したデータセットを複数作成し、各データセットに対して分析を実行し、その結果を統合することにより欠損値を補完

■補足
欠損が生じる原因
失敗,紛失:人為的ミスや観測機器の問題で値がえられなかった
意図的なもの:アンケート調査で年齢を書かない.患者に負担がかかる検査は,特に疾患の疑いのある人にしか行わない.
対象がない:顧客数が0人のときは,顧客の平均年齢という特徴はない
http://ibisforest.org/index.php?%E6%AC%A0%E6%90%8D%E5%80%A4

ステップアップ

キーワード

  • XXX
  • XXX
  • XXX
  • XXX
  • XXX

ソースコード

XXXするプログラム

XXX.py(github)
このプログラムを実行すると、与えられた配列の中央値を算出します。

データセット

関連する記事