- 外れ値 outlier 【イラスト図解】
- 外れ値、異常値の違い
- 外れ値を見分ける方法とは
- 外れ値(異常値)を勝手に除外しない!
外れ値 outlier 【イラスト図解】
英語:outlier 中国語:离群值
同一条件下で得た一組の測定値で同一集団に属するものでないと判定された飛び離れた値。
「観測値の集合の内異なった母集団からのもの、または計測の過ちの結果である可能性を示す程度に,他と著しくかけ離れた観測値.」(Z 8101-1)
統計量の計算にあたっては,異常値を含めて計算した場合と,それを含めないで計算した場合とで結果が大きく異なることがあるので注意を要する。
関連用語:異常値
外れ値、異常値の違い
外れ値とは、研究や測定を行う際にまれに発生する極端に離れた異常な数値を指し、その中でも測定ミス・記入ミス等の原因が分かる場合を「異常値」と呼んでいます。
例えばある小学校の6年生の男子の身長を測定した場合、異常に低い身長データー155㎝があり、その原因が誤って女子の身長が入力されていた場合はそれが『異常値』であり、理由が明確なので測定データーから除外します。
一方、191㎝の異常に高いデーターがあり、測定ミス、記入ミス等の理由がない場合はそのまま、データーとして使用します、これが『外れ値』です。
外れ値を見分ける方法とは
”異常”な値とはどの程度のことを指すのかと言いますと、正規分布のような値であれば残差が標準偏差の2〜3倍以上のことが多いです。2倍以上なら約4.6%、3倍なら約0.3%の確率です。
標準偏差での確認方法
最もポピュラーな方法であり平均より上下3σ(バックグラウンド計測値の平均値に対して、標準偏差の3倍を加えた値を検出限界値と定義する)より外れたものを、外れ値とみなします。
外れ値(異常値)を勝手に除外しない!
外れ値の原因が測定ミス、記入ミス等の異常値の場合は明記して棄却する。
但し、外れ値だからといって、分析する際に全てを除外してしまうのではなく、外れ値が発生した原因を究明するが必要です、なんらかの意味のあるデータである可能性があります。
他のデータとは違った原因が働いているかもしれません。それを知ることで新たな理論の発見に繋がりますのでなぜ外れ値となっているのか、調べたり考えたりする必要があります。
多くの科学的発見は従来の理論では説明できないデーターを究明することにより新しい理論が発見されてきました、正に『神は細部に宿る』です。
ブックマーク