異常値 anomaly 【図解】
英語: anomaly 中国語:异常值
同一条件下で得た一組の測定値で同一集団に属するものでないと判定された飛び離れた値。
「観測値の集合の内異なった母集団からのもの、または計測の過ちの結果である可能性を示す程度に,他と著しくかけ離れた観測値.」(Z 8101-1)
統計量の計算にあたっては,異常値を含めて計算した場合と,それを含めないで計算した場合とで結果が大きく異なることがあるので注意を要する。
関連用語:外れ値
異常値と外れ値の違い
外れ値とは、研究や測定を行う際にまれに発生する極端に離れた異常な数値を指し、その中でも測定ミス・記入ミス等の原因が分かる場合を「異常値」と呼んでいます。
例えばある小学校の6年生の男子の身長を測定した場合、異常に低い身長データー155㎝があり、その原因が誤って女子の身長が入力されていた場合はそれが『異常値』であり、理由が明確なので測定データーから除外します。
一方、191㎝の異常に高いデーターがあり、測定ミス、記入ミス等の理由がない場合はそのまま、データーとして使用します、これが『外れ値』です。
異常値の判定
得られた観測データーの中で真の値の推定値からの残差が異常に大きいデーターの中で特に測定ミス・記入ミス等原因が分かっているものを「異常値」と呼ぶ。
例えば、男性を「0」、女性を「1」で入力するアンケート調査に対して「2」が入力されていた場合、「2」が異常値となります。
又はある小学校の1年生が運動測定で100メートル走を行ったところ、全国平均では男子が22.32秒・女子が22.92秒ですが一人だけ9秒でした、原因は測定時のミスでした。
異常値(外れ値)を見分ける方法とは
”異常”な値とはどの程度のことを指すのかと言いますと、正規分布のような値であれば残差が標準偏差の2〜3倍以上のことが多いです。2倍以上なら約4.6%、3倍なら約0.3%の確率です。
標準偏差での確認方法
最もポピュラーな方法であり平均より上下3σ(バックグラウンド計測値の平均値に対して、標準偏差の3倍を加えた値を検出限界値と定義する)より外れたものを、外れ値とみなします。
外れ値(異常値)を勝手に除外しない!
外れ値の原因が測定ミス、記入ミス等の異常値の場合は明記して棄却する。
但し、外れ値だからといって、分析する際に全てを除外してしまうのではなく、外れ値が発生した原因を究明するが必要です、なんらかの意味のあるデータである可能性があります。
他のデータとは違った原因が働いているかもしれません。それを知ることで新たな理論の発見に繋がりますのでなぜ外れ値となっているのか、調べたり考えたりする必要があります。
多くの科学的発見は従来の理論では説明できないデーターを究明することにより新しい理論が発見されてきました、正に『神は細部に宿る』です。
ブックマーク