- 箱ひげ図 box-whisker plot 【イラスト図解】
箱ひげ図 box-whisker plot 【イラスト図解】
英語:box-whisker plot 中国語:箱线图
箱ひげ図とは
データの要約(記述)の方法として探索的データ解析において用いられる図的表示法の一つ.
層別後のデータの分布の比較を行ったり,時刻に対する分布の変化を視覚的にとらえたり,外れ値を検出するためなどにきわめて有効な手法である.
箱ひげ図の描き方と例
まず四分位値(上・下側ヒンジとメディアン)から「箱」を作る.ヒンジ幅(四分位差)の1.5倍をステップ(step)と呼び,ばらつきの目安とする.それぞれのヒンジから2ステップ以上離れた外れ値をファーアウト(far out)値と呼び,○で表す.
1ステップから2ステップ離れたものをアウトサイド(out-side)値と呼び,0で表す.
これらにはサンプルナンバーなどの識別子をつけておくとよい.ヒンジから1ステップ以内にあり,かつ最も離れた値をひげ先端(adjacent)と呼び「ひげ」をそこまでのばす.
なお,上記で英語を示した言葉についてはまだ定訳がない.
引用先:クォリティーマネジメント用語辞典 日本規格協会
箱ひげ図で何がわかる?
「箱ひげ図(Boxplot)」は、データの分布を「箱」と「ひげ」で表したグラフで、データがどのあたりの値に集中しているかをひと目でわかります。
箱ひげ図 全体の何%?
下図のような箱ひげ図を用いて、箱ひげ図の見方について解説。
箱ひげ図は長方形の「箱」と「ひげ」と呼ばれる直線で構成されます。
箱ひげ図は、データを大きさ順に並べた時の分布を示しています。
値の軸が上向きなので、ひげの下側の末端が最小値、ひげの上側の末端が最大値を表しています。
最小値と最大値の間は、4つの区間に区切られていて、それぞれの区間が全体の25%のデータを収容しています。
それぞれの区間の切れ目は、
箱の下底:25%目のデータ
箱の中の横線:中央値(50%目のデータ)
箱の上底:75%目
のデータを表しています。
そのため、長方形(箱)の範囲にデータの真ん中50%が含まれています。
箱ひげ図では平均値を表現することもできます。上図では緑の三角形で示されている点が平均値です。
箱ひげ図の書き方
データの総数が奇数個の場合
9人のテストの点数を箱ひげ図に表してみます
1.データを小さい順に並べ替える
データを小さい順に並べ替えると,最小値が52,最大値が88。
2.中央値,第一四分位数,第三四分位数を求める
データの値が小さいグループと大きいグループそれぞれ4個ずつに分けると,1個余ります。
この余った値64が中央値になります。
小さい方のグループのデータ4個をさらにそれぞれ2個ずつに分けます。
このとき,小さい方のグループの中で最も大きい値55と大きい方のグループの中で最も小さい値57の平均値56が第一四分位数になります。
大きい方のグループのデータ4個をさらにそれぞれ2個ずつに分けます。
このとき,小さい方のグループの中で最も大きい値71と大きい方のグループの中で最も小さい値85の平均値78が第三四分位数になります。
3.グラフ上に最小値,第一四分位数,中央値,第三四分位数,最大値 の印をつける
グラフ上の最小値(52),第一四分位数(56),中央値(64),第三四分位数(78),最大値(88) の場所に印をつける
4.第一四分位数の印と第三四分位数の印を線で結び箱型をつくる
5.最小値の印と第一四分位数の印,第三四分位数の印と最大値の印を線で結ぶ
これで箱ひげ図が完成。
データの総数が偶数個の場合
10人のテストの点数を箱ひげ図に表してみます
1.データを小さい順に並べ替える
データを小さい順に並べ替えると,最小値が42,最大値が80であるとわかります。
2.中央値,第一四分位数,第三四分位数を求める
データの値が小さいグループと大きいグループそれぞれ5個ずつに分けます。
このとき,小さい方のグループの中で最も大きい値60と大きい方のグループの中で最も小さい値64の平均値62が中央値になります。
小さい方のグループのデータ5個をさらにそれぞれ2個ずつに分けると,1個余ります。
この余った値54が第一四分位数になります。
大きい方のグループのデータ4個をさらにそれぞれ2個ずつに分けると,1個余ります。
この余った値72が第三四分位数になります。
3.グラフ上に最小値,第一四分位数,中央値,第三四分位数,最大値 の印をつける
グラフ上の最小値(42),第一四分位数(54),中央値(62),第三四分位数(72),最大値(80) の場所に印をつける
4.第一四分位数の印と第三四分位数の印を線で結び箱型をつくる
5.最小値の印と第一四分位数の印,第三四分位数の印と最大値の印を線で結ぶ
これで箱ひげ図が完成しました。
ヒストグラムと箱ひげ図はどう使い分けます?
複数のデータを比較する必要がある場合は箱ひげ図を用いることが多いです。 逆に単一データにおける「ばらつき具合」を詳細に掴みたい場合はヒストグラムを使います。
もちろん目的に応じて箱ひげ図とヒストグラムを使い分けることは可能ですが、データの特徴を深く掴むためには両方併せて使うことをおすすめします。
箱ひげ図を使う利点・欠点
箱ひげ図を使う利点
箱ひげ図を使うことの利点は以下の3つです。
- 複数のデータを簡単に比較できる
- データの特徴をある程度理解できる
- 外れ値を見つけやすい
1つずつ解説していきます。
【利点1】複数のデータを簡単に比較できる
箱ひげ図を用いることで複数のデータを簡単に比較できます。
1回見るだけで、中央値や最小値、最大値、四分位数を把握できるため、異なるデータと比較することで、データの特徴を比較することに適しているのが箱ひげ図です。
それぞれの商品の購買の年齢層を分析する場合、箱ひげ図で比較することで、どの商品がどの年代によく買われているのかを把握できます。
【利点2】データの特徴をある程度理解できる
箱ひげ図はデータの特徴を理解することに適しています。
分析したいデータを箱ひげ図でグラフにすることで、データの25%,50%,75%の点や最大値・最小値、外れ値が把握可能です。
四分位範囲が狭いなら、中央付近の値は似たような数字が集まっているのではないかと推測が立てられます。
データを分析するとなったら、まず箱ひげ図でデータの特徴をつかむことをおすすめします。
【利点3】外れ値を見つけやすい
箱ひげ図は外れ値を見つけやすいです。
外れ値のところで説明しましたが、箱ひげ図では外れ値がひげの外の点として表されます。
外れ値があると分析結果に大きく影響するため、外れ値があるかどうかを把握しなくてはなりません。
まず、外れ値があるかないかを箱ひげ図を使って確認し、その外れ値が意味のあるデータかどうかを判断するようにしましょう。
箱ひげ図を使うことの3つの欠点
デメリットは以下の3つです。
【欠点1】詳細なデータの分布を把握できない
箱ひげ図はデータの概要を把握するのに適していますが、詳細な分布は把握できません。
箱ひげ図によって四分位数を把握できますが、四分位数間でどのようなデータの増加が起こっているのかを把握できないのです。
データの概要は箱ひげ図を使って把握し、詳細なデータの分布は別のグラフを使う。
【欠点2】データの数によって見え方が変わる
データの数の違いによって、箱ひげ図の見え方は大きく変わります。
データの数が少ないと、1つ1つの数値が大きな意味を持ち、データが1つ追加されるだけで箱ひげ図が大きく変わってしまいます。
また、データの数が少ないとデータの幅が狭くなるため、少しでも極端な値を取れば外れ値とみなされることもあります。
データの数を大きくしたほうが箱ひげ図は安定するため、データは多く用意する。
【欠点3】データの比較に注意が必要
箱ひげ図で複数のデータを並べて比較する時には注意が必要です。
それぞれの箱ひげ図でデータの範囲が極端に異なると適切に分析できない可能性があります。
例えば、身長の分布の箱ひげ図と体重の分布の箱ひげ図を比較する。
身長は数値が100を超える分布なのに、体重が50台の分布になるため、体重のほうが低い値の分布だと決めつけてしまいます。
2つの違いは単位です。
必ず単位をそろえること、単位がそろっていても極端に値に分布が違う場合は注意します。
四分位数とは? :データの区切り
四分位数は、データを小さい順に並べたときにデータを4等分する数値です。
四分位数は箱の両端の線と中央値から構成される数になります。
それぞれを第1四分位数、第2四分位数、第3四分位数と言い、以下のような役割を持ちます。
- 第1四分位数:データの25%の所を示す役割
- 第2四分位数:データの50%の所(中央値)を示す役割
- 第3四分位数:データの75%の所を示す役割
エクセル 箱ひげ図自動作成
1. Excel ファイルをダウンロードします。
ファイルのダウンロード →エクセル 箱ひげ図 自動作成
使用方法:
・罫線で囲まれたセルに変数名または数値を入力。
・数値はすべて正の値である事。
・ひげの数値がない場合は空欄とする。
・外れ値には非対応。
・変数の数を増やす場合、一番右以外の列を選択後、コピーしてそのまま同じ位置に挿入の事。
・変数の数を減らす場合、いずれかの列を選択後、削除の事。
ブックマーク