前回の記事で代表値について書きました。
今回は、データの散らばりについて紹介していきます。まず、データの散らばりを表す手段である 箱ひげ図 を使ってデータの散らばりについて考えていきましょう。
そもそも箱ひげ図とは"箱"と"ひげ"を使ったグラフです。下に箱ひげ図の例を記載します。
ここで、箱ひげ図でポイントとなる5数要約について紹介します。
※ここでは、箱ひげ図で5数要約を紹介していますが、5数要約は箱ひげ図に限らずデータの散らばり具合や分布を表す数として一般的に使われます。
最小値
最小値は、データの中で最も小さい数です。そのままですね。
最大値
最大値は、データの中で最も大きい数です。そのままですね。
第2四分位数
データを小さい順に並べたときに中央にある数です。つまり中央値と同じですね。ということは、データの数が偶数個と奇数個で求め方が変わるので注意が必要ですね。
第1四分位数
データを小さい順に並べて第2四分位数で半分に分けます。そのうち、小さい側のグループの中央値です。わかりづらいので、練習問題で確認しましょう。
第3四分位数
データを小さい順に並べて第2四分位数で半分に分けます。そのうち、大きい側のグループの中央値です。わかりづらいので、練習問題で確認しましょう。
ちなみにですが、四分位数の意味は、データの集まりを四つに分ける位置にある数値と解釈すれば覚えやすいかもしれません。
Exercise1-4
とある大学生6人が持っているマンゴスチンの数を調査したところ 5個, 10個, 3個, 14個, 8個, 2個 だった場合の最小値、最大値、第1四分位数、第2四分位数、第3四分位数を求めてみましょう。
大したブログではないですが、読者になっていただければ嬉しいです。Twitterも始めているのでフォローよろしくお願いします。
Follow @nlab_notebook