久しぶりの統計学入門シリーズなので、この記事を読む前に以下の統計学入門⓪に目を通していただけると、この記事のテーマをご理解いただけると思います。
前回の記事で代表値について書きました。
今回は、データの散らばりについて紹介していきます。まず、データの散らばりを表す手段である 箱ひげ図 を使ってデータの散らばりについて考えていきましょう。
そもそも箱ひげ図とは”箱”と”ひげ”を使ったグラフです。下に箱ひげ図の例を記載します。
ここで、箱ひげ図でポイントとなる5数要約について紹介します。
※ここでは、箱ひげ図で5数要約を紹介していますが、5数要約は箱ひげ図に限らずデータの散らばり具合や分布を表す数として一般的に使われます。
最小値
最小値は、データの中で最も小さい数です。そのままですね。
最大値
最大値は、データの中で最も大きい数です。そのままですね。
第2四分位数
データを小さい順に並べたときに中央にある数です。つまり中央値と同じですね。ということは、データの数が偶数個と奇数個で求め方が変わるので注意が必要ですね。
第1四分位数
データを小さい順に並べて第2四分位数で半分に分けます。そのうち、小さい側のグループの中央値です。わかりづらいので、練習問題で確認しましょう。
第3四分位数
データを小さい順に並べて第2四分位数で半分に分けます。そのうち、大きい側のグループの中央値です。わかりづらいので、練習問題で確認しましょう。
ちなみにですが、四分位数の意味は、データの集まりを四つに分ける位置にある数値と解釈すれば覚えやすいかもしれません。
Exercise1-4
とある大学生6人が持っているマンゴスチンの数を調査したところ 5個, 10個, 3個, 14個, 8個, 2個
だった場合の最小値、最大値、第1四分位数、第2四分位数、第3四分位数を求めてみましょう。
まず、小さい順に並べると、2, 3, 5, 8, 10, 14 となるので、
最小値・・・2 (個)
最大値・・・14 (個)
第2四分位数(中央値)・・・ ( 5 + 8 ) ÷ 2 = 6.5 (個)
第1四分位数・・・ 3 (個) → 2, 3, 5の3つが小さいグループ
第3四分位数・・・ 10 (個) → 8, 10, 14の3つが大きいグループ
いかがでしょうか。今回、データの数が偶数なので、第2四分位数(中央値)が面倒臭いかもしれません。逆にデータの数が奇数の場合は第1四分位数、第3四分位数が面倒臭いということになります。
もし中央値の求め方を忘れていたら以下の記事が参考になるかもしれません。
ちなみにですが、私はこちらの参考書で勉強しています。
※Amazonのアソシエイトとして、当メディア(Nラボ備忘録)は適格販売により収入を得ています。
大したブログではないですが、読者になっていただければ嬉しいです。Twitterも始めているのでフォローよろしくお願いします。
コメント