統計学入門⑧ 代表値(Ⅱ)

統計学入門

以下の記事では平均値、中央値、最頻値の3つの代表値を紹介しました。

3つの代表値の大小関係はデータの分布によって変わります。

今回は、データの分布によって変わる3つの代表値の大小関係について見ていこうと思います。
少し統計学っぽい内容でわくわくします。(そんなことないですかね・・・)

データの分布を3つに分けて見てみます。「3分間で1つの学び」が当記事のテーマなので、ここでは具体的な計算はやめておきましょう。

何のこと?と思われた方はぜひ以下の記事もご一読ください。

それでは内容に入っていきます。

(1)データの分布が左右対称の場合

下図のように左右対称にデータが分布している場合は、
平均値、中央値、最頻値はあまり変わりません

データの分布が左右対称の場合

(2)データの分布が左に偏っている場合

下図のように左に偏ってデータが分布している場合は、

最頻値 < 中央値 < 平均値

の大小関係になりやすいです。
(必ずではありません。)

データの分布が左に偏っている場合

それでは次の問題を考えてみます。

Exercise1-7
(3)データの分布が右に偏っている場合
平均値、中央値、最頻値の大小関係はどのようになりやすいでしょうか。

下図のように右に偏ってデータが分布している場合は、

最頻値 < 中央値 < 平均値

の大小関係になりやすいです。
(必ずではありません。)

ちなみに各データの分布において、平均値、中央値、最頻値を求めてみたものは以下のようになりました。(計算を間違えていなければですが)

各階級のデータ数は、一の位を0か5にしました。(例えば、(1)の階級10~15のデータ数は25 など)

(1)データの分布が左右対称の場合
平均値 21.5、中央値 22.5、最頻値 22.5
確かにどれも同じくらいですね。

(2)データの分布が左に偏っている場合
平均値 15.2、中央値 12.5、最頻値 7.5
確かに最頻値 < 中央値 < 平均値ですね。

(3)データの分布が右に偏っている場合
平均値 27.8、中央値 30、最頻値 37.5
確かに平均値 < 中央値 < 最頻値ですね。

もっと深く

 平均値は極端に小さい値や極端に大きな値といった、いわゆる外れ値の影響を受けやすいという特徴があります。一方で、中央値や最頻値は外れ値の影響を受けにくいという特徴があります。

例えば「年収200万円の人が4人で年収1000万円の人が1人いる」場合、中央値と最頻値は200万円になりますが、平均値は360万円となります。これでは5人中4人を占めている年収200万円が平均値よりもだいぶ小さくなってしまい、平均値がデータを代表する値になっていません。このようにデータの分布に偏りがある場合は安易に平均値を代表値にしてはいけないということになります。(よく”平均年収”というワードも聞きますが、データの分布を見ずに鵜呑みにしてはいけないということですね。)

3つの代表値を見る際は、データの分布を確認することが大切になります。

ここまでのまとめ

データの分布が、

  • 左右対称の場合・・・
    平均値、中央値、最頻値はあまり変わらない
  • 左に偏りがある場合・・・
    最頻値 < 中央値 < 平均値になりやすい
  • 右に偏りがある場合・・・
    平均値 < 中央値 < 最頻値になりやすい

ちなみにですが、私はこちらの参考書で勉強しています。

※Amazonのアソシエイトとして、当メディア(Nラボ備忘録)は適格販売により収入を得ています。

大したブログではないですが、読者になっていただければ嬉しいです。Twitterも始めているのでフォローよろしくお願いします。

コメント

タイトルとURLをコピーしました