中央値

出典: フリー百科事典『ウィキペディア(Wikipedia)』

出典: フリー百科事典『ウィキペディア(Wikipedia)』
検索に移動

中央値(ちゅうおうち、: median)あるいはメジアンメディアンとは、データ集合代表値の一つで、順位が中央である値のことである。ただし、データの大きさが偶数の場合は、中央順位2個の値の算術平均をとる。

中間値の定理の「中間値」はこの中央値の意味とは異なる。

例えば5人の年齢10歳、32歳、96歳、70歳、105歳からなるデータの中央値は、順位が上からも下からも3である70(歳)となる。

平均値との関係[編集]

最頻値・中央値・平均値の図示

中央値は平均値と同様に中間の値を知る目的で使うが、外れ値が存在する場合などは、平均値よりも中央値の方が適している。これは、例えば年収からなるデータの場合を考えてみると分かりやすい。

貧富の差が激しい国では、一部の富裕層が平均年収をつり上げてしまっているため、平均年収は「普通の人」の年収よりもずっと高い値になってしまう。このため平均年収は「普通の人」の生活水準を推し測るには向かない。例えば、人口100人の集落で、90人が年収200万円だとしても、10人が年収5000万円であれば平均年収は680万円となってしまい、実態と大きくかけ離れることになる。

一方中央値は、年収が低い順(高い順)に国民を並べたときに丁度真ん中になる人の年収を表しているため、一部の富裕層の年収は中央値に影響せず、中央値は「普通の人」の生活水準により近くなる。

実際、例えば億万長者が小さな町に引っ越してくれば平均年収はつり上がってしまうが、年収の中央値はほとんど変わらない。大金持ちが一人引っ越して来ただけで、「普通の人」の生活水準が変化するとはいえず、中央値の方がより直感に近い事が分かる。

逆に平均値と比較して変化を表すのには向いていない。中央の値と順番が変わらない限り、その前後が大きく変化しても中央値は変わらないからである。

厳密な定義[編集]

確率変数 X累積分布関数F(x) とするとき、 F(x) は実数値非単調減少関数、右連続関数となる。この時、次の不等式を満たす実数 m を中央値(メディアン)と呼ぶ。

ただし、積分記号はリーマン=スティルチェス積分の意味である。

データの大きさが有限値(n とする)である場合は、以下のように簡単に記述することができる。(ただし、同一の順位が無いと仮定する。)

データの値を x1, x2, …, xn とする。それらを小さい順に並べ替えたものを x1, x2, …, x′n とするとき、 の中央値

により定義される。なお、単純に とならないのは、 の添字が 0, …, n ではなく 1, …, n だからである。

中央値は

を最小にする性質をもっている。(ただし、そうなる値は一意ではない)

すなわち中央値はデータの値との絶対差(距離)の総和を最小にする値である(データの大きさが偶数のときは、その値 t は一意には定まらないが便宜上、上で述べた定義を採用する)。

またこれを大きさ n で割ったものを平均偏差 (Mean deviation) という。

平均偏差は、値と中央値の絶対差の平均であり、同じ次元である標準偏差などと比べ、平方根をとる必要がなく、簡単な値となる。

平均値との関係(数式的なもの)[編集]

  • 分布が対称であるデータに対しては、中央値は平均値に等しい。ただし、分布が対称でなくても、中央値と平均値が等しくなることもある。
  • 以下の性質により、平均値よりも、全体の傾向を表す代表値として適切である場合が多い。
    • 平均値は、測定ミスなどによって発生する外れ値(他の値より著しく異なる値)に大きく影響され、誤差が大きくなったり、無意味な値となることがある。そのため、刈り込み、ロバスト統計などの対策が必要になる。しかし、中央値は外れ値にほとんど影響されないので、対策は不要である。
    • たとえばデータが正値のみといったように限定されている場合、そうでない場合と比べて分布はより非対称になりやすく、少数の大きな値に引きずられて平均値は大多数の分布より大きくずれることがある。しかし、中央値ではそういった影響はほとんどない。
    • を含むデータに対しても中央値は有限となることがある。(平均値は、必ず無限または不定となる)
    • 分布の谷に位置するようなケースが、平均値に比べて少ない。(平均値は、2峰分布に対ししばしば谷に位置する)
  • 中央値を求めるには、線形汎用選択アルゴリズムを使うと の計算量で求められる(平均値も )。逐次データが得られる場合は全てのデータを保持しておく必要があり、 のメモリを要する(平均値は )。
  • 代表値として平均値を使うときは、分布の広がりは分散または標準偏差で表すことが多い。それに対し、代表値として中央値を使うときは、分布の広がりは第3四分位点と第1四分位点の差である四分位範囲: interquartile range, IQR)で表すことが多い。

その他の性質[編集]

  • 誤差はデータの誤差と同程度である。(平均値の誤差はデータの誤差の 倍である)
  • 中央値は、第2四分位数、50パーセンタイル、0.5クォンタイルでもある。

確率分布の中央値[編集]

1次元の確率分布 f(x) に対し、

,

を満たす m を、中央値と呼ぶ。

関連項目[編集]