中央値

提供: miniwiki
移動先:案内検索

中央値(ちゅうおうち、: median)とは、代表値の一つで、有限個のデータを小さい順に並べたとき中央に位置する値。たとえば5人の人がいるとき、その5人の年齢の中央値は3番目に年寄りな人の年齢である。ただし、データが偶数個の場合は、中央に近い2つの値の算術平均をとる。中央値の事を、メディアンメジアン中間値とも呼ぶ。ただし、「中間値の定理」の中間値はこの意味ではない。

平均値との関係

中央値は平均値と類似した目的で使うが、用途によっては中央値のほうが平均値よりも優れていることがある。これは、たとえば年収の場合を考えてみるとわかりやすい。

貧富の差が激しい国では、一部の富裕層が平均年収をつり上げてしまっている為、平均年収は「普通の人」の年収よりもずっと高い値になってしまう。この為平均年収は「普通の人」の生活水準を推し測るには向かない。例えば、人口100人の集落で、90人が年収200万円だとしても、10人が年収5000万円であれば平均年収は680万円となってしまい、実態と大きくかけ離れることになる。

一方中央値は、年収が低い順(高い順)に国民を並べたときに丁度真ん中になる人の年収を表している為、一部の富裕層の年収は中央値に影響せず、中央値は「普通の人」の生活水準により近くなる。

実際、例えば億万長者が小さな町に引っ越してくれば平均年収はつり上がってしまうが、年収の中央値はほとんど変わらない。大金持ちが一人引っ越して来たただけで、「普通の人」の生活水準が変化するとはいえず、中央値のほうがより直感に近い事がわかる。

厳密な定義

確率変数[math]X[/math]累積分布関数[math]F(x)[/math]とするとき、[math]F(x)[/math]は実数値非単調減少関数、右連続関数となる。この時、次の不等式を満足する実数値[math]m[/math]を中央値(メディアン)と呼ぶ。

[math]\int_{-\infty}^m \mathrm{d}F(x) \geq \frac{1}{2}\text{ and }\int_m^{\infty} \mathrm{d}F(x) \geq \frac{1}{2}\,\![/math]

但し、積分記号はリーマンスティルチェス積分の意味である。

実数観測値[math]x[/math]が観測された場合は以下のように簡易的に記述することができる。(ただし、同一の順位が無いと仮定する。)

[math]x_1, x_2, \dotsc , x_n[/math]を実数とする。 [math]x_1, x_2, \dotsc , x_n[/math]小さい順に並べ替えたものを[math]x'_1, x'_2, \dotsc , x'_n[/math]とするとき、 [math]x=(x_1, x_2, \dotsc , x_n)[/math]の中央値 [math]\mathrm{Q}_{1/2}(x)[/math]

[math] \mathrm{Q}_{1/2}(x) = \begin{cases} x'_{(n + 1)/2}, & \text{if } n \text{ is odd.} \\ \dfrac{1}{2}( x'_{n/2} + x'_{n/2 + 1}), & \text{if } n \text{ is even.} \end{cases} [/math]

により定義される。なお、単純に [math]\mathrm{Q}_{1/2}(x) = x_{n/2}[/math] とならないのは、[math]x[/math] の添数が [math]0, \dotsc , n[/math] ではなく [math]1, \dotsc , n[/math] だからである。

数学的には中央値には

[math] \mathrm{T}(t)=\sum_{i=1}^{n} |x_i-t| [/math] を最適化する性質をもっている。(ただし、一意に定まらない場合がある)

すなわち中央値は母集団の各要素から絶対距離の和が最も小さくするという意味で母集団を代表していると見ることができる(実際は要素の数が偶数個のときは、代表値tは一意には定まらないが便宜上、上で述べた定義を採用する)。

またこれを要素数nで割ったものを平均偏差(Mean deviation)という。

平均偏差は各データの、中央値からの距離の平均であり、同じ次元ではある標準偏差などと比べ直感的に理解しやすい。

平均値との関係(数式的なもの)

  • データの分布が対称である場合は、中央値は平均値に等しい。ただし、分布が対称でなくても、中央値と平均値が等しくなる事もある。
  • 以下の性質により、平均値よりも、全体の傾向を表す代表値として適切である場合が多い。
    • 平均値は、測定ミスなどによって発生する外れ値(他の値より著しく異なる値)に大きく影響され、誤差が大きくなったり、無意味な値となることがある。そのため、刈り込みロバスト統計などの対策が必要になる。しかし、中央値は外れ値にほとんど影響されないので、対策は不要である。
    • たとえばデータが正値のみといったように限定されている場合、そうでない場合と比べて分布はより非対称になりやすく、少数の大きな値に引きずられて平均値は大多数の分布より大きくずれることがある。しかし、中央値ではそういった影響はほとんどない。
    • [math]\pm \infty[/math] を含むデータに対しても中央値は有限となることがある。(平均値は、必ず無限または不定となる)
    • 分布の谷に位置するようなケースが、平均値に比べて少ない。(平均値は、2峰分布に対ししばしば谷に位置する)
  • 中央値を求めるには、線形汎用選択アルゴリズムを使うと[math]\mathrm{O}(n)[/math] の計算量で求められる(平均値も [math]\mathrm{O}(n)[/math])。逐次データが得られる場合は全てのデータを保持しておく必要があり、[math]\mathrm{O}(n)[/math] のメモリを要する(平均値は [math]\mathrm{O}(1)[/math])。
  • 代表値として平均値を使うときは、分布の広がりは分散または標準偏差で表すことが多い。それに対し、代表値として中央値を使うときは、分布の広がりは第3四分位点と第1四分位点の差である四分位範囲: interquartile range, IQR)で表すことが多い。

その他の性質

  • 誤差はデータの誤差と同程度である。(平均値の誤差はデータの誤差の [math] \frac{1}{\sqrt n }[/math] 倍である)
  • 中央値は、第2四分位点、50パーセンタイル、0.5クォンタイルでもある。

確率分布の中央値

1次元の確率分布 [math]f(x)[/math] に対し、

[math]\int_{-\infty}^m f(x)\, dx \ge \frac{1}{2}[/math] ,
[math]\int_m^\infty f(x)\, dx \ge \frac{1}{2}[/math]

を満たす [math]m[/math] を、中央値と呼ぶ。

関連項目