分位数
分位数(ぶんいすう)、分位点(ぶんいてん)、分位値(ぶんいち)、クォンタイル (英: quantile) は、統計の代表値の1種である。
実数 [math]q \in [0, 1][/math] に対し、q 分位数 (q-quantile) は、分布を [math]q : 1 - q[/math] に分割する値である。
ある種の正の整数 [math]m[/math] に対し、分布を [math]m[/math] 等分する [math]m - 1[/math] 個の値、つまり、[math]i = 1, \dotsc, m - 1[/math] に対する [math]i / m[/math] 分位数を、m 分位数(ただし [math]m[/math] は漢数字)という。[math]i = 1, \dotsc, m - 1[/math] 番目の m 分位数を第 i m 分位数といい、また、[math]m[/math] 等分された分布の [math]k = 1, \dotsc, m[/math] 番目の部分を、第 k m 分位、または単に第 k 分位という。
ただし、英語のquantileには、等分割する値(value)の意味と、そのようにして分割された群(group)の二つの意味がある[1][2]。
Contents
定義
変量統計における分位数
[math]n[/math] 個のデータ [math]x[/math] に対する q 分位数 [math]Q_q[/math] は、昇順にソートしたデータを [math]x_{1} \leq x_{2} \leq \dotsb \leq x_{n}[/math] とすると、
- [math]\begin{align} Q_q &= x(1 - q + q n) \\ x(t) &= \begin{cases} x_t, & \text{if } t \in \mathbb{N} \\ (\lceil t \rceil - t) x_{\lfloor t \rfloor} + (t - \lfloor t \rfloor) x_{\lceil t \rceil}, & \text{if } t \notin \mathbb{N} \end{cases} \end{align}[/math]
と定義される。ここで、[math]\lfloor \cdot \rfloor[/math] は床関数、[math]\lceil \cdot \rceil[/math] は天井関数、[math]\mathbb{N}[/math] は自然数の集合である。
関数 [math]x(t),\ 1 \le t \le n[/math] は、数列 [math]x_{1, \dotsc, n}[/math] の線形補間による実数関数への拡張である。関数 [math]x(\cdot)[/math] の引数 [math]1 - q + q n[/math] は、範囲 [math][1, n][/math] を [math]q : 1 - q[/math] に内分している。
確率分布の分位数
1次元確率分布 [math]\varphi(x)[/math] に対する q 分位数 [math]Q_{q}[/math] は、
- [math]\int_{-\infty}^{Q_q} \varphi(x) dx \ge q,\ \int_{Q_q}^\infty \varphi(x) dx \ge 1 - q[/math]
を満たす値として定義される。この式は、累積密度関数 [math]\Phi (x)[/math] または確率 [math]P(X)[/math] を使って、
- [math]\int_{-\infty}^{Q_q} d\Phi(x)\ \ge q,\ \int_{Q_q}^\infty d\Phi(x)\ \ge 1 - q[/math]
または
- [math]P(X \le Q_q) \ge q,\ P(X \ge Q_q) \ge 1 - q[/math]
とも表せる。
日本工業規格における分位点
日本工業規格では、分位点を、「[math]p[/math]分位点とは,分布関数が[math]p[/math]に一致するか,又は[math]p[/math]より小さな値から[math]p[/math]より大きな値に飛ぶときの確率変数の値。確率[math]p[/math]を[math]100p[/math]%で表すときは[math]100p[/math]パーセント点 (100p percentile) という。備考1. 確率変数のある区間内で分布関数が一定値[math]p[/math]となる場合は,その区間内の任意の値が[math]p[/math]分位点とされる。ただし,[math]0\leqq p\leqq 1[/math]である。 2. [math]p=1/2[/math]に対応する確率変数の値をメディアン,中央値 (median) という。3. [math]p=1/4[/math]および[math]p=3/4[/math]に対応する確率変数の値を四分位点 (quartile) という。」と定義している[3]。
特別な分位数
いくつかの q に対する q 分位数には、特別な名称がある。
中央値
1 / 2 分位数を、中央値、メディアン (median)という。中央値は、平均値に代わり、分布を代表する値として使われる。
四分位数
[math]q / 4[/math] 分位数を、第 q 四分位数、第 q 四分位点、第 q 四分位値、第 q ヒンジ (quartile, hinge) という。1 / 4 分位数(第1四分位数)を下側四分位数、3 / 4 分位数(第3四分位数)を上側四分位数ともいう[4]。
単に四分位数といったばあい、第1・第3四分位数を表す。第2四分位数は中央値である。これらは、分布のばらつきを表すのに使う。
第1・第3四分位数の差 [math]Q_{3 / 4} - Q_{1 / 4}[/math] は、四分位範囲(英: interquartile range, IQR)といい、分布のばらつきの代表値である。分布の代表値として平均値の代わりに中央値を使うときは、IQRを標準偏差や分散の代わりに使う。中央値同様、頑強で、外れ値や極端に広い裾野の影響を受けにくい。
[math]\text{IQR} / 2[/math] を四分位偏差、[math]\text{IQR} / \text{IQR}_{N(0, 1)} \approx 0.7413 ~ \text{IQR}[/math] を正規四分位範囲(英: normalized interquartile range, NIQR)といい、IQRの代わりに使うことがある。ここで、[math]\text{IQR}_{N(0, 1)} \approx 1.3490[/math] は、標準正規分布のIQRである。正規分布の正規四分位範囲は、標準偏差に等しい。なお係数0.7413を近似値として使うことがある。
四分位数の簡易な求め方として、中央値より上の値の中央値と、中央値より下の値の中央値を使う場合がある。この値を特にヒンジ (hinge) と呼び、それぞれ上側ヒンジ・下側ヒンジ、または、第1・第3ヒンジ(第2ヒンジは中央値)と呼ぶ。ヒンジは、(厳密に計算した)四分位数とは、中央値から離れる方向に少しだけずれる。データ数が多ければずれは小さくなる 。
三分位数・五分位数・十分位数
[math]q / 3[/math] 分位数を、第 q 三分位数、第 q 三分位点、第 q 三分位値 (tertile) という。
[math]q / 5[/math] 分位数を、第 q 五分位数、第 q 五分位点、第 q 五分位値 (quintile) という。
[math]q / 10[/math] 分位数を、第 q 十分位数、第 q 十分位点、第 q 十分位値 (decile) という。
パーセンタイル
[math]q / 100[/math] 分位数を、q パーセンタイル、(第)q 百分位数、(第)q 百分位点、(第)q 百分位値、q パーセント点、q %点 (percentile) という。
[math]1 - q / 100[/math] 分位数を上側 q パーセント点という。これと対比するときには、[math]q / 100[/math] 分位数は下側 q パーセント点という。また、平均が0の対称分布に対し、[math]1 / 2 + q / 200[/math] 分位数を両側 q パーセント点という。このとき、絶対値が両側 q パーセント点以内に、分布の q %が含まれている。
最大値・最小値
五数要約
分布の特徴を最大値、最小値、中央値、上側・下側ヒンジの5つの値、つまり、0, 約0.25, 0.5, 約0.75, 1分位数で要約することを、五数要約という。五数要約は、しばしば箱ひげ図で図示される。
脚注
- ↑ Oxford Dictionary of English(ODE) (3rd ed.). Oxford University Press.
- ↑ “Oxford Dictionaries (ODEのオンライン版に相当)”. Oxford University Press. . 2016閲覧.
- ↑ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.10 分位点, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html
- ↑ 西岡康夫,数学チュートリアル やさしく語る 確率統計,1.5 分位数 p.12, オーム社, 2013, ISBN 9784274214073
- ↑ 西岡康夫,数学チュートリアル やさしく語る 確率統計,1.4 度数分布 p.8, オーム社, 2013, ISBN 9784274214073
参考文献
- 西岡康夫 『数学チュートリアル やさしく語る 確率統計』 オーム社、2013年。ISBN 9784274214073。