連続一様分布
累積分布関数 一様確率分布の累積分布関数 | |
母数 | [math]-\infty \lt a \lt b \lt \infty \,[/math] |
---|---|
台 | [math]x \in [a,b][/math] |
テンプレート:確率分布/リンク 密度 | [math]\begin{cases} \dfrac{1}{b - a} & \text{for } x \in [a,b] \\ 0 & \text{otherwise} \end{cases}[/math] |
累積分布関数 | [math]\begin{cases} 0 & \text{for } x \le a \\ \dfrac{x-a}{b-a} & \text{for } x \in [a,b] \\ 1 & \text{for } x \ge b \end{cases}[/math] |
期待値 | [math](a+b)/2[/math] |
中央値 | [math](a+b)/2[/math] |
最頻値 | [math][a,b][/math] 内の任意の値 |
分散 | [math](b-a)^2/12[/math] |
歪度 | 0 |
尖度 | [math]-6/5[/math] |
エントロピー | [math]\ln(b-a)[/math] |
モーメント母関数 | [math]\frac{\mathrm{e}^{tb}-\mathrm{e}^{ta}}{t(b-a)}[/math] |
特性関数 | [math]\frac{\mathrm{e}^{itb}-\mathrm{e}^{ita}}{it(b-a)}[/math] |
連続一様分布(英: continuous uniform distribution)は、確率論や統計学における連続型確率分布の一種であり、分布上の同じ長さの区間が等しく確からしい場合である。台は2つの母数 a と b で定義され、それぞれ最小値と最大値である。この分布を U(a,b) と略記することが多い。
Contents
特性
確率密度関数
連続一様分布の確率密度関数は次の通りである。
- [math] f(x)= \begin{cases} \dfrac{1}{b - a} & \text{for } a \le x \le b, \\[1ex] 0 & \text{for } x\lt a \text{ or } x\gt b, \end{cases} [/math]
2つの境界 a と b での値は、f(x) dx の任意の区間での積分に影響を与えないし、x f(x) dx の積分にも影響を与えないため、通常あまり重視されない。したがって、ゼロとする場合もあるし、1/(b − a) とする場合もある。後者は最尤法による推定の場合によく見られる。フーリエ解析においては、f(a) や f(b) の値を 1/(2(b − a)) とすることもある。そうすると、この一様関数の積分変換の逆変換は元の関数自身に戻る。さもないと「ほとんど至るところで」等しい関数に戻る。すなわち、ゼロ測度の点の集合以外で等しい関数になる。また、このような曖昧さのない符号関数の定義とも一貫する。
累積分布関数
累積分布関数は次の通りである。
- [math] F(x)= \begin{cases} 0 & \text{for }x \lt a \\ \dfrac{x-a}{b-a} & \mbox{for }a \le x \lt b \\ 1 & \mbox{for }x \ge b \end{cases} [/math]
母関数
積率母関数
積率母関数は次の通りである。
- [math] M_x = E(e^{tx}) = \frac{e^{tb}-e^{ta}}{t(b-a)} \,\! [/math]
ここから積率 m k を計算することができる。
- [math]\begin{align} m_1&=\frac{a+b}{2}, \\ m_2&=\frac{a^2+ab+b^2}{3}, \\ m_k&=\frac{1}{k+1}\sum_{i=0}^k a^ib^{k-i}. \\ \end{align}[/math]
この分布に従う確率変数では、期待値は m1 = (a + b)/2 となり、分散は m2 − m12 = (b − a)2/12 となる。
キュムラント母関数
n ≥ 2 のとき、区間 [0, 1] 上の一様分布のn番目のキュムラントは bn/n であり、ここで bn はn番目のベルヌーイ数である。
属性
ボレル集合への一般化
この分布は区間よりも複雑な集合に一般化することができる。S を正の有限測度のボレル集合としたとき、S 上の一様分布の確率密度関数は、S の範囲外ではゼロで S 上では 1/K という一定の値をとる。ここで K は S のルベーグ測度である。
順序統計量
X1, ..., Xn が U(0,1) からの独立同分布(i.i.d.)の標本とする。X(k) がこの標本における k番目の順序統計量とする。すると、X(k) の確率分布は k と n − k + 1 を母数とするベータ分布である。期待値は次のようになる。
- [math]\operatorname{E}(X_{(k)}) = {k \over n+1}[/math]
このことは、Q-Qプロットを作成する際に便利である。
分散は次のようになる。
- [math]\operatorname{Var}(X_{(k)}) = {k (n-k+1) \over (n+1)^2 (n+2)} [/math]
一様性
一様分布する確率変数の任意の固定長の区間での確率は、その区間が分布の台に含まれる限りにおいて、その区間自体の位置とは独立である(ただし、区間の長さには依存する)。
これを示すため、X ≈ U(0,b) で [x, x+d] が [0,b] の部分区間であり、定数 d > 0 とすると、
- [math] P\left(X\in\left [ x,x+d \right ]\right) = \int_{x}^{x+d} \frac{\mathrm{d}y}{b-a}\, = \frac{d}{b-a} \,\! [/math]
となり、x とは独立となる。この事実から「一様」分布と名付けられた。
標準一様
[math]a=0[/math] かつ [math]b=1[/math] に限定したときの分布 U(0,1) を標準一様分布 (standard uniform distribution) と呼ぶ。
標準一様分布の興味深い属性として、u1 が標準一様分布を持つなら、1-u1 も同様である。この属性は、対照変量法など様々な分野で利用されている。
関連する分布
- X が標準一様分布であるとき、逆関数法により、Y = − ln(X) / λ はパラメータ λ の指数分布となる。
- Y = 1 − X1/n はパラメータが 1 と n のベータ分布である。なお、このことは、標準一様分布がパラメータ 1 と 1 のベータ分布の特殊ケースであることを意味する。
- 2つの独立同分布の一様分布の総和は対称な三角分布となる。
他の関数との関係
遷移点の扱いが同じであれば、連続一様分布の確率密度関数はヘヴィサイドの階段関数を使って次のように表すこともできる。
- [math]f(x)=\frac{\operatorname{H}(x-a)-\operatorname{H}(x-b)}{b-a} \,\![/math]
あるいは、矩形関数を使って次のように表すこともできる。
- [math]f(x)=\frac{1}{b-a}\,\operatorname{rect} \left( \frac{x - (a+b)/2}{b-a}\right) [/math]
符号関数の遷移点の解釈には曖昧さがない。遷移点が符号関数と同じく半分の値をとるとした場合、一様分布は符号関数を使って次のように表せる。
- [math]f(x)=\frac{ \sgn{(x-a)}-\sgn{(x-b)}} {2(b-a)}[/math]
応用
統計学において、単純な帰無仮説の検定統計量としてp値を使う場合、検定統計量の分布が連続なら、帰無仮説が真のとき検定統計量(p値)は0と1の間で一様分布する。
一様分布からの標本化
シミュレーション実験には多くの有益な応用がある。多くのプログラミング言語には擬似乱数列を生成する機能があり、事実上それらは標準一様分布に従って分布している。
標準一様分布からの標本値 u があるとき、a + (b − a)u という値は上述の通り母数 a と b の一様分布に従った値となる。
任意の分布からの標本化
一様分布は任意の分布からの標本化にも有効である。汎用的手法として逆関数法があり、対象とする確率変数の累積分布関数 (CDF) を使う。理論的研究では非常に便利な手法である。シミュレーションでこの手法を使う場合、対象とする変数のCDFを知っている必要があるため、閉形式のCDFが未知の場合について代替手法が生み出されてきた。例えば、棄却サンプリング法がある。
正規分布は、逆関数法が効果的でない重要な例である。しかしボックス-ミューラー変換という正確な手法があり、2つの独立で一様な確率変数を独立な正規分布の確率変数に変えるため、逆変換を使う。
推定
最大値の推定
区間 [0, N] 上の一様分布について、N が未知の場合、最大値のUMVU推定は次のようになる。
- [math]\hat{N}=\frac{k+1}{k} m = m + \frac{m}{k}[/math]
ここで m は標本の最大値、k は標本の大きさ(数)であり、標本の順序は入れ替えない(ただし、連続分布ではこの限定はほとんど意味を持たない)。これは離散分布での推定と同じ理由で、maximum spacing estimation の非常に単純な例と見ることができる。このような問題を一般に German tank problem(ドイツ戦車問題)と呼び、第二次世界大戦中のドイツでの戦車生産数の最大値を推定するという問題に由来する。
中点の推定
分布の中点 (a + b) / 2 は、一様分布の期待値であり中央値である。標本の平均値と標本の中央値は母集団の中点のバイアスのない推定値だが、どちらも標本の範囲中央(標本の最大値と最小値の平均)ほど効率的ではない。それが中点のUMVU推定である(また、最尤推定値である)。