離散一様分布
母数 |
[math]a \in (\dots,-2,-1,0,1,2,\dots)\,[/math] [math]b \in (\dots,-2,-1,0,1,2,\dots)\,[/math] [math]n=b-a+1\,[/math] |
---|---|
台 | [math]k \in \{a,a+1,\dots,b-1,b\}\,[/math] |
確率質量関数 | [math] \begin{matrix} \frac{1}{n} & \mbox{for }a\le k \le b\ \\0 & \mbox{otherwise } \end{matrix} [/math] |
累積分布関数 | [math] \begin{matrix} 0 & \mbox{for }k\lt a\\ \frac{\lfloor k \rfloor -a+1}{n} & \mbox{for }a \le k \le b \\1 & \mbox{for }k\gt b \end{matrix} [/math] |
期待値 | [math]\frac{a+b}{2}\,[/math] |
中央値 | [math]\frac{a+b}{2}\,[/math] |
最頻値 | N/A |
分散 | [math]\frac{(b-a+1)^2-1}{12}=\frac{n^2-1}{12},[/math] |
歪度 | [math]0\,[/math] |
尖度 | [math]-\frac{6(n^2+1)}{5(n^2-1)}\,[/math] |
エントロピー | [math]\ln(n)\,[/math] |
モーメント母関数 | [math]\frac{e^{at}-e^{(b+1)t}} --\gt {n(1-e^t)}\,[/math] |
特性関数 | [math]\frac{e^{iat}-e^{i(b+1)t}}{n(1-e^{it})}[/math] |
離散一様分布(りさんいちようぶんぷ、英: discrete uniform distribution)は、確率論や統計学における離散型確率分布の一種であり、有限集合の全ての値について、等しく確からしい場合である。
確率変数が [math]n[/math] 個の値 [math]k_1,k_2,\dots,k_n[/math] を同じ確率でとりうるとき、離散一様分布と言える。任意の [math]k_i[/math] の確率は [math]1/n[/math] である。離散一様分布の単純な例としてサイコロがある。その場合の [math]k[/math] がとりうる値は 1, 2, 3, 4, 5, 6 で、1回サイコロを振ったとき、それぞれの値が出る確率は 1/6 である。2個のサイコロを振って和をとると、もはや一様分布ではなくなり、とりうる値(2 から 12)によって確率が変わってくる。
離散一様分布の確率変数がとりうる値が実数の場合、累積分布関数を退化分布を使って表すことができる。すなわち、
- [math]F(k;a,b,n)={1\over n}\sum_{i=1}^n H(k-k_i)[/math]
ここで、ヘヴィサイドの階段関数 [math]H(x-x_0)[/math] は、[math]x_0[/math] を中心とする退化分布の累積分布関数 (CDF) である。この式は、各転移点で一貫した規定が使われると想定している。
Contents
非復元抽出による最大値の推定
整数[math]1,~2,~\dots,~N[/math]から[math]k[/math]個の標本が非復元抽出され、離散一様分布と同様に、標本の抽出のされ方に整数による差はないとする。ここで未知の最大値 N を推定する問題が生じる。このような問題を一般に German tank problem(ドイツ戦車問題)と呼び、第二次世界大戦中のドイツでの戦車生産数の最大値を推定するという問題に由来する。
最大値のUMVU推定によると、次のようになる。
- [math]\hat{N}=\frac{k+1}{k} m - 1 = m + \frac{m}{k} - 1[/math]
ここで m は標本内の最大値、k は標本数である[1][2]。これは maximum spacing estimation の非常に単純な例と見ることもできる。
この式は直観的に次のように理解できる。
- 「標本の最大値に観測された標本値の平均間隔を加える」
この間隔は標本の最大値の負のバイアスを補填するよう加算され、母集団の最大値の推定とする[notes 1]
この分散は次のようになる[1]。
- [math]\frac{1}{k}\frac{(N-k)(N+1)}{(k+2)} \approx \frac{N^2}{k^2} \text{ for small samples } k \ll N[/math]
つまり標準偏差は約 [math]N/k[/math] で(母集団の)標本間の間隔の平均であり、上の [math]\frac{m}{k}[/math] に似ている。
標本の最大値は母集団の最大値の最尤推定量だが、これまで述べたようにバイアスがかかっている。
標本が数として捉えられず、単に識別可能あるいは標識を付与できるなら、母集団の大きさの推定を標識再捕獲法で行うことができる。
関連項目
脚注
- ↑ 標本の最大値は母集団の最大値を超えることは決してないが、小さくなることはありうる。したがって、バイアスのある推定値である。母集団の最大値は小さく推定される傾向がある。
出典
- ↑ 1.0 1.1 Johnson, Roger (1994), “Estimating the Size of a Population”, Teaching Statistics 16 (2 (Summer)), doi:10.1111/j.1467-9639.1994.tb00688.x
- ↑ Johnson, Roger (2006), “Estimating the Size of a Population”, Getting the Best from Teaching Statistics