分散 (確率論)
確率論および統計学において、分散(ぶんさん、英: variance)は、確率変数の2次の中心化モーメントのこと。これは確率変数の分布が期待値からどれだけ散らばっているかを示す非負の値である[1]。
記述統計学においては標本が標本平均からどれだけ散らばっているかを示す指標として標本分散(ひょうほんぶんさん、英: sample variance)を、推測統計学においては不偏分散(ふへんぶんさん、英: unbiased (sample) variance)を用いる。0 に近いほど散らばりは小さい。
日本工業規格では、「確率変数 X からその母平均を引いた変数の二乗の期待値。σ2 = V(X) = E[X − E(X)]2 である。」と定義している[2]。
英語の variance(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[3]。
確率変数の分散
2乗可積分確率変数 X の分散は期待値を E(·) で表すと
- [math]V(X)=E\big((X-E(X))^{2}\big)[/math]
で定義される。また式変形をして
- [math]V(X)=E(X^{2})-(E(X))^{2}[/math]
とも書ける。また確率変数 X の特性関数を φX(t) = E(eitX) とおくと(i は虚数単位)、これは 2 階連続的微分可能で
- [math]V(X) = -\varphi_X''(0) + (\varphi_X'(0))^2[/math]
と表示することもできる。
チェビシェフの不等式から、任意の正の数 ε に対して、
- [math]P(|X-E(X)|\gt \varepsilon)\leq\frac{V(X)}{\varepsilon^{2}}[/math]
が成り立つ。これは分散が小さくなる程に期待値の近くに変数が分布することを示す大まかな評価である。
性質
X, X1, …, Xn を確率変数、a, b, a1, …, an を定数とし、共分散を Cov( · , · ) で表すと
- [math]V(X) \ge 0 [/math](非負性)
- [math]V(X + b) = V(X) [/math](位置母数に対する不変性)
- [math]V(aX) = a^2 V(X) [/math](斉次性)
- [math]\textstyle V(\sum_i a_i X_i) = \sum_{i, j} a_i a_j \operatorname{Cov}(X_i, X_j)[/math]
を満たす。したがって、特に X1, …, Xn が独立ならば、
- [math] \operatorname{Cov}(X_i, X_j) = \begin{cases} V(X_i) & i = j \\ 0 & \text{otherwise} \end{cases} [/math]
より
- [math]V(X_1 + \dotsb + X_n) = V(X_1) + \dotsb + V(X_n)[/math]
が成り立つ。
例
- X を一様分布 U(a, b) に従う確率変数とすると V(X) = (b − a)212
- X を正規分布 N(μ, σ2) に従う確率変数とすると V(X) = σ2
- X を二項分布 B(n, p) に従う確率変数とすると V(X) = np(1 − p)
- X をポアソン分布 Po(λ) に従う確率変数とすると V(X) = λ
母分散
n 個のデータ x1, x2, ..., xn からなる母集団があって、μ をそのデータの相加平均とした時に、(xi − μ)2 の相加平均
- [math]{\sigma}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \mu)^2[/math]
で表される σ2 を母分散 (population variance) と言う[4]。
標本分散
n 個のデータ x1, x2, ..., xn からなる標本があって、x をそのデータの相加平均とした時に、(xi − x)2 の相加平均
- [math]s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i} - \bar{x})^2[/math]
で定義される s2 を標本分散 (sample variance) と言う。s は標準偏差と呼ばれる[4]。なお、不偏分散を標本分散と呼ぶ文献もある。 日本工業規格では、「各観測値の平均値からの偏差の二乗の和を観測個数から1を引いた数で割ったばらつきの尺度」と定義している[5]。
定義より、
- [math]s^{2}=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}-(\bar{x})^{2}=\overline{x^{2}}-(\bar{x})^{2}[/math]
となるから、標本分散は、2乗の相加平均と相加平均の2乗との差に等しい。従って、この式を用いて分散の計算を容易にすることができる。ただし、概して求める分散に対して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には大きな丸め誤差が生じる可能性がある(桁落ち)。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムやpairwise summationのような手法により、誤差を小さくする工夫が為されることもある)。
不偏分散
標本分散は、一般にその期待値が母分散よりも若干小さくなる。より正確には、平均と分散を持つ同一分布からの無作為標本に対して
- [math] E(s^2) = \left(1 - \frac{1}{n}\right) \sigma^2 [/math]
が成り立つ。そこで推定量として
- [math]\hat{\sigma}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i)^{2} - \frac{n}{n-1}\bar{x}^{2}[/math]
を用いると、期待値が母分散に等しくなる推定量が得られる。 これを母分散の不偏推定量であるとの意味で不偏分散 (unbiased (sample) variance) と呼ぶ[4]。定義から明らかに、標本数が大きくなるにつれて標本分散は不偏分散に近づく。
脚注
- ↑ 西岡 2013, テンプレート:Google books quote.
- ↑ JIS Z 8101-1 : 1999, 1.13 分散.
- ↑ “Earliest Known Uses of Some of the Words of Mathematics (V)”. . 2016閲覧.
- ↑ 4.0 4.1 4.2 栗原 2011, p. テンプレート:Google books quote.
- ↑ JIS Z 8101-1 : 1999, 2.19 標本分散.
参考文献
- 『入門統計学検定から多変量解析・実験計画法まで』 オーム社、2011年。ISBN 978-4-274-06855-3。
- 西岡, 康夫 『数学チュートリアル やさしく語る 確率統計』 オーム社、2013年。
- 日本数学会 『数学辞典』 岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999)
- 伏見康治 『確率論及統計論』 河出書房、1942年。ISBN 9784874720127。