カイ二乗分布

提供: miniwiki
2018/7/27/ (金) 18:19時点における133.31.18.68 (トーク)による版 (性質)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
移動先:案内検索
カイ二乗分布
母数 k ∈ {1, 2, ...} = Z+
x ∈ [0, ∞)
テンプレート:確率分布/リンク 密度 [math] \frac{x^{k/2-1}e^{-x/2}}{\,2^{k/2} \Gamma(k/2)}[/math]
累積分布関数 [math]\frac{\gamma(k/2, x/2)}{\Gamma(k/2)}[/math]
期待値 k
中央値 [math]\simeq k-\frac{2}{3}+\frac{4}{27k}-\frac{8}{729k^2}[/math]
最頻値 0 for k < 2
k - 2 for k ≥ 2
分散 2k
歪度 [math]\frac{2\sqrt{2}}{\sqrt{k}}[/math]
尖度 12/k
エントロピー k/2 + ln 2 + ln Γ(k/2)
+ (1 - k/2)ψ(k/2)
モーメント母関数 [math]\frac{1}{(1 - 2t)^{k/2}}\text{ for }t \lt 1/2[/math]
特性関数 [math]\frac{1}{(1 - 2i t)^{k/2}}[/math]
テンプレートを表示

カイ二乗分布(カイにじょうぶんぷ、カイじじょうぶんぷ)、またはχ2分布確率分布の一種で、推計統計学で最も広く利用されるものである。ヘルメルトにより発見され[1]ピアソンにより命名された[2]

独立に標準正規分布に従う k 個の確率変数 X1, ..., Xk をとる。 このとき、統計量

[math]Z = \sum_{i = 1}^k X_i^2[/math]

の従う分布のことを自由度 k のカイ二乗分布と呼ぶ。この分布は自由度 k に応じて右図のような形をとる。 図を見ればわかるように、どの自由度 k でも、ある一定以上 Z が大きいならば、 Z が大きいほどその確率が低くなることがわかる。 このことは、大まかに言えば、「正規分布でランダムで値をとったのだから、その値を用いて高々二乗和をとった程度の数値 Z がとてつもなく大きくなる確率は少ないはずだ」と解釈できる。統計的仮説検定にカイ二乗分布が用いられるのはこの性質のためである。例えば、「データが意味のないノイズ要素である可能性はたったの5%以下だから、このデータには意味があるはずだ」という解釈が行われる。

普通はこれを

[math]Z\sim\chi^2_k[/math]

と書く。カイ二乗分布は k という1個の母数をもつ。これは Xi自由度に等しい正の整数である(場合によっては非整数自由度のカイ二乗分布も用いられる)。カイ二乗分布はガンマ分布の特殊な場合に当たる。

カイ二乗分布はカイ二乗検定と総称される多くの検定法のほか、フリードマン検定などにも利用される。

性質

カイ二乗分布の確率密度関数は

x ≥ 0 に対し

[math]f(x;k)=\frac{1}{2^{k/2}\Gamma(k/2)} x^{k/2 - 1} e^{-x/2}[/math]

x ≤ 0 に対し fk(x) = 0 という形をとる。ここで Γ はガンマ関数である。

累積分布関数は

[math]F(x;k)=\frac{\gamma(k/2,x/2)}{\Gamma(k/2)}\ [/math]

(但し γ(k, z) は不完全ガンマ関数)である。

[math]Y = \frac{X_1 / \nu_1}{X_2 / \nu_2}[/math] (但し [math]X_1 \sim \chi_{\nu_1}^2[/math][math]X_2 \sim \chi_{\nu_2}^2[/math] はカイ二乗分布に従う独立な確率変数)とすると、[math]Y \sim \mathrm{F}(\nu_1, \nu_2)[/math]、つまり自由度で割って比をとるとF分布に従う。

[math]X \sim \chi_2^2[/math] (自由度2)ならば、X は期待値2の指数分布に従う。

自由度 k のカイ二乗分布に従う確率変数の期待値k で、分散は 2k である。中央値は近似的に

[math]k-\frac{2}{3}+\frac{4}{27k}-\frac{8}{729k^2}[/math]

となる。

カイ二乗分布は再生性を持つ。すなわち、[math]X \sim \chi_m^2, \ Y \sim \chi_n^2[/math]ならば、[math]X + Y \sim \chi_{m+n}^2[/math]となる。

正規分布による近似

[math]X\sim\chi^2_k[/math] として、k が無限大に近づくと X の分布は正規分布に近づくが、近づき方はゆっくりしている (歪度[math]\sqrt{8/k}[/math]尖度12/k)ため、X 自体より速く正規分布に近づく次の2つの方法が普通用いられる。

  • [math]\sqrt{2X}[/math] は近似的に平均 [math]\sqrt{2k-1}[/math]、分散1の正規分布に従う(R.A.フィッシャー)。
  • [math]\sqrt[3]{X/k}[/math] は近似的に平均 1-2/9k、分散 2/9k の正規分布に従う(ウィルソンとヒルファティ、1931年)。

脚注

  1. Helmert, F. R. (1875): Ueber die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler, Zeitschrift für Mathematik und Physik, 20, 300-303[1]
  2. Pearson, K. (1900): On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably Be Supposed to have Arisen from Random Sampling, Philosophical Magazine 5, 50, 157-175

関連項目