テューキーの範囲検定
テューキーの検定(テューキーのけんてい、英: Tukey's test)あるいはテューキー=クレーマー法(英: Tukey–Kramer method)は、一段階多重比較法ならびに統計検定の一種である。テューキーの範囲検定、テューキー法、テューキーのHSD (honestly significant difference) 検定としても知られている[1]。この方法は、互いに有意に差がある平均を探索するために分散分析 (ANOVA) と併用される。名称はジョン・テューキーに因む[2]。テューキー法では全ての可能な平均の対を比較し、「スチューデント化された範囲分布」(q) を用いる(この分布はt検定に用いられるt分布に似ている)[3]。テューキーのHSD検定は、テューキーの平均差検定(ブランド=アルトマン検定としても知られている)と混同してはならない。
テューキーの検定は、全ての処理の平均をその他全ての処理の平均と比較する。つまり、全ての一対比較の組に同時に適用され、
- [math]\mu_i-\mu_j \, [/math]
期待される標準誤差よりも大きな2つの平均の間の差を特定する。全ての標本の大きさが等しい時、この集合に対する信頼係数は厳密に1 − αである。標本の大きさが等しくない場合、信頼係数は1 − αより大きくなる。言い換えれば、テューキー法は標本の大きさが等しくない場合は保守的である。
Contents
テューキーの検定の仮定
検定統計量
テューキーの検定はt検定とよく似た式に基づいている。実際、テューキーの検定は実験あたりの過誤率(experiment-wise error rate)を補正することを除けば本質的にt検定である(多重比較を行う時、第一種過誤が発生する確率が増大する。テューキーの検定はこれを補正するため、多くのt検定を行うよりも多重検定に適している)[3]。
テューキーの検定の式は以下の通りである。
- [math] q_s = \frac{Y_A - Y_B}{SE}, [/math]
YAは比較する2つの平均のより大きいもの、YBは比較する2つの平均のより小さなもの、SEは問題になっているデータの標準誤差である。
このqsは次に、「スチューデント化された範囲」の分布からのq値と比較される。qsがスチューデント化された範囲の分布から得られたqcritical値よりも「大きい」場合は、2つの平均間に有意差があると考えられる[3]。
テューキーの検定の帰無仮説は、比較される全ての平均が同じ母集団に属する(すなわちμ1 = μ2 = μ3 = ... = μn)というものであるため、(中心極限定理により)平均は正規分布しなければならない。これによりテューキーの検定のnormality assumption(誤差は正規分布に従うという仮定)が生じる。
信頼限界
少なくとも1 − αの信頼係数を持つ全ての一対比較に対するテューキーの信頼限界は
- [math]\bar{y}_{i\bullet}-\bar{y}_{j\bullet} \pm \frac{q_{\alpha;r;N-r}}{\sqrt{2}}\widehat{\sigma}_\varepsilon \sqrt{\frac{2}{n}} \qquad i,j=1,\ldots,r\quad i\neq j.[/math]
である。点推定量および推定分散は、単一の一対比較に対するものと同じである。同時比較に対する信頼限界と単一比較に対する信頼限界との間の唯一の違いは、推定標準偏差の多重度である。
スチューデント化された範囲分布を用いる時には、標本サイズは等しくなければならない。[math]\widehat{\sigma}_\varepsilon[/math]は比較する2群のみの標準偏差ではなく、全配置の標準偏差である。異なる標本サイズに対するテューキー・クレーマー法は以下の通りである。
- [math]\bar{y}_{i\bullet}-\bar{y}_{j\bullet} \pm \frac{q_{\alpha;r;N-r}}{\sqrt{2}}\widehat{\sigma}_\varepsilon \sqrt{\frac{1}{n}_{i} + \frac{1}{n}_{j}} \qquad [/math]
n iおよびn jはそれぞれ群iおよびjのサイズである。全配置の自由度も適用される。
スチューデント化された範囲 (q) 分布
テューキー法はスチューデント化された範囲分布を用いる。平均μ、分散σ2の正規分布からr回の独立した観測y1, ..., yrを行うと仮定する。wをこの組の範囲、すなわち最大引く最小とする。ここで、ν自由度に基づきyi (i = 1,...,r) から独立している分散σ2の推定値s2を仮定する。スチューデント化された範囲は
- [math]q_{r,\nu} = w/s\,[/math]
と定義される。
テューキーの検定は同じ母集団からの2つの標本の比較に基づく。最初の標本から、範囲(最大観測値から最小値を差し引いて計算される: [math]\scriptstyle \text{range}\, =\, \max_i(Y_i)\, -\, \min_i(Y_i)[/math])が計算され、2つ目の標本から標準偏差が計算される。スチューデント化された範囲の比は次に以下のように計算される(q = スチューデント化された範囲、s = 2つ目の標本の標準偏差)。
- [math]q = \frac{\text{range}}{s}[/math]
qのこの値はqの臨界値の基礎であり、3つの因子に基づく。
qの分布は多くの統計の教科書に表で掲載されている。加えてRにはqのための累積分布関数 (ptukey
) および分位関数 (qtukey
) が含まれている。
比較の順序
A > B > C > Dと順位付けされる一組の平均(A, B, C, D)がある時、全ての可能の比較をテューキーの検定を用いて検定する必要はない。冗長性を回避するため、まず最大の平均(A)と最小の平均(D)の比較から始める。平均AとDの比較に対するqs値が分布のq値よりも小さいとすると、帰無仮説は棄却されず、これらの平均の間には統計的有意差はないとされる。最大差のある2つの平均間に有意差がないため、それよりも差が小さい2つの平均の比較からは(標本の大きさが理想的ならば)同じ結論が得られると確実である。この結果、その他の比較を行う必要はない[3]。
概して、テューキーの検定は、常にまず最大平均と最小の平均の比較を行い、次に最大平均と2番目の最小の平均の平均の比較、と最大平均とその他全ての平均が比較される(あるいは有意差が見られなくなる)まで行うことが重要である。この後、2番目の最大の平均と最小平均の比較を同様に行っていく。
標本の大きさが異なる場合
標本の大きさが異なる場合でも検定を行うことは可能である。この場合、全ての対比較について推定標準偏差を1956年にClyde Kramerによって形式化された方法で計算しなければならない。このため、標本の大きさが異なる場合の方法はテューキー=クレイマーの方法と呼ばれることがある。
シェッフェの方法による比較
もし対比較のみを行う場合は、テューキー=クレイマー法はシェッフェ(Scheffé)の方法よりも狭い信頼限界(好ましく、より検出力が高い)を与える。多くあるいは全ての対比(グループごとの比較)に興味がある時は、シェッフェの方法はより狭い信頼限界を与える傾向にあり、ゆえに好ましい手法となる。
脚注
- ↑ Lowry, Richard. One Way ANOVA – Independent Samples. Vassar.edu. Retrieved on December 4th, 2008
- ↑ Tukey, J. (1949). “Comparing Individual Means in the Analysis of Variance”. Biometrics 5 (2): 99-114. PMID 18151955 .
- ↑ 3.0 3.1 3.2 3.3 Linton, L.R., Harder, L.D. (2007) Biology 315 – Quantitative Biology Lecture Notes. University of Calgary, Calgary, AB