相関係数
相関係数(そうかんけいすう、英: correlation coefficient)は、2つの確率変数の間にある線形な関係の強弱を測る指標である[1][2]。相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという[3][4] 。
たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば比較的−1に近い数字になる。
相関係数が±1に値をとるのは2つの確率変数が線形な関係にあるとき、かつそのときに限る[5]。また2つの確率変数が互いに独立ならば相関係数は0となるが、逆は成り立たない。
普通、単に相関係数といえばピアソンの積率相関係数を指す[6]。ピアソン積率相関係数の検定は偏差の正規分布を仮定する(パラメトリック)方法である[7]が、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数、ケンドールの順位相関係数なども一般に用いられる。[8][9]
Contents
定義
相関
日本工業規格では、相関(そうかん:correlation)を、「二つの確率変数の分布法則の関係。多くの場合,線形関係の程度を指す。」と定義している[10] 。
相関係数
正の分散を持つ確率変数 X, Y が与えられたとき、共分散を σXY, 標準偏差をσX, σY とおく。このとき
- [math] \rho = \frac{\sigma_{X Y}}{\sigma_X\sigma_Y} [/math]
を確率変数 X, Y の相関係数という。これは期待値を E[–] で表せば
- [math] \rho = \frac{ E\Big[\big(X - E[X]\big) \big(Y - E[Y]\big)\Big] }{ \bigg(E\Big[\big(X - E[X]\big)^2\Big] E\Big[\big(Y - E[Y]\big)^2\Big] \bigg)^{1/2} } [/math]
と書き直すこともできる。
母集団相関係数
標本相関係数
2組の数値からなるデータ列 [math]\{(x_{i}, \, y_{i})\}[/math] [math](i=1,2,\ldots,n)[/math] が与えられたとき、標本共分散をsxy、標本標準偏差をsx、syとおく。このとき
- [math] r = \frac{s_{x y}}{s_x s_y} [/math]
を標本相関係数(sample correlation coefficient)あるいはピアソンの積率相関係数という。これはデータ[math]x = \{x_{i}\}[/math], [math]y = \{y_{i}\}[/math]の相加平均を[math]\bar{x}[/math]、[math]\bar{y}[/math] で表せば
- [math] r = \frac{ \displaystyle \sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y}) }{ \bigg(\Big( \displaystyle \sum_{i=1}^n(x_{i}-\bar{x})^2 \Big)\Big( \sum_{i=1}^n(y_{i}-\bar{y})^2 \Big)\bigg)^{1/2} } [/math]
と書き直すこともできる。
これは、幾何学的には各データの平均からのずれを表すベクトル
- [math]x-\bar{x} = (x_1-\bar{x},\ldots,x_n-\bar{x}),[/math]
- [math]y-\bar{y} = (y_1-\bar{y},\ldots,y_n-\bar{y})[/math]
のなす角の余弦である。
データ(xi, yi)が2次元正規分布からの標本のとき、標本相関係数rは母集団相関係数ρの最尤推定量ではあるが、不偏推定量ではなく(絶対値で見ると)小さめに見積もりがちである[11]。また外れ値に鋭敏に反応してしまう。
順位相関係数
誤解や誤用
相関係数は、あくまでも確率変数の間にある線形な関係の尺度に過ぎない[1][2]。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり比尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。
しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。
2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。
- AがBを発生させる
- BがAを発生させる
- 第3の変数CがAとBを発生させる(この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)
相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。
脚注
- ↑ 1.0 1.1 栗林 2011.
- ↑ 2.0 2.1 Drouet Mari & Kotz 2001, テンプレート:Google books quote.
- ↑ 稲垣 1990, p. 66.
- ↑ 伏見康治「確率論及統計論」第III章 記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
- ↑ 稲垣 1990, 定理4.2.ii.
- ↑ 中西他 2004.
- ↑ 和田恒之. “統計学セミナー 第5回資料 相関 (Correlation) (PDF)”. 北海道対がん協会. . 2016閲覧.
- ↑ (2012) Statistics in Social Science and Agricultural Research. Concept Publishing Company, 74. ISBN 978-81-8069-822-4.
- ↑ Chris Spatz (16 May 2007). Basic Statistics: Tales of Distributions. Cengage Learning, 319-320. ISBN 0-495-38393-7.
- ↑ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.9 相関, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html
- ↑ Hedges & Olkin 1985, p. テンプレート:Google books quote.
参考文献
- 『入門統計学―検定から多変量解析・実験計画法まで』 オーム社、2011年。ISBN 978-4-274-06855-3。
- (2001) Correlation and Dependence. Imperial College Press. ISBN 1-86094-264-4.
- (1985) Statistical Methods for Meta-Analysis. Academic Press. ISBN 0-12-336380-2.
- 伏見康治 『確率論及統計論』 河出書房、1942年。ISBN 9784874720127。
- 日本数学会 『数学辞典』 岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html