共分散
共分散(きょうぶんさん、英: covariance)は、2 組の対応するデータ間での、平均からの偏差の積の平均値である[1]。2 組の確率変数 X, Y の共分散 Cov(X, Y) は、E で期待値を表すことにして、
- [math]\operatorname{Cov}(X, Y) = \operatorname{E}[(X - \operatorname{E}[X])(Y - \operatorname{E}[Y])][/math]
で定義する。
例
例として、中学生のテストの成績から、山田さんの偏差の積を計算する。
項目 | 数学 | 国語 |
---|---|---|
平均点 | 50 | 50 |
山田 | 80 | 40 |
偏差 | 30 | −10 |
偏差の積 | 30 × (−10) = −300 |
生徒全員について、偏差の積を平均したものが数学と国語の共分散になる。
数学が平均より高い生徒が、国語も平均より高いテストの点を取っていると、共分散の合計は大きな正の値をとる。逆の関係があれば、大きな負の値をとる。共分散が 0 なら特にそのような関連性はないと考えられる。ちなみにこの関連性は直線的なもの(1 次関数)を指している。
共分散は、もとの値の大きさで数値が決まるので、単位が違う変数を複数比較するときなどに解釈が難しい。たとえば市町村単位で、その町ごとの人口と、ラーメン店の売上の共分散を計算しても、数字の意味がわかりにくい。
そこで関係を見る場合には相関係数を使うことが一般的である。共分散の値を、各変数(例なら国語と数学)の標準偏差の積で割ったものが相関係数となる。相関係数は −1 から 1 までの値をとる。1 であれば 2 つの変数の値は完全に同期していることになる。対象によってかなり相関係数の意味は変わってくるが、一例としてはアンケートでは以下の表のような見方もある。
相関係数の範囲 | 評価 | ||
---|---|---|---|
−1 | 〜 | −0.7 | 強い負の相関 |
−0.7 | 〜 | −0.4 | かなりの負の相関 |
−0.4 | 〜 | −0.2 | やや負の相関 |
−0.2 | 〜 | 0.2 | ほとんど相関なし |
0.2 | 〜 | 0.4 | やや正の相関 |
0.4 | 〜 | 0.7 | かなりの正の相関 |
0.7 | 〜 | 1 | 強い正の相関 |
因果関係
共分散や相関係数を因果関係の根拠として記述している資料がある。しかし、共分散自身は 1 つの対象の 2 つの測定値が対応しているということの指標に過ぎない。因果関係があるかどうかは示していない。共分散を計算する際に、時間、関連を入力していない。共分散構造分析など、複数の共分散を分析する手法では因果関係があるかどうかを推測する使い方があるが、同じ様に時間、関連を入力していないので保証はしていない。因果関係と相関関係は別次元の事象であり、時間と直接的な関係を示す根拠、擬相関などいくつかの代表的なパターンがある 。数値から意味を解釈する人間の論理は、しばしば嘘と呼ぶことがある。数理経済学者の佐和隆光は以下のように述べている[2]:
- しばしば統計は、他人をだますための方便ともなる。統計の悪用と誤用は、日常茶飯のごとくみうけられる。数字の氾濫するこの世の中において、「統計のウソ」に対する抵抗力をそなえておくことは、将来どういう仕事にたずさわる人にとっても必要不可欠なはずである。
脚注
参考文献
- 西岡, 康夫 『数学チュートリアル やさしく語る 確率統計』 オーム社、2013年。ISBN 9784274214073。
- 佐和, 隆光 『初等統計解析 改訂版』 新曜社、1985年。ISBN 9784788502246。