マハラノビス距離

提供: miniwiki
移動先:案内検索

マハラノビス距離(-きょり、Mahalanobis' Distance)とは、統計学で用いられる一種の距離である。「普通の距離を一般化したもの」という意味でマハラノビス汎距離(-はんきょり)ともいう。プラサンタ・チャンドラ・マハラノビスにより1936年導入された[1]

概要

特徴

多変数間の相関に基づくものであり、多変量解析に用いられる。新たな標本につき、類似性によって既知の標本との関係を明らかにするのに有用である。データの相関を考慮し、また尺度水準によらないという点で、ユークリッド空間で定義される普通のユークリッド距離とは異なる。

定義

形式的には、平均[math]\mu = ( \mu_1, \mu_2, \mu_3, \dots , \mu_p )^T[/math] で、共分散行列(各変数間の共分散を配列した行列)が [math]\Sigma[/math] であるような多変数ベクトル [math]x = ( x_1, x_2, x_3, \dots, x_p )^T[/math] で表される一群の値に対するマハラノビス距離は、次のように定義される:

[math]D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x-\mu)}\, [/math]

マハラノビス距離はまた、共分散行列が [math]\Sigma[/math] で同じ確率分布に従う2つの確率変数ベクトル、[math] \vec{x}[/math][math] \vec{y}[/math] の間の非類似性の指標としても定義できる:

[math] d(\vec{x},\vec{y})=\sqrt{(\vec{x}-\vec{y})^T\Sigma^{-1} (\vec{x}-\vec{y})}\,[/math]

共分散行列が対角行列ならば(異なる変数の間に相関がないということ)、マハラノビス距離は「正規化ユークリッド距離」と呼ばれる:

[math] d(\vec{x},\vec{y})=\sqrt{\sum_{i=1}^p {(x_i - y_i)^2 \over \sigma_i^2}}[/math]

ここで [math]\sigma_i[/math] は、 [math] x_i[/math] の集合における標準偏差である。さらに共分散行列が単位行列ならば、マハラノビス距離はユークリッド距離に一致する。

直感的解釈

データをN-次元ユークリッド空間の点で表し、これがある集合(与えられた複数の標本点がこれに属すことがすでにわかっている)に属す確率を求めることを考えよう。

まずは標本点の平均あるいは重心を求める。直感的には、目的としている点がその重心に近いほど、その集合に属す見込みが高い。しかし集合の大きさも知る必要がある。単純な方法としては、重心から各標本点への距離の標準偏差を求める方法がある。標本点と重心との距離が1標準偏差よりも小さいならば、標本点がその集合に属す可能性が高いといえる。距離が遠く離れるほど、点がその集合に分類されない可能性が高くなる。

この直感的な考え方は、点と集合との間の正規化距離を [math] {x - \mu} \over \sigma [/math] と定義することで定量化することができる。これを正規分布に当てはめれば、点が集合に属す確率が求められる。この方法の欠点は、標本が重心のまわりに球状に分布していると仮定していることである。分布が球状でないとしたら、確率は重心からの距離だけでなく方向にも依存するだろう。

例えば分布が楕円状だった場合、短軸方向の距離は小さくなければならないが、長軸方向の距離はより大きい値を取りうるだろう。分布を最もよく表現する楕円は、共分散行列によって見積もることが出来る。そして重心から標本点までの距離を、その方向における楕円の幅で割ったものがマハラノビスの距離である。

てこ比との関係

マハラノビス距離はてこ比(leverage)h という統計量と密接な関係がある。多変数データ集合の重心から目的とする点までのマハラノビス距離は、その点のてこ比に (N − 1) をかけたものとなる(ここでN はデータ集合の点の数)。

応用

統計分類への応用

マハラノビス距離はクラスタリングなどの統計分類に幅広く使われる。ある点をNクラスの1つに分類するのにマハラノビス距離を利用するには、まず各クラスの共分散行列を(普通はそれに属すことがすでにわかっている標本に基づいて)求める。次に、試験標本が与えられたら、各クラスへのマハラノビス距離を計算する。そしてマハラノビス距離が最小となるようなクラスに属すとして分類を決定する。これは上記の確率的解釈によれば、確率の最高となるクラスを選ぶことに等しい。またマハラノビス距離とてこ比は、線形回帰モデルを作る際、外れ値を決定するのによく使われる。他の標本集団からのマハラノビス距離が大きな点は、てこ比が高いという。これは、回帰曲線の勾配などの係数に対する影響が大きいということである。

マハラノビス・タグチ・システム

品質工学の分野において、マハラノビス距離を田口玄一が応用した手法として、MTS(マハラノビス・タグチ・システム)、MT法がある。当初はマハラノビス距離をSN比で評価しようという手法を指したが、発展してマハラノビス距離を使用しない手法についてもこの名が使われる場合がある。なお、命名はマハラノビスや田口ではなく、田口玄一自身は直交化を使っているため、マハラノビス・タグチ・シュミット法と呼ばれることを希望している[2]

脚注

  1. Mahalanobis(1936)
  2. 田口(1999)p.190-200

参考文献

関連項目

外部リンク