ヘッセ行列

提供: miniwiki
移動先:案内検索
{{#invoke:sidebar|collapsible

| class = plainlist | titlestyle = padding-bottom:0.25em; | pretitle = Part of a series of articles about | title = 解析学 | listtitlestyle = text-align:center; | liststyle = border-top:1px solid #aaa;padding-top:0.15em;border-bottom:1px solid #aaa; | expanded =

| abovestyle = padding:0.15em 0.25em 0.3em;font-weight:normal; | above =

テンプレート:Startflatlist

テンプレート:Endflatlistテンプレート:Startflatlist

テンプレート:Endflatlist

| list2name = differential | list2titlestyle = display:block;margin-top:0.65em; | list2title = テンプレート:Bigger | list2 =

| list3name = integral | list3title = テンプレート:Bigger | list3 =

| list4name = series | list4title = テンプレート:Bigger | list4 =

| list5name = vector | list5title = テンプレート:Bigger | list5 =

| list6name = multivariable | list6title = テンプレート:Bigger | list6 =

| list7name = specialized | list7title = テンプレート:Bigger | list7 = テンプレート:Startflatlist

テンプレート:Endflatlist

}}

数学におけるヘッセ行列(ヘッセ-ぎょうれつ、: Hessian matrix)は、多変数スカラー値関数の二階偏導関数全体が作る正方行列である。実数値関数の極値判定に用いられる。ヘッセ行列は、ジェームス・ジョセフ・シルベスターが、ドイツの数学者ルートヴィヒ・オットー・ヘッセに由来して名づけた。

定義

実数値関数 f(x1, x2, ..., xn) に全ての二階偏微分が存在するとき、変数 xi に関する偏微分作用素を ∇i = ∂/∂xi とおくと、fヘッセ行列 H(f) は、(i, j)-成分 H(f)ij が各点 x = (x1, x2, ..., xn) において

[math]H(f)_{ij}(\mathbf{x}) = \nabla_i\nabla_jf(\mathbf{x}) = \frac{\partial^2}{\partial x_i \partial x_j }f(\mathbf{x})[/math]

で与えられる行列、つまり

[math]H(f) = \nabla^2f = \begin{bmatrix} \cfrac{\partial^2 f}{\partial x_1^2} & \cfrac{\partial^2 f}{\partial x_1\partial x_2} & \cdots & \cfrac{\partial^2 f}{\partial x_1\partial x_n} \\[16pt] \cfrac{\partial^2 f}{\partial x_2\partial x_1} & \cfrac{\partial^2 f}{\partial x_2^2} & \cdots & \cfrac{\partial^2 f}{\partial x_2\partial x_n} \\[16pt] \vdots & \vdots & \ddots & \vdots \\[16pt] \cfrac{\partial^2 f}{\partial x_n\partial x_1} & \cfrac{\partial^2 f}{\partial x_n\partial x_2} & \cdots & \cfrac{\partial^2 f}{\partial x_n^2} \end{bmatrix}[/math]

である。上記の行列の行列式ヘッシアン (Hessian) と呼ばれる[1]

ヘッセ行列の対称性

ヘッセ行列の主対角線上以外の成分を混合微分 (mixed derivatives) という。 混合微分がすべて連続のとき、微分の順序を考えなくて良い。

例えば、

[math]\frac {\partial}{\partial x} \left( \frac { \partial f }{ \partial y} \right) = \frac {\partial}{\partial y} \left( \frac { \partial f }{ \partial x} \right)[/math]

これは次のようにも書ける。

[math]f_{yx} = f_{xy} \,[/math]

つまり、 f の二階微分がすべて連続な領域 D で、 f のヘッセ行列は、対称行列である。

臨界点

f傾き(ベクトルの意味での一階導関数)∇f がある点 x で0のとき、fx において臨界点あるいは停留点を持つと言う。x におけるヘッセ行列の行列式x における判別式あるいはヘッシアンと呼ばれ、その値が0であるような xf退化臨界点または非モース臨界点という。ヘッシアンが 0 でない臨界点は非退化であると言い、また、fモース臨界点と呼ぶ。

ヘッセ行列はモース理論で重要な役割を果たす。理由は、臨界点でのヘッセ行列の核 (kernel) と固有値が、臨界点(の種類)を分類するからである。

極値点の判定条件

以下の判定法が非退化臨界点に対して適用できる。ヘッセ行列が

  • x において正定値対称行列であるとき、fx において極小である。
  • x において負定値対称行列であるとき、fx において極大である。
  • x において正負両方の固有値を持つとき、xf鞍点である(これは x が退化する場合にも正しい)。

それ以外の場合には(この判定法だけでは)不確定である。特に、ヘッセ行列が半正定値や半負定値であるときにはこの判定法では何も言えていない。ただし、モース理論の観点からはもう少し述べることができる。

この判定法が何を言っているかという点だけでいえば、一変数または二変数の場合は簡単である。一変数の場合にはヘッセ行列は唯一つの二階導関数しか持たず、その二階導関数が x で正ならば x は極小で、負ならば x は極大であり、ゼロならば何もいえない。二変数の場合には、判別式は固有値の積になるから、判別式が使えて、判別式の値が正ならば(固有値がともに正またはともに負となるから)極値を持ち、負ならば二つの固有値が異なる符号を持つから鞍点となる。判別式がゼロのところは不確定である。

凸性の判定条件

開集合 ORn 上で2階の偏導関数が存在する実数値関数 f凸性はヘッセ行列で判定できる。以下の2条件は同値である[2]

  • 関数 fO 上で凸。
  • 任意の点 xO でヘッセ行列 ∇2f(x) は半正定値である。

また、任意の点 xO でヘッセ行列 ∇2f(x) が正定値であることは関数 fO 上で狭義凸関数であるための十分条件を与える。

境界条件のついたヘッセ行列

ある種の制限つき最適化問題の判定に境界つきヘッセ行列 (bordered Hessian) が利用される。与えられた関数 f(x1, x2, ..., xn) に

[math]g(x_1, x_2, \dots, x_n) = c[/math]

のような制約関数を付け加えて得られる境界つきヘッセ行列とは

[math]H(f,g) = \begin{bmatrix} 0 & \cfrac{\partial g}{\partial x_1} & \cfrac{\partial g}{\partial x_2} & \cdots & \cfrac{\partial g}{\partial x_n} \\[16pt] \cfrac{\partial g}{\partial x_1} & \cfrac{\partial^2 f}{\partial x_1^2} & \cfrac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \cfrac{\partial^2 f}{\partial x_1\,\partial x_n} \\[16pt] \cfrac{\partial g}{\partial x_2} & \cfrac{\partial^2 f}{\partial x_2\,\partial x_1} & \cfrac{\partial^2 f}{\partial^2 x_2} & \cdots & \cfrac{\partial^2 f}{\partial x_2\,\partial x_n} \\[16pt] \vdots & \vdots & \vdots & \ddots & \vdots \\[16pt] \cfrac{\partial g}{\partial x_n} & \cfrac{\partial^2 f}{\partial x_n\,\partial x_1} & \cfrac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \cfrac{\partial^2 f}{\partial x_n^2} \end{bmatrix}[/math]

のことである。もし、制約関数が m 本あるのならば、左上のかどに m × m のゼロ行列ブロックをおいて、上から m 本の境界行、左から m 本の境界列を並べる。

z が第一成分がゼロでなく、それ以外の成分がゼロとなるベクトルならば z'Hz = 0 となるから、境界つきヘッシアンは(正または負の)定値対称行列になれず、上記判定法の正定値や負定値という規約はここでは通用しない。

ここでの極値判定法は、境界つきヘッセ行列の nm 小行列のある集合の行列式の符号制限からなる[3]。直観的には、m 本の制約条件によって、最適化問題を自由変数nm 個の場合に簡約化したと考えるのである。例えば、x1 + x2 + x3 = 1 なる制限条件下における f(x1, x2, x3) の最大化問題は、制約条件無しの f(x1, x2, 1 − x1x2) の最大化問題に帰着させることができる。

ベクトル値関数の場合

f が(スカラー値でなく)ベクトル値関数であるとき、つまりスカラー値関数のベクトルとして

[math]f = (f_1, f_2, \dots, f_n)[/math]

のように表されるとき、二階導関数の配列を行列の形に書くことはできず、階数 3 のテンソルとして捉えることができる。

リーマン多様体への一般化

[math](M,g)[/math]リーマン多様体とし、[math]\nabla[/math] をそのレビ・チビタ接続とする。[math]f\colon M \to \mathbb{R}[/math]滑らかな関数とする。すると、ヘッセテンソル

[math]\displaystyle \mbox{Hess}(f) \in \Gamma(T^*M \otimes T^*M)[/math]

[math]\mbox{Hess}(f):=\nabla \nabla f = \nabla df[/math]

により定義することができる。ここに、関数の一階共変微分は通常の微分と同じであることを活用する。局所座標 [math]\{x^i\}[/math] をとると、ヘシアンは次の式で局所的に表すことができる。

[math] \mbox{Hess}(f)=\nabla_i\, \partial_j f \ dx^i \!\otimes\! dx^j = \left( \frac{\partial^2 f}{\partial x^i \partial x^j}-\Gamma_{ij}^k \frac{\partial f}{\partial x^k} \right) dx^i \otimes dx^j . [/math]

ここに [math]\Gamma^k_{ij}[/math] は接続のクリストッフェル記号である。ヘシアンの他の同値な形が以下で与えられる。

[math]\mbox{Hess}(f)(X,Y)= \langle \nabla_X \mbox{grad}f,Y \rangle, [/math]
[math]\mbox{Hess}(f)(X,Y)=X(Yf)-df(\nabla_XY) .[/math]

  1. (2007) Calculus Concepts and Methods. Cambridge University Press. ISBN 9780521775410. OCLC 717598615. 
  2. (1998) Variational analysis, Grundlehren der Mathematischen Wissenschaften. Springer-Verlag. ISBN 3-540-62772-3. “テンプレート:Google books quote 
  3. Magnus, J.R. and H. Neudecker: "Matrix Differential Calculus with Applications in Statistics and Econometrics", page 136. Wiley, 1988

関連項目

テンプレート:最適化アルゴリズム