기본 개념

다변수 함수의 극대/극소

테일러 정리 이차근사식에서, 임계점 $\mathbf{x}=\mathbf{a}$에서 함수 $f$의 극대, 극소를 결정하는 것은 $\frac{1}{2} (\mathbf{x}-\mathbf{x}_0)^T \nabla^2 f(\mathbf{x}_0) (\mathbf{x}-\mathbf{x}_0)$ 부분이다. 여기서 $\mathbf{d}=\mathbf{x}-\mathbf{a}$로 두고 $H=\nabla^2 f(\mathbf{a})$로 둔 뒤 이차형식 $q(\mathbf{d})=\mathbf{d}^T H \mathbf{d}$의 극솟값/극댓값 분석을 하면,

경사하강법

미분가능한 함수 $f$의 최솟값을 찾는 과정.

과정:

  1. 초기 근사해 $x_1$, 허용오차(tolerance) $0 \leq \epsilon \ll 1$, 학습률 $\eta$를 설정하고 $k \vcentcolon = 1$이라 한다.
  2. $g_k=f'(x_k)$를 계산한다. 만약 $|g_k| \leq \epsilon$이면 알고리즘을 멈춘다.
  3. $x_{k+1}=x_k- \eta g_k$, $k \vcentcolon = k+1$로 두고 2단계로 이동한다.