Optimizerに関する備忘録(自分用)

SGD

$w^{t+1} ← w^{t} - \eta \frac{\partial(w^{t})}{\partial w^{t}}$
ランダムサンプリングから勾配計算を行う。ランダム性を持つことから計算ごとに勾配が変化して解が揺さぶられることにより局所解に落ち着くことを防ぐ。

momentum SGD

$w^{t+1} ← w^{t} - \eta \frac{\partial(w^{t})}{\partial w^{t}} + \alpha \Delta w^{t}$
SGDの持つ特徴に加えて慣性項を入れることで大局的な勾配の平均方向に勾配更新して行くようなイメージ。複雑なLossのパラメータ空間を持つ場合に使えそう。

AdaGrad

$h_0 = \epsilon$
$h_t = h_{t-1} + \Delta E {w^{t}}^2$
$\eta_t = \frac{\eta_t}{\sqrt{h_n}}$
$w^{t+1} = w^{t} - \eta_t \nabla E (w^{t})$
tの時の勾配の大きさによってt+1の学習係数を自動調節する。学習回数を大きくするに連れて学習係数が徐々に小さくなっていくとともに勾配が小さくなっていく(パラメータが収束しだす)に連れて学習係数も0に近づいていくことがわかる。

RMSprop

$h_t =\alpha h_{t-1} +(1 - \alpha) \Delta E {w^{t}}^2$
$\eta_t = \frac{\eta_0}{\sqrt{h_n} + \epsilon}$
$w^{t+1} = w^{t} - \eta_t \nabla E (w^{t})$
$\alpha$ を導入して過去の勾配の影響を抑えてと現在の勾配の影響をより反映させやすくさせた。 $\epsilon$ を分母に加えたのは初期勾配が0だった時に分母が0になるのを防ぐため。