Adam Optimizer
Adam Optimizer Optimizer Loss Function의 결과값을 최소화하는 모델 파라미터를 찾는것 최적화 알고리즘 Network가 빠르고 정확하게 학습하도록 도와줌 Background Batch Gradient Descent 목적함수 $f(\theta)$의 $\theta$는 전체 훈련 데이터의 $\theta$에 관한 $f$의 gradient를 기반으로 업데이트 $g_t=\nabla_{\theta_{t-1}}f(\theta_{t-1})$ $\theta_t=\theta_{t-1}-\alpha g_t$ $\alpha$ : learning rate t : t 번째 반복 주요 문제 : 목적함수의 local minima 또는 saddle point에 갇히는것 좋지 않은 수렴을 하게 만드는 learn..
2021.10.26