Deep Learning(5)
-
Batch Normalization
Batch Normalization Definition 인공신경망을 re-centering과 re-scaling으로 layer의 input 정규화를 통해 더 빠르고 안정화시키는 방법 Motivation Internal covariate shift Covariate shift : 이전 레이어의 파라미터 변화로 현재 레이어 입력 분포가 바뀌는 현상 Internal covariate shift : 레이어 통과시 마다 covariate shift가 발생해 입력 분포가 약간씩 변하는 현상 망이 깊어짐에 따라 작은 변화가 뒷단에 큰 영향을 미침 Covariate Shift 줄이는 방법 layer's input 을 whitening 시킴(입력 평균:0, 분산:1) whitening이 backpropagatio..
2021.10.27 -
Adam Optimizer
Adam Optimizer Optimizer Loss Function의 결과값을 최소화하는 모델 파라미터를 찾는것 최적화 알고리즘 Network가 빠르고 정확하게 학습하도록 도와줌 Background Batch Gradient Descent 목적함수 $f(\theta)$의 $\theta$는 전체 훈련 데이터의 $\theta$에 관한 $f$의 gradient를 기반으로 업데이트 $g_t=\nabla_{\theta_{t-1}}f(\theta_{t-1})$ $\theta_t=\theta_{t-1}-\alpha g_t$ $\alpha$ : learning rate t : t 번째 반복 주요 문제 : 목적함수의 local minima 또는 saddle point에 갇히는것 좋지 않은 수렴을 하게 만드는 learn..
2021.10.26 -
Dropout
Dropout 신경망에서 학습 과정 중에 뉴런을 생략하는 것(순전파, 역전파시 고려되지 않음, 학습 후 test시에는 사용하지 않음) 학습데이터에서 복잡한 co-adaptation을 방지해서 인공신경망에서 오버피팅을 줄이도록하는 regularization 기술 효과 Voting 효과 일정 mini-batch 구간동안 줄어든 망을 이용해 학습하면 그 망에 overfitting 되고, 다른 mini-batch 구간동안 다른 망에 학습을 하면 그 망에 어느정도 overfitting 되는데 이 과정을 랜덤하게 반복하면 voting에 의한 평균 효과를 얻어 regularization 비슷한 효과를 얻는다. Co-adaptation 피하는 효과 특정 뉴런의 bias나 weight가 큰 값을 가지면 그 영향이 커져 ..
2021.10.21 -
Sigmoid
Sigmoid 정의 실함수로써 유계이고 미분가능하며, 모든 점에서 음이 아닌 미분값을 가지고 단 하나의 변곡점을 가진다. 성질 일반적으로 단조함수이며 종 모양의 1차 미분 그래프를 가진다. $x \to\pm \infty$ 일 때, 한 쌍의 수평 점근선으로 수렴한다. 시그모이드 함수는 0보다 작은 값에서 볼록하고 0보다 큰 값에서 오목하다. 로지스틱 함수 $f(x)=\frac {1} {1 + e^{-x}} = \frac {e^x} {e^x+1}$ def sigmoid(x): return 1 / (1+math.e**(-x))import numpy as np def sigmoid(x): return 1 / (1 + np.exp(-x))장점 not blowing up activation 0~1 사이의 범위여서 ..
2021.10.19 -
Gradient Descent
Gradient Descent 1차 근삿값 발견용 최적화 알고리즘 함수의 기울기(경사)를 구하고 경사의 절대값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때 까지 반복시키는 것 최적화할 함수 ${\displaystyle f(\mathbf {x} )}$에 대하여, 먼저 시작점 $\mathbf {x} _{0}$를 정한다. 현재 가 주어졌을 때, 그 다음으로 이동할 점인 ${\mathbf {x}}{i}$은 다음과 같이 계산된다. ${\displaystyle \mathbf {x} _{i+1}=\mathbf {x} _{i}-\gamma _{i}\nabla f(\mathbf {x} _{i})}$ 이때 $ \gamma _{i}$는 이동할 거리를 조절하는 매개변수이다.이 알고리즘의 수렴 여부는 $f$의 성질과 $\gam..
2021.10.19