Deep Learning(5)
-
Batch Normalization
Batch Normalization Definition 인공신경망을 re-centering과 re-scaling으로 layer의 input 정규화를 통해 더 빠르고 안정화시키는 방법 Motivation Internal covariate shift Covariate shift : 이전 레이어의 파라미터 변화로 현재 레이어 입력 분포가 바뀌는 현상 Internal covariate shift : 레이어 통과시 마다 covariate shift가 발생해 입력 분포가 약간씩 변하는 현상 망이 깊어짐에 따라 작은 변화가 뒷단에 큰 영향을 미침 Covariate Shift 줄이는 방법 layer's input 을 whitening 시킴(입력 평균:0, 분산:1) whitening이 backpropagatio..
2021.10.27 -
Adam Optimizer
Adam Optimizer Optimizer Loss Function의 결과값을 최소화하는 모델 파라미터를 찾는것 최적화 알고리즘 Network가 빠르고 정확하게 학습하도록 도와줌 Background Batch Gradient Descent 목적함수 f(θ)의 θ는 전체 훈련 데이터의 θ에 관한 f의 gradient를 기반으로 업데이트 gt=∇θt−1f(θt−1) θt=θt−1−αgt α : learning rate t : t 번째 반복 주요 문제 : 목적함수의 local minima 또는 saddle point에 갇히는것 좋지 않은 수렴을 하게 만드는 learn..
2021.10.26 -
Dropout
Dropout 신경망에서 학습 과정 중에 뉴런을 생략하는 것(순전파, 역전파시 고려되지 않음, 학습 후 test시에는 사용하지 않음) 학습데이터에서 복잡한 co-adaptation을 방지해서 인공신경망에서 오버피팅을 줄이도록하는 regularization 기술 효과 Voting 효과 일정 mini-batch 구간동안 줄어든 망을 이용해 학습하면 그 망에 overfitting 되고, 다른 mini-batch 구간동안 다른 망에 학습을 하면 그 망에 어느정도 overfitting 되는데 이 과정을 랜덤하게 반복하면 voting에 의한 평균 효과를 얻어 regularization 비슷한 효과를 얻는다. Co-adaptation 피하는 효과 특정 뉴런의 bias나 weight가 큰 값을 가지면 그 영향이 커져 ..
2021.10.21 -
Sigmoid
Sigmoid 정의 실함수로써 유계이고 미분가능하며, 모든 점에서 음이 아닌 미분값을 가지고 단 하나의 변곡점을 가진다. 성질 일반적으로 단조함수이며 종 모양의 1차 미분 그래프를 가진다. x→±∞ 일 때, 한 쌍의 수평 점근선으로 수렴한다. 시그모이드 함수는 0보다 작은 값에서 볼록하고 0보다 큰 값에서 오목하다. 로지스틱 함수 f(x)=11+e−x=exex+1 def sigmoid(x): return 1 / (1+math.e**(-x))import numpy as np def sigmoid(x): return 1 / (1 + np.exp(-x))장점 not blowing up activation 0~1 사이의 범위여서 ..
2021.10.19 -
Gradient Descent
Gradient Descent 1차 근삿값 발견용 최적화 알고리즘 함수의 기울기(경사)를 구하고 경사의 절대값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때 까지 반복시키는 것 최적화할 함수 f(x)에 대하여, 먼저 시작점 x0를 정한다. 현재 가 주어졌을 때, 그 다음으로 이동할 점인 xi은 다음과 같이 계산된다. xi+1=xi−γi∇f(xi) 이때 γi는 이동할 거리를 조절하는 매개변수이다.이 알고리즘의 수렴 여부는 f의 성질과 $\gam..
2021.10.19