Machine Learning/Theory 3

RNN, LSTM 에서 tanh 를 사용하는 이유

https://stats.stackexchange.com/questions/444923/activation-function-between-lstm-layers Activation function between LSTM layers I'm aware the LSTM cell uses both sigmoid and tanh activation functions internally, however when creating a stacked LSTM architecture does it make sense to pass their outputs through an activation stats.stackexchange.com RNN을 공부하면서 Activation Function으로 sigmoid보다 tanh를..

[개념 정리] Batch Normalization in Deep Learning - part 2.

논문에서 저자가 말한 것 처럼 Batch Normalization (BN)는 네트워크 레이어의 Internal Covariate Shift (ICS)문제를 해결하기 위해 나온 기법이다. BN을 이용하면 확실하게 학습 속도가 빨라지고 안정적으로 학습되는 것을 실험적으로 증명하였다. 하지만 실제로 BN은 ICS 문제를 해결한 것이 아니고 Optimization Landscape를 smooth 하게 만들기 때문에 좋은 성능을 낸다는 것이 2018년 NIPS에 논문으로 발표되었다. How Does Batch Normalization Help Optimization? Batch Normalization (BatchNorm) is a widely adopted technique that enables faster ..

[개념 정리] Batch Normalization in Deep Learning - part 1.

딥러닝을 공부하다 보면 자주 접하는 이론적인 내용이자 실제 구현에서도 라이브러리를 이용하여 쉽게 Layer로 추가하여 사용하는 Batch Normalization에 대해 알아보자. 개요 ICML 2015에 한 논문이 등장했다. "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift" - Sergey loffe and Christian Szegedy[1] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift Training Deep Neural Networks is complicate..