본문 바로가기

컴퓨터공학/딥러닝 논문리뷰

Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity.

반응형

논문제목: Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity.

 

최근 가장 많이 이용되고 있는 optimizer는 ADAM으로, AdaGrad와 RMSProp의 개념을 합쳐 놓은 것이다. 아주 좋은 성능을 보여주고 있지만, 어떻게 하면 빠르게 수렴할 수 있는지에 대한 이해는 여전히 부족하다. Clipped gradient descent란, 특정 threshold을 가지고 크기를 제한하는 방법으로, 학습의 수렴이 빨리 되도록 돕는다. 본 논문에서는 새로운 smoothness condition을 제안하고, gradient descent에서의 clipped에 대해서 자세히 다룬다. 학습에 있어서 손실함수가 non smooth function이라면, oscillation이 발생하여 학습 속도가 현저히 낮아진다. 따라서 손실함수를 smooth 하게 만들어 주는 것이 중요한데, 기존에는 L-smooth라는 것을 썼다고 한다. 하지만 조건에 맞는 L을 찾으면 굉장히 큰 값이 나오고, 이는 convergence rate을 줄인다고 한다. 따라서 아래와 같은 local smoothness를 고려하는 smooth condition을 제안하였다.

nonconvex optimization f를 할 때, 음의 무한대보다 커야 하고, twice differnetiable해야함, 위의 식 을 만족해야 한다. 이를 이용하여 gradient descent에 적용하면 다음과 같다.

이를 이용하면 학습률을 조절하는 것과 비슷한 효과를 낼 수 있으며, 빠른 수렴 속도를 보여준다.

반응형