본문 바로가기

컴퓨터공학/딥러닝 논문리뷰

Auto-encoding variational bayes 요약

반응형

논문: https://arxiv.org/abs/1312.6114

 

Auto-Encoding Variational Bayes

How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning

arxiv.org

Variation Inference 방식은 실제 데이터의 posterior가 계산이 불가능한 분포를 가지고 있을 때, 이를 단순한 p(x)로 근사시키는 방식이다. 본 논문은 기존의 auto-encoder에서 input 데이터를 reconstruction 할 때 단지 input을 외우는 현상이 생겨 적절한 manifold를 학습하지 못하는 문제를 해결한다. 본 논문에서는 p(x)maximum likelihoodKL divergencelower bound term으로 분해한다. KL divergence는 각 분포 p, q가 같을 때 0이 되고 나머지 상황에서는 모두 양수의 값을 가지기 때문에 lower bound를 구하기에 적합하다. 지금부터는 기존의 maximum likelihood를 구하는 방식에서 lower bound를 최대화하는 방식으로 초점을 맞추어 생각한다. 이후 lower bound를 다시 KL termexpectation term으로 나눌 수 있다. 여기서의 KL term은 간단한 분포들로 이루어져 있어 수학적으로 계산이 가능하고, expectation term은 몬테카를로 법칙을 이용하여 계산할 수 있다. Lower bound를 나타낸 식은 다음과 같다.

여기서 expectation termx가 들어왔을 때 z를 샘플링하고 그 z에 대해 x를 다시 샘플링한 것을 계산하는 것이므로, 이는 reconstruction term이라고 볼 수 있다. 또한 앞에 있는 KL term은 우리가 가정한 확률분포 q와 기존의 prior가 같아지도록 regularization의 역할을 하고 있다고 생각하면 된다. 이에 추가적으로 reparametrization trick도 제시하였는데, 이는 역전파를 수행할 때 랜덤 샘플링은 미분이 불가능하기 때문에 이를 정규분포를 따르는 앱실론을 사용하여 바꾸어준다. 이렇게 하면 샘플링과 가중치가 독립적인 변수가 되어서 역전파 계산이 가능하다.

반응형