본문 바로가기

반응형

컴퓨터공학

Accelerating Stochastic Gradient Descent using Predictive Variance Reduction 리뷰 논문: Accelerating Stochastic Gradient Descent using Predictive Variance Reduction Abstract Stochastic gradient descent는 큰 데이터셋의 optimization에는 유용하지만 내재된 분산으로 인해 수렴이 느리다. 이에, 본 논문에서는 stochastic variance reduced gradient (SVRG)라는 explicit variance reduction 방법을 제안한다. Introduction Loss function의 optimization을 위해서 기존에는 gradient descent 방식을 사용해 왔다. 식은 아래와 같다. 하지만 gradient descent 방식은 각 step마다 n차 미분을 필.. 더보기
Bayesian learning via stochastic gradient Langevin dynamics 리뷰 논문: Bayesian learning via stochastic gradient Langevin dynamics Abstract Small mini-batches를 이용해서 큰 데이터셋을 학습하는 새로운 프레임 워크를 제시한다. 기존의 stochastiv gradient optimization에 노이즈를 추가하고 stepsize를 조절함으로써 실제 posterior distribution의 샘플에 수렴하는 것을 확인하였다. 최적화와 베이지안 posterior sampling 사이의 전환은 오버피팅을 막아준다. 또한 몬테카를로 추정을 이용하여 “sampling threshold”를 이용한 방식을 제안한다. Introduction 머신러닝에 있어서 큰 데이터셋들을 학습하는 일은 많은 task들에서 유용한 .. 더보기
Feature-weighted linear stacking. 논문 제목: Sill, Joseph, et al. “Feature-weighted linear stacking.” arXiv preprint arXiv:0911.0460 (2009) Stacking은 앙상블 기법 중 하나로 second-level learning algorithm에 여러 weak model들의 prediction을 input으로 넣는 기법을 말한다. 이러한 meta-feature들을 이용함으로써 앙상블 기법의 성능을 올렸지만, 기존의 stacking 기법들은 nonlinear 방식을 사용하여 많은 tuning과 학습시간을 필요로 했다. 본 논문에서는 linear한 stacking 방식인 Feature-Weighted Linear Stacking (FWLS)를 제안한다. 기본적으로 FWLS.. 더보기
DeepSIM: Image Shape Manipulation from a Single Augmented Training Sample (ICCV 2021 Oral) 리뷰 논문제목: DeepSIM: Image Shape Manipulation from a Single Augmented Training Sample (ICCV 2021 Oral) Abstract DeepSIM은 generative model for conditional image manipulation based on a single image이다. 본 논문에서는 TPS를 이용한 augmentation이 single image training에 효과적이라고 함. 제안하는 네트워크는 primitive representation과 realistic image를 mapping한다. 기존 sota를 뛰어넘었다고 한다. Introduction Image manipulation은 특정 이미지에 변형을 통해서 그 이미지를.. 더보기
Domain-adversarial training of neural networks 요약 논문제목: Ganin, Yaroslav, et al. “Domain-adversarial training of neural networks.” The journal of machine learning research 17.1 (2016): 2096-2030. The main purpose of this paper is to handle the task which has target domain distribution differ from training domain. The easiest way to solve the domain difference is to augment the data. However, we cannot predict all the changes in the target domain.. 더보기
Xgboost: A scalable tree boosting system 논문: Chen, Tianqi, and Carlos Guestrin. “Xgboost: A scalable tree boosting system.” In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, pp. 785-794. 2016. 부스팅트리는 매우 효과적이라 알려져있는 머신러닝 방법으로, 대회에서 성능을 올리기 위해 거의 필수적으로 사용되고 있다. 본 논문에서는 XGBoost 라는 Scalable End to End 부스팅 방법론을 설명한다. Sparse한 데이터에 대해 Sparsity-Aware Algorithm과 Weighted Quantile Sketch를 사용하였.. 더보기
Lightgbm: A highly efficient gradient boosting decision tree 논문: Ke, Guolin, et al. “Lightgbm: A highly efficient gradient boosting decision tree.” Advances in neural information processing systems 30 (2017): 3146-3154. Gradient Boosting Decision Tree는 널리 사용되는 알고리즘이다. 하지만 데이터의 크기가 큰 경우 computational cost가 높아 비효율적이다. 또한 기존의 방식은 trade off가 심해 정확도와 효율을 둘 다 이끌어내지는 못했다. 이를 해결하기 위해 본 논문에서는 Gradient-based One-Side Sampling (GOSS) 과 Exclusive Feature Bundling (EF.. 더보기
beta-vae: Learning basic visual concepts with a constrained variational framework 요약 논문: Higgins, Irina, et al. “beta-vae: Learning basic visual concepts with a constrained variational framework.” (2016). 모델이 학습하는 테스크나 주어진 데이터셋에 적절한 representation을 찾게 되면 모델의 학습의 정확도가 올라간다. 이러한 점에서 특성에 대한 disentangled representation을 잘 찾는 것은 매우 중요하다. 본 논문에서는 disentangled representation 학습을 위해 beta-variational auto encoder (beta-vae)를 제안한다. 제안된 beta VAE은 다음과 같다. 결국 latent factor인 q(z|x)가 condition.. 더보기

반응형