Stop Thinking, Just Do!

Sungsoo Kim's Blog

The Reparameterization Trick

tagsTags

26 August 2024


Article Source


The Reparameterization Trick

Abstract

This video covers what the Reparameterization trick is and when we use it. It also explains the trick from a mathematical/statistical aspect.

Reparameterization Trick는 Variational Autoencoder(VAE)와 같은 딥러닝 모델에서 사용되는 중요한 기법으로, 확률 분포에서 샘플링을 할 때 미분 가능하게 만들어 학습을 가능하게 하는 방법입니다. 이 트릭은 특히 변분 추론(Variational Inference)을 사용할 때, 경사 하강법을 이용한 최적화를 가능하게 하기 위해 도입되었습니다.

문제의 배경

VAE와 같은 모델은 데이터의 잠재 변수(latent variable) \(z\)를 샘플링하는 과정에서 확률 분포 $$ p(z x) \(를 사용합니다. 예를 들어, 잠재 변수\) z \(는 보통 정규 분포\) \mathcal{N}(\mu, \sigma^2) $$에서 샘플링됩니다. 그러나 이 샘플링 과정은 비결정론적(non-deterministic)이며, 이로 인해 경사 하강법을 사용한 학습이 어려워집니다. 왜냐하면 샘플링 과정이 확률적이기 때문에 미분 가능하지 않기 때문입니다.

Reparameterization Trick의 핵심 아이디어

Reparameterization Trick의 핵심 아이디어는 확률 변수 \(z\)를 분리 가능한 두 부분, 즉 결정론적인 부분과 비결정론적인 부분으로 나누는 것입니다. 이 기법은 확률적 샘플링을 결정론적 함수로 표현할 수 있도록 도와줍니다. 이를 통해 샘플링 과정에서 미분이 가능하게 되어 경사 하강법을 적용할 수 있습니다.

이를 수식으로 설명하면 다음과 같습니다.

  1. 샘플링 과정: 먼저, 우리가 샘플링하려는 잠재 변수 \(z\)는 보통 평균 \(\mu\)와 표준 편차 \(\sigma\)를 가지는 정규 분포 \(\mathcal{N}(\mu, \sigma^2)\)에서 샘플링된다고 가정합니다. 즉, \(z \sim \mathcal{N}(\mu, \sigma^2)\)

  2. Reparameterization: 확률적 샘플링을 결정론적 함수로 재표현하기 위해서 \(z\)를 아래와 같이 표현합니다: \(z = \mu + \sigma \cdot \epsilon\) 여기서 \(\epsilon\)은 표준 정규 분포에서 샘플링된 \(\epsilon \sim \mathcal{N}(0, 1)\)인 확률 변수입니다.

  3. 설명: 이 식에서 \(\mu\)와 \(\sigma\)는 신경망에 의해 학습되는 파라미터이며, 샘플링된 \(\epsilon\)은 비결정론적인 부분을 담당합니다. 이렇게 함으로써 샘플링 과정이 결정론적인 형태로 변환됩니다. 이제 미분 가능한 부분인 \(\mu\)와 \(\sigma\)를 학습할 수 있게 됩니다.

수식 예시

다시 말해, 원래는 다음과 같이 분포에서 직접 샘플링을 하게 됩니다:

\[z \sim \mathcal{N}(\mu, \sigma^2)\]

그러나 Reparameterization Trick을 적용하면, 다음과 같이 샘플링 과정이 변환됩니다:

\[z = \mu + \sigma \cdot \epsilon, \quad \epsilon \sim \mathcal{N}(0, 1)\]

이제 \(\mu\)와 \(\sigma\)는 경사 하강법을 통해 학습할 수 있으며, 샘플링은 여전히 확률적이지만 그 과정은 미분 가능하게 됩니다.

Reparameterization Trick의 중요성

Reparameterization Trick의 도입은 다음과 같은 이유로 중요합니다:

  • 학습 가능성: 샘플링 과정이 미분 가능하게 되기 때문에, 변분 추론 모델에서 경사 하강법을 사용할 수 있습니다.
  • 효율성: 샘플링 과정을 재구성함으로써 효율적인 학습이 가능해지며, 이는 특히 Variational Autoencoder와 같은 모델에서 매우 중요합니다.
  • 일반화 가능성: 이 기법은 다양한 분포와 모델에서 사용할 수 있으며, 변분 추론을 포함한 여러 확률적 모델링 기법에서 활용 가능합니다.

Reparameterization Trick은 딥러닝에서 확률 모델을 최적화하는 데 있어 중요한 기법으로, VAE와 같은 모델의 성공에 큰 역할을 하고 있습니다.


comments powered by Disqus