1. FSQ가 VQ-VAE보다 안정적인 이유
기존의 VQ-VAE는 학습 가능한 코드북 $\{e_1, \ldots, e_K\}$를 사용하여 인코더 출력을 가장 가까운 벡터로 치환합니다. 하지만 이는 특정 코드만 활성화되는 코드북 붕괴 문제를 초래하며, 이를 방지하기 위해 EMA나 복잡한 재초기화 기법이 필요합니다.
반면 FSQ는 고정된 격자를 사용합니다. 예를 들어 levels=(8, 5, 5, 5)는 1,000개의 고정된 지점을 의미하며, 인코더는 이 박스 안의 공간을 자연스럽게 활용하도록 학습됩니다.
FSQ의 5가지 장점
- • 코드북 붕괴 원천 차단 (Fixed Grid)
- • 보조 손실 함수 제거 (Hyperparameter 간소화)
- • 파라미터 수 감소 (Memory efficiency)
- • 휴리스틱 기법 불필요 (No EMA tricks)
- • 초기화 민감도 제로 (High reproducibility)