Self-Distillation for Policy Optimization (SDPO)
ETH 취리히 연구진이 제안한 이 논문은 자기 증류 기법을 강화 학습 프레임워크에 통합하여 학습 효율을 극대화합니다. 모델을 교사-학생 구조로 운영하며, 교사 모드가 생성한 고품질 '사후 정책'을 학생 모드가 학습하여 스스로를 가르칩니다. 이 방식은 기존 GRPO 대비 약 6배 빠른 학습 속도를 달성하며, 성공 경험이 없는 어려운 과제에서도 탐색적 진화를 통해 학습이 가능함을 보입니다. 또한, 불필요한 추론 토큰 생성을 억제하여 추론 궤적을 최대 11배까지 단축, 운영 비용 절감에 기여합니다.
논문 확인하기