Uni-OPD: On-Policy Distillation
Optimization Strategy
SFT와 RL의 간극을 메우는 혁신적인 프레임워크. 학생 모델의 탐색 질을 높이고 교사의 감독 신뢰성을 복구하여 추론 능력을 극대화합니다.
기존 OPD의 병목 현상
유의미한 탐색 부족
학생 모델 생성 데이터의 다양성 결여로 인해 유의미한 그래디언트 형성이 저하됩니다.
감독 신뢰성 저하
OOD 상황에서 토큰 수준 점수와 실제 정답 여부가 어긋나는 '순서 불일치'가 발생합니다.
Uni-OPD 가치
학생(탐색 최적화)과 교사(신뢰성 복구)라는 두 가지 독립적인 엔티티를 동시에 최적화하는 이중 구조(Dual-perspective) 솔루션을 제안합니다.
학생 관점: 탐색 최적화
오프라인 난이도 인식 밸런싱
- ● 필터링 지양: '항상 정답'인 샘플을 유지하여 소규모 모델의 기본 분포 '앵커' 역할 수행.
- ● 전략: 중간 난이도(Mid-difficulty) 샘플 업샘플링을 통해 로컬 옵티마 방지 및 솔루션 공간 확장.
온라인 정답 인식 밸런싱
- ● 대조적 신호: 정답(Correct)과 오답(Incorrect) 트래직토리 비율을 명시적으로 제어하여 추론 경로 정교화.
- ● 권장 비율: 정답/오답 비율 1.2 ~ 1.5 수준 유지 시 가장 안정적인 성능 향상.
교사 관점: 마진 캘리브레이션
순서 불일치(Order Inconsistency)를 해결하기 위한 '최소 가산 보정' 메커니즘
마진 계산: 정답 트래직토리의 최소값과 오답의 최대값 차이를 산출
안전 임계값 적용: 노이즈를 고려한 임계값 δ 설정
가산 보정: m(q) < δ 일 경우, 부족분 λ(q)를 정답 리턴에 더해 순서 일관성 강제 복구
Outcome-guided Alignment
실증적 성능 및 확장성
압도적 효율성
표준 RL 대비 최적화 단계의 절반 이하만으로도 더 높은 성능 달성. 빠른 수렴 속도 증명.
지식의 통합
다중 교사 환경에서 Math/Code 성능 대폭 향상. 전문가 능력을 단일 모델로 성공적 통합.
도메인 불특정 전이
텍스트 코드 학습 신호가 멀티모달 수학 성능을 향상시키는 모달리티 무관(Modality-agnostic) 추론 구조 전이.
Uni-OPD 실천 가이드
난이도 스펙트럼 보전
단순 필터링을 멈추세요. 전체 난이도 데이터를 활용하되, 중간 난이도 샘플을 전략적으로 업샘플링하여 탐색 효율을 높여야 합니다.
시스템적 강제 정렬
마진 시프트(δ) 메커니즘을 도입하여 토큰 수준의 보상이 실제 정답 결과와 완벽히 정렬되도록 아키텍처를 구성하십시오.
다중 도메인 시너지
여러 도메인 전문가 모델의 시너지를 활용하십시오. 공유된 추론 구조를 통해 각 능력은 서로를 보완하고 강화합니다.
"Uni-OPD는 RL의 높은 연산 비용 없이도 신뢰할 수 있는 고성능 추론 모델을 구축하는 범용 레시피입니다."