Next-Gen LLM Alignment

Uni-OPD: On-Policy Distillation
Optimization Strategy

SFT와 RL의 간극을 메우는 혁신적인 프레임워크. 학생 모델의 탐색 질을 높이고 교사의 감독 신뢰성을 복구하여 추론 능력을 극대화합니다.

기존 OPD의 병목 현상

학생 모델 생성 데이터의 다양성 결여로 인해 유의미한 그래디언트 형성이 저하됩니다.

OOD 상황에서 토큰 수준 점수와 실제 정답 여부가 어긋나는 '순서 불일치'가 발생합니다.

학생(탐색 최적화)과 교사(신뢰성 복구)라는 두 가지 독립적인 엔티티를 동시에 최적화하는 이중 구조(Dual-perspective) 솔루션을 제안합니다.

Efficiency Boost Reliability Calibration

순서 불일치(Order Inconsistency)를 해결하기 위한 '최소 가산 보정' 메커니즘

// 트래직토리 수준 증류 리턴 계산

G_OPD(q, τ) = 1/|τ| Σ log [ π_T(o_t | q, o_<t) / π_θ(o_t | q, o_<t) ]

마진 계산: 정답 트래직토리의 최소값과 오답의 최대값 차이를 산출

안전 임계값 적용: 노이즈를 고려한 임계값 δ 설정

가산 보정: m(q) < δ 일 경우, 부족분 λ(q)를 정답 리턴에 더해 순서 일관성 강제 복구

⚖️ Margin Shift Logic

SHIFT ↑

Outcome-guided Alignment

⚡

표준 RL 대비 최적화 단계의 절반 이하만으로도 더 높은 성능 달성. 빠른 수렴 속도 증명.

🧬

다중 교사 환경에서 Math/Code 성능 대폭 향상. 전문가 능력을 단일 모델로 성공적 통합.

🌐

텍스트 코드 학습 신호가 멀티모달 수학 성능을 향상시키는 모달리티 무관(Modality-agnostic) 추론 구조 전이.

단순 필터링을 멈추세요. 전체 난이도 데이터를 활용하되, 중간 난이도 샘플을 전략적으로 업샘플링하여 탐색 효율을 높여야 합니다.

마진 시프트(δ) 메커니즘을 도입하여 토큰 수준의 보상이 실제 정답 결과와 완벽히 정렬되도록 아키텍처를 구성하십시오.

여러 도메인 전문가 모델의 시너지를 활용하십시오. 공유된 추론 구조를 통해 각 능력은 서로를 보완하고 강화합니다.

"Uni-OPD는 RL의 높은 연산 비용 없이도 신뢰할 수 있는 고성능 추론 모델을 구축하는 범용 레시피입니다."