SU-01: 30B LLM Olympiad Reasoning Whitepaper

지도 미세 조정(SFT):
행동 교정의 커리큘럼

단순한 지식 주입을 넘어 백본 모델의 일반 지식을 보존하면서 엄격한 증명 탐색(Proof-search) 행동 양식을 주입하는 '역-혼란도(Reverse-Perplexity)' 전략을 사용합니다.

01

초기: High-PPL 데이터 우선 배치

복잡한 증명 패턴을 우선 배치하여 강력한 행동 양식 변화 유도

02

중기: 학습 안정성 극대화

데이터 중단율을 0%에 가깝게 억제하여 표면적 매너리즘 방지

03

후기: 역량 보존 및 내재화

익숙한 데이터를 통해 일반화 역량 회복 및 CoT 고착화

Data Composition (%)

자기 검증 (Self-Verification)26.4%

수학 (Mathematics)21.2%

자기 정제 (Self-Refine)19.3%

STEM & Code27.5%

45%+ Self-Improvement Category

0% Truncation Rate

계층적 강화학습(RL) 파이프라인

결과의 유효성(Coarse)과 과정의 엄밀성(Refined)을 모두 잡는 2단계 구조

STAGE 01: Coarse RL

결과 중심의 역량 확장

GSPO 알고리즘 적용 (시퀀스 레벨 최적화)
MoE 라우터 동결(Frozen)로 안정성 확보
8,967개 검증 가능 프롬프트 활용

Policy Clipping: Sequence-level surrogate
Router Status: Locked

STAGE 02: Refined RL

과정의 엄밀성 고도화

생성형 보상 모델 (DeepSeekMath-V2)
경험 재생 버퍼 (ERB) 관리 체계
논리적 비약 및 할루시네이션 최소화

Success Buffer: 0 < n+(q) < 2
Pruning Criteria: n+(q) ≥ 4

테스트 시간 스케일링
(TTS) 및 자기 검증 루프

1

초기 솔루션 도출

엄밀한 논리 전개 프롬프트를 통한 1차 생성

2

구조적 버그 리포트 작성

생성된 안을 비판적으로 검토하여 논리적 결함 식별

3

반복적 자기 정제

최대 30회 반복 또는 검증 통과 시까지 피드백 반영

Computation Budget

106K Tokens/Solution

Refinement Budget

83K Tokens/Refine

성능 지표 및 과학적 추론 역량

특정 도메인을 넘어 보편적인 과학적 추론 원리의 학습 증명

단계별 성능 추이 (AnswerBench vs ProofBench)

Backbone (30B)

69.2% (Ans)

6.2% (Proof)

After SFT

59.8% (Ans)

14.8% (Proof)

Coarse RL

77.2% (Ans)

25.2% (Proof)

SU-01 (Refined)

77.5% (Ans)

38.1% (Proof)

Answer Accuracy

Proof Rigor (Advanced)

과학적 추론 전이성

Physics

IPhO 2024

25.3

Chemistry

General Chem

69.4%

Biology

Zero-Shot Bio

25.0%

"학습 데이터에 포함되지 않은 도메인에서도 우수한 성능을 기록하며 보편적 추론 원리 학습을 증명"

"지능은 물리적 규모가 아닌,
구조적 레시피의 정밀함에서 옵니다."

SU-01 프로젝트는 30B급 소형 모델로도 충분한 데이터 전략과 강화학습 체계만 있다면 세계 최고 수준의 올림피아드 추론이 가능함을 입증했습니다. 이 통합 스케일링 레시피는 차세대 AI 추론 엔진 개발의 핵심 프레임워크가 될 것입니다.

지도 미세 조정(SFT):행동 교정의 커리큘럼