Integrated Methodology Whitepaper

30B급 모델의 올림피아드 수준
추론 최적화 통합 방법론

P1-30B-A3B MoE 모델을 통해 소형 모델의 고도 추론 가능성을 실증하고, 단순하고 통합된 레시피( Simple and Unified Recipe)를 제시합니다.

338K
SFT Trajectories

고품질 증명 궤적 및 자기 정제 데이터를 포함한 대규모 학습 세트 구축

GSPO
Hierarchical RL

시퀀스 수준 정책 최적화를 통한 MoE 라우터 안정화 및 논리 완결성 강화

35pts
IMO 2025 Score

TTS 적용 시 금메달 기준선 도달 및 엘리트 응시자 수준의 성과 달성

지도 미세 조정(SFT):
행동 교정의 커리큘럼

단순한 지식 주입을 넘어 백본 모델의 일반 지식을 보존하면서 엄격한 증명 탐색(Proof-search) 행동 양식을 주입하는 '역-혼란도(Reverse-Perplexity)' 전략을 사용합니다.

01

초기: High-PPL 데이터 우선 배치

복잡한 증명 패턴을 우선 배치하여 강력한 행동 양식 변화 유도

02

중기: 학습 안정성 극대화

데이터 중단율을 0%에 가깝게 억제하여 표면적 매너리즘 방지

03

후기: 역량 보존 및 내재화

익숙한 데이터를 통해 일반화 역량 회복 및 CoT 고착화

Data Composition (%)
자기 검증 (Self-Verification)26.4%
수학 (Mathematics)21.2%
자기 정제 (Self-Refine)19.3%
STEM & Code27.5%
45%+ Self-Improvement Category
0% Truncation Rate

계층적 강화학습(RL) 파이프라인

결과의 유효성(Coarse)과 과정의 엄밀성(Refined)을 모두 잡는 2단계 구조

STAGE 01: Coarse RL

결과 중심의 역량 확장

  • GSPO 알고리즘 적용 (시퀀스 레벨 최적화)
  • MoE 라우터 동결(Frozen)로 안정성 확보
  • 8,967개 검증 가능 프롬프트 활용
Policy Clipping: Sequence-level surrogate
Router Status: Locked
STAGE 02: Refined RL

과정의 엄밀성 고도화

  • 생성형 보상 모델 (DeepSeekMath-V2)
  • 경험 재생 버퍼 (ERB) 관리 체계
  • 논리적 비약 및 할루시네이션 최소화
Success Buffer: 0 < n+(q) < 2
Pruning Criteria: n+(q) ≥ 4

테스트 시간 스케일링
(TTS) 및 자기 검증 루프

1

초기 솔루션 도출

엄밀한 논리 전개 프롬프트를 통한 1차 생성

2

구조적 버그 리포트 작성

생성된 안을 비판적으로 검토하여 논리적 결함 식별

3

반복적 자기 정제

최대 30회 반복 또는 검증 통과 시까지 피드백 반영

Computation Budget
106K Tokens/Solution
Refinement Budget
83K Tokens/Refine

성능 지표 및 과학적 추론 역량

특정 도메인을 넘어 보편적인 과학적 추론 원리의 학습 증명

단계별 성능 추이 (AnswerBench vs ProofBench)

Backbone (30B)
69.2% (Ans)
6.2% (Proof)
After SFT
59.8% (Ans)
14.8% (Proof)
Coarse RL
77.2% (Ans)
25.2% (Proof)
SU-01 (Refined)
77.5% (Ans)
38.1% (Proof)
Answer Accuracy
Proof Rigor (Advanced)

과학적 추론 전이성

Physics
IPhO 2024
25.3
Chemistry
General Chem
69.4%
Biology
Zero-Shot Bio
25.0%

"학습 데이터에 포함되지 않은 도메인에서도 우수한 성능을 기록하며 보편적 추론 원리 학습을 증명"

"지능은 물리적 규모가 아닌,
구조적 레시피의 정밀함에서 옵니다."

SU-01 프로젝트는 30B급 소형 모델로도 충분한 데이터 전략과 강화학습 체계만 있다면 세계 최고 수준의 올림피아드 추론이 가능함을 입증했습니다. 이 통합 스케일링 레시피는 차세대 AI 추론 엔진 개발의 핵심 프레임워크가 될 것입니다.