P1-30B-A3B MoE 모델을 통해 소형 모델의 고도 추론 가능성을 실증하고,
단순하고 통합된 레시피( Simple and Unified Recipe)를 제시합니다.
고품질 증명 궤적 및 자기 정제 데이터를 포함한 대규모 학습 세트 구축
시퀀스 수준 정책 최적화를 통한 MoE 라우터 안정화 및 논리 완결성 강화
TTS 적용 시 금메달 기준선 도달 및 엘리트 응시자 수준의 성과 달성
단순한 지식 주입을 넘어 백본 모델의 일반 지식을 보존하면서 엄격한 증명 탐색(Proof-search) 행동 양식을 주입하는 '역-혼란도(Reverse-Perplexity)' 전략을 사용합니다.
복잡한 증명 패턴을 우선 배치하여 강력한 행동 양식 변화 유도
데이터 중단율을 0%에 가깝게 억제하여 표면적 매너리즘 방지
익숙한 데이터를 통해 일반화 역량 회복 및 CoT 고착화
결과의 유효성(Coarse)과 과정의 엄밀성(Refined)을 모두 잡는 2단계 구조
엄밀한 논리 전개 프롬프트를 통한 1차 생성
생성된 안을 비판적으로 검토하여 논리적 결함 식별
최대 30회 반복 또는 검증 통과 시까지 피드백 반영
특정 도메인을 넘어 보편적인 과학적 추론 원리의 학습 증명
"학습 데이터에 포함되지 않은 도메인에서도 우수한 성능을 기록하며 보편적 추론 원리 학습을 증명"
SU-01 프로젝트는 30B급 소형 모델로도 충분한 데이터 전략과 강화학습 체계만 있다면 세계 최고 수준의 올림피아드 추론이 가능함을 입증했습니다. 이 통합 스케일링 레시피는 차세대 AI 추론 엔진 개발의 핵심 프레임워크가 될 것입니다.