Gentle Introduction to Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Abstract

인간의 감독 없이도 인공지능이 스스로 추론 능력을 향상시키는 과정은 Absolute Zero(AZ) 패러다임과 그 구현체인 Absolute Zero Reasoner(AZR)를 통해 이루어집니다. 이 과정은 외부 데이터나 인간의 감독에 의존하지 않고, 모델 스스로가 학습 작업을 제안하고 해결함으로써 추론 능력을 자율적으로 진화시키는 방식으로 진행됩니다.

다음은 이 과정의 세부 단계입니다:

Absolute Zero 패러다임의 도입
- 기존의 강화 학습(RLVR) 방식은 추론 과정의 라벨링 감독은 피했지만, 여전히 인간이 큐레이션한 질문-답변 쌍에 의존했습니다. Absolute Zero는 이러한 한계를 극복하기 위해 학습자가 외부 프롬프트 데이터나 답변을 전혀 제공받지 않는 새로운 “Absolute Zero” 설정을 제안합니다.
- 이 패러다임에서 단일 모델은 외부 데이터 없이 자체 학습 커리큘럼과 추론 능력을 진화시킵니다.
두 가지 역할: 제안자(Proposer)와 해결자(Solver)
- AZR은 단일 대규모 언어 모델(LLM)이 훈련 중에 제안자($\pi_{\text{propose}}\theta$)와 해결자($\pi_{\text{solve}}\theta$)의 두 가지 역할을 모두 수행합니다.
- 제안자 역할: 모델은 학습 가능성을 극대화하는 새로운 작업을 제안합니다.
- 해결자 역할: 제안된 작업을 효과적으로 해결하여 자신의 추론 능력을 향상시킵니다.
- 이 두 역할은 함께 학습되며, 이 과정은 무한히 반복될 수 있습니다.
검증 가능한 환경: 코드 실행기
- AZR은 코드 실행기(code executor)를 개방형이면서도 실제 환경에 기반한 환경으로 활용합니다.
- 이 환경은 제안된 코드 추론 작업의 유효성을 검사하고, 모델이 생성한 답변을 검증하는 역할을 합니다. 이는 모델의 개방형 학습을 안내하는 검증 가능한 보상의 통합 소스 역할을 합니다.
세 가지 추론 모드 학습
- AZR은 프로그램(p), 입력(i), 출력(o)으로 구성된 코드 작업 삼중항의 각 부분에 대해 추론함으로써 세 가지 핵심 추론 모드를 학습합니다:
  - 연역(Deduction): 주어진 프로그램 \texttt{p}와 입력 \texttt{i}로부터 출력 \texttt{o}를 예측합니다.
  - 귀납(Abduction): 주어진 프로그램 \texttt{p}와 출력 \texttt{o}로부터 그럴듯한 입력 \texttt{i}를 추론합니다.
  - 유추(Induction): 입출력 예시 \texttt{{(in, on)}} 세트로부터 프로그램 \texttt{p}를 합성합니다.
보상 설계
- 제안자 보상($r_{\text{propose}}$): 모델이 현재 해결자에게 너무 쉽거나 너무 어려운 작업이 아닌, 의미 있는 학습 잠재력을 가진 작업을 생성하도록 장려합니다. 해결자의 평균 성공률(\texttt{1 - r_solve_bar})을 기준으로, 중간 난이도 작업에 가장 많은 보상을 줍니다.
- 해결자 보상($r_{\text{solve}}$): 최종 출력의 정확성에 기반한 간단한 이진 보상입니다.
- 통합 보상: 이 두 가지 보상을 통합하고, 형식 준수 여부에 따른 페널티를 포함하는 복합적인 보상 구조를 채택합니다.
자체 플레이 학습 과정
- 버퍼 초기화: AZR 자체 플레이는 가장 단순한 항등 함수와 같은 ‘제로 삼중항’으로 시작할 수 있으며, 기본 LLM을 사용하여 유효한 삼중항의 초기 시드 세트를 생성하여 버퍼를 초기화합니다.
- 작업 제안 및 버퍼 관리: 실제 자체 플레이 단계에서, 제안자는 작업 버퍼에서 이전에 성공적으로 생성된 K개의 과거 삼중항을 균일하게 샘플링하여 인컨텍스트 예시로 활용합니다. 이는 새로운 작업을 생성하도록 유도하여 작업 공간의 다양성을 촉진합니다.
- 작업 유효성 검사: 제안된 작업은 코드 실행기를 통해 다음 기준에 따라 유효성을 검사합니다:
  - 프로그램 무결성: 프로그램과 입력 실행 시 오류가 없는지 확인.
  - 프로그램 안전성: 특정 민감한 패키지(예: os.sys) 사용 제한.
  - 결정론 확인: 모든 입력에 대해 프로그램 출력이 독립적인 실행에서 동일하게 유지되는 결정론적 프로그램만 고려.
- 강화 학습 업데이트: 제안자와 해결자 역할 모두 강화 학습을 사용하여 훈련됩니다. Task-Relative REINFORCE++ (TRR++)라는 새로운 이점 추정기가 사용되며, 이는 다중 작업 학습 설정을 위해 각 작업 유형 및 역할에 대한 별도의 기준선을 계산합니다.

이러한 과정을 통해, AZR은 인간이 큐레이션한 데이터의 제약에서 벗어나 스스로 경험을 쌓고 학습 분포를 발전시키며 추론 능력을 지속적으로 향상시킵니다. 이는 궁극적으로 외부 데이터 없이도 코딩 및 수학적 추론 작업에서 최첨단(SOTA) 성능을 달성하는 놀라운 결과를 보여주었습니다.

AZR은 “Absolute Zero”라는 새로운 강화 학습(RLVR) 패러다임을 구현한 시스템으로, 이 패러다임은 외부 데이터에 의존하지 않고 모델이 자체적으로 학습 작업을 제안하고 해결함으로써 추론 능력을 향상시키도록 설계되었습니다.
기존의 RLVR 방법론은 중간 추론 과정의 라벨링 감독은 피했지만, 훈련을 위해 여전히 수동으로 큐레이션된 질문-답변 쌍에 의존했습니다. Absolute Zero는 이러한 의존성을 제거하고, 학습자가 외부 프롬프트 데이터나 답변을 전혀 제공받지 않는 새로운 “Absolute Zero” 설정을 도입합니다.
AZR은 코드 실행기를 검증 가능한 환경으로 사용하여 제안된 코드 추론 작업의 유효성을 검사하고 답변을 검증하며, 이는 개방형이면서도 실제 환경에 기반한 학습을 안내하는 검증 가능한 보상의 통합 소스 역할을 합니다.
소스에서는 AZR이 “외부 데이터 없이 전적으로 훈련되었음에도 불구하고” 또는 “어떤 종류의 분포 내 데이터 없이 전적으로 훈련되었음에도 불구하고” 코딩 및 수학적 추론 작업에서 전반적으로 최첨단(SOTA) 성능을 달성했다고 명시하고 있습니다. 또한, 수만 개의 도메인 내 인간 큐레이션 예시에 의존하는 기존의 “제로 설정” 모델들을 능가하는 성능을 보여주었습니다.
AZR은 “제로 데이터”로 최첨단 성능을 달성하며, 어떤 골드 라벨이나 인간이 정의한 쿼리에도 의존하지 않고 자체 플레이 접근 방식을 사용합니다.
모든 학습 데이터는 모델이 자체적으로 제안하고 RLVR을 통해 개선됩니다. AZR 모델의 훈련 데이터 출처를 요약한 표(Table 4)에서도 AZR의 “데이터 큐레이션” 항목은 “No data”로 표시되어 있습니다.

결론적으로, AZR은 인간이 큐레이션한 데이터와 같은 외부 데이터에 전혀 의존하지 않고 자체 플레이를 통해 추론 능력을 자율적으로 학습하고 진화하는 시스템입니다.

Stop Thinking, Just Do!

Gentle Introduction to Absolute Zero

Tags

17 September 2025

Gentle Introduction to Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Abstract