Stop Thinking, Just Do!

Sungsoo Kim's Blog

LLMs Can Learn to Reason Via Off-Policy RL

tagsTags

1 March 2026


LLMs Can Learn to Reason Via Off-Policy RL

1. 서론: 왜 LLM 학습 방식에 주목해야 하는가?

최근 LLM의 비약적인 ‘추론 능력’ 향상 뒤에는 강화학습(Reinforcement Learning, RL)이라는 강력한 최적화 도구가 자리 잡고 있습니다. 하지만 이 도구를 다루는 방식, 즉 모델이 데이터를 소화하는 방식에 따라 학습의 성패가 갈립니다. 본 가이드에서는 기존 강화학습의 주류였던 ‘온-폴리시’ 방식의 태생적 한계를 파헤치고, 이를 혁신적으로 돌파한 OAPL(Optimal Advantage-based Policy Optimization) 알고리즘의 매커니즘을 상세히 분석합니다.

먼저 근본적인 질문을 던져보겠습니다.

“AI는 오직 자신이 방금 내뱉은 말(현재의 정책)로만 배워야 할까, 아니면 과거의 기록이나 다른 엔진의 경험에서도 배울 수 있을까?”

그동안 우리는 AI가 현재 상태에서 직접 생성한 데이터로만 학습하는 것이 정석이라고 믿어왔지만, 대규모 분산 학습 환경에서는 이러한 ‘온-폴리시’의 이상과 실제 현장의 괴리가 갈수록 커지고 있습니다.


2. 이상과 현실의 충돌: 온-폴리시(On-Policy)의 함정

LLM 포스트 트레이닝 환경에서는 모델을 업데이트하는 트레이너(\(\pi\))와 데이터를 생성하는 추론 엔진(\(\pi_{vllm}\))이라는 두 개의 핵심 축이 작동합니다. 전통적인 PPO나 GRPO 알고리즘은 이 두 정책이 100% 동일하다는 ‘온-폴리시’ 상태를 전제합니다.

정책 시차(Policy Lag)와 현실적 불일치

그러나 실제 분산 학습 현장에서는 다음과 같은 이유로 정책 불일치(Mismatch)가 발생합니다.

  • 구현의 차이: 트레이너와 vLLM 등의 추론 엔진이 동일한 가중치를 공유하더라도, 사용되는 커널(Kernel) 구현 방식의 차이로 인해 미세하게 다른 로그 확률(Log-probs)이 생성됩니다.
  • 정책 시차(Policy Lag): 비동기 학습 파이프라인에서는 추론 엔진이 트레이너보다 수백 단계 뒤처진 과거의 모델 가중치를 가질 수밖에 없습니다.

이러한 불일치는 학습 정책과 생성 정책 사이의 KL 발산(Divergence)을 급증시켜 학습 붕괴를 초래합니다. 먼저 우리가 당연하게 여겼던 ‘온-폴리시’ 학습의 이상과 현실의 괴리를 표로 정리해 보겠습니다.

이론과 실제의 구조적 차이

구분 이론적 이상 (On-Policy) 실제 현장 (Effective Off-Policy) 학습에 미치는 영향
데이터 출처 최적화 중인 현재 정책에서 생성 과거 혹은 구현이 다른 엔진에서 생성 데이터 오염 및 편향 발생
정책 일치도 트레이너와 추론 엔진이 100% 동일 로그 확률(Log-probs)의 미세한 차이 발생 갑작스러운 KL 급증
정책 시차 시차 없음 (Lag = 0) 400 단계 이상의 시차 발생 가능 학습 불안정 및 정책 붕괴

이러한 불일치를 해결하기 위해 기존에는 ‘중요도 샘플링’이라는 임시방편을 썼지만, 이는 시스템의 유연성을 저해하는 또 다른 문제를 낳았습니다.


3. 기존 솔루션의 한계: 중요도 샘플링(Importance Sampling)의 부작용

GRPO와 같은 기존 방식은 오프-폴리시 데이터를 사용하기 위해 중요도 샘플링(Importance Sampling, IS) 비율을 도입했습니다. 이는 과거 엔진의 생성 확률과 현재 트레이너의 확률 차이를 비율(\(\rho\))로 계산하여 보정하는 기술입니다.

기술적 병목과 비효율성

  • 높은 분산(High Variance): 두 정책의 차이가 커질수록 IS 비율이 요동치게 되며, 이는 RL 손실 함수의 급격한 변동(Variance Spike)으로 이어집니다.
  • 데이터의 삭제 및 클리핑: 학습을 강제로 안정시키기 위해 정책 차이가 큰 데이터를 삭제하거나 깎아내는(Clipping) 등 인위적인 조작이 가해집니다. 이는 귀중한 학습 샘플을 버리는 결과로 이어집니다.

결국 기존 방식은 오프-폴리시 데이터를 ‘억지로 온-폴리시처럼 보이게’ 만들려다 효율을 놓쳤다는 것이 핵심입니다. 이제 이러한 억지스러움을 버리고 오프-폴리시 그 자체를 받아들인 새로운 솔루션, OAPL을 소개합니다.


4. 혁신의 주인공: OAPL (Optimal Advantage-based Policy Optimization)

OAPL의 철학은 명확합니다. “불일치를 교정하려고 애쓰지 말고, 그 차이를 알고리즘 내에서 수용하자”는 것입니다. OAPL은 기존의 \(A^*PO\) 알고리즘을 오프-폴리시 현실에 맞게 진화시킨 모델입니다.

OAPL의 기술적 핵심: 제곱 회귀(Squared Regression)

OAPL은 복잡한 IS 비율을 계산하는 대신, KL-정규화된 RL의 폐쇄형 솔루션(Closed-form solution)에서 도출된 제곱 회귀(Squared Regression) 목적 함수를 사용합니다.

  1. 최적 어드밴티지(Optimal Advantage, \(A^*\)) 추정: 별도의 가치 네트워크(Value Network) 없이도, 그룹 롤아웃(\(G\)) 데이터를 통해 정답 보상과 현재 엔진의 기대치 사이의 간극을 직접 계산합니다.
  2. \(\pi_{vllm}\)을 KL-참조 모델로 활용: 전통적인 정적 참조 모델(\(\pi_{ref}\)) 대신, 실제 데이터를 생성한 추론 엔진(\(\pi_{vllm}\))을 직접 KL-참조점으로 삼아 트레이너가 데이터 분포에서 너무 멀어지지 않게 잡아주는 안전장치를 구축합니다.

왜 OAPL이 혁신적인가?

  • IS 비율(\(\rho\)) 제거: 분산의 주범인 비율 계산이 필요 없어 학습이 극도로 안정적입니다.
  • 압도적 오프-폴리시 수용력: 기존 방식보다 100배 더 오프-폴리시한 환경(400 gradient steps 이상의 시차)에서도 데이터 삭제 없이 모든 샘플을 학습에 활용합니다.
  • 완전 비동기 학습: 추론 엔진과 트레이너가 서로를 기다릴 필요 없이 각자의 속도로 가동될 수 있습니다.

이러한 이론적인 깔끔함이 실제 성능으로는 어떻게 나타났을까요?


5. 데이터로 증명된 성능: 수학과 코딩에서의 압승

OAPL은 고난도 수학 및 코딩 벤치마크에서 기존 알고리즘을 압도하는 결과를 보여주었습니다.

수학 벤치마크: 안정성과 다양성의 조화

  • AIME 25, HMMT 25, BRUMO 25 데이터셋에서 GRPO를 명확히 앞섰습니다.
  • 특히 주목할 점은 엔트로피 붕괴(Entropy Collapse) 방지입니다. GRPO가 학습 중 답변의 다양성을 잃고 특정 패턴에 고착되는 반면, OAPL은 정책의 엔트로피를 유지하여 모델이 유연한 추론을 이어가게 합니다.

코딩 성능과 샘플 효율성 (LiveCodeBench v5)

  • 3배 적은 데이터로 동일 성능: 공개된 코딩 모델인 DeepCoder와 대등한 성능을 내면서도, 학습에 사용된 생성 샘플 수는 200K 수준에 불과했습니다(DeepCoder는 약 650K 사용).
  • 테스트 타임 확장성 (Pass@k): 단순히 정답 확률을 높이는 것에 그치지 않고, 여러 번 시도했을 때 정답을 찾을 확률인 Pass@k(k=1부터 256까지) 지표가 우상향하는 ‘테스트 타임 확장’ 능력을 입증했습니다. 이는 모델의 근본적인 추론 체력이 강화되었음을 뜻합니다.

결론적으로 OAPL은 효율성과 성능, 두 마리 토끼를 모두 잡은 셈입니다.


6. 결론: 학습자를 위한 최종 요약 및 ‘So What?’

오늘 살펴본 LLM 학습 패러다임의 변화를 3가지 핵심 인사이트로 요약합니다.

  1. 온-폴리시의 한계 극복: 대규모 분산 학습에서 발생하는 정책 시차는 피할 수 없는 현실입니다. OAPL은 이를 억제하는 대신 수용함으로써 학습의 병목을 해결했습니다.
  2. 제곱 회귀의 안정성: 중요도 샘플링(IS)의 높은 분산 문제를 Optimal Advantage 추정 기반의 제곱 회귀로 대체하여 학습 안정성을 획기적으로 높였습니다.
  3. 샘플 효율성의 혁명: 3배 적은 생성 샘플만으로도 더 높은 추론 성과를 낼 수 있음을 입증하며, 차세대 RL 포스트 트레이닝의 표준을 제시했습니다.

미래 전망

향후 오프-폴리시 방식은 단순히 실시간 생성 데이터뿐만 아니라, 소스 컨텍스트가 제언하듯 인간이 작성한 데이터나 방대한 오프라인 기록물을 AI 학습에 더 효율적으로 녹여내는 핵심 기술이 될 것입니다. 가치 함수(Value Function)를 오프-폴리시 방식으로 학습하여 보상 할당(Credit Assignment)을 정교화하는 방향으로의 발전이 기대됩니다.

복잡한 최신 AI 연구의 흐름을 파악한 여러분을 응원합니다. 이제 AI는 자신의 현재 한계에 갇히지 않고, 과거의 경험과 외부의 기록으로부터 더 자유롭고 효율적으로 학습하며 진화할 것입니다.