Stop Thinking, Just Do!

Sungsoo Kim's Blog

Group Relative Policy Optimization(GRPO)

tagsTags

13 March 2025


Article Source


Group Relative Policy Optimization(GRPO)

Abstract

Group Relative Policy Optimization (GRPO)는 강화 학습에서 정책을 업데이트할 때 단순히 절대적인 보상 신호만 고려하는 대신, “그룹 내에서의 상대적인” 성능 개선을 함께 반영하여 보다 안정적이고 효율적으로 학습하도록 하는 방법입니다.


1. GRPO의 기본 개념

  • 정책 최적화와 기본 배경:
    전통적인 정책 기울기(Policy Gradient) 방식이나 Proximal Policy Optimization (PPO) 같은 알고리즘은 에이전트가 특정 상태에서 취한 행동의 기대 보상(또는 Q-value)과, 그 상태에서의 평균적인 기대 보상(보통 상태 가치 함수, V(s)로 추정됨) 사이의 차이인 advantage 값을 사용해 정책 파라미터를 업데이트합니다.
    [ \nabla J(\theta) \approx \mathbb{E}\left[ \nabla \log \pi_\theta(a|s) \, A(s,a) \right] ]

  • 그룹 상대 기준(Group Relative Baseline):
    GRPO에서는 각 개별 에피소드나 행동에 대한 보상 외에도, 동일한 상태나 상황에서 여러 에피소드 또는 여러 에이전트의 결과(즉, “그룹”)를 고려합니다. 즉, 개별 행동의 평가를 단순히 절대 보상이 아닌, 그룹 내 평균 성능과의 상대적 차이로 재정의합니다.
    [ A_{\text{group}}(s,a) = Q(s,a) - V_{\text{group}}(s) ] 여기서 ( V_{\text{group}}(s) )는 동일한 상태 ( s )에서 그룹 내(예: 여러 에피소드 혹은 다수 에이전트)의 평균 성과를 의미합니다.


2. GRPO의 작동 원리 및 장점

  • 안정성 향상:
    단일 에피소드의 보상은 노이즈나 변동성이 클 수 있습니다. 그러나 그룹 평균과 비교하여 업데이트를 수행하면, 개별 에피소드의 편차가 완화되어 보다 안정적인 학습이 가능해집니다.

  • 분산 감소:
    그룹 내 상대적 기준을 사용하면 업데이트 시 발생하는 분산(variance)이 감소하게 되어, 급격한 정책 변경을 방지하고 점진적인 개선을 유도합니다.

  • 협력적 학습 및 비교 기준 제공:
    특히 다중 에이전트 환경에서는 각 에이전트가 자신의 행동뿐만 아니라 팀이나 전체 그룹의 평균 성과를 참고하여 행동을 조정하게 됩니다. 이는 자연스럽게 협력과 조화를 도모할 수 있습니다.


3. 구체적인 예시

예시: 축구 시뮬레이션 환경에서의 GRPO 적용

  • 시나리오:
    가상의 축구 시뮬레이션 환경에서 한 팀의 에이전트(선수)는 개인의 골 넣기 능력뿐 아니라 팀 전체의 성과에 기여해야 합니다. 각 에이전트는 자신의 행동(패스, 드리블, 슛 등)을 선택하고, 그 결과로 팀의 득점 기회가 어떻게 변화하는지를 관찰합니다.

  • 전통적인 업데이트 vs. GRPO 업데이트:
    • 전통적 방식:
      한 에이전트가 슛을 시도하여 득점을 했다면, 이 에이전트는 높은 보상을 받아 자신의 정책이 강화됩니다. 그러나 만약 주변 동료들도 비슷한 상황에서 좋은 성과를 내고 있었다면, 이 행동이 단순히 평균 수준일 수도 있습니다.

    • GRPO 방식:
      GRPO는 동일한 상황(예: 상대 수비의 압박 정도, 경기 상황 등)에서 팀의 평균 성과(예: 팀원들이 같은 상황에서 내는 평균 결과)를 계산합니다. 만약 한 에이전트의 슛이 팀 평균보다 더 좋은 결과(예: 팀의 평균 득점 확률보다 높은 득점 확률)를 보인다면, 그 행동의 그룹 상대 advantage가 긍정적으로 평가됩니다. 반대로, 팀 평균에 미치지 못하는 행동이라면 업데이트 시 부정적인 방향으로 작용하게 됩니다.

  • 결과:
    이를 통해 각 에이전트는 단순히 “잘 했다/못 했다”가 아니라, 팀 전체의 맥락 속에서 자신의 행동이 얼마나 뛰어난지를 학습하게 되어, 팀워크를 강화하고 협력적인 전략을 자연스럽게 형성할 수 있습니다.

4. 요약 및 결론

GRPO는 강화 학습 알고리즘에서 개별 보상 신호의 노이즈와 변동성을 완화하기 위해, 그룹 내 평균 성과와 비교하는 “상대적” 평가 방식을 도입합니다.

  • 안정적 업데이트: 그룹 평균을 기준으로 업데이트함으로써 학습의 안정성을 높입니다.
  • 협력 촉진: 특히 다중 에이전트 환경에서 개별 에이전트들이 협력적 행동을 취하도록 유도할 수 있습니다.
  • 효율적 학습: 불필요한 급격한 정책 변경을 막아, 점진적이고 지속적인 성능 향상을 이끌어냅니다.

이러한 이유로 GRPO는 복잡한 환경이나 다수의 에이전트가 상호작용하는 문제에서 매우 유용한 접근법으로 평가받고 있습니다.


comments powered by Disqus