Article Source

본 연구는 대규모 언어 모델(LLM)이 의사 결정 시나리오에서 종종 차선책을 수행하는 이유를 체계적으로 조사하고, 주요 실패 모드를 식별하며, 자체 생성된 사고 사슬(CoT) 추론에 대한 강화 학습 미세 조정(RLFT)을 완화 전략으로 제안한다. 다중 무장 강도(MAB), 컨텍스트 강도(CB) 및 틱택토 환경에서 Gemma2 모델(2B, 9B, 27B)을 사용하여 실험을 수행했다.

LLMs are Greedy Agents: Effects of RL (Apr 2025)

1. 주요 연구 결과

LLM 의사 결정 실패: 사전 훈련된 LLM은 의사 결정 작업에서 상당한 단점을 보이며, 주로 다음과 같이 확인되었다.
탐욕성: 소수의 탐색된 행동 중에서 지금까지 가장 좋은 성능을 보이는 행동에 조기에 전념하여 행동 범위가 정체됨(예: 10개 암 강도에서 최대 55%의 행동이 탐색되지 않음).
빈도 편향: 작은 모델(예: 2B)은 보상에 관계없이 컨텍스트 기록에서 가장 빈번한 행동을 복사하는 경향이 있다. 더 큰 모델(27B)은 이를 완화하지만 여전히 탐욕적이다.
Knowing-Doing 간극(Gap): LLM은 종종 최적 전략에 대해 올바르게 추론할 수 있지만(예: UCB 논리에 대해 87% 정확한 추론) 해당 최적 행동을 실행하지 못하고 종종 탐욕적인 선택으로 기본 설정된다(예: 올바른 추론에도 불구하고 58%의 탐욕적인 행동). 인용: “LLM은 종종 작업을 해결하는 방법을 알지만(87% 정확한 추론) 이 지식을 바탕으로 행동하는 데 실패한다…”
RLFT 효과: 자체 생성된 CoT 추론(RLFT)에 대한 RL을 사용하여 LLM을 미세 조정하면 의사 결정이 크게 향상된다.
기본 인컨텍스트 학습(ICL)에 비해 누적 후회를 줄인다.
탐색 및 행동 범위를 늘린다(예: 30K 업데이트 후 2B 모델의 경우 +12% 범위). 탐욕성을 완화하고 빈도 편향을 부분적으로 상쇄한다.
추론을 기반으로 더 높은 보상을 얻는 행동을 강화하여 Knowing-Doing 간극을 좁힌다. 인용: “RLFT는 탐색을 늘리고 Knowing-Doing 간극을 좁혀 LLM의 의사 결정 능력을 향상시킨다.”
CoT의 중요성: 사고 사슬 추론은 ICL 성능과 RLFT의 효과 모두에 중요하다. CoT 없는 RLFT는 성능이 저조하다.
탐색 메커니즘: RLFT는 탐색을 개선하지만 여전히 최적은 아니다. RLFT를 다음과 같이 보강하면 성능이 더욱 향상된다.
고전적인 탐색 전략(예: 𝜖-greedy, 초기 모든 행동 시도).
보상 형성(예: 시도되지 않은 행동에 대한 탐색 보너스)은 탐색을 크게 향상시키고(50% → 70%) 후회를 줄인다.
전문가 데이터: 전문가(UCB) 궤적에 대한 지도 학습 미세 조정(SFT), 특히 추론(“사고 복제”)을 포함하면 거의 최적의 성능을 달성하여 전문가 의사 결정 프로세스를 모방하는 효과를 강조한다.
“생각” 시간 (Thinking Time): RLFT 중 토큰 생성 예산을 늘리면(“생각” 시간 증가) 성능이 향상되지만 계산 비용이 증가한다.
상태 기반 환경: RLFT는 틱택토와 같은 상태 기반 작업에서 성능을 크게 향상시켜 승률을 상당한 수준으로 높인다(예: 무작위 상대에 대해 15%에서 75%로).

2. 주요 개념

대규모 언어 모델(LLM): 방대한 텍스트 데이터로 사전 훈련된 기반 모델로, 여기서 의사 결정에 대해 평가된다.
강화 학습 미세 조정(RLFT): RL 원리를 사용하여 LLM을 미세 조정하는 제안된 방법으로, 특히 환경 상호 작용에서 얻은 보상을 기반으로 최적화하고 자체 생성된 CoT 추론을 활용한다.
사고 사슬(CoT): 의사 결정 중 합리화 및 탐색 메커니즘으로 사용되는 LLM에서 단계별 추론을 유도하는 것.
탐욕성: 제한된 경험을 바탕으로 가장 잘 알려진 옵션을 과도하게 활용하여 탐색을 저해하는 에이전트의 경향.
빈도 편향: 특히 작은 LLM에서 관련 보상에 관계없이 입력 컨텍스트에 자주 나타나는 행동을 반복하는 경향. 잠재적으로 “지도 학습 사전 훈련의 인공물”로 확인됨.
Knowing-Doing 간극: 에이전트가 올바른 행동/전략을 이해하거나 명확히 표현하는 능력(“아는 것”)과 해당 행동을 실행하는 능력(“하는 것”) 사이의 불일치.
탐색 대 활용(Exploration vs. Exploitation): 정보를 수집하기 위해 새로운 행동을 시도하는 것(탐색)과 현재 정보를 기반으로 최선이라고 생각되는 행동을 선택하는 것(활용) 사이의 기본적인 RL 절충.
다중 무장 강도(MAB; Multi-Armed Bandits) 및 컨텍스트 강도(CB): 탐색-활용 절충을 분리하고 연구하는 데 사용되는 고전적인 RL 문제 설정.
인컨텍스트 학습(ICL): 프롬프트/컨텍스트 내에 제공된 예제를 기반으로 작업을 수행하는 LLM의 능력으로, 기준선으로 사용된다.
자기 수정 / 자기 일관성: 미세 조정 중 추론 및 의사 결정을 개선하기 위한 잠재적인 방법으로 평가된 LLM 특정 기술.
보상 형성: 특정 바람직한 행동을 장려하기 위해 보상 신호를 수정하는 것(예: 유효하지 않은 행동에 대한 페널티, 탐색 보너스 추가).

3. 비즈니스 애플리케이션

추상적인 작업에서 테스트되었지만, 발견 사항은 자동화된 의사 결정이 필요한 비즈니스 애플리케이션에 영향을 미친다.
추천 시스템: 필터 버블을 피하고 사용자 선호도에 더 잘 적응하기 위한 탐색 개선(테스트된 MovieLens CB와 유사).
자원 할당: 다양한 전략 탐색이 필요한 할당 결정 최적화.
로봇 프로세스 자동화(RPA): 특히 새로운 상황에 직면했을 때 자동화된 워크플로 내에서 에이전트가 더 강력한 결정을 내릴 수 있도록 지원.
고객 서비스 라우팅: 동적으로 변화하는 요인을 기반으로 고객 문의를 보다 지능적으로 라우팅하고 다양한 라우팅 옵션을 효과적으로 탐색.
공급망 관리: 알려진 좋은 옵션과 잠재적으로 더 나은 미탐색 옵션 간의 균형을 더 잘 맞춰 선택(예: 공급업체, 물류) 최적화.
에이전트 기반 AI 개발: 환경과 상호 작용하고 일련의 결정을 내릴 수 있는 보다 유능한 AI 에이전트 구축을 위한 기본적인 개선.

4. 중요한 통찰력

LLM의 고유한 세계 지식 및 추론 능력(CoT를 통해)이 상호 작용 설정에서 효과적인 의사 결정 또는 탐색으로 자동적으로 이어지지는 않는다.
확인된 실패 모드(탐욕성, 빈도 편향, Knowing-Doing 간극)는 에이전트 기반 LLM 개선을 위한 특정 목표를 제공한다.
자체 생성된 추론(CoT) 및 환경 보상에 의해 안내되는 RLFT는 단순한 ICL을 넘어 LLM 의사 결정 능력을 향상시키는 강력한 패러다임이다.
CoT는 단순한 출력 형식일 뿐만 아니라 RLFT 중 탐색 및 학습을 돕는 기능적 메커니즘으로 작용한다.
명시적인 탐색 전략과 신중한 보상 설계는 RLFT 후에도 LLM의 고유한 탐색 한계를 극복하는 데 매우 중요하다.
전문가 추론 프로세스 모방(SFT를 통한 사고 복제)은 매우 효과적이며, 전문가가 무엇을 하는지뿐만 아니라 어떻게 결정하는지를 포착하는 것의 가치를 시사한다.
추론(“생각 시간”)에 할당된 계산 예산과 의사 결정 성능 사이에는 직접적인 관계가 있으며, 이는 절충점을 제시한다.

5. 과제 및 해결책

과제: LLM의 고유한 탐욕성으로 인한 낮은 탐색.
해결책: RLFT는 탐색을 증가시킨다. try-all, 𝜖-greedy 및 탐색 보너스와 같은 명시적 메커니즘은 이를 더욱 완화한다.
과제: 특히 작은 모델에서 발생하는 빈도 편향.
해결책: RLFT는 보상 신호에 컨텍스트 빈도보다 우선순위를 부여하여 이 편향을 상쇄하는 데 도움이 된다.
과제: 올바른 추론이 올바른 행동으로 이어지지 않는 Knowing-Doing 간극.
해결책: RLFT는 행동으로 이어지는 추론(CoT를 통해)과 결과(보상)를 직접 연결하여 아는 것과 하는 것 사이의 연결을 강화한다.
과제: 기본적인 RLFT 후에도 지속되는 차선책 탐색.
해결책: 명시적인 탐색 전략(예: 𝜖-greedy, try-all과 같은 고전적인 RL 방법) 및 보상 형성(탐색 보너스)으로 RLFT를 보강한다. 보너스 효과에 대한 인용: “간단한 탐색 보너스(RLFT 중 시도되지 않은 행동에 대해 +1 보상)는 탐색을 크게 증가시키고(50% → 70%) 후회를 줄인다…”
과제: LLM이 작업 제약 조건에 따라 유효한 행동을 생성하도록 보장.
해결책: RLFT 중 모델을 안내하기 위해 보상 형성(예: 유효하지 않은 행동에 대한 -5 페널티)을 사용한다. 틱택토에서와 같이 컨텍스트에서 합법적인 행동을 제공하는 것도 성능에 매우 중요하다.
과제: RLFT 롤아웃 및 증가된 “생각 시간”(더 긴 생성 예산)과 관련된 계산 비용.
해결책: (제한 사항/향후 연구) 보다 효율적인 아키텍처(예: 순환 모델) 또는 미세 조정 기술에 대한 조사가 필요하다(LoRA는 여기서 불충분한 것으로 밝혀짐). 성능 향상과 계산 예산 간의 균형이 필요하다.

Stop Thinking, Just Do!

LLMs are Greedy Agents

Tags

5 May 2025