서론: LLM 추론 성능 향상을 위한 도전과 탐험-착취의 딜레마
현대 LLM 연구의 최전선은 단순한 텍스트 생성을 넘어, 복잡한 수학 및 논리 문제를 해결하는 '추론' 능력 강화에 집중되어 있습니다. 온라인 강화학습(Online RL)은 이를 위한 핵심 도구로 부상했으나, 여전히 탐험과 착취 사이의 균형 문제가 발목을 잡고 있습니다.
과도한 탐험은 모델이 논리적이지 않은 '횡설수설'을 하게 만들고, 과도한 착취는 기존 지식에만 안주하게 하여 지능적 성장을 저해하는 성능 정체를 야기합니다.