인공지능의 효율적 진화:
RLHF와 정보 지향 탐색의 이해
Google DeepMind의 최신 연구를 바탕으로 AI가 자신의 '모름'을 인지하고 가장 효과적인 질문을 던지는 공학적 설계를 분석합니다.
1. AI 정렬의 기초: Pre-training vs. RLHF
AI의 학습 과정은 크게 두 단계로 나뉩니다. 도서관의 모든 책을 읽으며 지식을 쌓는 과정인 Pre-training과, 습득한 지식을 어떻게 표현하고 인간의 예절에 맞게 행동할지 배우는 RLHF (Reinforcement Learning from Human Feedback) 단계입니다.
Pre-training
"무엇이 사실인가?"에 집중하여 방대한 데이터를 소비하고 지식을 습득하는 과정입니다.
RLHF
"어떤 답변이 인간에게 더 적절한가?"에 집중하여 태도와 가치관을 정렬하는 과정입니다.
RLHF는 보상 모델(Reward Model)이 인간의 선호도를 학습하고, 언어 모델(Language Model)이 그 보상을 최대화하도록 정책을 미세 조정하는 순환 구조를 가집니다.
2. 학습 패러다임: 오프라인에서 온라인 진화로
AI 학습 방식은 학생의 공부 습관처럼 진화해 왔습니다. 고정된 과거 문제집만 푸는 방식에서 선생님과 실시간으로 소통하는 방식으로 발전하고 있습니다.
| 비교 항목 | Offline RLHF (기존) | Online RLHF (최신) |
|---|---|---|
| 데이터 수집 | 고정된 분포 (과거 데이터) | On-policy 샘플링 (현재 기반) |
| 학습 효율 | 정적 목표로 인한 정체 발생 | 더 나은 답변을 향한 연속적 이동 |
| 주요 한계 | 낮은 데이터 효율성 | 실시간 업데이트 시 학습 불안정성 |
3. 안정적 성장을 위한 공학: "Affirmative Nudge"
Performance Tanking은 온라인 학습 중 특정 데이터에 편향되어 성능이 급락하는 현상입니다. 이를 방지하기 위해 Affirmative Nudge ($\epsilon$)라는 수치적 장치가 도입되었습니다.
이 작은 $\epsilon$ 값은 AI에게 "긍정적 탐색 편향"을 부여합니다. 학습 과정에서 너무 쉽게 낙담하지 않도록 돕는 나침반 역할을 하며, 안정적인 우상향 학습 곡선을 만들어냅니다.
4. Epistemic Neural Networks: 앎의 경계를 인식하다
효율적인 학습은 '무엇을 모르는지' 아는 것에서 시작합니다. 연구진은 90억 개의 파라미터를 가진 Gemma 9B 모델에 Epistemic Neural Network (ENN) 구조를 통합했습니다.
Shared Torso Architecture
95% 이상의 파라미터가 거대한 지식 저장소 역할을 수행하며, 상단에 특수한 '헤드'를 장착합니다.
Ensemble Particles
100개의 작은 네트워크가 서로 다른 시각에서 보상을 예측합니다.
100개의 입자가 내놓은 예측값의 분산(Variance)이 크면 AI는 해당 문제에 대해 확신이 없음을 스스로 인지합니다. 이는 단순한 무작위 노이즈와 모델의 실제 지식 부족을 정확히 구분해냅니다.
5. IDS: 1,000배 빠른 학습의 비밀
불확실성을 측정할 수 있게 된 AI는 이제 예측 분산이 가장 높은 질문을 골라 인간에게 물어봅니다. 이를 Information-Directed Exploration (IDS)이라 합니다.
이미 잘 아는 중복된 정보나 뻔한 결론의 질문들.
대립하는 정보나 논리적 경계에 있는 고가치 질문들.
압도적인 학습 지표
-
✓
10배 효율성: 기존 20만 개의 레이블이 필요했던 성능을 단 2만 개로 달성.
-
✓
1,000배 잠재력: Scaling Law 적용 시, 온라인 100만 레이블이 오프라인 10억 레이블의 가치를 가짐.
6. 결론: 효율적 탐색의 미래
본 연구는 AI 학습 효율을 극대화하는 세 가지 핵심 혁신을 제시했습니다: 온라인 업데이트, Affirmative Nudge를 통한 안정성 확보, 그리고 ENN을 이용한 정보 지향 탐색입니다. '자신이 모르는 것을 아는 능력'은 AI가 단순한 도구를 넘어 진정한 지능적 에이전트로 진화하는 핵심 동력이 될 것입니다.