Stop Thinking, Just Do!

Sungsoo Kim's Blog

Agentic AI MOOC

tagsTags

3 October 2025


CS294-196 (Agentic AI MOOC) - Lecture 1 {Yann Dubois}

Abstract

LLM 훈련 파이프라인의 세 가지 주요 단계인 사전 훈련(pre-training), 고전적인 후처리(classic post-training) 또는 RLHF, 그리고 추론을 위한 강화 학습(RL for reasoning)에 중점을 둡니다. 특히 데이터 수집 및 품질 관리, 아키텍처, 훈련 알고리즘, 평가, 시스템 및 인프라 등 LLM 훈련에 필수적인 주요 측면들을 상세히 다루며, 사전 훈련 단계에서의 다음 단어 예측 방법론과 후처리 단계에서의 지도 미세 조정(SFT) 및 강화 학습을 통한 정렬(alignment)의 중요성을 강조합니다.

대규모 언어 모델(LLM) 훈련 파이프라인은 일반적으로 세 가지 주요 단계로 구성되며, 각 단계는 고유한 목표와 병목 현상을 가지고 있습니다.

대규모 언어 모델 훈련 파이프라인의 주요 단계

LLM 훈련 파이프라인에는 사전 훈련(Pre-training), 고전적인 사후 훈련(Classic Post-training) 또는 RLHF, 그리고 추론(Reasoning) 단계가 있습니다. 후자의 두 단계는 종종 사후 훈련(Post-training)으로 통칭되기도 합니다.

1. 사전 훈련 (Pre-training)

  • 목표: 인터넷에 있는 모든 것을 예측하는 것을 목표로, 가장 높은 수준에서는 다음 단어를 예측하는 것입니다. 이 단계를 통해 모델은 세상의 모든 것을 배우게 됩니다.
  • 데이터 규모: 일반적으로 약 10조 개의 토큰이 필요합니다. 현재 모델(예: Llama 4, Deepseek V3, Llama 3)은 15조에서 40조 개의 토큰으로 훈련됩니다. 이는 대략 200억 개 이상의 고유 웹페이지에 해당합니다.
  • 시간 및 비용: 훈련하는 데 몇 달이 걸리며, 컴퓨팅 비용은 대략 1,000만 달러 규모입니다.
  • 세부 사항: 이 단계에서 모델은 훈련 데이터의 양을 최대한 많이 투입하는 것이 중요합니다. 좋은 데이터를 확보하기 위해 인터넷에서 발견되는 대량의 원시 데이터(예: Common Crawl의 2,500억 페이지)에서 HTML 텍스트를 추출하고, 유해 콘텐츠 필터링, 중복 제거, 휴리스틱 필터링 (예: 문서 길이 기반), 그리고 모델 기반 필터링 (예: Wikipedia에서 참조될 가능성이 높은 페이지 예측) 등의 과정을 거칩니다.
병목 현상 세부 설명
좋은 데이터와 충분한 데이터 인터넷 데이터의 대부분이 품질이 낮고(dirty), 필요한 토큰 수가 매우 많기 때문에 고품질의 대규모 데이터를 확보하는 것이 어렵습니다.
컴퓨팅 자원 훈련에 수개월이 걸리고 1,000만 달러 규모의 비용이 소요되는 등 막대한 컴퓨팅 자원이 필요합니다.

2. 고전적인 사후 훈련 (Classic Post-training) 또는 RLHF

  • 목표: 사전 훈련을 통해 인터넷의 모든 것을 알게 된 모델을 실제로 사용자의 선호도를 극대화하는 모델로 만드는 것입니다. 이는 정렬(Alignment) 또는 명령 따르기(Instruction Following)라고도 불리며, 모델이 실제 세계 작업에서 유용하도록 유도합니다. ChatGPT가 널리 퍼진 것은 주로 이 사후 훈련 덕분입니다.
  • 데이터 규모: 대략 10만 개 문제 규모의 데이터를 사용합니다.
  • 시간 및 비용: 며칠이 걸리며, 사전 훈련에 비해 상당히 저렴합니다. 컴퓨팅 비용은 대략 1만 달러에서 10만 달러 규모입니다.
  • 세부 사항: 이 단계는 오픈 소스 커뮤니티에서 컴퓨팅 측면에서 접근성이 더 높기 때문에 주로 집중하는 분야입니다.
    • 지도 미세 조정(SFT, Supervised Fine-Tuning): 사후 훈련의 첫 번째 주요 방법으로, 모델이 원하는 답변을 제공하도록 매우 적은 양의 고품질 데이터(예: 인간이 작성한 질문-답변)를 사용하여 미세 조정합니다. SFT는 원하는 스타일이나 포맷, 명령어 따르기, 도구 사용 등을 학습시킬 수 있습니다.
    • RLHF (인간 피드백 기반 강화 학습): 모델이 인간의 선호도를 극대화하도록 최적화하는 단계입니다. 이는 더 주관적인 선호도를 최적화하는 데 사용됩니다.
병목 현상 세부 설명
데이터 및 평가(Evals) 사전 훈련 데이터와 달리 사후 훈련 데이터(질문-답변 쌍)는 희소하고 수집하는 데 비용이 많이 듭니다. 또한, 진척 상황을 알기 위한 좋은 평가 지표(evals)를 만드는 것도 중요합니다.

3. 추론 (Reasoning)

  • 목표: 객관적인 답이 있는 질문(예: 수학 또는 코딩 대회)에 대해 답변을 제공하기 전에 모델이 깊이 생각하도록 가르치는 것입니다. DeepSeek R1이나 Kimmy와 같은 모델이 이 단계를 사용합니다.
  • 데이터 규모: 대략 100만 개 문제 규모의 데이터(추정치)를 사용합니다.
  • 시간 및 비용: 몇 주가 걸리며, 컴퓨팅 비용은 대략 100만 달러 규모입니다.
  • 세부 사항: 이 단계에서는 검증 가능한 보상(verifiable rewards)이 있는 어려운 작업(예: 코딩 테스트 케이스 통과)을 사용하여 훈련합니다. 이 과정에서는 강화 학습(RL)이 사용되며, 행동 복제(SFT) 대신 원하는 행동을 극대화하는 방식입니다.
병목 현상 세부 설명
RL 환경 구축 및 해킹 강화 학습에서는 보상을 최적화하는 과정에서 모델이 의도하지 않은 방식으로 보상을 최적화하는 자기 해킹(self-hacking) 방식이 발생할 수 있습니다. 따라서 견고한 RL 환경을 구축하는 것이 중요합니다.
인프라(Infra) RL 훈련, 특히 에이전트 작업에서는 롤아웃(rollouts, 모델 출력 생성) 시간이 매우 길어질 수 있으므로, GPU가 대기 상태에 빠지지 않도록 인프라를 효율적으로 관리하는 것이 핵심 병목 현상입니다.

LLM 훈련의 실질적인 중요 요소

LLM을 훈련할 때 고려해야 할 5가지 큰 요소가 있지만 (아키텍처, 알고리즘, 데이터, 평가, 시스템), 실제로 가장 중요한 것은 다음과 같습니다:

  1. 데이터: 알고리즘보다 훨씬 중요하며, 좋은 데이터 세트를 구축하는 데 시간을 투자하는 것이 가장 중요합니다.
  2. 평가(Evaluation): 진행 상황을 파악하기 위해 매우 중요합니다. 좋은 평가 지표(evals)가 없으면 높은 수준의 하이퍼파라미터 선택 방법을 알 수 없습니다. 특히, LLM에서는 정답을 알기 어려운 개방형 평가(open-ended evaluation)가 어렵고 자동화하기 힘듭니다.
  3. 시스템 및 인프라: 모델을 더 크게 확장하고 더 오래 훈련할 수 있도록 보장합니다. 더 나은 인프라는 더 나은 성능으로 이어집니다.