arXiv 2606.24855v1 · cs.AI · 2026

에이전트 모델을 위한
데이터 레시피

에이전트형 언어 모델은 AI의 응용 범위를 극적으로 넓힌다. 그러나 광범위하게 유능한 에이전트를 위한 학습 데이터를 어떻게 큐레이션하는지는 공개적으로 거의 알려져 있지 않다. SWE-Smith·SERA·Nemotron-Terminal 같은 기존 공개 시도는 대개 단일 벤치마크만 겨냥한다. OpenThoughts-Agent(OT-Agent) 프로젝트는 에이전트 모델 학습을 위한 완전 공개 데이터 큐레이션 파이프라인으로 이 공백을 메운다.

저자 · Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha (공동 1저자) 외 · Benjamin Feuer, Ludwig Schmidt (공동 교신) · UC Berkeley · Stanford · JSC · LAION · UT Austin · Bespoke Labs 외 다수

100+

통제된 제거 실험
(controlled ablation)

100K

최종 학습셋
(task, trajectory) 쌍

↑

44.8%

7개 벤치마크 평균
(Qwen3-32B 파인튜닝)

+3.9pp

최강 공개 데이터 모델
대비 향상

↓ 스크롤하여 살펴보기

서론 — 공개되지 않은 학습 데이터

에이전트형 모델은 단순 질의응답을 넘어 컴퓨터를 정교하게 사용하는 광범위한 복잡 과제를 수행한다. Claude Code·Codex·OpenClaw 같은 AI 에이전트가 빠르게 보급되었다. 그러나 최신 에이전트 모델, 특히 학습 데이터를 어떻게 만드는지에 대한 공개 정보는 거의 없다.

DeepSeekV4가 그 예다. 가중치는 공개되고 논문은 50쪽이 넘지만, 학습 데이터는 단 두 문단으로 고수준 설명만 한다.

OT-Agent는 선행 OpenThoughts 작업의 통찰 위에서, 여러 에이전트 벤치마크에 걸쳐 성능을 높이는 것을 목표로 지도 미세조정(SFT) 사후학습 데이터에 집중한다. 첫 번째 기여는 에이전트 SFT 데이터를 위한 포괄적 큐레이션 파이프라인이며, 그 위에서 100회 이상의 제거 실험을 수행한다. 실험은 다음 핵심 발견으로 이어진다.

FINDING 01

추론 데이터와 마찬가지로, 명령(instruction)의 선택이 데이터 파이프라인에서 가장 중요한 요인 중 하나다.

FINDING 02

벤치마크 성능이 가장 강한 모델이 반드시 최고의 교사(teacher)는 아니다.

FINDING 03

모델 턴(turn)이 더 많은 실행 궤적을 남기도록 학습 데이터를 필터링하면 결과 학습셋이 개선된다.

FINDING 04

상위 소수 소스의 반복은 대규모 학습에서 수익 체감을 낳으므로, 다양성을 위해 데이터 소스를 확장한다.

6단계 SFT 데이터 파이프라인

목표는 코딩·터미널 에이전트의 지도 미세조정을 위한 최고의 (task, trajectory) 쌍 데이터셋을 만드는 것이다. 각 단계를 독립적으로 제거 실험하고, 세 벤치마크에 걸친 평균 z-점수로 최고 전략을 선택한다. 기본 설정으로 GLM-4.7-AWQ가 terminus-2 하니스에서 교사 역할을 하며, 10,000 규모 데이터셋으로 실험한다.

소스 (Source)

초기 소스에서 과제 설명 수집

혼합 (Mix)

상위 N개 소스 비율 조정

필터 (Filter)

난이도 신호로 과제 선별

롤아웃 생성

교사 모델로 궤적 생성

롤아웃 필터

저품질 궤적 제거

최종 레시피

교사 선택·최종 조합

평가 코어 3종: OpenThoughts-TBLite (100) · SWE-Bench Verified-100 · Terminal-Bench 2.0 (89) · 모두 Daytona 샌드박스 내 terminus-2 하니스, n=3 재실행

3.1 소스 과제 소스 선택

95개 소스 제거 실험. 어떤 파이프라인 단계보다 편차가 크다 — SWE-Bench는 최대 30pp, Terminal-Bench 2.0은 10pp 차이가 난다.

1swe-smith

+1.92

2stackexchange-superuser

+1.51

3stackexchange-tezos

+1.45

4issue-tasks

+1.37

95agenttuning-os

−2.31

3.5 교사 교사 모델 선택

강한 모델 ≠ 좋은 교사. GPT-5.3-Codex는 이 벤치마크에서 가장 강하지만 최약 교사로, GLM-4.7-AWQ보다 Terminal-Bench 2.0에서 약 5pp 낮다.

1GLM 4.7 (Quantized)

+0.73

2Kimi K2.5

+0.66

3GLM 5

+0.66

4GLM 4.6 (Quantized)

+0.08

5GPT-5.3-Codex

−1.47

3.2 혼합 과제 혼합

상위 4~8개 소스를 혼합하면 가장 균형 잡힌 성능을 내며, 과특화를 피해 혼합하지 않은 Top-1 기준을 능가한다.

1Top 4

+0.49

2Top 2

+0.48

3Top 8

+0.19

6Top 1 (비혼합)

−0.57

3.6 롤아웃 필터 에이전트 궤적 필터

더 긴 궤적을 유지하면 도움이 된다. 5턴 미만 제거가 가장 큰 향상을 낳는다. 동일 토큰 예산에서도 이득이 유지되어, 추가 연산이 아니라 다중 턴 감독 품질에서 비롯됨을 확인했다.

1최소 턴 ≥ 5

+1.25

2타임아웃 제거

−0.35

3서브에이전트 궤적 제거

−0.90

한편 과제 설명 증강(제약 추가·난도 강화·소스 결합)과 LLM 기반 필터도 검토했다. 증강은 모두 무증강 기준을 안정적으로 넘지 못해 잡음 범위에 머물렀다. 반면 GPT-5가 더 많은 토큰을 요구하는 과제로 필터링하면 모든 벤치마크에서 약 3pp 향상되어, 난이도 신호 기반 필터가 가장 큰 이득을 줬다.

SFT 데이터 확장 — 다양성이 병목이다

파이프라인 제거 실험 후 최종 파이프라인은 10K 데이터셋을 산출한다. 규모를 키우는 네 가지 방법을 검토한다.

METHOD 1 · 업샘플링

과제당 롤아웃 추가 — 31.6K에서 정체

같은 과제 설명으로 롤아웃을 더 생성한다. 31.6K~100K에서 성능이 정체(SWE-Bench +3pp, Terminal-Bench −2pp, 모두 표준오차 이내)되어, 과제 설명 다양성이 병목임을 시사한다.

METHOD 4 · 소스 추가

Top-4 너머는 도움이 안 된다

100K 규모에서 Top-8은 Top-4를 안정적으로 넘지 못하고, Top-16으로 넓히면 모든 벤치마크에서 오히려 손해다. 따라서 원래 Top-4 소스 조합을 유지한다.

METHOD 3 · 합성 증강 (채택)

업샘플링 정체를 넘어 계속 향상

고유 과제가 가장 적은 Tezos(고유 997개)를 합성 증강 버전으로 교체한다. 같은 997개 기본 문제에 명령 재작성 전략을 적용해 표면 형태를 약 902개에서 21K 이상으로 확장하되 새 근본 문제는 도입하지 않는다. gpt-5-nano 응답 길이 신호를 하드 필터가 아닌 업샘플링 가중치로 쓰고, 모든 소스에 5턴 이상 필터를 균일 적용한다. 더 큰 규모에서도 성능이 계속 향상되어, 증강이 다양성 병목을 극복함을 입증한다.

100K 규모에서 32B SFT 모델은 최고 성능에 도달한다 — Terminal-Bench 2.0 26.2%, OT-TBLite 41.3%, SWE-Bench Verified-100 55.7%로, 31.6K 대비 SWE-Bench +7.7pp, Terminal-Bench +5.0pp의 단조 향상을 보인다. 최종 100K 데이터셋이 OpenThoughts-Agent-v2다. 초기 4개 소스(합성 GitHub 이슈, 사람이 쓴 Linux 과제, 사람이 쓴 암호화폐 질문)에서 출발해 과제 설명을 반복·합성 증강하고, GLM-4.7-AWQ로 롤아웃을 생성한 뒤 5턴 미만 궤적을 제거한다.

결과 — 7개 벤치마크 SotA (≤32B 공개 데이터)

OpenThinkerAgent-32B는 평균 44.8%로 Qwen3 계열 이하 ≤32B 공개 데이터 모델 중 최강이다. SWE-Bench-Verified와 Terminal-Bench 2.0에서 전체 최고이며, 개발에 쓰지 않은 OOD 벤치마크에서도 잘 일반화한다. 모든 모델은 Qwen3-32B에서 학습됐다.

모델	학습 규모	방법	평균	SWE-Bench Verified	Terminal- Bench 2.0	Aider- Polyglot	BFCL- Parity	MedAgent Bench	GAIA- 127	Finance Agent
OpenThinkerAgent-32B	100K	SFT	44.8	54.0	26.2	32.4	85.9	47.8	23.6	44.0
Nemotron-Terminal-32B	264K	SFT	40.9	41.9	25.1	24.9	69.1	62.6	22.3	40.7
SWE-Lego-Qwen3-32B	18K	SFT	34.7	51.0	16.1	30.1	81.0	36.2	12.9	15.3
SERA-32B	25K	SFT	28.1	49.4	9.7	26.7	69.1	15.6	8.7	17.3
SA-SWE-32B	4.5K	RL	26.9	39.4	16.2	17.3	74.8	15.8	11.5	13.3
DeepSWE-Preview	4.5K	RL	26.7	42.2	4.9	27.3	77.2	8.7	16.5	10.0
Qwen3-32B (기준 모델)	—	—	22.8	29.1	7.5	28.9	68.3	6.8	9.7	9.3

각 셀은 두 하니스(terminus-2 / 모델 원본) 중 최댓값. 평균은 7개 벤치마크 기준. SWE-Bench-Verified·Terminal-Bench 2.0은 코어, 나머지는 OOD.

학습셋은 단지 규모 때문이 아니라 강한 확장 추세도 보인다 — 모든 학습셋 크기에서 연산 통제 비교(compute-controlled) 하에 다른 공개 데이터셋을 능가한다. 모델은 SWE-Bench Verified 54.0%, Terminal-Bench 2.0 26.2%로, Nemotron-Terminal-32B의 41.9%·25.1%를 넘는다.

강화학습 — SFT와 RL의 결합

연산을 통제하기 위해 RL은 8B 영역에 집중한다. RLOO 알고리즘과 검증기 성공에 대한 이진 보상으로 비동기 RL을 수행하며, GLM-4.7-AWQ 교사가 만든 SWE-Smith 궤적으로 학습한 distilled 8B 체크포인트(OT-Agent-ColdSFT)에서 시작한다.

5.2 RL 소스 RL 데이터 소스가 성능을 강하게 좌우한다

파이프라인을 고정하고 소스만 바꾼 8개 8B RL 실험. 성능은 잡음을 훨씬 넘는 7.6점 범위로 변동한다.

1pymethods2test

+1.73

2r2egym

+0.50

3nemotron-code-oracle

+0.22

4llm-verifier-freelancer

−0.24

6swesmith

−0.51

8nl2bash

−0.70

최강 소스 pymethods2test는 Codeforces·CodeChef·TopCoder 스타일 경쟁 프로그래밍 문제를 단일 함수 Python 계약으로 재구성한 것이다. 다중 파일 편집·저장소 탐색·셸 상태 누적이 없다. 참조 해답은 평균 약 20줄, 과제 설명은 약 200단어다. 재현성이 높고(낡은 GitHub 참조 없음), 사용성이 높으며(모든 과제가 같은 빌드 환경), 난이도 상한이 적절히 중간이다. 이 간결하지만 도전적인 과제가 cold-start 모델로 하여금 일관된 문제 해결 패턴을 채택하게 하며, RL 중에 사고·탐색적 도구 호출의 반복을 간결한 탐색·패치·제출 정책으로 대체한다.

ID / OOD 디커플링

단일 함수 정확성은 코어로 전이된다

합성·경쟁 프로그래밍 소스(inferredbugs, code-contests)는 ID에서 앞서고, 더 이질적인 도구 사용 소스(llm-verifier-freelancer, nl2bash)는 ID는 약해도 OOD에서 경쟁력이 있다. pymethods2test만이 양쪽 모두에서 정상에 있다.

5.3 결과 · 8B

"덜 학습된" SFT가 RL 이득이 크다

완전 사후학습(SFT+RL)은 두 코어 벤치마크와 전체 평균에서 기준을 능가하며, Qwen3-8B 기준 모델 대비 평균 18점 향상한다. 적은 데이터로 SFT한 모델이 더 나은 출발점이 되고, 순수 distilled·RL 단독 모델을 모두 능가한다. 에이전트 벤치마크에서 부진한 Qwen3-8B는 에이전트 RL의 이득을 받지 못한다.

RL이 학습하는 것 — 거동의 발현

동일 파이프라인에서 데이터 소스만 다른 두 RL 실험이 정반대의 거동 정책을 학습한다. pymethods2test "히어로" 실행은 확장하고, llm-verifier-freelancer "베이스라인" 실행은 압축한다. 미세조정 전/후 SWE-Bench-Verified 평가 궤적에서 측정했다.

HERO · pymethods2test

탐색의 확장 (정당한 탐색, 보상 해킹 아님)

think 토큰 / 궤적30.3 → 65.4 (+116%)

자기 교정 구문0.63 → 1.14 (+81%)

도구 호출 / 궤적31.3 → 40.9 (+31%)

평균 턴 / 궤적+12.9 (+32%)

호출당 도구 오류율+4.1pp (31.6→35.8%)

mark_task_complete 비중+1.1pp (조기 종료 아님)

LLM 심판이 30쌍 중 25쌍(83.3%)에서 미세조정 후 정책을 선호한다. 100개 공유 과제에서 18개를 실패→통과로 뒤집고, 단 1개만 퇴행한다.

BASELINE · llm-verifier-freelancer

전략의 압축 (기존 전략의 조임)

think 토큰 / 궤적−42%

자기 교정 구문19.7 → 8.0 (−59%)

도구 호출 / 궤적−8%

평균 턴 / 궤적−7.8 (−11%)

대화당 토큰+1% (거의 평탄)

RL 보상 궤적0.54 → 0.73 (단조 상승)

LLM 심판이 30쌍 중 22쌍(73.3%)에서 미세조정 후를 선호하나, 지배적 태그는 "도구 호출 감소"·"궤적 단축"이다. 압축은 OOD에는 도움이 되나 철저함을 보상하는 ID 코어에는 덜 전이된다.

두 실행은 동일 파이프라인(GLM-4.7 distilled SWE-Smith 8B 베이스, RLOO 레시피, 롤아웃 환경, 24×A100)을 공유하고 RL 데이터 소스만 다르다. 히어로의 확장은 약 35단계에서 정점을 찍은 뒤 붕괴하는 비단조 보상 곡선과 함께 나타나고(중간 영역의 적당하고 비포화된 보상이 "더 열심히 시도"하도록 보상하기 때문), 베이스라인의 압축은 매끄러운 단조 상승과 함께 나타난다. 배포 체크포인트는 붕괴 이전에서 취하며, 기준 정책 평가 보상을 약 두 배(0.33 대 0.19)로 끌어올린다.

결론 및 한계

에이전트는 과학·기술의 중심이 되어가지만, 학습 데이터 큐레이션 기법은 공개적으로 거의 알려져 있지 않다. 이 작업은 그 공백을 메운다.

6단계 SFT 데이터 큐레이션 파이프라인에 대한 통제된 제거 실험과 에이전트 RL 데이터에 대한 집중 연구를 수행한다. 그 결과물인 OpenThoughts-Agent-v2로 Qwen3-32B를 미세조정해 OpenThinker-Agent-32B를 만들며, 소프트웨어 공학·터미널 사용·도구 호출·의료·금융·범용 보조 과제를 아우르는 7개 벤치마크 평균에서 최강 ≤32B 공개 데이터 모델이 된다. 8B 규모에서는 SFT 데이터와 pymethods2test RL 데이터를 결합해 최강 ≤8B 기준을 추가로 능가하며, 에이전트 사후학습의 SFT와 RL 단계가 조합되도록 설계될 수 있다는 초기 증거를 제공한다. 데이터·파이프라인·모델을 openthoughts.ai에 공개한다.

RL은 8B 규모에서만. 연산 제약으로 RL 연구는 8B에 한정됐다. 같은 RL 레시피가 32B 영역으로 전이되는지는 미해결 문제로 남는다.

기준 모델 미제거. 모든 SFT 실행이 Qwen3 계열에서 시작하므로, 최종 성능에 대한 기준 모델 사전학습의 기여는 분리되지 않았다.

규모 외삽 미검증. 최대 학습셋은 100K 궤적이다. 관찰된 추세가 수백만 궤적 영역으로 외삽되는지는 검증되지 않았다.

광범위한 영향. 데이터·파이프라인·학습 모델의 공개는 과학적 진보를 가속하고 학계·독립 연구의 진입 장벽을 낮춘다. 다만 에이전트 모델은 본질적으로 이중 용도 기술이므로, 다운스트림 사용자는 적절한 샌드박싱과 인간 감독 하에 배포할 것을 권장한다.