에이전트형 언어 모델은 AI의 응용 범위를 극적으로 넓힌다. 그러나 광범위하게 유능한 에이전트를 위한 학습 데이터를 어떻게 큐레이션하는지는 공개적으로 거의 알려져 있지 않다. SWE-Smith·SERA·Nemotron-Terminal 같은 기존 공개 시도는 대개 단일 벤치마크만 겨냥한다. OpenThoughts-Agent(OT-Agent) 프로젝트는 에이전트 모델 학습을 위한 완전 공개 데이터 큐레이션 파이프라인으로 이 공백을 메운다.
에이전트형 모델은 단순 질의응답을 넘어 컴퓨터를 정교하게 사용하는 광범위한 복잡 과제를 수행한다. Claude Code·Codex·OpenClaw 같은 AI 에이전트가 빠르게 보급되었다. 그러나 최신 에이전트 모델, 특히 학습 데이터를 어떻게 만드는지에 대한 공개 정보는 거의 없다.
DeepSeekV4가 그 예다. 가중치는 공개되고 논문은 50쪽이 넘지만, 학습 데이터는 단 두 문단으로 고수준 설명만 한다.
OT-Agent는 선행 OpenThoughts 작업의 통찰 위에서, 여러 에이전트 벤치마크에 걸쳐 성능을 높이는 것을 목표로 지도 미세조정(SFT) 사후학습 데이터에 집중한다. 첫 번째 기여는 에이전트 SFT 데이터를 위한 포괄적 큐레이션 파이프라인이며, 그 위에서 100회 이상의 제거 실험을 수행한다. 실험은 다음 핵심 발견으로 이어진다.
추론 데이터와 마찬가지로, 명령(instruction)의 선택이 데이터 파이프라인에서 가장 중요한 요인 중 하나다.
벤치마크 성능이 가장 강한 모델이 반드시 최고의 교사(teacher)는 아니다.
모델 턴(turn)이 더 많은 실행 궤적을 남기도록 학습 데이터를 필터링하면 결과 학습셋이 개선된다.
상위 소수 소스의 반복은 대규모 학습에서 수익 체감을 낳으므로, 다양성을 위해 데이터 소스를 확장한다.
목표는 코딩·터미널 에이전트의 지도 미세조정을 위한 최고의 (task, trajectory) 쌍 데이터셋을 만드는 것이다. 각 단계를 독립적으로 제거 실험하고, 세 벤치마크에 걸친 평균 z-점수로 최고 전략을 선택한다. 기본 설정으로 GLM-4.7-AWQ가 terminus-2 하니스에서 교사 역할을 하며, 10,000 규모 데이터셋으로 실험한다.
초기 소스에서 과제 설명 수집
상위 N개 소스 비율 조정
난이도 신호로 과제 선별
교사 모델로 궤적 생성
저품질 궤적 제거
교사 선택·최종 조합
한편 과제 설명 증강(제약 추가·난도 강화·소스 결합)과 LLM 기반 필터도 검토했다. 증강은 모두 무증강 기준을 안정적으로 넘지 못해 잡음 범위에 머물렀다. 반면 GPT-5가 더 많은 토큰을 요구하는 과제로 필터링하면 모든 벤치마크에서 약 3pp 향상되어, 난이도 신호 기반 필터가 가장 큰 이득을 줬다.
파이프라인 제거 실험 후 최종 파이프라인은 10K 데이터셋을 산출한다. 규모를 키우는 네 가지 방법을 검토한다.
같은 과제 설명으로 롤아웃을 더 생성한다. 31.6K~100K에서 성능이 정체(SWE-Bench +3pp, Terminal-Bench −2pp, 모두 표준오차 이내)되어, 과제 설명 다양성이 병목임을 시사한다.
100K 규모에서 Top-8은 Top-4를 안정적으로 넘지 못하고, Top-16으로 넓히면 모든 벤치마크에서 오히려 손해다. 따라서 원래 Top-4 소스 조합을 유지한다.
고유 과제가 가장 적은 Tezos(고유 997개)를 합성 증강 버전으로 교체한다. 같은 997개 기본 문제에 명령 재작성 전략을 적용해 표면 형태를 약 902개에서 21K 이상으로 확장하되 새 근본 문제는 도입하지 않는다. gpt-5-nano 응답 길이 신호를 하드 필터가 아닌 업샘플링 가중치로 쓰고, 모든 소스에 5턴 이상 필터를 균일 적용한다. 더 큰 규모에서도 성능이 계속 향상되어, 증강이 다양성 병목을 극복함을 입증한다.
100K 규모에서 32B SFT 모델은 최고 성능에 도달한다 — Terminal-Bench 2.0 26.2%, OT-TBLite 41.3%, SWE-Bench Verified-100 55.7%로, 31.6K 대비 SWE-Bench +7.7pp, Terminal-Bench +5.0pp의 단조 향상을 보인다. 최종 100K 데이터셋이 OpenThoughts-Agent-v2다. 초기 4개 소스(합성 GitHub 이슈, 사람이 쓴 Linux 과제, 사람이 쓴 암호화폐 질문)에서 출발해 과제 설명을 반복·합성 증강하고, GLM-4.7-AWQ로 롤아웃을 생성한 뒤 5턴 미만 궤적을 제거한다.
OpenThinkerAgent-32B는 평균 44.8%로 Qwen3 계열 이하 ≤32B 공개 데이터 모델 중 최강이다. SWE-Bench-Verified와 Terminal-Bench 2.0에서 전체 최고이며, 개발에 쓰지 않은 OOD 벤치마크에서도 잘 일반화한다. 모든 모델은 Qwen3-32B에서 학습됐다.
| 모델 | 학습 규모 | 방법 | 평균 | SWE-Bench Verified | Terminal- Bench 2.0 |
Aider- Polyglot | BFCL- Parity | MedAgent Bench | GAIA- 127 | Finance Agent |
|---|---|---|---|---|---|---|---|---|---|---|
| OpenThinkerAgent-32B | 100K | SFT | 44.8 | 54.0 | 26.2 | 32.4 | 85.9 | 47.8 | 23.6 | 44.0 |
| Nemotron-Terminal-32B | 264K | SFT | 40.9 | 41.9 | 25.1 | 24.9 | 69.1 | 62.6 | 22.3 | 40.7 |
| SWE-Lego-Qwen3-32B | 18K | SFT | 34.7 | 51.0 | 16.1 | 30.1 | 81.0 | 36.2 | 12.9 | 15.3 |
| SERA-32B | 25K | SFT | 28.1 | 49.4 | 9.7 | 26.7 | 69.1 | 15.6 | 8.7 | 17.3 |
| SA-SWE-32B | 4.5K | RL | 26.9 | 39.4 | 16.2 | 17.3 | 74.8 | 15.8 | 11.5 | 13.3 |
| DeepSWE-Preview | 4.5K | RL | 26.7 | 42.2 | 4.9 | 27.3 | 77.2 | 8.7 | 16.5 | 10.0 |
| Qwen3-32B (기준 모델) | — | — | 22.8 | 29.1 | 7.5 | 28.9 | 68.3 | 6.8 | 9.7 | 9.3 |
각 셀은 두 하니스(terminus-2 / 모델 원본) 중 최댓값. 평균은 7개 벤치마크 기준. SWE-Bench-Verified·Terminal-Bench 2.0은 코어, 나머지는 OOD.
학습셋은 단지 규모 때문이 아니라 강한 확장 추세도 보인다 — 모든 학습셋 크기에서 연산 통제 비교(compute-controlled) 하에 다른 공개 데이터셋을 능가한다. 모델은 SWE-Bench Verified 54.0%, Terminal-Bench 2.0 26.2%로, Nemotron-Terminal-32B의 41.9%·25.1%를 넘는다.
연산을 통제하기 위해 RL은 8B 영역에 집중한다. RLOO 알고리즘과 검증기 성공에 대한 이진 보상으로 비동기 RL을 수행하며, GLM-4.7-AWQ 교사가 만든 SWE-Smith 궤적으로 학습한 distilled 8B 체크포인트(OT-Agent-ColdSFT)에서 시작한다.
최강 소스 pymethods2test는 Codeforces·CodeChef·TopCoder 스타일 경쟁 프로그래밍 문제를 단일 함수 Python 계약으로 재구성한 것이다. 다중 파일 편집·저장소 탐색·셸 상태 누적이 없다. 참조 해답은 평균 약 20줄, 과제 설명은 약 200단어다. 재현성이 높고(낡은 GitHub 참조 없음), 사용성이 높으며(모든 과제가 같은 빌드 환경), 난이도 상한이 적절히 중간이다. 이 간결하지만 도전적인 과제가 cold-start 모델로 하여금 일관된 문제 해결 패턴을 채택하게 하며, RL 중에 사고·탐색적 도구 호출의 반복을 간결한 탐색·패치·제출 정책으로 대체한다.
합성·경쟁 프로그래밍 소스(inferredbugs, code-contests)는 ID에서 앞서고, 더 이질적인 도구 사용 소스(llm-verifier-freelancer, nl2bash)는 ID는 약해도 OOD에서 경쟁력이 있다. pymethods2test만이 양쪽 모두에서 정상에 있다.
완전 사후학습(SFT+RL)은 두 코어 벤치마크와 전체 평균에서 기준을 능가하며, Qwen3-8B 기준 모델 대비 평균 18점 향상한다. 적은 데이터로 SFT한 모델이 더 나은 출발점이 되고, 순수 distilled·RL 단독 모델을 모두 능가한다. 에이전트 벤치마크에서 부진한 Qwen3-8B는 에이전트 RL의 이득을 받지 못한다.
동일 파이프라인에서 데이터 소스만 다른 두 RL 실험이 정반대의 거동 정책을 학습한다. pymethods2test "히어로" 실행은 확장하고, llm-verifier-freelancer "베이스라인" 실행은 압축한다. 미세조정 전/후 SWE-Bench-Verified 평가 궤적에서 측정했다.
LLM 심판이 30쌍 중 25쌍(83.3%)에서 미세조정 후 정책을 선호한다. 100개 공유 과제에서 18개를 실패→통과로 뒤집고, 단 1개만 퇴행한다.
LLM 심판이 30쌍 중 22쌍(73.3%)에서 미세조정 후를 선호하나, 지배적 태그는 "도구 호출 감소"·"궤적 단축"이다. 압축은 OOD에는 도움이 되나 철저함을 보상하는 ID 코어에는 덜 전이된다.
두 실행은 동일 파이프라인(GLM-4.7 distilled SWE-Smith 8B 베이스, RLOO 레시피, 롤아웃 환경, 24×A100)을 공유하고 RL 데이터 소스만 다르다. 히어로의 확장은 약 35단계에서 정점을 찍은 뒤 붕괴하는 비단조 보상 곡선과 함께 나타나고(중간 영역의 적당하고 비포화된 보상이 "더 열심히 시도"하도록 보상하기 때문), 베이스라인의 압축은 매끄러운 단조 상승과 함께 나타난다. 배포 체크포인트는 붕괴 이전에서 취하며, 기준 정책 평가 보상을 약 두 배(0.33 대 0.19)로 끌어올린다.
에이전트는 과학·기술의 중심이 되어가지만, 학습 데이터 큐레이션 기법은 공개적으로 거의 알려져 있지 않다. 이 작업은 그 공백을 메운다.
6단계 SFT 데이터 큐레이션 파이프라인에 대한 통제된 제거 실험과 에이전트 RL 데이터에 대한 집중 연구를 수행한다. 그 결과물인 OpenThoughts-Agent-v2로 Qwen3-32B를 미세조정해 OpenThinker-Agent-32B를 만들며, 소프트웨어 공학·터미널 사용·도구 호출·의료·금융·범용 보조 과제를 아우르는 7개 벤치마크 평균에서 최강 ≤32B 공개 데이터 모델이 된다. 8B 규모에서는 SFT 데이터와 pymethods2test RL 데이터를 결합해 최강 ≤8B 기준을 추가로 능가하며, 에이전트 사후학습의 SFT와 RL 단계가 조합되도록 설계될 수 있다는 초기 증거를 제공한다. 데이터·파이프라인·모델을 openthoughts.ai에 공개한다.
RL은 8B 규모에서만. 연산 제약으로 RL 연구는 8B에 한정됐다. 같은 RL 레시피가 32B 영역으로 전이되는지는 미해결 문제로 남는다.
기준 모델 미제거. 모든 SFT 실행이 Qwen3 계열에서 시작하므로, 최종 성능에 대한 기준 모델 사전학습의 기여는 분리되지 않았다.
규모 외삽 미검증. 최대 학습셋은 100K 궤적이다. 관찰된 추세가 수백만 궤적 영역으로 외삽되는지는 검증되지 않았다.
광범위한 영향. 데이터·파이프라인·학습 모델의 공개는 과학적 진보를 가속하고 학계·독립 연구의 진입 장벽을 낮춘다. 다만 에이전트 모델은 본질적으로 이중 용도 기술이므로, 다운스트림 사용자는 적절한 샌드박싱과 인간 감독 하에 배포할 것을 권장한다.