AI 에이전트가 데이터 과학자 역할을 수행하여 고품질 학습·평가 데이터를 스스로 구축하고, 더 나아가 그 데이터 과학자 자신을 메타 최적화하는 일반화된 방법론이다.
AI 프런티어의 진전은 점점 더 고품질 학습 데이터와, 모델을 계속 도전시키는 벤치마크에 의존한다. 현재 AI 시스템의 출발점은 사람이 작성한 데이터지만, 성능 향상의 상당 부분은 모델 자신이 만든 합성 데이터에서 나오고 있다.
합성 데이터는 실제 코퍼스에서 과소대표되는 엣지 케이스와 롱테일 시나리오를 만들어내고, 수작업 라벨링의 난이도와 지연을 줄이며, 사람이 만든 분포보다 더 도전적인 데이터를 만들어낼 잠재력을 가진다. Self-Instruct는 제로샷·퓨샷 프롬프팅으로 합성 데이터를 만드는 방법으로 등장했고, Grounded Self-Instruct는 문서에 근거를 두어 환각을 줄이고 다양성을 높였다. CoT Self-Instruct는 생성 과정에 사고연쇄 추론을 도입해 더 복잡한 과제를 정확히 구성했으며, self-challenging 계열은 챌린저 에이전트가 도구를 사용한 뒤 과제와 평가 함수를 제안하게 했다.
기존 방법들은 어느 것도 데이터의 난이도와 품질을 직접 제어하지 못한다. 이것이 필터링·진화·정제 같은 접근을 부른 동기이며, Autodata는 이 모든 방법을 하나로 일반화한다.
Autodata는 사람 데이터 과학자가 취할 행동을 그대로 수행하는 에이전트를 상정한다. 초기 데이터 생성, 데이터를 "눈으로 훑어보는" 정성 분석과 성능 측정, 학습 내용 정리, 그리고 개선된 레시피로 더 나은 데이터를 다시 만드는 반복으로 구성된다. 학습 데이터와 벤치마크 데이터 모두가 활용 대상이다. 더 나아가 이 에이전트 시스템(바깥 루프)을 데이터 과학자(안쪽 루프)로서 최적이 되도록 메타 최적화하는 방법을 제시한다. 최근의 autoresearch 연구가 주로 아키텍처·학습 레시피 개선에 집중한 반면, Autodata는 데이터에 초점을 두는 것이 미래 진보에 동등하거나 더 중요한 역할을 하리라고 본다.
강력한 LLM이 등장할수록 기존 과제나 합성 데이터 방법이 충분히 도전적인 과제를 만들지 못한다는 우려가 커진다. Autodata는 에이전트형 데이터 생성을 통해 늘어난 추론 연산을 더 높은 품질의 모델 학습으로 전환하는 경로를 제공한다.
전체 루프는 네 개의 구성 요소로 이루어진다. 다양한 인스턴스가 이 템플릿에서 파생될 수 있다.
에이전트는 제공된 데이터(수학·법률·코딩 등 특정 문서나 유용한 데이터 소스)에 근거를 두고 데이터를 만든다. 도구, 이전에 습득한 스킬·학습 내용, 추론 시점 연산을 사용해 학습·평가 데이터를 생성한다. 이 생성 단계는 이후 분석과 학습을 거쳐 데이터를 더욱 개선하기 위해 반복될 수 있다.
생성한 데이터에 대해 무엇을 잘했고 무엇을 잘못했는지, 어떻게 개선할 수 있는지 학습 내용을 분석한다. 이는 개별 예시 수준(이 예시가 정확한가, 고품질인가, 충분히 도전적인가)일 수도 있고, 데이터셋 수준(샘플이 다양한가, 학습 데이터로 쓰면 모델을 개선하는가)일 수도 있다. 이 학습 내용은 다음 반복의 생성 과정으로 되먹임되어 정지 기준이 충족될 때까지 데이터를 개선한다.
에이전트는 데이터 품질에 만족할 때까지 생성과 분석 단계를 반복한 뒤 최종 학습 데이터셋 또는 벤치마크를 산출한다. 바깥 루프에는 해킹을 방지하기 위한 구체적 가드레일이 포함될 수 있다.
에이전트 자신도 더 나은 데이터 과학자가 되도록 최적화될 수 있다. 안쪽 루프와 동일한 기준(더 나은 데이터 생성)을 사용해 바깥 루프(에이전트 자체 최적화)를 이끄는 autoresearch 또는 meta-harness 스타일의 하니스 최적화가 한 가지 방법이다.
실험에서는 Autodata의 구체적이고 실용적인 구현인 Agentic Self-Instruct를 다룬다. 메인 오케스트레이터 에이전트는 네 개의 LLM 서브에이전트를 지휘한다. 목표는 강한 솔버는 성공하지만 약한 솔버는 고전하는 학습 데이터를 만드는 것이다.
메인 에이전트의 상세 프롬프트를 받아 학습 예시(맥락·질문·참조 답안·평가 루브릭)를 생성한다.
생성된 학습 데이터를 일반적으로 풀지 못할 것으로 기대되는 솔버. 학습 대상 모델이다.
생성된 데이터를 일반적으로 성공할 것으로 기대되는 솔버. 정답의 정당성을 보장한다.
예시와 모델 풀이를 받아 품질을 점검하고 학습 내용을 메인 에이전트로 되돌린다.
메인 에이전트는 근거 맥락을 포함한 초기 프롬프트를 챌린저에게 보내 예시를 만든다. 그 입력을 약한 솔버와 강한 솔버에 보내 챌린저 출력의 품질을 점검하고, 검증자의 판단을 근거로 보상을 부여한다. 검증 가능한 과제에서는 강한 솔버의 다수결이 정답이고 약한 솔버의 다수결이 오답일 것을 요구하는 방식이 있다. 검증 불가능한 과제에서는 심판이 측정한 품질 격차를 요구한다. 기준이 충족되지 않으면 새 학습 내용을 반영해 챌린저 프롬프트를 수정하고 기준이 충족될 때까지 새 예시를 만든다.
약한 솔버와 강한 솔버는 사실 같은 LLM의 서로 다른 모드일 수 있다. 강한 버전은 스캐폴딩·집계 같은 추론 시점 연산 증가, 또는 특권 정보 접근을 허용받는다.
컴퓨터과학 연구 과제, 법률 추론 과제, 수리 추론 과제 세 도메인에서 검증한다. 세 경우 모두 고전적 합성 데이터 생성 방법 대비 개선된 결과를 얻는다.
학술 CS 논문을 소재로 연구 질문에 답하는 과제다. 연구 질문은 개방형이라 루브릭 기반 평가가 필요하다. 챌린저는 맥락·질문·참조 답안과, LLM 심판이 참조 답안 없이도 응답을 채점할 수 있는 자기완결형 가중 루브릭을 생성한다. 메인 에이전트와 챌린저는 Kimi-K2.6, 강한 솔버는 Qwen3.5-397B-A17B, 약한 솔버는 Qwen3.5-4B를 사용한다.
| 지표 | CoT Self-Instruct | Agentic Self-Instruct |
|---|---|---|
| 약한 솔버 평균 | 0.677 | 0.458 |
| 강한 솔버 평균 | 0.696 | 0.772 |
| 격차 (강 − 약) | 0.019 | 0.314 |
| 에이전트 라운드 수 | 1.00 | 6.59 |
| 질문 길이 (자) | 723 | 619 |
| 루브릭 항목 수 | 13.2 | 13.1 |
수용 기준. 후보 질문은 강한 솔버 평균 ≥ 0.65, 약한 솔버 < 0.5, 강−약 격차 ≥ 20%p를 모두 만족할 때만 수용된다. 약한 솔버가 워낙 강하므로, 약한 솔버가 성공 기준을 통과할 때만 강한 솔버를 평가해 연산을 절약한다. S2ORC 코퍼스(2022년 이후)에서 1만 편 이상의 CS 논문을 처리해 2.8k 수용 예시를 만들었고, 최종 품질 검증자가 참조 누출·짧은 맥락·잘못된 루브릭을 걸러 1.3k 고품질 예시를 RL 학습용으로 보존했다.
수용된 질문 하나를 만드는 데 평균 6.59 라운드가 필요했고, 일부 논문은 10라운드를 넘기는 롱테일을 보였다. 수용 전 880개 라운드 중 실패 모드는 한쪽으로 크게 쏠려 있었다. 80%는 질문이 너무 쉬워 약한 솔버가 높은 점수를 받아 거부됐고, 13%는 강한 솔버조차 안정적으로 풀지 못해 거부됐다.
수렴한 논문에서도 처음 만든 질문이 그대로 채택되는 경우는 드물었다. 에이전트의 첫 시도는 보통 고수준 요약 질문이라 4B 솔버에게 쉬웠지만, 심판 피드백을 받은 이후 라운드는 질문을 구체적 알고리즘 단계, 절제 실험 세부, 논문의 실제 논증을 따라가야 하는 수치적 주장으로 옮겨갔다. 그 결과 약한 솔버 점수는 22점 하락(0.677→0.458)하고 강한 솔버 점수는 8점 상승(0.696→0.772)했다. 즉 에이전트형 루프는 두 모델 모두 답할 수 있는 질문이 아니라, 더 강한 모델 능력을 구체적으로 보상하는 질문을 만든다.
| 응답 모델 | CoT test mean@3 | CoT best@3 | Agentic mean@3 | Agentic best@3 |
|---|---|---|---|---|
| Qwen3.5-4B (RL 없음) | 0.630 | 0.758 | 0.366 | 0.484 |
| RL on CoT 데이터 | 0.727 | 0.853 | 0.500 | 0.631 |
| RL on Agentic 데이터 | 0.774 | 0.894 | 0.632 | 0.768 |
쉬운 CoT 테스트: 0.630→0.727(CoT)→0.774(Agentic). 어려운 Agentic 테스트: 0.366→0.500→0.632. Agentic-학습 모델은 양방향으로 전이된다(+0.05 / +0.13).
Agentic 방법은 시작부터 CoT 방법보다 높은 Kimi 보상을 보이고 학습이 진행될수록 간격이 벌어진다. 검증 패널에서도 두 테스트셋 모두에서 모든 체크포인트에서 CoT 방법과 같거나 이를 초과하는데, 이는 CoT 데이터가 자연스러운 동일 분포 선택인 테스트에서도 그렇다. Agentic 파이프라인이 만든 변별력 있는 학습 데이터가 더 강한 추론 성능으로 이어진다는 명확한 우위를 시사한다.
두 번째 설정으로 법률 추론 과제를 다룬다. CS에서는 초기 합성 데이터가 충분히 도전적이지 않았던 반면, 법률에서는 정반대 실패 모드를 만난다. 표준 CoT Self-Instruct가 만든 질문이 너무 어려워 다수 롤아웃이 0점을 받고, 이것이 RL 보상 신호를 해친다. 소재는 Pile of Law의 법원 의견과 공개 법률 문서이며 평가는 PRBench-Legal과 PRBench-Legal-Hard로 한다.
| 지표 | CoT Self-Instruct | Agentic Self-Instruct |
|---|---|---|
| 약한 솔버 평균 | 0.159 | 0.283 |
| 강한 솔버 평균 | 0.717 | 0.698 |
| 격차 (강 − 약) | 0.558 | 0.415 |
| 에이전트 라운드 수 | 1.00 | 4.98 |
| 질문 길이 (자) | 1,569 | 900 |
| 약 롤아웃 표준편차 | 7.93 | 12.63 |
CS의 하드코딩 수용 기준과 달리, 여기서는 고정 임계값 없는 유연한 루프 심판이 라운드 수용을 결정한다. 각 법률 문서는 먼저 추출 에이전트를 거쳐 구조화된 추출(주제 키워드·핵심 사실·판시)이 만들어진다. 챌린저는 추출에서 현실적인 법률 질문 하나와 가중 루브릭, 목표 역량 집합을 생성한다. 각 후보는 약한 솔버가 5회, 강한 솔버가 3회 롤아웃된다. 심판은 롤아웃별 패턴, 약/강 격차, 루브릭을 읽고 구조화된 판정(weak_pattern, strong_pattern, gap_interpretation, rubric_concerns, grpo_suitability)과 수용/개선 결정을 반환한다.
Agentic 루프는 약 롤아웃 분포를 재편한다. 격차는 55.8점에서 41.5점으로 오히려 좁혀지지만, 핵심은 프롬프트별 약 롤아웃 표준편차가 7.93에서 12.63으로 상승한 점이다. CoT 질문은 약 점수를 0 부근에 몰아넣어(평균 15.9%, 중앙값 10.7%), 그룹별 GRPO 어드밴티지를 0 근처로 만들어 학습 신호를 거의 주지 못한다. 루프는 약 평균을 28.3%로 끌어올리되 강은 거의 그대로 두어(71.7%→69.8%), 같은 격차를 쓸모 있는 분산 범위에 펼친다. 데이터를 더 어렵게 만드는 것이 아니라, 보상 신호를 재편해 더 학습 가능하게 만든다.
루프 심판은 라운드마다 grpo_suitability를 high/medium/low로 판정한다. CoT 풀에서는 4.8% high / 41% medium / 45% low인 반면, Agentic 풀에서는 52% high / 43% medium / 2% low로 뒤집힌다. 수용된 질문의 중앙값은 4라운드(평균 4.98, 최대 19)를 거치며, 단일 라운드로 끝나는 경우는 약 2%에 불과하다.
| 응답 모델 | GPT-5 Legal | GPT-5 Hard | Kimi Legal | Kimi Hard |
|---|---|---|---|---|
| Qwen3.5-4B (RL 없음) | 0.280 | 0.167 | 0.245 | 0.145 |
| Qwen3.5-397B (RL 없음) | 0.404 | 0.277 | 0.358 | 0.226 |
| RL on CoT 데이터 | 0.377 | 0.253 | 0.343 | 0.233 |
| RL on Agentic 데이터 | 0.441 | 0.315 | 0.393 | 0.266 |
Agentic-학습 4B는 동일 구조 CoT-학습 모델뿐 아니라 RL 없는 397B 강 솔버 베이스라인까지 두 분할 모두에서 능가한다. +0.05~0.06 우위는 동일한 2.8k 예산·챌린저·코퍼스에서 오직 에이전트 루프만 다른 결과다.
CoT 질문이 약한 솔버에게 너무 쉽다(격차 0.02). 도전적이지 않다는 우려. 루프가 격차를 넓힌다.
CoT 질문이 너무 어려워 다수가 0점(격차 0.56). 학습 신호가 가혹하다. 루프가 격차를 좁힌다.
두 과제는 정반대 실패 모드에 같은 루프를 적용하고 격차가 반대 방향으로 움직였지만, 하류 RL 결과는 동일하다. 핵심은 질문을 더 어렵게 만드는 것이 아니라, 모델이 언덕을 오를 수 있도록 딱 알맞게 만드는 것이다.
Principia 컬렉션과 같은 범주·도메인에서 수학적 객체를 다루는 도전적 문제를 구성한다. 약한 솔버는 Qwen3.5-4B(실제로는 Principia의 많은 문제를 푸는 유능한 추론 모델), 강한 솔버는 Qwen3.5-397B-A17B, 메인·챌린저는 Kimi-K2.6이다. 세 데이터 소스를 비교한다: CoT Self-Instruct(Principia 원문), Agentic, 그리고 둘을 합친 Combined(2배 크기). 각 소스는 9k 학습 + 1k 평가이며 Combined는 18k다.
| 평가 부분집합 (avg@8) | Base 4B | CoT Δ | Agentic Δ | Combined Δ |
|---|---|---|---|---|
| Overall | 68.66% | +2.42 | +3.20 | +2.70 |
| Agentic 부분집합 | 52.39% | +3.94 | +4.40 | +3.49 |
| CoT 부분집합 | 77.17% | +1.86 | +3.05 | +2.49 |
Agentic 데이터는 명시적으로 최적화하지 않은 CoT 검증 부분집합에서도 +3.05%로 가장 큰 개선을 보인다. 더 어려운 문제로 학습한 것이 더 쉬운 문제로 전이된다.
| 범주 | 항목 | Base 4B | CoT Δ | Agentic Δ | Combined Δ |
|---|---|---|---|---|---|
| Overall | 2113 | 50.43% | +0.67 | +1.04 | +0.74 |
| ARB | 47 | 81.91% | +1.87 | −1.59 | +1.33 |
| Physics | 110 | 66.22% | −0.31 | +0.83 | +0.03 |
| RealMath | 632 | 33.68% | +1.57 | +1.75 | +1.29 |
| SuperGPQA | 1324 | 56.00% | +0.28 | +0.82 | +0.50 |
pass@8에서는 더 미묘한 그림이 나타난다. Combined 데이터는 ARB(+2.13%)와 RealMath(+2.37%) 같은 일부 범주에서 우위를 보인다. Agentic이 도전적 문제를 더 안정적으로 풀게 해 평균 성능을 높이는 반면, Combined의 더 큰 다양성과 크기는 더 넓은 범위의 문제를 가끔 풀게 도울 수 있다. Qwen3.5-4B가 이 분포에서 용량 한계에 가까워졌을 가능성이 있으며, 더 큰 모델이라면 두 지표 모두에서 동시 이득을 얻을 수 있다.
추론 시점 연산을 더 높은 품질·난이도의 합성 데이터 생성에 투자하는 것이 단순히 데이터셋 크기를 키우는 것보다 효과적일 수 있다. 또한 학습은 추론 절단율을 크게 줄였으며(65,536 토큰 예산에서 23.75% → 4.09%), 정확도 개선의 약 절반이 토큰 효율적 추론에 기인한다.
지금까지는 고정된 Agentic Self-Instruct 프레임워크를 사용했다. 이제 안쪽 루프와 동일한 평가 기준으로 바깥 루프 — 에이전트의 프롬프트와 전략 — 를 메타 최적화한다. 에이전트 스캐폴드를 반복적으로 개선되는 코드로 다루는 진화 최적화 프레임워크를 사용한다.
메타 최적화는 CS 연구 논문 과제를 대상으로 한다. Kimi-K2.6이 분석자(궤적을 읽어 실패 패턴 진단)와 구현자(프롬프트 수정) 모두를 맡고, 50편 학습 논문과 25편 검증 논문을 사용한다. 생성된 QA 쌍은 약한 솔버 ≤65%, 최고 약 시도 ≤75%, 강한 솔버 60~95%, 강−약 격차 ≥20%p를 모두 만족할 때 성공으로 본다. 최적화기는 궤적 분석을 통해 일반적인 답변과 루브릭 형식 오류가 분리 실패의 주원인임을 식별했다.
62.1%에서 79.6%로의 진전은, 데이터 과학자 에이전트의 지시문을 메타 최적화하면 수작업 프롬프트 엔지니어링 없이도 데이터 품질을 크게 개선할 수 있음을 보여준다. 다만 절대 수치는 서로 다른 능력 수준의 모델을 안정적으로 분리하는 질문 생성이 여전히 어렵다는 점도 드러낸다.
65,536 토큰 추론 예산에서, 베이스 Qwen3.5-4B는 높은 절단율을 보인다(결합 검증 23.75%, Principia 17.06%). 학습은 이를 크게 줄여 Agentic은 각각 4.09%, 1.85%까지 낮춘다. 정확도 개선의 원천을 분석하면(815 QA × 8 생성), Agentic의 경우 뒤집힌 945개 생성 중 54.81%가 절단 해소에, 41.06%가 비절단 추론 개선에 기인한다. 즉 장문 추론 모델은 추론 능력이 부족해서가 아니라, 사고연쇄를 끝내기 전에 토큰이 고갈되어 실패하는 경우가 많다.
| 모델 | Combined-Val | Principia Bench |
|---|---|---|
| Qwen3.5-4B (base) | 23.75% | 17.06% |
| + Grounding | 10.00% | 6.62% |
| + Agentic | 4.09% | 1.85% |
| + Combined | 3.37% | 1.67% |
생성 질문의 추론 요구를 파악하기 위해 검증된 QA 1,000개를 표집해 Kimi-K2.6 2단계 주석(분류체계 발견 → 주석)을 수행했고, 687개가 유효 주석을 받았다. 11개 유형을 추론·지식·혼합 세 범주로 묶는다.
| 범주 | 설명 | 건수 | 비율 |
|---|---|---|---|
| 추론 (Reasoning) | 다단계 도출·분석·증명 | 357 | 52.0% |
| 혼합 (Mixed) | 도메인 지식 + 절차·모델링 | 191 | 27.8% |
| 지식 (Knowledge) | 회상·직접 공식 적용 | 139 | 20.2% |
약 절반이 추론 우세, 약 1/4이 혼합, 1/5이 지식 지향이다. 단순 회상보다 다단계 추론을 강조하는 질문을 생성한다는 목표에 부합한다.
부록 C는 각 파이프라인을 구동하는 서브에이전트 프롬프트를 수록한다. CS 파이프라인은 세 서브에이전트(메인·챌린저·품질 검증자)를, 법률 파이프라인은 네 서브에이전트(메인·추출자·질문/루브릭 작성자·루프 심판)를 사용한다.
챌린저→품질검증→evaluate_rubric.py 루프를 돌리며 수용을 결정한다. QV 통과 모든 질문에 평가를 반드시 실행한다.
논문을 읽고 회상이 아닌 추론(예측·제약 하 결정·다요인 상호작용)을 요구하는 질문과 10~15개 가중 루브릭을 생성한다.
맥락 누출, 회상 대 추론, 루브릭 형식을 점검한다. 양수 ≥4·음수 ≥3·총 10~20개 기준을 강제한다.
문서를 법원(法源)으로 삼아 새 시나리오를 발명하고, 의뢰인 목소리의 질문과 15~25개 역량 태그 루브릭을 작성한다.
법률 루프 심판은 GRPO 적합성의 핵심 속성이 롤아웃 분산임을 추론한다. 모든 롤아웃이 같은 점수(전부 0, 전부 100, 또는 밀집)면 기울기 신호가 없어 학습 단계가 낭비된다. 불확실하면 개선(improve)으로 기운다. 강한 솔버가 루브릭의 70~90%를 쉽게 맞히면 단일 교리·회상 고정 질문이라는 신호이며, 다교리·모호한 사실·대안 형량으로의 전환을 처방한다. 루브릭 완화는 개선이 아니라 게이밍이다.