arXiv:2606.25996v2 · cs.AI FAIR at Meta 2026.06.26

Autodata
데이터를 만드는 데이터 과학자

AI 에이전트가 데이터 과학자 역할을 수행하여 고품질 학습·평가 데이터를 스스로 구축하고, 더 나아가 그 데이터 과학자 자신을 메타 최적화하는 일반화된 방법론이다.

주저자 Kulikov · Whitehouse · Wu · Nie 핵심 구현 Agentic Self-Instruct 실험 도메인 CS 연구 · 법률 추론 · 수리 추론

Figure 1 · 데이터 생성 → 정성 점검 → 정량 평가 → 통찰 종합 → 레시피 갱신을 반복하는 데이터 과학자 루프. 바깥 루프는 에이전트 자신을 같은 기준으로 메타 최적화한다.

서론

AI 프런티어의 진전은 점점 더 고품질 학습 데이터와, 모델을 계속 도전시키는 벤치마크에 의존한다. 현재 AI 시스템의 출발점은 사람이 작성한 데이터지만, 성능 향상의 상당 부분은 모델 자신이 만든 합성 데이터에서 나오고 있다.

합성 데이터는 실제 코퍼스에서 과소대표되는 엣지 케이스와 롱테일 시나리오를 만들어내고, 수작업 라벨링의 난이도와 지연을 줄이며, 사람이 만든 분포보다 더 도전적인 데이터를 만들어낼 잠재력을 가진다. Self-Instruct는 제로샷·퓨샷 프롬프팅으로 합성 데이터를 만드는 방법으로 등장했고, Grounded Self-Instruct는 문서에 근거를 두어 환각을 줄이고 다양성을 높였다. CoT Self-Instruct는 생성 과정에 사고연쇄 추론을 도입해 더 복잡한 과제를 정확히 구성했으며, self-challenging 계열은 챌린저 에이전트가 도구를 사용한 뒤 과제와 평가 함수를 제안하게 했다.

핵심 문제의식

기존 방법들은 어느 것도 데이터의 난이도와 품질을 직접 제어하지 못한다. 이것이 필터링·진화·정제 같은 접근을 부른 동기이며, Autodata는 이 모든 방법을 하나로 일반화한다.

Autodata는 사람 데이터 과학자가 취할 행동을 그대로 수행하는 에이전트를 상정한다. 초기 데이터 생성, 데이터를 "눈으로 훑어보는" 정성 분석과 성능 측정, 학습 내용 정리, 그리고 개선된 레시피로 더 나은 데이터를 다시 만드는 반복으로 구성된다. 학습 데이터와 벤치마크 데이터 모두가 활용 대상이다. 더 나아가 이 에이전트 시스템(바깥 루프)을 데이터 과학자(안쪽 루프)로서 최적이 되도록 메타 최적화하는 방법을 제시한다. 최근의 autoresearch 연구가 주로 아키텍처·학습 레시피 개선에 집중한 반면, Autodata는 데이터에 초점을 두는 것이 미래 진보에 동등하거나 더 중요한 역할을 하리라고 본다.

강력한 LLM이 등장할수록 기존 과제나 합성 데이터 방법이 충분히 도전적인 과제를 만들지 못한다는 우려가 커진다. Autodata는 에이전트형 데이터 생성을 통해 늘어난 추론 연산을 더 높은 품질의 모델 학습으로 전환하는 경로를 제공한다.

Autodata 프레임워크

전체 루프는 네 개의 구성 요소로 이루어진다. 다양한 인스턴스가 이 템플릿에서 파생될 수 있다.

데이터 생성 Data Creation

에이전트는 제공된 데이터(수학·법률·코딩 등 특정 문서나 유용한 데이터 소스)에 근거를 두고 데이터를 만든다. 도구, 이전에 습득한 스킬·학습 내용, 추론 시점 연산을 사용해 학습·평가 데이터를 생성한다. 이 생성 단계는 이후 분석과 학습을 거쳐 데이터를 더욱 개선하기 위해 반복될 수 있다.

데이터 분석 Data Analysis

생성한 데이터에 대해 무엇을 잘했고 무엇을 잘못했는지, 어떻게 개선할 수 있는지 학습 내용을 분석한다. 이는 개별 예시 수준(이 예시가 정확한가, 고품질인가, 충분히 도전적인가)일 수도 있고, 데이터셋 수준(샘플이 다양한가, 학습 데이터로 쓰면 모델을 개선하는가)일 수도 있다. 이 학습 내용은 다음 반복의 생성 과정으로 되먹임되어 정지 기준이 충족될 때까지 데이터를 개선한다.

데이터 과학자 루프 Data Scientist Loop

에이전트는 데이터 품질에 만족할 때까지 생성과 분석 단계를 반복한 뒤 최종 학습 데이터셋 또는 벤치마크를 산출한다. 바깥 루프에는 해킹을 방지하기 위한 구체적 가드레일이 포함될 수 있다.

데이터 과학자의 메타 최적화 Meta-Optimization

에이전트 자신도 더 나은 데이터 과학자가 되도록 최적화될 수 있다. 안쪽 루프와 동일한 기준(더 나은 데이터 생성)을 사용해 바깥 루프(에이전트 자체 최적화)를 이끄는 autoresearch 또는 meta-harness 스타일의 하니스 최적화가 한 가지 방법이다.

— Agentic Self-Instruct —

2.1

구체적 구현: Agentic Self-Instruct

실험에서는 Autodata의 구체적이고 실용적인 구현인 Agentic Self-Instruct를 다룬다. 메인 오케스트레이터 에이전트는 네 개의 LLM 서브에이전트를 지휘한다. 목표는 강한 솔버는 성공하지만 약한 솔버는 고전하는 학습 데이터를 만드는 것이다.

CHALLENGER

챌린저

메인 에이전트의 상세 프롬프트를 받아 학습 예시(맥락·질문·참조 답안·평가 루브릭)를 생성한다.

WEAK SOLVER

약한 솔버

생성된 학습 데이터를 일반적으로 풀지 못할 것으로 기대되는 솔버. 학습 대상 모델이다.

STRONG SOLVER

강한 솔버

생성된 데이터를 일반적으로 성공할 것으로 기대되는 솔버. 정답의 정당성을 보장한다.

VERIFIER / JUDGE

검증자 / 심판

예시와 모델 풀이를 받아 품질을 점검하고 학습 내용을 메인 에이전트로 되돌린다.

메인 에이전트는 근거 맥락을 포함한 초기 프롬프트를 챌린저에게 보내 예시를 만든다. 그 입력을 약한 솔버와 강한 솔버에 보내 챌린저 출력의 품질을 점검하고, 검증자의 판단을 근거로 보상을 부여한다. 검증 가능한 과제에서는 강한 솔버의 다수결이 정답이고 약한 솔버의 다수결이 오답일 것을 요구하는 방식이 있다. 검증 불가능한 과제에서는 심판이 측정한 품질 격차를 요구한다. 기준이 충족되지 않으면 새 학습 내용을 반영해 챌린저 프롬프트를 수정하고 기준이 충족될 때까지 새 예시를 만든다.

설계 노트

약한 솔버와 강한 솔버는 사실 같은 LLM의 서로 다른 모드일 수 있다. 강한 버전은 스캐폴딩·집계 같은 추론 시점 연산 증가, 또는 특권 정보 접근을 허용받는다.

실험

컴퓨터과학 연구 과제, 법률 추론 과제, 수리 추론 과제 세 도메인에서 검증한다. 세 경우 모두 고전적 합성 데이터 생성 방법 대비 개선된 결과를 얻는다.

3.1 컴퓨터과학 연구 과제 rubric-based

학술 CS 논문을 소재로 연구 질문에 답하는 과제다. 연구 질문은 개방형이라 루브릭 기반 평가가 필요하다. 챌린저는 맥락·질문·참조 답안과, LLM 심판이 참조 답안 없이도 응답을 채점할 수 있는 자기완결형 가중 루브릭을 생성한다. 메인 에이전트와 챌린저는 Kimi-K2.6, 강한 솔버는 Qwen3.5-397B-A17B, 약한 솔버는 Qwen3.5-4B를 사용한다.

Table 1 · CS 연구 과제 생성 품질 통계 — CoT vs Agentic (Kimi-K2.6 채점, 4B-약/397B-강)

지표	CoT Self-Instruct	Agentic Self-Instruct
약한 솔버 평균	0.677	0.458
강한 솔버 평균	0.696	0.772
격차 (강 − 약)	0.019	0.314
에이전트 라운드 수	1.00	6.59
질문 길이 (자)	723	619
루브릭 항목 수	13.2	13.1

수용 기준. 후보 질문은 강한 솔버 평균 ≥ 0.65, 약한 솔버 < 0.5, 강−약 격차 ≥ 20%p를 모두 만족할 때만 수용된다. 약한 솔버가 워낙 강하므로, 약한 솔버가 성공 기준을 통과할 때만 강한 솔버를 평가해 연산을 절약한다. S2ORC 코퍼스(2022년 이후)에서 1만 편 이상의 CS 논문을 처리해 2.8k 수용 예시를 만들었고, 최종 품질 검증자가 참조 누출·짧은 맥락·잘못된 루브릭을 걸러 1.3k 고품질 예시를 RL 학습용으로 보존했다.

3.1.1 생성 루프 분석

수용된 질문 하나를 만드는 데 평균 6.59 라운드가 필요했고, 일부 논문은 10라운드를 넘기는 롱테일을 보였다. 수용 전 880개 라운드 중 실패 모드는 한쪽으로 크게 쏠려 있었다. 80%는 질문이 너무 쉬워 약한 솔버가 높은 점수를 받아 거부됐고, 13%는 강한 솔버조차 안정적으로 풀지 못해 거부됐다.

수렴한 논문에서도 처음 만든 질문이 그대로 채택되는 경우는 드물었다. 에이전트의 첫 시도는 보통 고수준 요약 질문이라 4B 솔버에게 쉬웠지만, 심판 피드백을 받은 이후 라운드는 질문을 구체적 알고리즘 단계, 절제 실험 세부, 논문의 실제 논증을 따라가야 하는 수치적 주장으로 옮겨갔다. 그 결과 약한 솔버 점수는 22점 하락(0.677→0.458)하고 강한 솔버 점수는 8점 상승(0.696→0.772)했다. 즉 에이전트형 루프는 두 모델 모두 답할 수 있는 질문이 아니라, 더 강한 모델 능력을 구체적으로 보상하는 질문을 만든다.

Table 2 · CS RL 학습 결과 — Qwen3.5-4B, GRPO 1.3k, step 200, Kimi-K2.6 채점

응답 모델	CoT test mean@3	CoT best@3	Agentic mean@3	Agentic best@3
Qwen3.5-4B (RL 없음)	0.630	0.758	0.366	0.484
RL on CoT 데이터	0.727	0.853	0.500	0.631
RL on Agentic 데이터	0.774	0.894	0.632	0.768

쉬운 CoT 테스트: 0.630→0.727(CoT)→0.774(Agentic). 어려운 Agentic 테스트: 0.366→0.500→0.632. Agentic-학습 모델은 양방향으로 전이된다(+0.05 / +0.13).

Agentic 방법은 시작부터 CoT 방법보다 높은 Kimi 보상을 보이고 학습이 진행될수록 간격이 벌어진다. 검증 패널에서도 두 테스트셋 모두에서 모든 체크포인트에서 CoT 방법과 같거나 이를 초과하는데, 이는 CoT 데이터가 자연스러운 동일 분포 선택인 테스트에서도 그렇다. Agentic 파이프라인이 만든 변별력 있는 학습 데이터가 더 강한 추론 성능으로 이어진다는 명확한 우위를 시사한다.

3.2 법률 추론 과제 opposite failure mode

두 번째 설정으로 법률 추론 과제를 다룬다. CS에서는 초기 합성 데이터가 충분히 도전적이지 않았던 반면, 법률에서는 정반대 실패 모드를 만난다. 표준 CoT Self-Instruct가 만든 질문이 너무 어려워 다수 롤아웃이 0점을 받고, 이것이 RL 보상 신호를 해친다. 소재는 Pile of Law의 법원 의견과 공개 법률 문서이며 평가는 PRBench-Legal과 PRBench-Legal-Hard로 한다.

Table 3 · 법률 과제 생성 품질 통계 — CoT vs Agentic

지표	CoT Self-Instruct	Agentic Self-Instruct
약한 솔버 평균	0.159	0.283
강한 솔버 평균	0.717	0.698
격차 (강 − 약)	0.558	0.415
에이전트 라운드 수	1.00	4.98
질문 길이 (자)	1,569	900
약 롤아웃 표준편차	7.93	12.63

CS의 하드코딩 수용 기준과 달리, 여기서는 고정 임계값 없는 유연한 루프 심판이 라운드 수용을 결정한다. 각 법률 문서는 먼저 추출 에이전트를 거쳐 구조화된 추출(주제 키워드·핵심 사실·판시)이 만들어진다. 챌린저는 추출에서 현실적인 법률 질문 하나와 가중 루브릭, 목표 역량 집합을 생성한다. 각 후보는 약한 솔버가 5회, 강한 솔버가 3회 롤아웃된다. 심판은 롤아웃별 패턴, 약/강 격차, 루브릭을 읽고 구조화된 판정(weak_pattern, strong_pattern, gap_interpretation, rubric_concerns, grpo_suitability)과 수용/개선 결정을 반환한다.

3.2.1 생성 루프 분석

Agentic 루프는 약 롤아웃 분포를 재편한다. 격차는 55.8점에서 41.5점으로 오히려 좁혀지지만, 핵심은 프롬프트별 약 롤아웃 표준편차가 7.93에서 12.63으로 상승한 점이다. CoT 질문은 약 점수를 0 부근에 몰아넣어(평균 15.9%, 중앙값 10.7%), 그룹별 GRPO 어드밴티지를 0 근처로 만들어 학습 신호를 거의 주지 못한다. 루프는 약 평균을 28.3%로 끌어올리되 강은 거의 그대로 두어(71.7%→69.8%), 같은 격차를 쓸모 있는 분산 범위에 펼친다. 데이터를 더 어렵게 만드는 것이 아니라, 보상 신호를 재편해 더 학습 가능하게 만든다.

루프 심판은 라운드마다 grpo_suitability를 high/medium/low로 판정한다. CoT 풀에서는 4.8% high / 41% medium / 45% low인 반면, Agentic 풀에서는 52% high / 43% medium / 2% low로 뒤집힌다. 수용된 질문의 중앙값은 4라운드(평균 4.98, 최대 19)를 거치며, 단일 라운드로 끝나는 경우는 약 2%에 불과하다.

Table 4 · PRBench 법률 RL 결과 (clipped) — 두 채점자 모두 Agentic 우위

응답 모델	GPT-5 Legal	GPT-5 Hard	Kimi Legal	Kimi Hard
Qwen3.5-4B (RL 없음)	0.280	0.167	0.245	0.145
Qwen3.5-397B (RL 없음)	0.404	0.277	0.358	0.226
RL on CoT 데이터	0.377	0.253	0.343	0.233
RL on Agentic 데이터	0.441	0.315	0.393	0.266

Agentic-학습 4B는 동일 구조 CoT-학습 모델뿐 아니라 RL 없는 397B 강 솔버 베이스라인까지 두 분할 모두에서 능가한다. +0.05~0.06 우위는 동일한 2.8k 예산·챌린저·코퍼스에서 오직 에이전트 루프만 다른 결과다.

CS — Too Easy

너무 쉬움

CoT 질문이 약한 솔버에게 너무 쉽다(격차 0.02). 도전적이지 않다는 우려. 루프가 격차를 넓힌다.

gap 0.02 → 0.314 ▲

Legal — Too Hard

너무 어려움

CoT 질문이 너무 어려워 다수가 0점(격차 0.56). 학습 신호가 가혹하다. 루프가 격차를 좁힌다.

gap 0.56 → 0.415 ▼

More Challenging vs Just Right

두 과제는 정반대 실패 모드에 같은 루프를 적용하고 격차가 반대 방향으로 움직였지만, 하류 RL 결과는 동일하다. 핵심은 질문을 더 어렵게 만드는 것이 아니라, 모델이 언덕을 오를 수 있도록 딱 알맞게 만드는 것이다.

3.3 과학적 추론 Principia

Principia 컬렉션과 같은 범주·도메인에서 수학적 객체를 다루는 도전적 문제를 구성한다. 약한 솔버는 Qwen3.5-4B(실제로는 Principia의 많은 문제를 푸는 유능한 추론 모델), 강한 솔버는 Qwen3.5-397B-A17B, 메인·챌린저는 Kimi-K2.6이다. 세 데이터 소스를 비교한다: CoT Self-Instruct(Principia 원문), Agentic, 그리고 둘을 합친 Combined(2배 크기). 각 소스는 9k 학습 + 1k 평가이며 Combined는 18k다.

Table 5 · 과학적 추론 RL 결과 — Agentic이 2배 크기 Combined까지 능가 (Δ는 베이스 대비)

평가 부분집합 (avg@8)	Base 4B	CoT Δ	Agentic Δ	Combined Δ
Overall	68.66%	+2.42	+3.20	+2.70
Agentic 부분집합	52.39%	+3.94	+4.40	+3.49
CoT 부분집합	77.17%	+1.86	+3.05	+2.49

Agentic 데이터는 명시적으로 최적화하지 않은 CoT 검증 부분집합에서도 +3.05%로 가장 큰 개선을 보인다. 더 어려운 문제로 학습한 것이 더 쉬운 문제로 전이된다.

Table 6 · 분포 외(OOD) Principia 벤치마크 — Agentic이 절반 데이터로 최대 개선 (avg@8 Δ)

범주	항목	Base 4B	CoT Δ	Agentic Δ	Combined Δ
Overall	2113	50.43%	+0.67	+1.04	+0.74
ARB	47	81.91%	+1.87	−1.59	+1.33
Physics	110	66.22%	−0.31	+0.83	+0.03
RealMath	632	33.68%	+1.57	+1.75	+1.29
SuperGPQA	1324	56.00%	+0.28	+0.82	+0.50

pass@8에서는 더 미묘한 그림이 나타난다. Combined 데이터는 ARB(+2.13%)와 RealMath(+2.37%) 같은 일부 범주에서 우위를 보인다. Agentic이 도전적 문제를 더 안정적으로 풀게 해 평균 성능을 높이는 반면, Combined의 더 큰 다양성과 크기는 더 넓은 범위의 문제를 가끔 풀게 도울 수 있다. Qwen3.5-4B가 이 분포에서 용량 한계에 가까워졌을 가능성이 있으며, 더 큰 모델이라면 두 지표 모두에서 동시 이득을 얻을 수 있다.

발견

추론 시점 연산을 더 높은 품질·난이도의 합성 데이터 생성에 투자하는 것이 단순히 데이터셋 크기를 키우는 것보다 효과적일 수 있다. 또한 학습은 추론 절단율을 크게 줄였으며(65,536 토큰 예산에서 23.75% → 4.09%), 정확도 개선의 약 절반이 토큰 효율적 추론에 기인한다.

데이터 과학자의 메타 최적화

지금까지는 고정된 Agentic Self-Instruct 프레임워크를 사용했다. 이제 안쪽 루프와 동일한 평가 기준으로 바깥 루프 — 에이전트의 프롬프트와 전략 — 를 메타 최적화한다. 에이전트 스캐폴드를 반복적으로 개선되는 코드로 다루는 진화 최적화 프레임워크를 사용한다.

선택 — 온도 T=0.1의 볼츠만 샘플링으로 부모 후보를 고른다. 점수에 비례해 높은 후보를 강하게 선호하되 탐색을 유지한다.
평가 — 부모 프롬프트를 학습 논문 미니배치에서 평가해 궤적과 약/강 솔버 점수를 모은다.
분석 — LLM 에이전트가 전체 솔버 교환을 읽고 체계적 실패 패턴의 근본 원인 분석을 작성한다.
구현 — 코드 편집 에이전트가 분석·이력·현재 프롬프트를 읽고 개선된 diff를 만든다.
재평가 — 부모와 변이를 검증 논문에서 평가한다. 변이의 검증 점수가 부모를 엄격히 초과할 때만 집단에 추가한다.
요약 — 결과를 이력 로그로 정리해 이후 분석자가 읽게 한다. 여러 반복이 독립적 부모 선택으로 동시 실행된다.

62.1%

베이스라인 검증 통과율

79.6%

진화 후 통과율 (Iter 124)

126

수용된 반복 / 총 233회

세션당 타임아웃

메타 최적화는 CS 연구 논문 과제를 대상으로 한다. Kimi-K2.6이 분석자(궤적을 읽어 실패 패턴 진단)와 구현자(프롬프트 수정) 모두를 맡고, 50편 학습 논문과 25편 검증 논문을 사용한다. 생성된 QA 쌍은 약한 솔버 ≤65%, 최고 약 시도 ≤75%, 강한 솔버 60~95%, 강−약 격차 ≥20%p를 모두 만족할 때 성공으로 본다. 최적화기는 궤적 분석을 통해 일반적인 답변과 루브릭 형식 오류가 분리 실패의 주원인임을 식별했다.

자동 발견된 프롬프트 수정

논문 특정 통찰 강제 — 질문이 일반 ML/CS 지식이 아니라 해당 논문에 특정한 지식을 시험하도록 요구. 자가 점검: "이 논문을 읽지 않고도 솔버가 맞힐 수 있다면 너무 쉽다."
맥락 누출 방지 — 맥락은 문제 영역과 설정만 기술하고 논문의 해법은 절대 담지 않도록 엄격한 규칙. "맥락의 문장을 바꿔 말하면 답할 수 있는가? 그렇다면 다시 써라."
양수 전용 루브릭 + 가중치 상한 — 음수 가중치 기준이 오작동하며 변별력 향상 없이 강 모델 점수를 망가뜨림을 발견. 모든 기준을 +7 상한의 양의 정수로. 오류를 벌하는 것이 이론상 도움 될 듯하나 실제로는 해롭다는 반직관적 발견.
구조화된 루브릭 형식 — 정수 가중치의 엄격한 JSON 형식을 강제해 문자열 가중치("+8") 같은 파싱 오류를 제거.

62.1%에서 79.6%로의 진전은, 데이터 과학자 에이전트의 지시문을 메타 최적화하면 수작업 프롬프트 엔지니어링 없이도 데이터 품질을 크게 개선할 수 있음을 보여준다. 다만 절대 수치는 서로 다른 능력 수준의 모델을 안정적으로 분리하는 질문 생성이 여전히 어렵다는 점도 드러낸다.

결론과 논의

자율 에이전트가 데이터 과학자 역할을 맡아 합성 데이터를 생성하고, 과제 특정 신호로 평가하며, 그 결과로 생성 레시피를 개선하는 일반 프레임워크 Autodata를 제시했다. Agentic Self-Instruct로 이를 구체화해 약·강 솔버를 분리하는 예시를 명시적으로 최적화했고, CS 연구·법률 추론·수리 추론에서 일관된 품질 향상을 보였다. 데이터 과학자 에이전트 자신도 메타 최적화될 수 있음을 보였다.

향후 방향

더 많은 과제·모델·베이스라인 — 검증 가능/불가능, 단일턴/멀티턴/에이전트형을 아우르는 일반 autodata 에이전트를 지향한다.
해킹과 한계 — 에이전트가 약한 솔버에게 "약하게 굴라"는 프롬프트를 넣어 목표를 속이려는 사례를 만났다. 제약 강화로 부분 대응했으나 더 강한 안전장치를 연구할 계획이다. 일부 질문·루브릭이 일반화 가능한 추론보다 논문의 특정 실험 수치에 과하게 묶이는 문제도 다룬다.
전체 데이터셋 분석 반복 — 예시 수준에서 데이터셋 수준(다양성 통계, 기존 데이터셋과의 상호작용)으로 확장. 중간 단계로 N개 예시 생성 후 배치 학습 내용을 도출해 다음 배치를 만드는 반복적 배치 분석.
자기개선에서 공동개선으로 — 에이전트 자기지시 시스템을 챌린저로 삼아 솔버와 동시에 학습 가중치를 갱신하는 완전한 자기개선 루프가 가능하다. 다만 현행 모델 학습에서 사람을 완전히 배제하는 것은 바람직하지 않으며, 인간 피드백과 "공동 연구" 능력을 결합하는 공동개선(co-improvement)이 더 나은 경로로, 본 연구진의 주된 향후 방향이다.

A·B·C

부록 요약

A. 토큰 효율과 절단 Principia

65,536 토큰 추론 예산에서, 베이스 Qwen3.5-4B는 높은 절단율을 보인다(결합 검증 23.75%, Principia 17.06%). 학습은 이를 크게 줄여 Agentic은 각각 4.09%, 1.85%까지 낮춘다. 정확도 개선의 원천을 분석하면(815 QA × 8 생성), Agentic의 경우 뒤집힌 945개 생성 중 54.81%가 절단 해소에, 41.06%가 비절단 추론 개선에 기인한다. 즉 장문 추론 모델은 추론 능력이 부족해서가 아니라, 사고연쇄를 끝내기 전에 토큰이 고갈되어 실패하는 경우가 많다.

Table 8 · 절단율 (finish_reason=length, 65,536 토큰 예산)

모델	Combined-Val	Principia Bench
Qwen3.5-4B (base)	23.75%	17.06%
+ Grounding	10.00%	6.62%
+ Agentic	4.09%	1.85%
+ Combined	3.37%	1.67%

B. 질문 유형 분석 687 annotated

생성 질문의 추론 요구를 파악하기 위해 검증된 QA 1,000개를 표집해 Kimi-K2.6 2단계 주석(분류체계 발견 → 주석)을 수행했고, 687개가 유효 주석을 받았다. 11개 유형을 추론·지식·혼합 세 범주로 묶는다.

Table 11 · 범주별 분포 — 추론 우세

범주	설명	건수	비율
추론 (Reasoning)	다단계 도출·분석·증명	357	52.0%
혼합 (Mixed)	도메인 지식 + 절차·모델링	191	27.8%
지식 (Knowledge)	회상·직접 공식 적용	139	20.2%

약 절반이 추론 우세, 약 1/4이 혼합, 1/5이 지식 지향이다. 단순 회상보다 다단계 추론을 강조하는 질문을 생성한다는 목표에 부합한다.

C. 서브에이전트 시스템 프롬프트

부록 C는 각 파이프라인을 구동하는 서브에이전트 프롬프트를 수록한다. CS 파이프라인은 세 서브에이전트(메인·챌린저·품질 검증자)를, 법률 파이프라인은 네 서브에이전트(메인·추출자·질문/루브릭 작성자·루프 심판)를 사용한다.

CS · MAIN

CS 메인 에이전트

챌린저→품질검증→evaluate_rubric.py 루프를 돌리며 수용을 결정한다. QV 통과 모든 질문에 평가를 반드시 실행한다.

CS · CHALLENGER

CS 챌린저

논문을 읽고 회상이 아닌 추론(예측·제약 하 결정·다요인 상호작용)을 요구하는 질문과 10~15개 가중 루브릭을 생성한다.

CS · VERIFIER

CS 품질 검증자

맥락 누출, 회상 대 추론, 루브릭 형식을 점검한다. 양수 ≥4·음수 ≥3·총 10~20개 기준을 강제한다.

LEGAL · WRITER

법률 질문/루브릭 작성자

문서를 법원(法源)으로 삼아 새 시나리오를 발명하고, 의뢰인 목소리의 질문과 15~25개 역량 태그 루브릭을 작성한다.

법률 루프 심판은 GRPO 적합성의 핵심 속성이 롤아웃 분산임을 추론한다. 모든 롤아웃이 같은 점수(전부 0, 전부 100, 또는 밀집)면 기울기 신호가 없어 학습 단계가 낭비된다. 불확실하면 개선(improve)으로 기운다. 강한 솔버가 루브릭의 70~90%를 쉽게 맞히면 단일 교리·회상 고정 질문이라는 신호이며, 다교리·모호한 사실·대안 형량으로의 전환을 처방한다. 루브릭 완화는 개선이 아니라 게이밍이다.

서론

Autodata 프레임워크

데이터 생성 Data Creation

데이터 분석 Data Analysis

데이터 과학자 루프 Data Scientist Loop

데이터 과학자의 메타 최적화 Meta-Optimization

구체적 구현: Agentic Self-Instruct

챌린저

약한 솔버

강한 솔버

검증자 / 심판

실험

3.1 컴퓨터과학 연구 과제 rubric-based

3.1.1 생성 루프 분석

3.2 법률 추론 과제 opposite failure mode

3.2.1 생성 루프 분석

너무 쉬움

너무 어려움

3.3 과학적 추론 Principia

데이터 과학자의 메타 최적화

자동 발견된 프롬프트 수정

관련 연구와 위치

결론과 논의

향후 방향

부록 요약

A. 토큰 효율과 절단 Principia

B. 질문 유형 분석 687 annotated

C. 서브에이전트 시스템 프롬프트

CS 메인 에이전트

CS 챌린저

CS 품질 검증자

법률 질문/루브릭 작성자