LLM Agentic Reasoning: Data-Centric Analysis

01. 기초 에이전트 추론

안정적 환경

복잡한 문제 분해 및 외부 도구 활용 설계. 훈련 데이터는 1,000개 이상의 API 호출 샘플과 검색 쿼리를 포함한 대규모 구조화 데이터셋을 활용합니다.

Planning

여행 계획 데이터셋 등

Tool-Use

API 호출 최적화

동적 쿼리-응답

Key Papers

ReAct (2023) - 생각-행동 루프 ↗ ToolLLM (2023) - 2만개 도구 호출 ↗

02. 자기진화

적응적 성장

피드백과 메모리를 통한 에이전트 성장. 실패 사례를 포함한 반성-수정 쌍 데이터로 강화학습을 수행합니다.

Ref

반성(Reflexion) 기반 품질 향상

Mem

MemGPT: OS 스타일 구조화 메모리

Key Papers

Self-Rewarding Models (2024) ↗

03. 집단 에이전트 추론 (협력적 지능)

멀티 에이전트 대화 및 공유 메모리 데이터셋으로 협력 효율성을 평가합니다. 역할 기반 시뮬레이션을 통해 복잡한 워크플로우를 처리하는 능력이 핵심입니다.

제네릭/도메인 특화 역할 정의 데이터셋
멀티 턴 대화를 통한 토론 및 의사결정 평가

BattleAgentBench (2024)

멀티 에이전트 경쟁 데이터셋으로 협력/전략 평가 수행

04. 실세계 도메인 응용 분야

🧬

Scientific Discovery

유전자 표현 및 실험 로그 기반 가설 생성.

ScienceAgentBench →

🏥

Healthcare & Med

EHR 데이터셋을 활용한 진단 및 치료 지원.

MedAgentBench (2025) →

📐

Advanced Math

탐색적 추론을 통한 고급 수학 문제 해결.

FrontierMath →

🌐

Web Exploration

웹 로그 및 API 데이터 기반 정보 수집.

OSWorld / WebArena →

🤖

Embodied Agents

Minecraft 등 시뮬레이션 물리 상호작용.

Simulation Data Focused

🚀

Vibe Coding

코드 데이터셋을 통한 창의적 추론.

Latest Trends

05. 벤치마크

70+

소개된 평가 데이터셋 수

2만 개 이상의 항목을 포함한 대규모 데이터셋을 통해 정확도, 리콜, 속도 메트릭을 객관화합니다. 실세계 배포 신뢰성의 핵심입니다.

TOOL CALLS

ToolQA

1,530 Conversations →

RAG / RETRIEVAL

CRAG

Knowledge Retrieval →

MULTI-AGENT

TeamCraft

Collab Metrics

GENERAL TOOLS

GTA

Real-world Action

06. 미해결 과제

미래 R&D를 위한 데이터 중심 전략

개인화: 사용자 데이터 기반 커스텀 에이전트

장기 상호작용: 누적 데이터 관리 및 보존

세계 모델링: 정밀한 시뮬레이션 데이터 확보

거버넌스: 안전 데이터 필터링 및 윤리

잠재 추론: 내부 데이터 표현 최적화

Evo-Memory (2025) 연구 →

LLM Agentic Reasoning데이터 관점 분석

01. 기초 에이전트 추론

Key Papers

02. 자기진화

Key Papers

03. 집단 에이전트 추론 (협력적 지능)

04. 실세계 도메인 응용 분야

Scientific Discovery

Healthcare & Med

Advanced Math

Web Exploration

Embodied Agents

Vibe Coding

05. 벤치마크

TOOL CALLS

RAG / RETRIEVAL

MULTI-AGENT

GENERAL TOOLS

06. 미해결 과제

LLM Agentic Reasoning
데이터 관점 분석