딥리서치 에이전트는 자율적 다단계 과학 추론을 위한 LLM 기반 시스템으로, 물리과학 연구를 가속할 잠재력을 지닙니다. 그러나 이 분야에서의 능력을 종합적으로 평가할 기준은 부족했습니다. 이 연구는 두 가지로 그 공백을 메웁니다 — 전문가가 직접 만든 벤치마크 PhySciBench와, 구조적 특화로 신뢰성을 높인 프레임워크 DelveAgent.
물리과학 연구는 실험 측정값, 과학 도표, 구조화된 물성 데이터, 원문 문헌 등 다양한 증거를 깊이 통합하는 데 의존합니다.
고처리량 실험 데이터와 폭증하는 문헌 앞에서, 개별 연구자에 의존하는 전통적 지식 통합 모델은 임계적 병목에 도달했습니다.
LLM을 기반으로 한 딥리서치 에이전트는 복잡한 문제를 자율적으로 분해하고, 외부 도구를 유연하게 호출하며, 다단계 상호작용에 걸쳐 다양한 증거를 동적으로 종합합니다. 이미 다단계 문제 해결, 과학적 가설 생성, 구조-물성 상관 분석, 실험 설계 등 핵심 과제에서 초기 역량을 보여주고 있습니다.
그러나 기존 벤치마크는 물리과학의 진정한 연구 과제를 평가하기에 부족합니다. 도메인 특화 벤치마크는 희소할 뿐 아니라 단일 과제를 고립적으로 평가하는 경향이 있어, 외부 도구와 결합된 확장 워크플로를 다루지 못합니다. 한편 HLE 같은 폐쇄형, SGI-Bench·FrontierScience 같은 텍스트 전용 평가는 멀티모달 파싱, 구조화 데이터 추출, 코드 실행을 포괄하지 못합니다 — 그러나 이 세 능력이야말로 실제 물리과학 연구의 토대입니다.
표준화된 평가와 실제 과학 탐구 사이의 간극을 메우기 위해 설계된 벤치마크. 최근 5년의 고영향력 출판물과 교과서 문제를 바탕으로, 모든 문항을 도메인 전문가가 직접 창작했습니다.
도메인 전문가가 후보 문항 초안을 작성하고, 풀이 가능성·유출(leakage) 사전 점검을 거칩니다.
전문가 교차 점검으로 사실성과 품질을 평가합니다.
의견 충돌을 해소하고 정답과 채점 루브릭을 통합합니다.
자동 유출 선별 후, 표시된 항목을 전문가가 재검토합니다. 실패 항목은 이전 단계로 반복 환류됩니다.
물리·화학 각 100문항으로 설계상 균형을 이루며, 응집물질물리와 합성유기화학·촉매에 집중되어 있습니다.
비정형 자료를 스키마에 맞는 레코드로 파싱하는 능력을 측정합니다.
과학 도표를 지각하여 개별 답으로 변환하는 능력을 평가합니다.
문서와 보충자료 전반에 걸쳐 증거를 통합·종합합니다.
원리에 근거한 다단계 결론을 도출합니다.
절차적으로 완전한 합성·특성화 프로토콜을 구성합니다.
물리·화학 시스템의 실행 가능한 계산 모델을 구현합니다.
벤치마크의 대부분은 20–30단계의 추론과 2–4개의 도구 클래스에 집중되어, 확장된 멀티 도구 과학 워크플로를 주로 평가합니다. 다양한 답안 형식을 안정적으로 채점하기 위해, 정확 일치 정규화·규칙 기반 키/값 검사·루브릭 기반 LLM 판정·샌드박스 코드 실행을 통합한 자동 평가 프레임워크를 개발했습니다.
두 도메인 전문가의 수동 채점에 대한 맹검 검증에서 이 복합 파이프라인은 전문가 점수와 강한 일치를 보였습니다(스피어만 ρ = 0.80, 95% CI [0.75, 0.85], n = 196). 이는 단일 LLM 판정 베이스라인(ρ = 0.57), 어휘 지표(ROUGE-2 ρ = 0.31; BLEU ρ = 0.21), 임베딩 기반 BERTScore-F1(ρ = 0.15)을 크게 상회합니다.
최상위 베이스라인 Gemini Deep Research조차 33.5%에 그쳤습니다. 모든 베이스 모델은 30% 미만, 추론 강화 시스템은 오히려 더 낮았습니다 — 물리과학 과제가 표준 사고연쇄를 넘어서는 능력을 요구함을 시사합니다.
실패 패턴은 곧 DelveAgent의 세 모듈로 직접 연결됩니다.
불안정한 장기 추론 궤적. 초기 오류가 후속 단계로 전파되어 불완전하거나 잘못된 최종 해를 낳습니다.
도메인 지식·선행 경험 재사용의 한계. 부정확한 진술, 환각된 메커니즘·파라미터, 의도한 모델을 충실히 구현하지 못한 코드 등.
과학 추론보다 실행·전달의 붕괴. 툴체인 타임아웃, 문서·멀티모달 처리 실패, 출력 형식 위반 등.
이 실패 양상들은 현 딥리서치 시스템의 성능 한계가 규모(scale)가 아니라 아키텍처에 있음을 시사합니다. 지배적 결함은 약한 재계획, 선행 경험의 빈약한 전이, 부족한 물리 근거 검증입니다.
중앙 Planner가 전문화된 Worker 패널을 지휘하고, 둘은 이중 입자도(dual-granularity) 메모리를 공유합니다. Worker 출력은 계층적 물리 근거 반성 블록을 거쳐 최종 응답으로 조립됩니다.
초기 계획 → 하위과제 실행 → 중간결과 관찰 → 계획 정교화로 순환하며, 초기 분해에 고정되지 않고 동적으로 재계획합니다. Worker 실패·예상 밖 결과·Critic 거부에 반응합니다.
지식 전이성을 위해 두 해상도로 메모리를 유지합니다. 경험 메모리는 성공 궤적·복구 전략·계획 패턴을, 지식 메모리는 방정식·절차·물리 상수를 저장합니다.
단계 수준 지역 검증기(단위·차원·공식·코드 실행·도구 출력)와 궤적 수준 전역 비평가(출처 근거·과학적 일관성·형식 준수)를 결합해, 최종 응답 전에 교정을 트리거합니다.
기반 모델로는 Planner와 모든 Worker에 gemini-3-flash-preview를 통일 적용했으며, 오케스트레이션은 Youtu-Agent와 OWL 코드베이스를 참조해 구현했습니다.
DelveAgent는 전체 정확도 41.0%로 최강 베이스라인(33.5%)을 +7.5pp 능가했습니다. 이는 비포화 평가 도구로 설계된 PhySciBench가 여전히 상당한 여유 공간을 보존함을 보여줍니다.
| 모델 | 멀티모달 QA | 장문맥 QA | 과학 추론 | 구조화 추출 | 코드 생성 | 실험 설계 | 전체 |
|---|---|---|---|---|---|---|---|
| 베이스 모델 | |||||||
| Gemini-3-Flash | 30.77 | 16.67 | 41.67 | 27.50 | 40.00 | 17.14 | 28.50 |
| Gemini-3-Pro | 25.64 | 13.33 | 41.67 | 22.50 | 30.00 | 17.14 | 25.00 |
| Kimi-K2.5 | 20.51 | 13.33 | 36.11 | 25.00 | 35.00 | 5.71 | 22.00 |
| Grok-4.1-Fast (Reasoning) | 12.82 | 10.00 | 41.67 | 20.00 | 40.00 | 14.29 | 22.00 |
| GPT-5.2 | 12.82 | 10.00 | 36.11 | 20.00 | 25.00 | 11.43 | 19.00 |
| Claude-Opus-4.5 | 10.26 | 6.67 | 30.56 | 17.50 | 30.00 | 11.43 | 17.00 |
| Intern-S1-Pro | 12.82 | 3.33 | 25.00 | 17.50 | 45.00 | 5.71 | 16.50 |
| 에이전트 시스템 | |||||||
| Gemini Deep Research | 35.90 | 13.33 | 58.33 | 40.00 | 30.00 | 17.14 | 33.50 |
| OpenAI Deep Research | 33.33 | 13.33 | 38.89 | 42.50 | 40.00 | 11.43 | 30.00 |
| ODR-smolagents | 20.51 | 23.33 | 11.11 | 35.00 | 45.00 | 2.86 | 21.50 |
| DelveAgent (제안) | 43.58 | 23.33 | 58.33 | 55.00 | 45.00 | 17.14 | 41.00 |
최대 향상은 구조화 정보 추출(+15.0pp)과 코드 생성(+15.0pp)에서 나타났습니다. 전자는 이중 입자도 메모리가 스키마 오류를 줄이는 형식 템플릿을 공급한 덕분이고, 후자는 적응적 계획 루프가 반복 디버깅을 가능케 한 결과입니다. 멀티모달 QA는 +7.7pp, 장문맥 QA는 +10.0pp 향상되었습니다. 과학적 추론은 최강 베이스라인과 동률(58.3%), 실험 설계는 유일하게 베이스라인을 넘지 못한 범주(17.1%)였습니다. 이 모든 향상은 Gemini Deep Research 추론 비용의 일부만으로 달성되었습니다.
세 단일 구성요소 하락폭은 200문항 기준에서 비슷한 크기로, 어느 하나를 지배적이라 보기보다 대등한 기여로 기술합니다. 모듈 제거의 범주별 귀속은 각 모듈의 설계 의도를 따릅니다.
세 구성요소를 모두 제거한 축소 구성은 최강 베이스라인과의 격차를 7.5pp에서 1.0pp로 좁힙니다. 이는 DelveAgent의 우위가 기반 모델이 아니라 아키텍처 특화에서 비롯됨을 뒷받침합니다.
나아가 DelveAgent와 베이스라인의 실패 프로파일을 비교하면 지배적 실패 양식의 근본적 전환이 보입니다. 베이스라인은 연쇄적 계획 실패·도구 타임아웃·형식 위반 같은 거시적 에이전트 불안정성에 오류가 집중되는 반면, 계획·메모리·반성의 공동 작용은 이러한 아키텍처적 실패 패턴을 상당 부분 제거하고, 잔여 오류 분포를 더 세밀한 과학적 근거·충실성 문제로 이동시킵니다.
100개 샘플 실패 분석은 네 가지 하류 병목을 식별합니다: 데이터가 잘못된 실험 조건에 귀속되는 증거 결합 오류, 명시적 사양을 위반하는 제약 충족 실패, 스키마 불일치·수치 정밀도 손실 등 형식 사양 충실성 문제, 충돌하는 멀티 문서 상황의 출처 명확화 곤란.
HLE(폐쇄형 전문가 수준 395문항), SGI-DR(반복적 다단계 추론 43문항), FS-Research(개방형 40과제·10점 루브릭)에서 평가했습니다.
DelveAgent는 세 벤치마크 평균 정확도 23.62%로 최강 베이스라인(20.87%)을 앞섰습니다. 최대 향상은 SGI-DR(+6.98pp)에서 나타났는데, 적응적 계획 루프와 이중 입자도 메모리가 이 벤치마크가 요구하는 반복적 증거 수집 워크플로를 직접 지원하기 때문입니다. HLE에서는 34.94% 대 33.67%로 완만한 우위 — 폐쇄형 사실 회상에서는 아키텍처 혁신의 레버리지가 제한적임과 일치합니다. FS-Research에서는 베이스라인과 대등했습니다.
세 명의 물리과학 전문가가 각자 활발한 연구 영역에서 개방형 단일턴 과제를 설계했습니다. 도표·CSV·방법 노트를 담은 폐쇄 패킷으로 제공하고, 세 명의 독립 전문가가 맹검 채점했습니다.
Γ̄ 근처 온도 의존 ARPES 데이터를 신속히 해석하고, 정량적 갭 추출과 재현 가능한 코드를 산출.
규정된 파라미터 제약 하에서 FMAC 모델의 핵심 결과를 수치적으로 재현. 좁은 수치 목표가 고정된 과제.
초전도 향상에 대한 세 경쟁 가설을 데이터에 근거해 순위화하는 메커니즘적 종합.
세 연구 전반에서 DelveAgent는 모든 차원에서 Gemini Deep Research보다 높은 평균을 기록했습니다(진한 값이 DelveAgent). 집계 격차는 증거와 결론의 긴밀한 결합을 요구하는 두 개방형 연구가 지배합니다. Study 1에서 Gemini는 디랙 콘 해석을 확정하지 않고 추가 측정을 권고하는 결론을 내려, 업로드 패킷에 근거하지 않은 추측적 후속 프레이밍에 의존했습니다. Study 3에서 두 시스템은 주도 가설(억제된 CDW/네마틱 불안정성 근처의 요동 매개 페어링)에는 동의했으나, Gemini가 데이터에 없던 수송 증분·탄성저항 진폭을 도입하고 strange-metal 해석을 거의 확립된 것처럼 제시하면서 환각에서 크게 갈렸습니다.
Study 2의 대표 실행 궤적은 Planner–Worker 교대를 보여줍니다. 초기 추출·솔버 구현 후 중간 관찰이 누락된 파라미터와 분수형 와인딩 지수(잘못된 FMAC 물리의 신호)를 포착하면, Planner가 재계획하고 Worker가 올바른 제약 하에 재구현하며, Critic이 벌크 대응과 영-모드 멀티성을 검증한 뒤 최종 연구 노트를 작성합니다. 이는 개방형 연구에서의 타당성 우위가 일회성 생성이 아니라 실행 중 명시적 복구를 동반함을 보여줍니다.
신뢰할 수 있는 자율 과학 추론은 더 크거나 긴 컨텍스트의 기반 모델이 아니라, 도메인 지식에 근거한 목적 지향적 인지 아키텍처를 요구합니다.
DelveAgent의 핵심 기여는 PhySciBench의 과제 포화에 다가가는 것이 아니라, 시스템의 지배적 실패 영역을 이동시키는 데 있습니다. 계획·메모리·반성의 협응은 베이스라인 오류 프로파일을 지배하던 거시적 에이전트 불안정성을 상당 부분 제거하고, 잔여 실패 전선을 근본적으로 다른 해법을 요구하는 세밀한 과학적 근거·충실성 문제로 전진시킵니다.
제거 실험은 아키텍처 특화가 왜 중요한지를 밝힙니다. 메모리(−3.0%)와 반성(−3.0%)이 최대 단일 하락을 낳아, 지식 근거와 물리 인식 검증이 PhySciBench 성능의 지배적 기여 요인임을 보입니다. 적응적 계획 제거(−2.5%)는 결정 구조 식별이나 실험 조건 추출의 초기 오류가 하류로 비가역적으로 연쇄되지 않도록 동적 재계획이 필수임을 확인합니다.
PhySciBench는 다른 과학 분야로 이식 가능한 엄격한 평가 프로토콜을 확립합니다. 전문가가 최근 출판물과 각색된 교과서 문제로부터 모든 문항을 직접 창작하게 함으로써, 단순한 시간적 최신성에 의존하지 않고 생성 시점에서 학습 데이터 오염을 최소화합니다. 정보 추출·과학적 이해·응용 및 창출의 3단계 인지 층화는 어떤 인지 능력이 현 시스템을 제약하는지 진단하는 원리적 틀을 제공합니다.
벤치마크 규모. 200문항은 통계적으로 유의한 차이를 드러내기엔 충분하나 전문가 큐레이션 비용을 반영합니다. 커뮤니티 주도 확장이 필요하며, 각 학문 내 커버리지는 의도적으로 심층 우선(응집물질·재료물리, 합성유기화학·촉매)이라 집계 점수는 이 핵심 영역의 대표값으로 읽어야 합니다.
LLM 평가의 한계. 확장된 과학 답안을 LLM으로 평가하면 모든 도메인 뉘앙스를 포착하지 못할 수 있습니다. 다만 맹검 검증은 전문가 판단과 강한 일치(스피어만 ρ = 0.80)를 보였습니다.
멀티모달 병목. 현 비전-언어 모델은 멀티모달 이해의 병목으로, 이 범주에서 32% 오류율을 보입니다. 일부는 증거 결합·형식 충실성 병목으로 강화된 타입 오케스트레이션·검증 게이트로 줄일 수 있으나, 특수 도표 해석·교차 문서 종합에 집중된 부분은 기반 모델의 진정한 능력 경계를 반영합니다.
지식 베이스 완전성. 도메인 지식 베이스는 문제 해결 중 검색된 논문으로 점진적으로 구축되므로 완전성을 보장할 수 없습니다. 추가 세부 분야·실험 양식으로의 확장이 향후 중요한 방향입니다.
자율 시스템이 점점 유능해짐에 따라, DelveAgent 같은 프레임워크는 인간 연구자를 대체가 아니라 보조하도록 설계되었습니다. 특히 오류가 실세계 결과를 낳는 민감한 과학 응용에서 자율 에이전트 산출물에 대한 비판적 인간 감독을 권장합니다.