1. 초록 (Abstract)
본 보고서는 장기 구간(Long-horizon) 검색 강화학습(RL) 환경에서 발생하는 컨텍스트 과부하 및 보상 신호 희석 문제를 해결하기 위한 차세대 검색 에이전트 아키텍처인 Harness-1의 설계 사양과 실험적 성과를 종합하여 제시한다. Harness-1의 핵심 혁신은 정책(Policy) 모델의 기계적이고 반복적인 상태 관리 작업을 환경 레이어로 완전히 이전하는 '상태 기반 인지 오프로딩(Stateful Cognitive Offloading)'에 있다.
2. 서론 (Introduction)
"Harness-1은 에이전트를 단순한 도구 호출기에서 정교한 상태 관리자로 격상시킵니다."
기존의 LLM 기반 검색 에이전트는 ‘추가 전용 트랜스크립트(Append-only transcript)’ 방식에 의존해 왔다. 이 구조는 모델에게 과도한 인지 부하를 지우며 보상 신호를 희석시킨다. Harness-1은 의미론적 결정과 회복 가능한 부기(Bookkeeping)를 분리하여 이러한 한계를 타파한다.
3. 시스템 아키텍처
Harness-1은 구조화된 2계층 WORKINGMEMORY 시스템을 운영한다.
| 요소 | 하네스 관리 | 정책 결정 |
|---|---|---|
| 후보 풀 (P_t) | 문서 관리/압축 | 조사/큐레이션 결정 |
| 증거 그래프 (G_t) | 연결 구조 추출 | 직접 조회(Lookup) |
4. 강화학습 및 보상 구조
재현율(Recall)에 4배 높은 가중치를 부여하는 F-beta Score ($\beta=2$)를 적용하여, 에이전트가 단순히 검색에 매몰되지 않고 정교한 큐레이션 역량을 학습하도록 유도한다.
5. 실험적 분석
8개의 검색 벤치마크 평가 결과, Harness-1(20B)은 평균 큐레이션 재현율 0.730을 기록하며 오픈소스 최고 성능을 달성하였다. 소거 연구(Ablation studies)를 통해 하네스의 각 메커니즘이 에이전트의 범용적 탐색 역량을 결정짓는 핵심 기질(Capability Driver)임을 증명하였다.
6. 결론 (Conclusion)
Harness-1은 고정된 모델 파라미터의 한계를 유연한 환경 레이어로 극복해낸 진일보한 컴퓨팅 자원 할당 메커니즘이다. 본 아키텍처는 향후 정규식 기반 추출을 넘어, 지능화된 엔티티 링킹 및 관계 추출 기술로 더욱 확장될 것이다.