S-Agent: 계층적 도구 및 이중 메모리 기반 공간 지능 시스템 설계 분석

1. 공간 지능의 패러다임 시프트: 정적 추론에서 동적 증거 축적으로

현대 Vision-Language Model(VLM)은 텍스트와 이미지의 연합 학습을 통해 뛰어난 시맨틱 추론 능력을 보여주고 있으나, 실제 물리적 세계를 이해하는 '공간 지능(Spatial Intelligence)' 측면에서는 여전히 근본적인 한계에 직면해 있습니다. 기존 VLM은 독립된 프레임이나 정적인 2D 이미지 내의 확률적 패턴에 의존하는 '시각적 단편성(Visual Fragmentariness)' 문제로 인해 연속적인 3D 환경을 온전히 파악하지 못합니다.

S-Agent는 이러한 한계를 극복하기 위해 공간 추론을 단순한 예측이 아닌, '능동적 프로세스(Active Process)'로서의 '시공간 증거 축적(Spatio-temporal Evidence Accumulation)'으로 재정의합니다.

정적 추론(Stateless) vs. 상태 중심(Stateful) 장면 이해

기존 VLM (Static/Stateless): 격리된 2D 시각적 관측값으로부터 직접 답을 도출하려 합니다. 이는 카메라 각도 변화나 객체 가려짐(Occlusion)에 취약하며, 정밀한 기하학적 수치를 산출하기보다 픽셀 데이터에 내재된 확률적 시맨틱에만 의존합니다.
S-Agent (Dynamic/Stateful): 장면(Scene)을 지속적으로 진화하는 상태로 간주합니다. S-Agent는 "Stateful reasoning over continuous observations"를 지향하며, VLM 플래너가 필요한 증거를 스스로 결정하고 도구를 통해 수집된 데이터를 시간에 따라 누적하여 일관된 3D 세계 모델을 구축합니다.

핵심 설계 원칙: Semantic-to-Geometric Gap 극복

VLM의 질적 추론 능력과 물리적 세계의 고정밀 기하학 데이터 간의 간극을 메우기 위해 S-Agent는 다음 원칙을 고수합니다.

증거 중심 추론: 모델 내부 파라미터의 편향에 의존하는 대신, 외부 도구로부터 확보된 객관적 증거(깊이, 좌표, 카메라 포즈 등)를 기반으로 최종 판단을 내립니다.
능동적 탐색 루프: 질문($q$)의 의도에 따라 필요한 정보를 선별적으로 요청하며, 수집된 데이터를 메모리에 통합하여 추론의 일관성을 유지합니다.

2. S-Agent 프레임워크: VLM 플래너와 이중 메모리의 협업 구조

S-Agent의 아키텍처적 혁신은 VLM을 단순한 응답기가 아닌 '시맨틱 플래너(Semantic Planner)'로 재정의한 데 있습니다. 플래너는 질문을 분석하고 현재 메모리 상태를 참조하여 최적의 도구 호출을 결정합니다.

논리적 의사결정 및 업데이트 모델

S-Agent의 도구 호출 결정과 메모리 갱신은 다음 수식을 통해 정밀하게 제어됩니다.

도구 호출 결정: $r_t = \pi_\theta(q, F, S_t, H_t)$: $q$: 사용자 질문, $F$: 입력 관측값(비디오 프레임/다중 뷰 이미지), $S_t$: 장면 메모리, $H_t$: 에이전트 메모리.
메모리 업데이트: $(S_{t+1}, H_{t+1}) = Update(S_t, H_t, r_t, o_t)$ 여기서 도구 관측값 $o_t$는 재사용 가능한 장면 증거($e_t$)와 프로세스 컨텍스트($c_t$)로 분해되어 각각의 메모리에 반영됩니다.

반복적 추론 루프(Iterative Loop)의 워크플로우

시스템은 VLM 플래너가 충분한 정보를 확보했다고 판단할 때까지 다음 과정을 반복합니다.

1. Thought: 플래너가 질문과 메모리를 대조하여 누락된 공간 정보를 식별합니다.
2. Request ($r_t$): 특정 계층의 도구나 전문가 모듈에 실행 지시를 내립니다.
3. Observation ($o_t$): 도구가 실행되어 기하학적 데이터나 시각적 사실을 반환합니다.
4. Update: 수집된 $e_t$를 장면 메모리에 통합하고, 전체 과정 $c_t$를 에이전트 메모리에 기록합니다.

3. 3단계 계층적 도구 아키텍처: 2D 인식에서 3D 지식까지

S-Agent는 데이터의 추상화 수준에 따라 도구를 3단계로 계층화하여, VLM이 기하학적 계산 부담 없이 고차원 판단에만 집중할 수 있는 환경을 제공합니다.

Level 1: 2D 시각적 증거 획득 (2D Visual Evidence Acquisition)

주요 기능: 연산 효율성을 위한 질문 관련 핵심 프레임 선택(Keyframe Selection) 및 오픈 어휘 객체 탐지(G-DINO 등).
데이터 변화: 비가공 프레임(Raw Pixels) $\rightarrow$ 바운딩 박스 및 객체 엔티티(Object Entities).

Level 2: 2D-to-3D 기하학적 리프팅 (Geometric Lifting)

주요 기능: DA3, VGGT 등을 이용해 깊이(Depth) 및 3D 좌표를 산출합니다. 특히 카메라 포즈(Camera Poses)를 복원하여 서로 다른 뷰의 정보를 통합된 BEV(Bird’s-eye-view) 좌표계로 정렬합니다.
데이터 변화: 2D 바운딩 박스 $\rightarrow$ 3D 좌표(XYZ), 깊이 맵, 정렬된 포인트 클라우드.

Level 3: 공간 지식 통합 (Spatial Knowledge Aggregation)

주요 기능: 파편화된 기하 데이터를 지식화합니다. Object-Centric View Expert는 시점 변화에 따른 상대적 위치 관계를 처리하며, Relation Expert는 뷰에 의존적인 관계(View-conditioned relation)를 정교하게 분석합니다.
데이터 변화: 기하학적 수치 $\rightarrow$ 구조화된 공간 지식 (예: "소파 기준 1.2m 위치에 의자 존재").

4. 지속적 장면 이해를 위한 이중 메모리(Dual-Memory) 관리 전략

정보의 성격에 따라 Scene Memory와 Agent Memory를 분리(Decoupling)함으로써 시스템의 추론 일관성과 효율성을 보장합니다.

Scene Memory: 엔티티 중심의 정보 통합 (Merge)

장면 메모리는 '세계에 대한 지도' 역할을 수행하며, 엔티티 중심(Entity-centric)으로 운영됩니다.

중복 억제(Deduplication): 여러 프레임의 중복 관측값을 동일 객체 엔티티로 바인딩하여 메모리 오염을 방지합니다.
Update Op (Merge): 새로운 증거($e_t$)를 기존 상태와 병합하여 객체 속성을 갱신하거나 새로운 공간 사실을 추가합니다.

Agent Memory: 추론 프로세스의 기록 (Append)

에이전트 메모리는 '추론의 이력'을 보존하여 전략적 피드백을 제공합니다.

추론 궤적(Reasoning Trace): 이전 단계의 사고 과정, 도구 호출 성공/실패 기록을 저장하여 동일한 오류를 방지합니다.
Update Op (Append): 각 단계의 컨텍스트($c_t$)를 발생 순서대로 추가하여 전체적인 추론 맥락을 보존합니다.

5. 시스템 성능 검증 및 지식 증류(Distillation)의 가치

S-Agent는 추론 엔진을 넘어 소형 모델을 위한 고품질 학습 데이터 생성기로서 강력한 가치를 지닙니다.

지식 증류 및 S-300K 데이터셋

S-Agent는 80만 개의 샘플을 보유한 SenseNova-SI-800K 데이터셋에서 고품질 추론 궤적을 추출하여 S-300K를 구축했습니다.

데이터 전략: 베이스라인 모델인 Qwen-VL-8B(Student)가 실패하거나 불안정한 반응을 보인 샘플을 우선적으로 필터링하여 학습 효율을 극대화했습니다.
데이터 분해: 궤적을 최종 답변, 도구 결정, 관측 해석 등 다각도의 학습 신호로 분해하여 주입했습니다.

성능 지표 및 검증

S-Agent 프레임워크는 MMSI-Bench, ViewSpatial-Bench, ReVSI 등 주요 벤치마크에서 그 우수성을 증명했습니다.

성능 도약: S-Agent-8B는 Qwen-VL-8B 대비 MMSI-Bench에서 10.5%의 비약적인 정확도 향상(31.1% → 41.6%)을 기록했습니다.
범용성: GPT-5.4 및 Gemini 3 Pro와 같은 최신 폐쇄형 거대 모델에 필적(Rivals)하는 성능을 단 8B 규모의 모델로 달성하며, 도구 활용이 VLM의 한계를 어떻게 극복하는지 수치로 입증했습니다.

6. 결론: 엔지니어를 위한 공간 지능 구현 로드맵

S-Agent는 추론 엔진을 넘어 소형 모델을 위한 고품질 학습 데이터 생성기로서 강력한 가치를 지닙니다.

성능 지표 및 검증

S-Agent 프레임워크는 MMSI-Bench, ViewSpatial-Bench, ReVSI 등 주요 벤치마크에서 그 우수성을 증명했습니다.

1. 도구 확장성(Tool Scalability): 데이터 추상화 단계에 따라 도구를 계층화하고, 새로운 전문 모듈(Level 3 Experts)을 유연하게 추가할 수 있는 플러그인 구조를 확보하십시오.
2. 데이터 효율성(Data Efficiency): 고성능 교사 모델의 추론 궤적을 증류(Distillation)하여 소형 모델에서도 강력한 공간 추론 기능을 구현하십시오.
3. 상태 유지(State Management): Scene Memory와 Agent Memory의 분리 운영을 통해 장기 추론 시 발생하는 논리적 모순과 중복 연산을 차단하십시오.

도구 중심의 증거 축적 방식은 향후 로보틱스와 자율 주행 등 정밀한 실세계 이해가 요구되는 모든 AI 시스템의 핵심적인 설계 표준이 될 것입니다.