Spatial-TTT: 연구 동향

1. 배경 및 Spatial-TTT의 핵심 정의

스트리밍 공간 지능(Streaming Spatial Intelligence): 정적인 단일 시점이 아닌, 연속적인 시각적 관찰(비디오 스트림)로부터 실시간으로 공간 추론을 유지하고 업데이트하는 능력입니다.

기존 MLLM의 한계

비효율적 연산 비용: 표준 트랜스포머의 셀프 어텐션은 시퀀스 길이에 따라 연산 비용이 제곱(Quadratic)으로 증가하여 실시간 처리에 병목이 발생합니다.
3D 기하학적 사전 지식 부재: 2D 이미지-텍스트 쌍으로 학습된 모델은 시점 변화나 가림 현상(occlusion) 상황에서의 공간 구조 이해가 부족합니다.

Expert Insight

"근본적인 결함은 단순히 긴 비디오를 처리하지 못하는 것이 아니라, 메모리 내에 3D 정보를 축적하고 구조화하는 메커니즘이 없다는 데 있습니다."

2. 하이브리드 TTT 아키텍처: 효율과 추론의 균형

효율성을 극대화하면서도 기존 모델의 강력한 추론 능력을 보존하기 위해 Hybrid Decoder Block 구조를 채택했습니다.

75%

TTT Layer

Fast Weights를 통한 선형적 메모리 사용 및 장기 의존성 압축

25%

Anchor Layer

표준 셀프 어텐션을 유지하여 시각-언어 정렬 및 의미론적 추론 보존

Synthesis Insight

앵커 레이어는 모든 레이어를 TTT로 전환했을 때 발생할 수 있는 사전 학습 지식의 파괴를 방지하며, 압축 과정 중에도 고수준의 지능을 유지하는 기준점 역할을 합니다.

3. 실시간 처리를 위한 두 개의 엔진

하드웨어 효율성과 시공간적 연속성을 동시에 확보하기 위해 Large-chunk Updates와 Sliding Window Attention (SWA)를 결합합니다.

● Large-chunk Update

수천 개의 토큰(여러 비디오 프레임)을 하나의 블록으로 묶어 Fast Weight를 업데이트함으로써 GPU 활용도와 하드웨어 효율을 극대화합니다.

● Sliding Window Attention (SWA)

현재 청크가 업데이트 전의 자신을 참조할 수 없는 인과적 제약을 해결하며, 청크 사이를 연결하는 '커넥터' 역할을 수행하여 시공간적 연속성을 보장합니다.

"Large chunk는 하드웨어 효율을, SWA는 시공간적 디테일과 인과 관계를 담당합니다."

4. 공간 예측 메커니즘: 3D 시공간 컨볼루션 도입

단순한 포인트별 선형 투영을 넘어, 경량화된 Depth-wise 3D Spatiotemporal Convolution을 도입했습니다.

STABILITY

Muon Update

Newton-Schulz 반복을 통해 모멘텀을 직교화하여 온라인 가중치 업데이트의 안정성을 확보합니다.

CONSISTENCY

L2Norm

Muon Update와 결합하여 가중치 스케일을 유지하고 수렴을 가속화하며 메모리 업데이트 일관성을 보장합니다.

Synthesis Insight: 개별 토큰뿐만 아니라 주변 맥락을 함께 학습함으로써 모델이 실제 3D 기하학적 일관성을 이해하게 되며, 이는 Fast Weight 내에 더욱 구조화된 '공간 메모리'를 형성하게 합니다.

5. 학습 전략: 조밀한 장면 묘사 및 단계별 학습

희소한 VQA 데이터의 한계를 극복하기 위해 Dense Scene Description 데이터셋을 구축하고 2단계 학습을 진행합니다.

Stage 1: 글로벌 3D 인지 학습 (Annealing)
윈도우 크기를 $w_{max}=5600$에서 청크 크기 $b=2648$까지 선형적으로 줄이며 모델이 정보를 강제로 압축하여 TTT 레이어에 저장하도록 유도합니다.
Stage 2: 스트리밍 추론 미세 조정
윈도우 크기를 고정하고 200만 개 이상의 공간 VQA 데이터를 활용하여 실시간 스트림에서 정보를 선택적으로 추출하고 추론하는 능력을 고도화합니다.

6. 성능 분석 및 결론: 효율적 공간 지능의 증거

실험 결과(Table 5), Spatial-TTT는 긴 입력 시퀀스 처리에서 압도적인 우위를 증명했습니다.

지표 (1024 프레임 기준)	Spatial-TTT	비교군 (Qwen3-VL)
연산량 (TFLOPs)	40% 감소	기준치
메모리 점유 (1024f)	11.9GB	OOM (Out of Memory)

Spatial-TTT의 진정한 가치는 선형 복잡도(Linear Complexity) 달성에 있습니다. 컨텍스트 길이가 길어질수록 효율성 격차는 기하급수적으로 벌어지며, 이는 '무한 비디오 스트림'을 처리해야 하는 로보틱스 및 자율주행 분야에서 가장 현실적이고 강력한 대안임을 시사합니다.

"1024 프레임에서도 OOM 없이 선형적 확장이 가능하다는 데이터는 '무한 스트리밍 공간 지능' 시대의 서막을 알리는 신호입니다."

연구 동향 | Spatial-TTT

Spatial-TTT: 무한 스트리밍 공간 지능을 위한 혁신적 아키텍처