The New Frontier of Spatial Intelligence
2025-2026년 Spatial Intelligence를 선도하는 Genie 3, Marble, VL-JEPA 모델은 3D 공간을 효율적인 잠재 공간으로 압축하는 최신 기술의 정점입니다. 이들은 공간 관계 유지 및 예측·생성·계획의 효율성을 공통 목표로 삼고 있습니다.
Genie 3 (DeepMind)
Genie 3는 공간을 4D 오토회귀 잠재 격자로 구성하는 혁신적인 모델입니다. 작은 3D 격자 형태로 분할하며, 각 셀은 수십~수백 차원 벡터의 집합으로 이루어집니다.
- • 인코더는 입력 영상/텍스트를 잠재 격자로 압축하며, 시간 축을 포함한 4D 잠재 시퀀스로 매 프레임 업데이트됩니다.
- • 오토회귀 트랜스포머가 현재 잠재 격자와 사용자 행동을 통해 다음 프레임 잠재 격자를 순차적으로 예측합니다.
- • "숲 속 오두막" 프롬프트 입력 시, 10초간 240개 잠재 격자를 생성하며 공간이 실시간으로 변화하는 경험을 제공합니다.
Marble (World Labs)
Fei-Fei Li 팀이 공개한 Marble은 영구적인 Gaussian Splatting과 공간 잠재 표현을 결합한 최첨단 모델입니다. 한 번 생성된 세계가 영구적으로 유지되는 지속성이 핵심입니다.
- • 3D 장면을 위치, 색상, 반사율 등의 정보를 포함한 공간 잠재 격자로 변환하여 관리합니다.
- • 사용자의 편집 명령(예: "소파를 창문 쪽으로 옮겨")이 잠재 격자에 즉시 반영되어 0.1초 만에 재렌더링됩니다.
- • 메모리 효율을 위해 키프레임과 델타 방식의 저장 전략을 사용하여 방대한 3D 세계를 효율적으로 유지합니다.
VL-JEPA (Meta AI)
Yann LeCun 팀의 VL-JEPA는 비전-언어 공동 임베딩 예측 잠재 공간을 사용합니다. 비구조적 벡터 대신 의미론적 임베딩으로 공간을 표현하는 것이 특징입니다.
- • 비전 인코더가 영상을 잠재 벡터로 변환하면, 예측기가 언어 쿼리와 함께 미래 잠재 임베딩을 비오토회귀적으로 예측합니다.
- • 잠재 공간에서 직접 예측을 수행하기 때문에 픽셀 기반 생성 모델보다 훨씬 효율적이며 일관성이 높습니다.
- • 로봇이 "책상 위 컵을 집어라" 명령을 받을 때, 현재 장면의 잠재 임베딩에서 미래 동작의 잠재 상태를 즉각 예측하여 제어합니다.
Strategic Summary
이 세 모델은 거대한 실제 공간을 작고 구조화된 잠재 공간으로 압축하는 공통 원리를 기반으로 합니다.
각기 다른 목적에 따라 잠재 공간 구성 및 처리 방식이 설계된 2025-2026년 공간 인텔리전스의 핵심 트렌드입니다.