Holi-Spatial: 공간 지능의 혁명

Revolutionizing 3D Intelligence

Holi-Spatial: 공간 지능의 데이터 한계를 돌파하는 자동화 혁명

웹 비디오를 활용한 3D 공간 데이터 생성의 완전 자동화. 기존 수동 방식의 한계를 넘어서 '데이터 플라이휠'을 완성하고 AI의 공간 이해도를 비약적으로 높입니다.

인공지능이 현실의 3D 세계를 이해(Understand)하고, 인식(Perceive)하며, 추론(Reason)하는 능력입니다. 로봇이 물건을 집거나 자율주행을 하는 데 필수적인 지능입니다.

정밀한 깊이 정보와 객체 위치를 포함하는 대규모 3D 데이터가 필요하지만, 2D 데이터에 비해 구축 속도가 현저히 느려 AI의 발전을 저해하고 있습니다.

Depth-Anything-3로 얻은 깊이 정보를 3D 가우시안 스플래팅(3DGS)으로 최적화합니다. '3D 입체 조명으로 조각'하듯 파편을 제거하고 매끄러운 구조를 완성합니다.

Gemini-Pro와 SAM3가 사물을 파악하고 마스크를 생성합니다. 이를 3D 공간으로 투영(Lifting)하여 2D 시각 정보를 실제 좌표와 매칭합니다.

여러 각도의 중복 데이터를 합치고 Qwen3-VL-30B를 통해 상세 캡션과 공간 추론 QA 쌍을 생성합니다. AI 에이전트가 스스로 데이터를 검증합니다.

12K

3DGS 장면

1.2M

2D 마스크

320K

3D 바운딩 박스

1.25M

공간 QA 쌍

ScanNet 3D 탐지 +64%

ScanNet++ Grounding +15%

자동화된 파이프라인이 양질의 데이터를 생성하면, 모델이 더 똑똑해지고, 그 모델이 다시 새로운 데이터를 더 정확하게 레이블링합니다. 이제 비디오만 있다면 무한한 공간 지능을 창조할 수 있는 시대입니다.

확장성

값비싼 장비 없이 웹 비디오만으로 무한 생성.

정밀도

3DGS 결합으로 기존 복원 노이즈 극복.

성능

학습 시 3D 탐지 성능 64% 향상 입증.