S

연구 동향 | Holi-Spatial

Revolutionizing 3D Intelligence

Holi-Spatial: 공간 지능의 데이터 한계를 돌파하는 자동화 혁명

웹 비디오를 활용한 3D 공간 데이터 생성의 완전 자동화. 기존 수동 방식의 한계를 넘어서 '데이터 플라이휠'을 완성하고 AI의 공간 이해도를 비약적으로 높입니다.

핵심 요약

  • 웹 비디오를 통한 3D 공간 데이터 생성 자동화
  • 100% 자동화 파이프라인으로 무한 확장성 확보
  • 기존 대비 3D 탐지 성능 64% 비약적 향상

1. 공간 지능(Spatial Intelligence)의 정의

무엇인가?

인공지능이 현실의 3D 세계를 이해(Understand)하고, 인식(Perceive)하며, 추론(Reason)하는 능력입니다. 로봇이 물건을 집거나 자율주행을 하는 데 필수적인 지능입니다.

현재의 장벽

정밀한 깊이 정보와 객체 위치를 포함하는 대규모 3D 데이터가 필요하지만, 2D 데이터에 비해 구축 속도가 현저히 느려 AI의 발전을 저해하고 있습니다.

기존 방식 vs Holi-Spatial

비교 항목 기존 방식 (Manual) Holi-Spatial
데이터 소스 LiDAR 등 특수 장비 웹상의 일반 비디오
레이블링 사람 직접 개입 100% 자동화
확장성 매우 느림 (자원 한계) 무한 확장 가능
어휘 다양성 약 50개 고정 클래스 오픈 보캐블러리

핵심 혁신: 3단계 자동화 파이프라인

1

기하학적 최적화 (Geometric Optimization)

Depth-Anything-3로 얻은 깊이 정보를 3D 가우시안 스플래팅(3DGS)으로 최적화합니다. '3D 입체 조명으로 조각'하듯 파편을 제거하고 매끄러운 구조를 완성합니다.

2

이미지 수준 인식 (Image-level Perception)

Gemini-ProSAM3가 사물을 파악하고 마스크를 생성합니다. 이를 3D 공간으로 투영(Lifting)하여 2D 시각 정보를 실제 좌표와 매칭합니다.

3

장면 수준 정제 (Scene-level Refinement)

여러 각도의 중복 데이터를 합치고 Qwen3-VL-30B를 통해 상세 캡션과 공간 추론 QA 쌍을 생성합니다. AI 에이전트가 스스로 데이터를 검증합니다.

Holi-Spatial-4M 데이터셋의 가치

12K
3DGS 장면
1.2M
2D 마스크
320K
3D 바운딩 박스
1.25M
공간 QA 쌍

Performance Uplift

ScanNet 3D 탐지 +64%
ScanNet++ Grounding +15%

결론: 인간 개입 없는 데이터 플라이휠

자동화된 파이프라인이 양질의 데이터를 생성하면, 모델이 더 똑똑해지고, 그 모델이 다시 새로운 데이터를 더 정확하게 레이블링합니다. 이제 비디오만 있다면 무한한 공간 지능을 창조할 수 있는 시대입니다.

💡 오늘의 핵심 인사이트

확장성

값비싼 장비 없이 웹 비디오만으로 무한 생성.

정밀도

3DGS 결합으로 기존 복원 노이즈 극복.

성능

학습 시 3D 탐지 성능 64% 향상 입증.