Research Trends

Research Report

Foundation World Models: Spatial Intelligence의 미래를 이끌 기반 모델

Feb 2026 AI & Robotics

Foundation World Models는 Spatial Intelligence 연구개발에서 가장 강력하고 범용적인 기반 모델이다. 이는 대규모의 다양한 공간 데이터(비디오, 이미지, 3D 스캔, 센서 로그 등)로 사전 학습된 범용 세계 모델이다.

한 번 학습되면 로보틱스 제어, 자율주행 예측, AR 장면 생성, 물리 시뮬레이션 등 다양한 downstream 태스크에 최소한의 조정만으로 활용 가능한 설계이다. 기존 World Model이 특정 작업에 특화된 전문가라면, Foundation World Model은 수백만 시간의 세계 영상을 통해 범용 지식을 쌓은 거인이다. 2025년에서 2026년까지의 연구는 이 모델이 LLM처럼 World Models 분야의 핵심 기반이 되는 중요한 시점이다.

주요 처리 방식

주요 처리 방식은 세 가지이다. 첫째, 비디오, 이미지, 3D, 센서 데이터 수십억에서 수백억 프레임으로 예측, 재구성, 인과 추론 등 다중 목표로 사전 학습하는 대규모 사전 학습이다 World Labs Foundation 모델 방향성 (2025). 예를 들어, 전 세계 도시, 자연, 실내, 로봇 움직임 영상 수백만 시간으로 학습하여 어떤 새로운 장면도 이해하는 능력이다.

둘째, 비전, 언어, 액션, 물리 신호를 하나의 공통 잠재 공간에 통합하는 방식이다 VL-JEPA 기반 Foundation 확장 (Meta, 2025). 이는 "해변에서 달리는 강아지" 영상과 "강아지가 앞으로 달려" 텍스트를 같은 잠재 공간에서 예측하고 생성하는 예시이다.

셋째, 수십에서 수백억 파라미터의 대규모 모델을 확장하여 다양한 도메인에 제로샷 또는 퓨샷으로 전이하는 확장 및 전이 가능한 사전 학습이다 NVIDIA Cosmos (2025). 자동차 주행 데이터로 학습한 모델이 로봇 팔 움직임이나 VR 장면 생성에 바로 적용되는 강력한 가능성이다.

계산 비용

계산 비용은 사전 학습 단계에서 발생하는 막대한 규모이다. 수백억 프레임 학습에 수천에서 수만 GPU-일이 필요하여 LLM과 유사한 수준의 막대한 비용을 요구하는 특성이다. 시간 복잡도는 데이터 수와 모델 크기에 비례하는 O(N × D)이다.

Inference Efficiency
1-10 Seconds

H100 GPU 기준 10초 예측 시

Memory Usage
20GB+

상당히 높은 메모리 요구량

그러나 일단 학습이 완료되면 추론 비용은 상대적으로 낮은 수준이다. 실시간 처리는 파인튜닝 후 가능한 영역이지만, 일반적인 상황에서는 어려운 난이도이다.

장점과 단점

로보틱스, 자율주행, AR 등 거의 모든 공간 태스크에 적용 가능한 최고의 범용성

대규모 사전 학습 후 파인튜닝이 거의 필요 없는 뛰어난 데이터 효율성

!

초기 학습 비용은 수천에서 수만 GPU-일, 막대한 자본 소요

!

특정 태스크에서 예상치 못한 오류를 발생시킬 수 있는 블랙박스 위험성

구체적인 실생활 예시

실생활 예시는 그 잠재력을 명확히 보여주는 증거이다. World Labs Foundation World Model (2025~2026)은 수억 시간의 3D/4D 영상으로 사전 학습된 모델이다 World Labs Foundation 모델 방향성 (2025). 사용자가 "미래 도시 교통 시뮬레이션"을 요청하면 제로샷으로 3D 도시와 차량 움직임을 생성하는 능력이다. 이는 로보틱스 회사가 공장 내 로봇 움직임 시뮬레이션에 즉시 활용하는 혁신이다.

NVIDIA Cosmos는 자율주행, 로보틱스, 드론 데이터로 학습된 범용 모델이다 NVIDIA Cosmos (2025). 자동차 회사가 "비 오는 밤 고속도로 주행 시뮬레이션"을 요청할 때 학습 없이 고품질 시뮬레이션을 제공하는 사례이다. 이는 기존의 태스크별 모델 개발 방식에서 벗어나 한 번의 학습으로 다양한 시나리오에 대응하는 큰 변화이다. 또한 DeepMind Genie 3는 Foundation World Models의 새로운 지평을 열고 있는 연구 분야이다.

Foundation World Models는 대규모 데이터로 사전 학습된 범용 세계 모델이다. 이는 한 번 만들면 거의 모든 공간 지능 태스크에 재사용 가능한 혁신적 기술이다. 그러나 초기 학습 비용과 데이터 규모가 극도로 크다는 것이 가장 큰 도전 과제이다. 2025년에서 2026년까지 World Labs, NVIDIA, DeepMind, Meta 등 주요 기업들이 이 분야에서 경쟁하며, LLM의 Foundation Model처럼 Spatial AI의 핵심 기반을 다지는 중대한 시점이다.