01 패러다임의 전환
현재 로봇 공학은 시각-언어-행동(VLA) 모델을 중심으로 재편 중입니다. 그러나 기존 반응형 모델은 장기적 추론의 부재와 누적 오류에 취약합니다.
Limitation
물리적 일관성 결여 및 신뢰성 저해
Solution
월드 모델 도입을 통한 '예측적 구조' 제공
3대 전략적 가치
-
1
예견 (Foresight)
실행 전 물리적 결과 시뮬레이션
-
2
상상 (Imagination)
가상 롤아웃을 통한 계획 최적화
-
3
증폭 (Amplification)
데이터 보강을 통한 일반화 극대화
기능적 정의와 확률적 이해
행동 조건화(Action-conditioned)
월드 모델은 단순한 비디오 생성이 아닌 행동(Action)에 따른 상태 변화를 명시적으로 모델링합니다. 이는 인과관계를 포함하는 핵심적 차이입니다.
Probabilistic Core
$p(x_{t+1:t+H} | x_t, a_{t:t+H-1}, l)$
Vs. Normal Video: $p(v_{t+1:t+H} | o_t, l)$
확률적 렌즈를 통한 통합
-
Policy Model
$p(a | o, l)$ -
Passive WM
$p(o | o_{prev}, l)$ -
Inverse Dynamics
$p(a | o_{t:t+k})$
단일 백본에서 정책과 월드 모델이 통합될 수 있는 이론적 근거를 제공합니다.
Architecture Paradigms
Decoupled IDM Style
UniPi, Vidar, NovaFlow
비디오 생성 후 역동학 모델(IDM)을 적용하는 Predict-then-Act 방식. 최근에는 3D 모션 필드나 Flow 같은 기하학적 중간체를 활용하여 물리적 강건성을 확보합니다.
Single-Backbone Style
UVA, Cosmos Policy, UWA
공유 잠재 공간 내의 공유 토큰을 활용. 시공간적 물리 프라이어가 행동 생성에 직접 주입되며, 연산 효율을 위해 비디오 생성을 생략하는 Marginalization이 가능합니다.
MoE / MoT Style
Motus, LingBot-VA, π₀
비디오 전문가와 행동 전문가를 분리하되 Joint Attention으로 결합. 고주파 제어와 저주파 시각 예측의 특성을 각각 유지하며 긴밀한 결합을 구현합니다.
JEPA / Latent WM
VLA-JEPA, FLARE
픽셀 복원 대신 '행동 관련 정보'만을 포함하는 잠재 공간 예측. 노이즈를 무시하고 물리적 역학의 본질에 집중하여 실시간 시스템에 최적화되어 있습니다.
Architecture Comparison Summary
| Paradigm | Key Models | Core Feature | Strategic Trade-off |
|---|---|---|---|
| IDM Style | UniPi, Vidar | Explicit Visual Plan | Modularity vs Latency |
| Single-Backbone | Cosmos Policy, UWA | Physical Priors | Priors vs Learning Complexity |
| MoE/MoT Style | Motus, LingBot-VA | Joint Attention | Precision vs Overhead |
| Latent WM | FLARE, VLA-JEPA | Internal Foresight | Efficiency vs Interpretability |
공진화 (Co-evolution)
단순한 시뮬레이터를 넘어, 월드 모델-정책 공진화(WoVR) 전략이 부상하고 있습니다. 실패 데이터를 통해 월드 모델의 물리 법칙을 수정하고, 강화된 모델로 다시 정책을 훈련시키는 자가 진화 루프입니다.
정책 평가 및 검증
WorldEval과 같은 시스템은 배포 전 안전성을 검증하는 에뮬레이터 역할을 수행합니다. 시각적 사실성보다 행동 일관성(Action-consistent)에 집중하여 유효성을 결정합니다.
차세대 시스템 설계 가이드
MoT (Joint Attention) 기반으로 고주파 제어와 시각 예견 결합
Latent-space WM을 통해 픽셀 렌더링 오버헤드 제거
IDM 스타일에 3D Structured Intermediates 결합