Embodied Intelligence AI

로봇이 세상을
'생각'하는 법

CoWVLA와 잠재 모션의 비밀:
단순한 기계적 수행을 넘어 세상을 이해하고 미래를 예측하는 지능의 진화.

인간은 컵을 집는 단순한 행동 시에도 이미 컵을 잡은 후의 모습을 인지합니다. 반면 기존 로봇은 기계적 명령 수행에 그쳤죠.

CoWVLA(Chain-of-World Vision-Language-Action)는 이 한계를 깨기 위해 탄생했습니다.

로봇이 단순히 명령을 따르는 것이 아니라, 자신의 행동이 세상에 미칠 인과 관계를 스스로 상상하고 이해하게 만드는 것이 목표입니다.

CoWVLA

Future-Oriented Reasoning

분리적 이해: 구조와 모션

z_s

"연극의 무대 장치와 배경"

z_m

"배우들의 동선과 안무"

"초록색 큐브를 쌓아줘"와 같은 인간의 자연어 명령을 정밀하게 인식합니다.

작업이 끝난 후의 '성공의 스냅샷'을 먼저 떠올립니다. 엔딩을 먼저 아는 영화 주인공과 같습니다.

현재 상태에서 목적지까지 가기 위한 중간 과정을 '잠재 모션'의 사슬로 정교하게 연결합니다.

0.760

기존 최고 모델(0.740)을 압도하는 안정적 성능

GPU Memory Usage

42GB UniVLA 76GB

복잡한 지시 정밀 수행 (LIBERO 0.956)

배경 간섭 제거 및 핵심 모션 집중