Embodied Intelligence AI

로봇이 세상을
'생각'하는 법

CoWVLA와 잠재 모션의 비밀: 단순한 기계적 수행을 넘어 세상을 이해하고 미래를 예측하는 지능의 진화.

체화된 지능 (Embodied Intelligence)

인간은 컵을 집는 단순한 행동 시에도 이미 컵을 잡은 후의 모습을 인지합니다. 반면 기존 로봇은 기계적 명령 수행에 그쳤죠.

CoWVLA(Chain-of-World Vision-Language-Action)는 이 한계를 깨기 위해 탄생했습니다.

로봇이 단순히 명령을 따르는 것이 아니라, 자신의 행동이 세상에 미칠 인과 관계를 스스로 상상하고 이해하게 만드는 것이 목표입니다.

CoWVLA

Future-Oriented Reasoning

분리적 이해: 구조와 모션

z_s

구조적 잠재성 (Structure)

"연극의 무대 장치와 배경"

  • 책상의 위치, 컵의 모양 등 정적 요소
  • '무엇이 어디에 있는지' 파악
  • 무대 고정을 통해 계산 에너지 낭비 방지
z_m

잠재 모션 (Motion)

"배우들의 동선과 안무"

  • 팔의 궤적, 물체의 이동 등 역동적 요소
  • 높이(z_hm)와 너비(z_wm)의 세밀한 변화
  • '어떻게 변하는지'에만 연산 집중

Chain of World: 목적 기반 사고

1
명령 이해

"초록색 큐브를 쌓아줘"와 같은 인간의 자연어 명령을 정밀하게 인식합니다.

2
미래 결과 상상 (Terminal Frame)

작업이 끝난 후의 '성공의 스냅샷'을 먼저 떠올립니다. 엔딩을 먼저 아는 영화 주인공과 같습니다.

3
연속적 움직임 계획

현재 상태에서 목적지까지 가기 위한 중간 과정을 '잠재 모션'의 사슬로 정교하게 연결합니다.

SimplerEnv Success Rate

0.760

기존 최고 모델(0.740)을 압도하는 안정적 성능

혁신적인 자원 효율성

GPU Memory Usage

42GB UniVLA 76GB

복잡한 지시 정밀 수행 (LIBERO 0.956)

배경 간섭 제거 및 핵심 모션 집중