서론: 체화된 지능(Embodied Intelligence)의 부상과 VLA 모델의 진화
과거 로봇 제어 시스템은 조작(Manipulation)이나 내비게이션(Navigation) 등 단일 작업에 국한된 파편화된 전문가(Specialist) 모델에 머물렀습니다. 최근 AI 연구는 AI가 물리적 환경을 실시간으로 인지하고 자연어를 이해하며 목표 달성을 위해 행동하는 '체화된 지능(Embodied Intelligence)' 패러다임으로 전환되고 있습니다.
Qwen-VLA(arXiv:2605.30280)는 시각, 언어, 행동 영역을 단일 신경망으로 통합한 차세대 VLA(Vision-Language-Action) 파운데이션 모델로, 대규모 멀티모달 사전 학습을 통해 공간 인지 능력과 정교한 객체 조작 능력 간의 지식 전이(Knowledge Transfer)를 가능케 하며, 다목적 범용 로봇 에이전트(Generalist Agent)로의 진화를 보여줍니다.