Academic Research Report

Qwen-VLA: 시각-언어-행동 통합 기반의
차세대 범용 로봇 에이전트 분석

Vision-Language-Action Foundation Model for Universal Embodied AI

Summarized by Sungsoo Kim @ ETRI • MAY 2026

Executive Abstract

본 보고서는 Qwen-VLA 모델의 아키텍처 혁신과 성능 지표를 심층 분석합니다. Qwen3.5 백본과 DiT 기반 동작 엔진의 결합을 통해 구현된 이 모델은, 11종 이상의 이기종 하드웨어를 단일 신경망으로 제어하며 물리적 지능의 새로운 기준을 제시합니다.

Media Insights

Visual Demonstration

"시연 영상은 Qwen-VLA의 정교한 매니퓰레이션 능력과 실시간 환경 적응력을 보여주며, 복합적인 언어 지시를 물리적 행동으로 변환하는 과정을 시각화합니다."

서론: 체화된 지능(Embodied Intelligence)의 부상과 VLA 모델의 진화

과거 로봇 제어 시스템은 조작(Manipulation)이나 내비게이션(Navigation) 등 단일 작업에 국한된 파편화된 전문가(Specialist) 모델에 머물렀습니다. 최근 AI 연구는 AI가 물리적 환경을 실시간으로 인지하고 자연어를 이해하며 목표 달성을 위해 행동하는 '체화된 지능(Embodied Intelligence)' 패러다임으로 전환되고 있습니다.

Qwen-VLA(arXiv:2605.30280)는 시각, 언어, 행동 영역을 단일 신경망으로 통합한 차세대 VLA(Vision-Language-Action) 파운데이션 모델로, 대규모 멀티모달 사전 학습을 통해 공간 인지 능력과 정교한 객체 조작 능력 간의 지식 전이(Knowledge Transfer)를 가능케 하며, 다목적 범용 로봇 에이전트(Generalist Agent)로의 진화를 보여줍니다.

통합 인지 신경망: Qwen3.5 백본의 역할과 멀티모달 추론 능력

Qwen-VLA의 아키텍처는 인지 중심점 역할을 하는 멀티모달 백본과 동작 생성 전문가 모듈로 이원화됩니다. Qwen3.5-4B 백본은 이미지 및 비디오와 같은 복잡한 시각 정보와 자연어 지시를 통합적으로 처리합니다.

입력된 시각적 맥락 내에서 공간적 관계를 추론하고 목표 객체를 식별하며, 언어적 의도를 물리적 궤적 생성을 위한 사전 정보로 변환하는 핵심 인지 및 추론 능력을 담당하며 전체 시스템의 두뇌 역할을 수행합니다.

정교한 동작 생성 엔진: DiT(Diffusion Transformer)와 Flow-matching 기술

백본에서 추론된 인지적 판단은 동작 전문가 모듈을 통해 구체적인 관절 제어 수치로 변환됩니다. 이 모듈은 약 1.15억 개(1.15B)의 파라미터를 가진 DiT(Diffusion Transformer) 구조로 설계되었습니다.

Technical Insight

Flow-matching 기술을 도입하여 고주파수의 역동적인 물리적 환경에서도 극도로 부드럽고 연속적인 로봇 궤적(Continuous Trajectory)을 생성합니다.

통합 예측 프레임워크: 통일된 행동 공간(Unified Action Space) 설계 원리

다양한 이기종 로봇을 단일 모델로 제어하기 위해 Qwen-VLA는 '통합 행동 공간'을 구축했습니다. 예측 프레임워크의 입력은 현재 시각 정보, 언어 지시, 체화 사양, 작업 식별자이며, 출력은 항상 일정한 크기의 행동 청크(Action Chunk) 텐서로 산출됩니다.

제어할 관절(DoF)이 적은 로봇의 경우 제로 패딩(Zero-padding) 기법을 활용하며, 이는 각 하드웨어의 고유한 제어 시맨틱을 보존하면서 출력 인터페이스만을 통일한 설계입니다.

체화 인식 프롬프팅(Embodiment-aware Prompting)

상이한 로봇 하드웨어를 제어하기 위해 Qwen-VLA는 텍스트 기반의 '체화 인식 프롬프팅'을 유일한 인터페이스(Sole Interface)로 활용합니다.

이 프롬프트는 로봇의 모델명, 팔의 형태, 제어 주파수(FPS), 계획할 궤적 길이 등을 포함하며, 이를 통해 모델은 로봇의 기구학적 특성을 인지하고 새로운 하드웨어에도 즉각적으로 적응할 수 있는 Zero-shot Adaptability를 확보합니다.

효율적 학습을 위한 4단계 레시피: T2A, CPT, SFT, RL의 결합

01. T2A (Text-to-Action)

언어와 행동 데이터만으로 학습하여 시각적 지름길(Shortcuts)을 배제합니다.

02. CPT (Continued Pretraining)

시각 정보를 결합하여 행동 지식을 실제 화면 속 객체에 그라운딩합니다.

03. SFT (Supervised Fine-tuning)

고품질 원격 조종 데이터를 바탕으로 전문가의 정밀 궤적을 모방 학습합니다.

04. RL (Reinforcement Learning)

성공 보상 기반 강화학습을 통해 최적의 정책(Policy)을 도출합니다.

범용성 검증: 11개 이상의 다양한 로봇 하드웨어 통합 제어

Qwen-VLA는 단일 가중치(Single Neural Network)만으로 고정식 매니퓰레이터부터 모바일 내비게이션 로봇에 이르기까지 11개 이상의 상이한 물리적 로봇 하드웨어를 성공적으로 제어했습니다.

이는 조작, 내비게이션, 인간 모션 궤적 생성 등 기존에 파편화되어 존재하던 체화적 의사결정 문제들을 하나의 파이프라인으로 통합하여 '작업 사일로(Task Silos)'를 타파한 학술적 성과입니다.

성능 지표 분석: LIBERO, Simpler-WidowX 등 주요 벤치마크

97.9%

LIBERO Success Rate

73.7%

Simpler-WidowX

39.5 pts

DOMINO (MS)

고난도 DOMINO 벤치마크 실험에서는 제로샷 환경임에도 불구하고 유의미한 성공률과 조작 점수를 기록하여 궤적의 질적 우수성을 입증했습니다.

비디오 데모 및 실제 환경 적응성(OOD) 분석

연구 시연 및 실제 물리 환경 배치 결과, Qwen-VLA는 훈련 데이터 분포를 벗어난 OOD(Out-of-Distribution) 상황에서 탁월한 강건성을 보였습니다.

특히 ALOHA 로봇을 활용한 양팔 조작 실험에서, 모델은 본 적 없는 배경, 이질적인 조명 조건, 낯선 객체 배치 등 통제되지 않은 환경에서도 평균 76.9%라는 높은 성공률을 달성했습니다.

결론: 인간-로봇 상호작용의 미래와 범용 로봇 에이전트

Qwen-VLA의 등장은 시각-언어-행동의 결합을 통해 자연어 기반의 의미론적 추론을 물리적 문제 해결로 직결시키는 범용 에이전트 시대의 도래를 의미합니다.

Qwen3.5 기반의 멀티모달 인지 엔진과 DiT 기반의 Flow-matching 연속 제어 기술의 유기적 결합은, 로봇이 하드코딩된 절차적 제어망을 벗어나 인간과 같은 언어로 소통하고 자신의 물리적 한계에 동적으로 적응하는 진정한 지능형 파트너로 발전할 것임을 예고합니다.

References & Sources

[1] Qwen Team. (2024). Qwen-VLA: A Unified Vision-Language-Action Foundation Model. arXiv:2605.30280
[2] Flow-matching for Continuous Trajectory Generation in Robotics. Technical Documentation.
[3] LIBERO & Simpler-WidowX: Standardized Benchmarking for Robot Manipulation.