01. 시스템 개요 및 설계 철학
표현 병목 현상(Representational Bottleneck)을 해결하기 위한 공간 지능 중심의 VLA 혁신
핵심 과제 & MoT 도입
기존 VLA 모델의 조기/후기 결합 한계를 극복하기 위해, 공유 Transformer 레이어 내부에서 추론(Reasoning), 공간(Spatial), 액션(Action) 전문가가 직접 상호작용하도록 설계되었습니다. 이는 단순한 데이터 병합을 넘어 대형 모델의 연산 과정 자체에 공간 지능을 주입합니다.
전략 비교
02. 삼중 전문가 모듈 (Tri-Expert)
각 도메인에 특화된 최적화 경로를 갖는 모듈형 지능
Reasoning Expert
상식적 사전 지식 및 상황 맥락 제공
- SigLIP 기반 시각 시맨틱 추출 (z_sem)
- Decoder-only Transformer 백본 정렬
- 조건부 확률 분포 p(z_lang | z_sem) 모델링
Spatial Expert
미세 기하 정보를 보존하는 3D 지능
VGGT 인코더를 통한 고해상도 공간 특징 추출 및 증류
Action Expert
Conditional Flow Matching (CFM) 기반 제어 궤적 생성
다중 모달 컨텍스트를 물리적으로 타당한 연속 궤적으로 변환합니다. 액션 청킹(Action Chunking) 전략을 통해 고충실도 실행을 보장합니다.
Block-wise Causal Attention
Omni-visible Prefix
Spatial/Reasoning 토큰 간 양방향(Bidirectional) 어텐션으로 시맨틱-기하학 완전 정렬
Causal Suffix
Action 토큰은 전체 Prefix를 참조하되 내부적으로 자기회귀적(Autoregressive) 제약 준수
Data Integrity
액션 노이즈의 시각/언어 영역 역전파 엄격 차단 (Uncontaminated State 유지)
04. Flow-GSPO 기반 온라인 강화학습
결정론적 경로에서 확률적 탐색으로의 진화
ODE에서 SDE로의 변환
탐색 가능성 확보를 위해 Fokker-Planck 방정식을 활용하여 결정론적 경로를 확률미분방정식(SDE)으로 변환합니다. Euler-Maruyama method를 통한 이산화 업데이트를 수행합니다.
Action Block 단위 최적화
기존 GRPO의 토큰 단위 편향 문제를 해결하기 위해 H x K (블록 길이 x 디노이징 단계)를 기본 최적화 단위로 설정합니다.
- • 중요도 샘플링: 전체 액션 블록의 로그 우도 합을 통해 시간적 의존성 보존
- • 그룹 어드밴티지: G개 시퀀스 비교를 통한 학습 안정화
05. 3단계 점진적 학습 (Progressive Training)
LIBERO Benchmark Results
π₀ 대비 +21.1% 성능 향상 기록
장기 실행 일관성 및 복잡 의사결정 증명
Implementation Insights
Conclusion
OmniVLA-RL은 MoT 아키텍처를 통해 공간 지능을 핵심 백본에 심층 통합하고 Flow-GSPO로 학습 안정성을 확보함으로써 차세대 로봇 제어 시스템을 위한 통합적 아키텍처 표준을 제시합니다.