Next-Gen Robotic Intelligence

OmniVLA-RL

Mixture-of-Transformers(MoT) 아키텍처 및 전문가 모듈 상호작용 기술 명세

01. 시스템 개요 및 설계 철학

표현 병목 현상(Representational Bottleneck)을 해결하기 위한 공간 지능 중심의 VLA 혁신

핵심 과제 & MoT 도입

기존 VLA 모델의 조기/후기 결합 한계를 극복하기 위해, 공유 Transformer 레이어 내부에서 추론(Reasoning), 공간(Spatial), 액션(Action) 전문가가 직접 상호작용하도록 설계되었습니다. 이는 단순한 데이터 병합을 넘어 대형 모델의 연산 과정 자체에 공간 지능을 주입합니다.

Reasoning
시맨틱 이해
Spatial
기하학적 정렬
Action
실행 일관성

전략 비교

기존 방식
2D 시각 특징 의존 및 액션 노이즈 간섭
OmniVLA-RL
VGGT 기반 3D 지능 및 Causal 격리

02. 삼중 전문가 모듈 (Tri-Expert)

각 도메인에 특화된 최적화 경로를 갖는 모듈형 지능

Reasoning Expert

상식적 사전 지식 및 상황 맥락 제공

  • SigLIP 기반 시각 시맨틱 추출 (z_sem)
  • Decoder-only Transformer 백본 정렬
  • 조건부 확률 분포 p(z_lang | z_sem) 모델링

Spatial Expert

미세 기하 정보를 보존하는 3D 지능

L_Spatial = L_points + λ_cam L_cam + λ_normal L_normal

VGGT 인코더를 통한 고해상도 공간 특징 추출 및 증류

Action Expert

Conditional Flow Matching (CFM) 기반 제어 궤적 생성

다중 모달 컨텍스트를 물리적으로 타당한 연속 궤적으로 변환합니다. 액션 청킹(Action Chunking) 전략을 통해 고충실도 실행을 보장합니다.

// Sampling Strategy
a_t ~ p(a | z_s, z_sem, z_l)

Block-wise Causal Attention

1

Omni-visible Prefix

Spatial/Reasoning 토큰 간 양방향(Bidirectional) 어텐션으로 시맨틱-기하학 완전 정렬

2

Causal Suffix

Action 토큰은 전체 Prefix를 참조하되 내부적으로 자기회귀적(Autoregressive) 제약 준수

3

Data Integrity

액션 노이즈의 시각/언어 영역 역전파 엄격 차단 (Uncontaminated State 유지)

// Attention Mask Visualization
Prefix (Reasoning/Spatial) Action (Causal)

04. Flow-GSPO 기반 온라인 강화학습

결정론적 경로에서 확률적 탐색으로의 진화

ODE에서 SDE로의 변환

탐색 가능성 확보를 위해 Fokker-Planck 방정식을 활용하여 결정론적 경로를 확률미분방정식(SDE)으로 변환합니다. Euler-Maruyama method를 통한 이산화 업데이트를 수행합니다.

A_{τ+δ, t} = A_{τ, t} + [v_θ(A_{τ, t}, s_t) + \frac{σ^2τ}{2}(...)]δ + σ_τ\sqrt{δ}ε

Action Block 단위 최적화

기존 GRPO의 토큰 단위 편향 문제를 해결하기 위해 H x K (블록 길이 x 디노이징 단계)를 기본 최적화 단위로 설정합니다.

  • 중요도 샘플링: 전체 액션 블록의 로그 우도 합을 통해 시간적 의존성 보존
  • 그룹 어드밴티지: G개 시퀀스 비교를 통한 학습 안정화

05. 3단계 점진적 학습 (Progressive Training)

Stage I
Spatial Pre-training
3D 데이터셋을 통한 기하학적 정렬 단계. Reasoning/Spatial 전문가 공동 학습. Action: Freeze
Stage II
Action Pre-training
DROID 데이터셋 활용 정책 합성. Action 전문가 활성화 (L_CFM). Spatial Head: Deactivated
Stage III
Online RL
전체 파라미터 활성화. Flow-GSPO를 통한 작업 특화 미세 조정 및 최적화 수행.

LIBERO Benchmark Results

Average Success Rate 97.6%

π₀ 대비 +21.1% 성능 향상 기록

Long-horizon Tasks 93.5%

장기 실행 일관성 및 복잡 의사결정 증명

Implementation Insights

Sample Efficiency 50단계 이내 70% 성공률 돌파 (PPO 대비 압도적 수렴 속도)
Sim-to-Real Challenge 실제 하드웨어의 물리적 마찰 및 지연 시간 보정 연구 필요

Conclusion

OmniVLA-RL은 MoT 아키텍처를 통해 공간 지능을 핵심 백본에 심층 통합하고 Flow-GSPO로 학습 안정성을 확보함으로써 차세대 로봇 제어 시스템을 위한 통합적 아키텍처 표준을 제시합니다.