OmniVLA-RL: 연구 동향

VLA 모델의 이해와 기존의 한계

VLA (Vision-Language-Action) 정의

Vision: 핵심적인 의미 정보(Semantic meaning)를 추출합니다.
Language: 인간의 명령어를 이해하고 해석합니다.
Action: 정밀한 움직임(궤적, Trajectory)을 설계합니다.

기존 모델의 한계

입체적 인지 부족: 2D 정보 처리에 의존하여 정밀도가 저하됩니다.

물체의 실제 거리, 부피, 3차원 곡선에 대한 이해 부족으로 인한 오작동 발생

OmniVLA-RL의 구조: Mixture-of-Transformers (MoT)

01

추론 전문가 (Reasoning)

의도를 분석하고 상황 맥락을 파악합니다.

02

공간 전문가 (Spatial)

3D 구조와 미세 기하 정보를 추출합니다.

03

행동 전문가 (Action)

고정밀 동작 궤적을 생성합니다.

● 혁신 기술: Block-wise Causal Attention

동작 생성 중에 발생하는 '사고의 소음(Thought noise)'으로부터 시각 정보를 보호하는 방화벽(Firewall) 역할을 수행하여 정보 오염을 원천 차단합니다.

정밀 조작의 핵심: 공간 전문가(Spatial Expert)

Point Cloud와 카메라 파라미터 등을 활용한 고차원 3D 구조 학습

3D 위치 판별

좌표 계산을 통한 정밀 포착

크기 및 방향 인식

손잡이 등 특정 부위 정밀 타겟팅

장애물 회피

실제 거리감 기반 안전 조작

행동의 완성: Flow-GSPO 학습 메커니즘

Flow Matching

조각하듯 배우는 학습법

무작위 노이즈로부터 매끄러운 동작 궤적을 찾아가는 혁신적 기법을 적용했습니다.

Optimization

Flow-GSPO의 차별점

블록 단위 최적화: 끊김 현상(Stuttering)을 해결하기 위해 '단어'가 아닌 '문장' 단위로 학습
유연한 대응: 확률적 탐색(SDE)을 통해 예상치 못한 환경에서도 최적의 대안 도출

성과 지표: 숫자로 증명된 압도적 성능

Success Rate

97.6%

실전 투입 가능한 수준의 신뢰도 확보

LIBERO 벤치마크 결과

초기 학습 효율 (50 Steps) 70% +

안정성: 학습 과정 중 등락 없이 지속적이고 안정적인 우상향 성능 향상 입증

로봇의 3단계 성장 로드맵

1

Spatial 3차원 세상 보기

2

Action 정확하게 손 뻗기

3

RL 숙련도 완성하기

3D 지능

정교한 기하학적 이해를 통해 '거리감 상실' 문제 해결

정보 보호

방화벽 기술로 시각 정보의 오염 방지

실전 준비 완료

97.6% 성공률로 차세대 로봇 지능의 표준 제시

OmniVLA-RL