VLA 모델의 이해와 기존의 한계
VLA (Vision-Language-Action) 정의
- Vision: 핵심적인 의미 정보(Semantic meaning)를 추출합니다.
- Language: 인간의 명령어를 이해하고 해석합니다.
- Action: 정밀한 움직임(궤적, Trajectory)을 설계합니다.
기존 모델의 한계
입체적 인지 부족: 2D 정보 처리에 의존하여 정밀도가 저하됩니다.
물체의 실제 거리, 부피, 3차원 곡선에 대한 이해 부족으로 인한 오작동 발생
OmniVLA-RL의 구조: Mixture-of-Transformers (MoT)
01
추론 전문가 (Reasoning)
의도를 분석하고 상황 맥락을 파악합니다.
02
공간 전문가 (Spatial)
3D 구조와 미세 기하 정보를 추출합니다.
03
행동 전문가 (Action)
고정밀 동작 궤적을 생성합니다.
● 혁신 기술: Block-wise Causal Attention
동작 생성 중에 발생하는 '사고의 소음(Thought noise)'으로부터 시각 정보를 보호하는 방화벽(Firewall) 역할을 수행하여 정보 오염을 원천 차단합니다.
정밀 조작의 핵심: 공간 전문가(Spatial Expert)
Point Cloud와 카메라 파라미터 등을 활용한 고차원 3D 구조 학습
3D 위치 판별
좌표 계산을 통한 정밀 포착
크기 및 방향 인식
손잡이 등 특정 부위 정밀 타겟팅
장애물 회피
실제 거리감 기반 안전 조작
행동의 완성: Flow-GSPO 학습 메커니즘
Flow Matching
조각하듯 배우는 학습법
무작위 노이즈로부터 매끄러운 동작 궤적을 찾아가는 혁신적 기법을 적용했습니다.
Optimization
Flow-GSPO의 차별점
- 블록 단위 최적화: 끊김 현상(Stuttering)을 해결하기 위해 '단어'가 아닌 '문장' 단위로 학습
- 유연한 대응: 확률적 탐색(SDE)을 통해 예상치 못한 환경에서도 최적의 대안 도출
성과 지표: 숫자로 증명된 압도적 성능
Success Rate
97.6%
실전 투입 가능한 수준의 신뢰도 확보
LIBERO 벤치마크 결과
초기 학습 효율 (50 Steps)
70% +
안정성: 학습 과정 중 등락 없이 지속적이고 안정적인 우상향 성능 향상 입증
결론 및 핵심 요약
로봇의 3단계 성장 로드맵
1
Spatial
3차원 세상 보기
2
Action
정확하게 손 뻗기
3
RL
숙련도 완성하기
3D 지능
정교한 기하학적 이해를 통해 '거리감 상실' 문제 해결
정보 보호
방화벽 기술로 시각 정보의 오염 방지
실전 준비 완료
97.6% 성공률로 차세대 로봇 지능의 표준 제시