S 연구 동향
핵심 기술 해설서

OmniVLA-RL

로봇의 지능과 행동을 연결하는 공간의 마법

로봇 공학 및 인공지능 교육 설계사 2026-04-27

VLA 모델의 이해와 기존의 한계

VLA (Vision-Language-Action) 정의

  • Vision: 핵심적인 의미 정보(Semantic meaning)를 추출합니다.
  • Language: 인간의 명령어를 이해하고 해석합니다.
  • Action: 정밀한 움직임(궤적, Trajectory)을 설계합니다.

기존 모델의 한계

입체적 인지 부족: 2D 정보 처리에 의존하여 정밀도가 저하됩니다.

물체의 실제 거리, 부피, 3차원 곡선에 대한 이해 부족으로 인한 오작동 발생

OmniVLA-RL의 구조: Mixture-of-Transformers (MoT)

01

추론 전문가 (Reasoning)

의도를 분석하고 상황 맥락을 파악합니다.

02

공간 전문가 (Spatial)

3D 구조와 미세 기하 정보를 추출합니다.

03

행동 전문가 (Action)

고정밀 동작 궤적을 생성합니다.

혁신 기술: Block-wise Causal Attention

동작 생성 중에 발생하는 '사고의 소음(Thought noise)'으로부터 시각 정보를 보호하는 방화벽(Firewall) 역할을 수행하여 정보 오염을 원천 차단합니다.

정밀 조작의 핵심: 공간 전문가(Spatial Expert)

Point Cloud와 카메라 파라미터 등을 활용한 고차원 3D 구조 학습

3D 위치 판별

좌표 계산을 통한 정밀 포착

크기 및 방향 인식

손잡이 등 특정 부위 정밀 타겟팅

장애물 회피

실제 거리감 기반 안전 조작

행동의 완성: Flow-GSPO 학습 메커니즘

Flow Matching

조각하듯 배우는 학습법

무작위 노이즈로부터 매끄러운 동작 궤적을 찾아가는 혁신적 기법을 적용했습니다.

Optimization

Flow-GSPO의 차별점

  • 블록 단위 최적화: 끊김 현상(Stuttering)을 해결하기 위해 '단어'가 아닌 '문장' 단위로 학습
  • 유연한 대응: 확률적 탐색(SDE)을 통해 예상치 못한 환경에서도 최적의 대안 도출

성과 지표: 숫자로 증명된 압도적 성능

Success Rate
97.6%

실전 투입 가능한 수준의 신뢰도 확보

LIBERO 벤치마크 결과

초기 학습 효율 (50 Steps) 70% +

안정성: 학습 과정 중 등락 없이 지속적이고 안정적인 우상향 성능 향상 입증

로봇의 3단계 성장 로드맵

1
Spatial 3차원 세상 보기
2
Action 정확하게 손 뻗기
3
RL 숙련도 완성하기

3D 지능

정교한 기하학적 이해를 통해 '거리감 상실' 문제 해결

정보 보호

방화벽 기술로 시각 정보의 오염 방지

실전 준비 완료

97.6% 성공률로 차세대 로봇 지능의 표준 제시