Research Trends | EgoScale Analysis

Robotics & AI • February 2026

EgoScale: 대규모 1인칭 인간 행동 데이터를 활용한 범용 고교절 로봇 조작 시스템 아키텍처

로봇 공학의 '신체 지능' 구현을 위해 EgoScale은 20,854시간의 대규모 1인칭 비디오 데이터를 활용하여 인간의 복잡한 행동을 로봇의 22-DoF 제어로 전이시키는 혁신적인 아키텍처를 제시합니다.

로봇 공학 분야에서 차세대 목표인 '신체 지능'을 구현하기 위해서는 신경망이 물리 세계의 복잡한 인과관계를 학습할 수 있는 방대한 데이터가 필수적입니다. 그러나 기존 로봇 텔레오퍼레이션 데이터는 수집 비용이 높고 확장이 어렵다는 한계가 있었습니다. EgoScale 프로젝트는 이러한 데이터 부족 문제를 해결하기 위해 인간의 일상적인 행동이 담긴 '대규모 1인칭 비디오'를 로봇 학습의 핵심 동력으로 활용하는 전략을 제안합니다.

VLA 아키텍처

시각(Vision), 언어(Language), 행동(Action)을 통합한 모델 기반. Flow-matching 목적 함수를 통해 고차원 관절 궤적을 정확하게 생성합니다.

Embodiment Gap 해소

'상대적 손목 움직임'과 '전체 관절 리타게팅' 방식을 통해 인간의 움직임을 22-DoF 로봇 손의 관절 공간으로 정밀하게 맵핑합니다.

EgoScale은 데이터 규모와 성능 간의 명확한 '스케일링 법칙'을 입증하였습니다. 연구팀은 인간 행동 예측의 검증 손실(L)과 데이터 규모(D) 사이에 L = 0.024 - 0.003 · ln(D)라는 관계를 도출했으며, 데이터가 1k에서 20k로 확장됨에 따라 로봇의 작업 성공률이 비약적으로 상승함을 확인했습니다.

특히 주목할 점은 2단계 전이 학습 레시피입니다. Stage I에서는 방대한 비디오로부터 모터 프라이어를 학습하고, Stage II에서는 소량의 데이터를 통해 로봇의 제어 공간에 이를 고정(Grounding)시킵니다. 이 과정을 통해 셔츠 접기(88%), 물병 뚜껑 따기(55%) 등 고난도 작업에서 높은 성공률을 기록했습니다.

결론적으로 EgoScale은 특정 하드웨어에 종속되지 않는 범용성(Universal Motor Prior)을 보여줍니다. 22-DoF Sharpa 손을 기준으로 설계되었음에도 7-DoF Unitree G1 로봇으로 성공적인 전이가 가능함을 입증하며, 로봇이 인간 수준의 정교한 조작 능력을 갖추는 데 필수적인 기술적 토대를 마련했습니다.

VLA 아키텍처

Embodiment Gap 해소 '상대적 손목 움직임'과 '전체 관절 리타게팅' 방식을 통해 인간의 움직임을 22-DoF 로봇 손의 관절 공간으로 정밀하게 맵핑합니다.

Embodiment Gap 해소

'상대적 손목 움직임'과 '전체 관절 리타게팅' 방식을 통해 인간의 움직임을 22-DoF 로봇 손의 관절 공간으로 정밀하게 맵핑합니다.