JoyEgoCam: 하드웨어 사양 및 자동화된 데이터 어노테이션 파이프라인 기술 가이드
JoyEgoCam: Hardware Specifications and Automated Data Annotation Pipeline for Robotic Learning
JoyEgoCam: Hardware Specifications and Automated Data Annotation Pipeline for Robotic Learning
로봇 조작 모델의 일반화 성능 향상을 위해서는 대규모 고품질 데이터셋이 필수적입니다. 기존의 텔레오퍼레이션 방식은 비용 및 확장성의 한계를 지니며, UMI 방식은 특정 로봇 형태에 종속되거나 복잡한 기교 조작을 포착하는 데 한계가 있었습니다. EgoLive 프로젝트는 인간의 1인칭 시점(Egocentric) 데이터를 활용하여 이러한 한계를 극복합니다.
346개 작업, 65,866개 에피소드(1,680시간)의 거대 데이터셋. 모든 시퀀스에 6-DoF 궤적 및 시맨틱 주석 포함.
커스텀 스테레오 비전 장비로 인간 시각 시스템 모방. 마이크로초 단위 시간 동기화로 정밀한 감독 신호 제공.
가정, 소매, 약국 등 실제 비즈니스 시나리오의 '수직적 현장 인간 작업 데이터' 수집으로 도메인 차이 최소화.
JoyEgoCam은 인간 지각 방식의 수치적 재현을 통해 로봇 학습에 필요한 고정밀 정제 데이터를 생성하도록 설계되었습니다.
비정형 영상 데이터를 로봇 실행 가능한 수치적 궤적으로 변환하는 과정입니다.
6-DoF Hand Tracking: HaMeR 및 MANO 모델을 활용하여 단안 영상에서 추정한 매개변수를 스테레오 공간 내에서 공동 최적화(Joint Optimization)합니다.
Camera Ego-motion: ORB-SLAM3를 활용하여 바이노큘러 데이터와 200Hz IMU 데이터를 퓨전, 전역 좌표계 기준의 이동 궤적을 산출합니다.
Density Depth Recovery: FoundationStereo를 적용하여 1152x1152 고해상도 깊이 맵을 생성합니다.
기하학적 궤적을 넘어 동작의 의도와 논리적 구조를 부여하는 단계입니다.
BoT-SORT와 SAM2 통합으로 객체 실시간 추적 및 정밀 세그멘테이션 마스크 생성.
Qwen3-VL-32B 모델의 다단계 추론(Hand-Object-Action) 전략으로 미세 입도 설명 도출.
특히, 손-객체 탐지 결과에 기반한 하위 작업(Sub-task) 자동 분할 기능은 장기 시퀀스 작업을 로봇이 학습 가능한 단계별 원자적 행동으로 구조화합니다.
JoyEgoCam은 정교한 캘리브레이션 환경에서 실제 로봇 운용에 필요한 정밀도를 입증하였습니다.
| 거리 (mm) | 평균 오차 (mm) | 오차 < 10mm (%) | 오차 < 20mm (%) |
|---|---|---|---|
| 500mm | 3.059 | 99.19% | 100.00% |
| 700mm | 3.045 | 99.83% | 100.00% |
| 900mm | 5.381 | 87.05% | 96.99% |
| 1100mm | 7.091 | 74.82% | 96.10% |
| 1500mm | 8.751 | 63.66% | 92.53% |
* 0.9m 이내의 근거리 작업 영역에서는 밀리미터급의 정밀도를 보장합니다.