JoyEgoCam: 하드웨어 사양 및 자동화된 데이터 어노테이션 파이프라인 기술 가이드

JoyEgoCam: Hardware Specifications and Automated Data Annotation Pipeline for Robotic Learning

2026-05-03 • 기술 백서 (Technical Whitepaper)

01. Introduction

서론: 차세대 로봇 학습을 위한 에고센트릭 데이터의 전략적 가치

로봇 조작 모델의 일반화 성능 향상을 위해서는 대규모 고품질 데이터셋이 필수적입니다. 기존의 텔레오퍼레이션 방식은 비용 및 확장성의 한계를 지니며, UMI 방식은 특정 로봇 형태에 종속되거나 복잡한 기교 조작을 포착하는 데 한계가 있었습니다. EgoLive 프로젝트는 인간의 1인칭 시점(Egocentric) 데이터를 활용하여 이러한 한계를 극복합니다.

Annotated Scale

346개 작업, 65,866개 에피소드(1,680시간)의 거대 데이터셋. 모든 시퀀스에 6-DoF 궤적 및 시맨틱 주석 포함.

Data Quality

커스텀 스테레오 비전 장비로 인간 시각 시스템 모방. 마이크로초 단위 시간 동기화로 정밀한 감독 신호 제공.

Ecological Validity

가정, 소매, 약국 등 실제 비즈니스 시나리오의 '수직적 현장 인간 작업 데이터' 수집으로 도메인 차이 최소화.

02. Hardware Architecture

JoyEgoCam 하드웨어 아키텍처: 스테레오 비전 및 센서 통합

JoyEgoCam은 인간 지각 방식의 수치적 재현을 통해 로봇 학습에 필요한 고정밀 정제 데이터를 생성하도록 설계되었습니다.

광학 사양: 130° x 130° 초광각(Wide FOV), 2160x2160 해상도 @ 60FPS로 미세 움직임 왜곡 방지.
센서 퓨전: 200Hz 동작 고성능 IMU 통합 및 스테레오 RGB 카메라 프레임 간 마이크로초 단위 시간 동기화.
인체공학적 설계: 사용자의 자연스러운 행동 유도성(Affordance)을 보존하는 최소 침습적(Minimal-intrusion) 웨어러블 디자인.

03. Annotation Pipeline I

데이터 어노테이션 파이프라인 I: 동작 추적 및 기하학적 복원

비정형 영상 데이터를 로봇 실행 가능한 수치적 궤적으로 변환하는 과정입니다.

핵심 알고리즘 구성

6-DoF Hand Tracking: HaMeR 및 MANO 모델을 활용하여 단안 영상에서 추정한 매개변수를 스테레오 공간 내에서 공동 최적화(Joint Optimization)합니다.

Camera Ego-motion: ORB-SLAM3를 활용하여 바이노큘러 데이터와 200Hz IMU 데이터를 퓨전, 전역 좌표계 기준의 이동 궤적을 산출합니다.

Density Depth Recovery: FoundationStereo를 적용하여 1152x1152 고해상도 깊이 맵을 생성합니다.

04. Annotation Pipeline II

데이터 어노테이션 파이프라인 II: 시맨틱 이해 및 계층적 텍스트 라벨링

기하학적 궤적을 넘어 동작의 의도와 논리적 구조를 부여하는 단계입니다.

상호작용 세분화

BoT-SORT와 SAM2 통합으로 객체 실시간 추적 및 정밀 세그멘테이션 마스크 생성.

LLM 기반 캡셔닝

Qwen3-VL-32B 모델의 다단계 추론(Hand-Object-Action) 전략으로 미세 입도 설명 도출.

특히, 손-객체 탐지 결과에 기반한 하위 작업(Sub-task) 자동 분할 기능은 장기 시퀀스 작업을 로봇이 학습 가능한 단계별 원자적 행동으로 구조화합니다.

05. Accuracy Evaluation

시스템 성능 및 정확도 검증

JoyEgoCam은 정교한 캘리브레이션 환경에서 실제 로봇 운용에 필요한 정밀도를 입증하였습니다.

거리 (mm)	평균 오차 (mm)	오차 < 10mm (%)	오차 < 20mm (%)
500mm	3.059	99.19%	100.00%
700mm	3.045	99.83%	100.00%
900mm	5.381	87.05%	96.99%
1100mm	7.091	74.82%	96.10%
1500mm	8.751	63.66%	92.53%

* 0.9m 이내의 근거리 작업 영역에서는 밀리미터급의 정밀도를 보장합니다.

06. Conclusion

결론: 로봇 지능 확장을 위한 데이터 인프라의 미래

전문 엔지니어를 위한 제언

1. 동기화된 에고 모션 활용: 카메라 시점에 독립적인 정밀 로봇 조작 궤적 학습을 위해 200Hz IMU 데이터와 SLAM 결과물을 결합하십시오.
2. 객체 중심 정책 강화: SAM2 기반 마스크를 통해 복잡한 비정형 환경에서도 조작 안정성을 확보하십시오.
3. 계층적 정책 구축: Qwen3-VL 기반의 구조화된 캡션과 자동 분할된 서브태스크 데이터를 보상 함수 및 작업 계획 가이드로 활용하십시오.