Robotics & Imitation Learning Review

HumanEgo: Zero-Shot Robot Learning from Minutes of Egocentric Videos

✍️ Reviewed by Sungsoo Kim @ ETRI
πŸ“… 2026-05-29

Overview & Citation

"HumanEgoλŠ” λ‘œλ΄‡μ˜ ν•˜λ“œμ›¨μ–΄ 원격 μ‘°μž‘μ΄λ‚˜ λ‘œλ΄‡ μ‹œμ—° 데이터 없이, 단 λͺ‡ λΆ„ λΆ„λŸ‰μ˜ 인간 1인칭 μ‹œμ  λΉ„λ””μ˜€λ§ŒμœΌλ‘œ λ‘œλ΄‡ μ œμ–΄ 정책을 μ œλ‘œμƒ·μœΌλ‘œ ν•™μŠ΅ν•˜λŠ” ν˜μ‹ μ μΈ λ‘œλ΄‡ λͺ¨λ°© ν•™μŠ΅ ν”„λ ˆμž„μ›Œν¬μž…λ‹ˆλ‹€."

Reference Citation

"HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos (Wang et al., 2026)"

Core Innovations

Embodiment-Agnostic Vision

μΈκ°„μ˜ νŒ”κ³Ό 손을 μ§€μš°κ³  κ°€μƒμ˜ λ‘œλ΄‡ 그리퍼둜 λŒ€μ²΄ν•˜μ—¬ μ˜μƒ λ‚΄ ν•˜λ“œμ›¨μ–΄ 쒅속성을 μ™„λ²½νžˆ μ œκ±°ν•©λ‹ˆλ‹€.

Interaction-Centric Tokens

손과 객체 κ°„μ˜ 관계λ₯Ό 29차원 λ²‘ν„°λ‘œ μΆ”μƒν™”ν•˜μ—¬ μ‹œμ  및 신체 μ΄μ§ˆμ„±μ— λŒ€ν•œ λΆˆλ³€μ„±μ„ ν™•λ³΄ν•©λ‹ˆλ‹€.

Flow Matching Policy

CFM 기반의 속도μž₯ ν•™μŠ΅μœΌλ‘œ Diffusion λͺ¨λΈ λŒ€λΉ„ λΉ λ₯Έ μΆ”λ‘ κ³Ό λ›°μ–΄λ‚œ μ„±λŠ₯을 보μž₯ν•©λ‹ˆλ‹€.

Aria Gen1 Integration

Meta Aria 슀마트 μ•ˆκ²½μ˜ κ³ μ •λ°€ MPS 데이터λ₯Ό ν™œμš©ν•΄ 3D 곡간 정보λ₯Ό μ •λ°€ν•˜κ²Œ νšλ“ν•©λ‹ˆλ‹€.

The Challenge

!
Embodiment Gap

인간 손과 λ‘œλ΄‡ 그리퍼의 ꡬ쑰적 뢈일치

!
Viewpoint Variance

슀마트 μ•ˆκ²½ μ‹œμ κ³Ό λ‘œλ΄‡ 카메라 μ‹œμ μ˜ 차이

!
Data Efficiency

15λΆ„ λΆ„λŸ‰μ˜ μ΄ˆμ†ŒλŸ‰ 데이터 μ΅œμ ν™” 문제

The Methodology

HumanEgo의 데이터 νŒŒμ΄ν”„λΌμΈκ³Ό ν•™μŠ΅ μ „λž΅

01

Visual Preprocessing (SAM2 + LaMa)

Meta Aria Gen1 데이터λ₯Ό 톡해 3D 손 좔적 정보λ₯Ό μΆ”μΆœν•©λ‹ˆλ‹€. SAM2둜 μΈκ°„μ˜ νŒ”μ„ λΆ„ν• ν•˜κ³  LaMa둜 배경을 λ³΅μ›ν•œ ν›„ κ°€μƒμ˜ λ‘œλ΄‡ 그리퍼λ₯Ό ν•©μ„±ν•˜μ—¬ μ‹œκ°μ  ν”„λ‘μ‹œλ₯Ό μƒμ„±ν•©λ‹ˆλ‹€.

02

Interaction-Centric Tokens (ICT)

κΈ°ν•˜ν•™μ  λ³Έμ§ˆμ„ λ‹΄κΈ° μœ„ν•΄ μ œμ•ˆλœ 29차원 μƒνƒœ λ²‘ν„°μž…λ‹ˆλ‹€. μ‹œμ  변화에도 κ°•κ±΄ν•˜κ²Œ μ—”ν‹°ν‹° κ°„μ˜ 관계λ₯Ό μ •μ˜ν•©λ‹ˆλ‹€.

$$ \text{ICT}_k = [\tau \parallel T_{\text{REF}}^{E} \parallel T_{E}^{\text{LH}} \parallel T_{E}^{\text{RH}} \parallel g] $$
\(\tau\) (1D)
μ—”ν‹°ν‹° μΉ΄ν…Œκ³ λ¦¬
\(T_{\text{REF}}^{E}\) (9D)
κΈ°μ€€ μ’Œν‘œκ³„ 포즈
\(T_{E}^{H}\) (18D)
쒌우 손 μƒλŒ€ 포즈
\(g\) (1D)
그리퍼 개폐 μƒνƒœ
03

Flow Matching Policy

κ°€μš°μ‹œμ•ˆ λ…Έμ΄μ¦ˆ 뢄포λ₯Ό νƒ€κ²Ÿ 행동 λΆ„ν¬λ‘œ λ§€ν•‘ν•˜λŠ” 속도μž₯(Velocity field)을 ν•™μŠ΅ν•©λ‹ˆλ‹€. CFM 기반 접근은 κ³ ν’ˆμ§ˆμ˜ ꢀ적을 μƒμ„±ν•˜λ©΄μ„œλ„ 계산 νš¨μœ¨μ„±μ΄ κ·ΉλŒ€ν™”λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

$$ \mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_0, x_1} \left[ w_p \|\Delta p\|^2 + w_r \|\Delta r\|^2 + w_g \|\Delta g\|^2 \right] $$

Auxiliary Learning

μ΄ˆμ†ŒλŸ‰ 데이터 극볡을 μœ„ν•œ 보쑰 손싀 ν•¨μˆ˜λ₯Ό κ²°ν•©ν•˜μ—¬ ν‘œν˜„ν˜• ν•™μŠ΅μ„ κ°•ν™”ν•©λ‹ˆλ‹€.

  • \(\mathcal{L}_{\text{OM}}\): 객체 미래 6-DoF ꢀ적 예츑
  • \(\mathcal{L}_{\text{2D}}\): 이미지상 투영점 νšŒκ·€
  • \(\mathcal{L}_{\text{LC}}\): 잠재 일관성(Latent Consistency)

Key Applications

  • Universal Robot Deployment

    UR10, Franka λ“± 이쒅 λ‘œλ΄‡μ— 즉각적인 λ¬΄μˆ˜μ • 배포 κ°€λŠ₯

  • Industrial Speed-up

    μ‹œμ—° 데이터 μˆ˜μ§‘ μ‹œκ°„ 41% κ°œμ„  및 μ΄ˆκ³ μ† μŠ€ν‚¬ μ „ν™˜

  • Home Robotics

    일상 μƒν™œ ν–‰μœ„μ˜ ν¬λΌμš°λ“œμ†Œμ‹±μ„ ν†΅ν•œ νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈ ν•™μŠ΅

Open Problems

Issue 01

λ―Έμ„Έ ν–…ν‹± ν”Όλ“œλ°±(Force Feedback) λΆ€μ‘±μœΌλ‘œ μ •λ°€ 물리 μ‘°μž‘μ˜ ν•œκ³„

Issue 02

수건/앑체 λ“± 비강체(Deformable Objects) μ‘°μž‘ ν‘œν˜„μ˜ κΈ°ν•˜ν•™μ  μœ μ—°μ„± λΆ€μ‘±

Issue 03

닀쀑 μ—μ΄μ „νŠΈ ν™˜κ²½ 및 인간-λ‘œλ΄‡ κ°„μ„­μ—μ„œμ˜ 좩돌 νšŒν”Ό 기제 미규λͺ…

Future Directions

πŸ€–
VLM Integration

μž‘μ—…μ˜ 물리적 μ˜λ„μ™€ λ§₯락을 μ΄ν•΄ν•˜λŠ” λ©€ν‹°λͺ¨λ‹¬ ν”„λ ˆμž„μ›Œν¬ ν™•μž₯

🌐
In-the-wild Video

특수 μž₯λΉ„ 없이 YouTube λ“± 일반 μ˜μƒμ—μ„œμ˜ 3D 볡원 및 ν•™μŠ΅

✨
Neural Rendering

3D Gaussian Splatting 등을 ν†΅ν•œ 비강체 물체 μ‘°μž‘ 좔상화