Overview & Citation
"HumanEgoλ λ‘λ΄μ νλμ¨μ΄ μ격 μ‘°μμ΄λ λ‘λ΄ μμ° λ°μ΄ν° μμ΄, λ¨ λͺ λΆ λΆλμ μΈκ° 1μΈμΉ μμ λΉλμ€λ§μΌλ‘ λ‘λ΄ μ μ΄ μ μ± μ μ λ‘μ·μΌλ‘ νμ΅νλ νμ μ μΈ λ‘λ΄ λͺ¨λ°© νμ΅ νλ μμν¬μ λλ€."
Reference Citation
"HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos (Wang et al., 2026)"Core Innovations
μΈκ°μ νκ³Ό μμ μ§μ°κ³ κ°μμ λ‘λ΄ κ·Έλ¦¬νΌλ‘ λ체νμ¬ μμ λ΄ νλμ¨μ΄ μ’ μμ±μ μλ²½ν μ κ±°ν©λλ€.
μκ³Ό κ°μ²΄ κ°μ κ΄κ³λ₯Ό 29μ°¨μ 벑ν°λ‘ μΆμννμ¬ μμ λ° μ 체 μ΄μ§μ±μ λν λΆλ³μ±μ ν보ν©λλ€.
CFM κΈ°λ°μ μλμ₯ νμ΅μΌλ‘ Diffusion λͺ¨λΈ λλΉ λΉ λ₯Έ μΆλ‘ κ³Ό λ°μ΄λ μ±λ₯μ 보μ₯ν©λλ€.
Meta Aria μ€λ§νΈ μκ²½μ κ³ μ λ° MPS λ°μ΄ν°λ₯Ό νμ©ν΄ 3D κ³΅κ° μ 보λ₯Ό μ λ°νκ² νλν©λλ€.
The Challenge
μΈκ° μκ³Ό λ‘λ΄ κ·Έλ¦¬νΌμ ꡬ쑰μ λΆμΌμΉ
μ€λ§νΈ μκ²½ μμ κ³Ό λ‘λ΄ μΉ΄λ©λΌ μμ μ μ°¨μ΄
15λΆ λΆλμ μ΄μλ λ°μ΄ν° μ΅μ ν λ¬Έμ
The Methodology
HumanEgoμ λ°μ΄ν° νμ΄νλΌμΈκ³Ό νμ΅ μ λ΅
Visual Preprocessing (SAM2 + LaMa)
Meta Aria Gen1 λ°μ΄ν°λ₯Ό ν΅ν΄ 3D μ μΆμ μ 보λ₯Ό μΆμΆν©λλ€. SAM2λ‘ μΈκ°μ νμ λΆν νκ³ LaMaλ‘ λ°°κ²½μ 볡μν ν κ°μμ λ‘λ΄ κ·Έλ¦¬νΌλ₯Ό ν©μ±νμ¬ μκ°μ νλ‘μλ₯Ό μμ±ν©λλ€.
Interaction-Centric Tokens (ICT)
κΈ°ννμ λ³Έμ§μ λ΄κΈ° μν΄ μ μλ 29μ°¨μ μν 벑ν°μ λλ€. μμ λ³νμλ κ°κ±΄νκ² μν°ν° κ°μ κ΄κ³λ₯Ό μ μν©λλ€.
Flow Matching Policy
κ°μ°μμ λ Έμ΄μ¦ λΆν¬λ₯Ό νκ² νλ λΆν¬λ‘ λ§€ννλ μλμ₯(Velocity field)μ νμ΅ν©λλ€. CFM κΈ°λ° μ κ·Όμ κ³ νμ§μ κΆ€μ μ μμ±νλ©΄μλ κ³μ° ν¨μ¨μ±μ΄ κ·Ήλνλμμ΅λλ€.
Auxiliary Learning
μ΄μλ λ°μ΄ν° 극볡μ μν 보쑰 μμ€ ν¨μλ₯Ό κ²°ν©νμ¬ ννν νμ΅μ κ°νν©λλ€.
- \(\mathcal{L}_{\text{OM}}\): κ°μ²΄ λ―Έλ 6-DoF κΆ€μ μμΈ‘
- \(\mathcal{L}_{\text{2D}}\): μ΄λ―Έμ§μ ν¬μμ νκ·
- \(\mathcal{L}_{\text{LC}}\): μ μ¬ μΌκ΄μ±(Latent Consistency)
Key Applications
-
Universal Robot Deployment
UR10, Franka λ± μ΄μ’ λ‘λ΄μ μ¦κ°μ μΈ λ¬΄μμ λ°°ν¬ κ°λ₯
-
Industrial Speed-up
μμ° λ°μ΄ν° μμ§ μκ° 41% κ°μ λ° μ΄κ³ μ μ€ν¬ μ ν
-
Home Robotics
μΌμ μν νμμ ν¬λΌμ°λμμ±μ ν΅ν νμ΄λ°μ΄μ λͺ¨λΈ νμ΅
Open Problems
λ―ΈμΈ ν ν± νΌλλ°±(Force Feedback) λΆμ‘±μΌλ‘ μ λ° λ¬Όλ¦¬ μ‘°μμ νκ³
μ건/μ‘체 λ± λΉκ°μ²΄(Deformable Objects) μ‘°μ ννμ κΈ°ννμ μ μ°μ± λΆμ‘±
λ€μ€ μμ΄μ νΈ νκ²½ λ° μΈκ°-λ‘λ΄ κ°μμμμ μΆ©λ ννΌ κΈ°μ λ―Έκ·λͺ
Future Directions
VLM Integration
μμ μ 물리μ μλμ λ§₯λ½μ μ΄ν΄νλ λ©ν°λͺ¨λ¬ νλ μμν¬ νμ₯
In-the-wild Video
νΉμ μ₯λΉ μμ΄ YouTube λ± μΌλ° μμμμμ 3D 볡μ λ° νμ΅
Neural Rendering
3D Gaussian Splatting λ±μ ν΅ν λΉκ°μ²΄ 물체 μ‘°μ μΆμν