AI Foundation Models

Ψ0 (Psi-Zero):
인간의 시선에서 로봇의 지혜

인간의 1인칭 시점 영상을 통해 로봇이 물리 세상을 이해하고 복잡한 작업을 수행하는 3단계 여정을 탐구합니다.


01. 새로운 패러다임: 왜 인간의 시점인가?

전통적인 로봇 학습은 단일 작업을 위해 수천 시간의 인간 제어 데이터를 필요로 합니다. 이는 비용이 많이 들고 확장이 어렵다는 고질적인 '데이터 기점' 문제를 야기합니다.

기존 방식의 한계

값비싼 전용 데이터, 제한된 환경, 확장 불가능한 수동 라벨링

Ψ0의 솔루션

온라인에 풍부한 인간의 1인칭(Egocentric) 영상을 주 학습 자원으로 활용

"머리에 카메라를 쓴 셰프의 시선(1인칭)으로 관찰하는 것은 제3자의 시선보다 조리 과정을 훨씬 명확하게 이해하게 해줍니다."
829h+

데이터 규모 확장

EgoDex 등 방대한 데이터셋 활용

Evolution

자연스러운 움직임

수천 년간 진화한 인간의 효율적 패턴 학습

Physics

물리 법칙 이해

도구 사용 및 상호작용 규칙 체득

02. 신체적 차이 극복: '의도'와 '제어'의 분리

인간과 로봇은 신체 구조가 다릅니다(Embodiment Gap). Ψ0는 이를 해결하기 위해 '무엇을 할지(의도)''어떻게 움직일지(제어)'를 전략적으로 분리합니다.

구분 인간 데이터 (EgoDex) 로봇 데이터 (Humanoid)
제공 정보 시각-행동 표현 (Visual-Action) 정밀 관절 제어 (Joint Control)
학습 공간 작업 공간 (Task Space) 관절 공간 (Joint Space)
시스템 역할 System 2 (뇌): 기하학 이해 System 1 (신경): 기계적 제어

03. Ψ0의 3단계 학습 프로세스

1

Pre-Training: 로봇의 "뇌(System 2)" 형성

로봇에게 "세상이 돌아가는 방식"을 가르칩니다.

  • 모델: Qwen3-VL-2B-Instruct 기반 시각-언어 모델
  • 방법: 829시간의 인간 영상에서 '다음 행동 예측' 학습
  • 핵심: 복잡한 관절 각도 계산 대신 손끝이나 손목의 3D 좌표 예측에 집중
2

Post-Training: "근육과 신경(System 1)" 교정

학습된 "눈"을 로봇의 "물리적 신체"와 연결합니다.

  • 모델: MM-DiT (Multi-modal Diffusion Transformer, 500M)
  • 기능: VLM의 시각 정보와 로봇의 상태를 결합해 36~43개의 관절 값 생성
  • 효율성: 단 31시간의 로봇 데이터만으로도 강력한 성능 발휘
3

Fine-Tuning: 특정 미션 마스터링

특정 환경과 고난도 작업을 위해 정밀하게 다듬습니다.

커피 머신 조작 정밀한 파지 및 버튼 압력
카트 밀기 보행 속도와 미는 힘의 조화
냉장고 문 열기 무게 중심 이동 및 물리력 적용

성과: 기존 SOTA 모델(GR00T-N1.6) 대비 평균 40% 높은 성공률 달성

Bonus: 끊김 없는 움직임, RTC 기술

거대 모델(VLM)은 추론 시 약 160ms~200ms의 지연 시간을 발생시켜 로봇이 '생각하느라 멈추는' 현상을 유발합니다. 이를 해결하는 것이 RTC (Real-Time Chunking)입니다.

미적용 시

  • • 로봇이 추론 중 일시 정지 (Stuttering)
  • • 미세 진동(Jitter) 발생 및 충돌 위험

적용 시 (Inpainting 기술)

  • • 160ms의 추론 공백을 예측하여 채움
  • • 인간처럼 부드럽고 연속적인 흐름 완성

Technical Implementation View

// Pseudo-concept of Psi-Zero Integration
const psiZeroModel = async (visualStream) => {
  // Step 1: System 2 - Intent Prediction
  const taskSpaceAction = await vlm.predictNextAction(visualStream); 
  
  // Step 2: System 1 - Joint Calibration
  const jointSpaceControl = await mmDit.calibrate(taskSpaceAction, robotState);
  
  // Step 3: RTC (Real-Time Chunking)
  return rtc.fillInferenceGap(jointSpaceControl);
}

결론: 데이터의 양보다 학습의 질

로봇 학습의 미래는 '무엇을 학습하고 어떻게 체계화하느냐(System 2-1-0)'에 달려 있습니다. Ψ0는 인간의 시각에서 지혜를 추출해 로봇의 정밀한 제어로 변환함으로써, 휴머노이드 로봇이 우리 곁에서 안전하게 작동할 미래를 앞당기고 있습니다.

"분리 학습의 지혜(The wisdom of learning by decoupling)는 로보틱스의 핵심 원칙이 될 것입니다."