AdaJEPA — 계획하며 배우고, 행동하며 재보정하는 적응형 잠재 세계 모델.
잠재 세계 모델은 미래 상태를 압축된 잠재 공간에서 예측하여 고차원 관측으로부터 계획을 세운다. 그러나 이런 모델은 보통 테스트 시점에 얼어붙어 있어, 예측이 부정확해지면 특히 분포 이동 아래에서 계획이 실패한다. AdaJEPA는 모델 예측 제어(MPC)의 폐루프 안에서 테스트타임 적응을 수행하여, 관측된 전이를 자기지도 신호로 삼아 모델을 지속적으로 재보정한다.
계획에 쓰이는 세계 모델은 보통 학습 후 얼어붙는다. 예측이 부정확하면 MPC는 잘못된 목표를 최적화한다 — 잠재 롤아웃에서 효과적으로 보이는 행동이 실제 시스템 동역학에서는 실패한다. 작은 한 스텝 오차조차 계획 지평 전체에 걸쳐 복리로 누적된다.
이 문제는 테스트타임 분포 이동 아래에서 증폭된다. 노이즈·조명·배경 방해물 같은 시각 변화는 인코더를 어긋나게 하고, 마찰·질량·접촉 동역학의 변화는 잠재 예측기를 어긋나게 한다. 그 결과 고용량 세계 모델조차 테스트 환경의 작은 변화에서 상당한 성능 저하를 겪으며, 이는 세계 모델의 실세계 적용을 가로막는다.
예측이 부정확해도 모델은 바뀌지 않는다. MPC는 잠재 상상 속에서만 효과적인 행동을 골라 실환경에서 실패하고, 오차는 지평을 따라 복리로 커진다.
실행한 행동이 낳은 전이를 자기지도 신호로 삼아 다음 재계획 전에 모델을 갱신한다. 학습과 계획이 긴밀히 결합되어 예측이, 따라서 계획이 반복마다 개선된다.
이 직관은 생물학적 시스템에 근거한다. 감각운동 적응은 소뇌(cerebellum) 기전에 의존하여 변화하는 입력과 동역학 아래에서 행동을 조정한다. 인간도 새로운 경험으로 내부 세계 모델을 끊임없이 갱신하며, 그 갱신이 이후 결정을 형성한다. 세계 모델은 학습 후 고정될 것이 아니라 배포 중 마주친 경험으로부터 계속 개선되어야 한다.
JEPA 세계 모델들은 고차원 관측을 압축 잠재 공간으로 인코딩하고 그 안에서 동역학을 학습하지만, 모두 테스트 시점에 얼어붙어 분포 이동 아래 성능 저하 가능성이 있다. 테스트타임 학습·적응(TTT/TTA)은 이미지 분류 등에서 탐구되어 왔고, 적응 제어·온라인 모델 기반 RL도 예측 모델을 갱신하지만 보통 정책·가치 학습에 결합되거나 타깃 도메인 미세조정 데이터·추가 온라인 롤아웃·외부 자기개선 루프를 요구한다. AdaJEPA는 보상 라벨·전문가 라벨·별도 데이터 수집 없이 MPC 폐루프 안에서 사전학습된 세계 모델을 적응시키며, 저자들의 지식으로는 계획 중 JEPA 세계 모델을 적응시킨 첫 사례다.
잠재 세계 모델은 감각 인코더, 행동 인코더, 예측기로 구성된다. 픽셀을 재구성하는 대신 미래 잠재 타깃을 예측하도록 보상 없는(reward-free) 오프라인 전이 데이터로 인코더와 예측기를 공동 학습한다.
학습 후 세계 모델은 목표 조건 잠재 계획에 쓰인다. 목표 관측 o_g의 잠재 표현 z_g가 주어지면, MPC는 예측기 f_θ를 롤아웃하여 잠재 목표 도달 비용을 최소화하는 행동 시퀀스를 최적화한다.
예측하고, 실행하고, 그 결과로 배우고, 다시 예측한다.
각 MPC 재계획 단계에서 현재 모델로 계획하고, 첫 행동을 실행하고, 그 결과 전이를 관측하고, 소수의 자기지도 갱신을 수행한 뒤 갱신된 모델로 재계획한다. 각 에피소드는 같은 사전학습 모델에서 시작하며 자신만의 사본과 버퍼를 유지한다.
FIG 1a. 매 MPC 스텝마다 계획→실행→적응→재계획을 순환한다. 실행한 전이 {oₜ, aₜ, oₜ₊₁}의 예측 오차를 최소화하도록 모델을 갱신한 뒤 재계획하여, 현재 환경에서 마주친 전이에 모델을 지속적으로 재보정한다. 出處: Figure 1, AdaJEPA (2026)
버퍼 ℬ는 MPC 중 수집한 최근 전이를 저장한다. a_t 실행 후 o_{t+1}을 관측하면 (o_t, a_t, o_{t+1})을 ℬ에 추가한다. 버퍼가 무한정 커질 수 있으므로 매 반복마다 고정 크기 N으로 제한한다.
가장 최근 N개 전이만 유지한다. 현재 마주친 국소 관측·동역학에 적응을 집중시킨다. 주 실험의 기본값(최근 5개)이며 가장 안정적인 이득을 준다.
예측 오차가 가장 큰 N개 전이만 유지한다. 어려운 전이에 적응을 집중시킨다.
AdaJEPA는 사전학습과 동일한 자기지도 예측 신호를 테스트 시점에 사용한다. 정지 경사 sg(·)를 온라인 적응의 기본 붕괴 방지 안정화기로 쓰되, 사전학습 모델에 따라 다른 방법으로 대체할 수 있다.
테스트 시점에 갱신되는 파라미터를 Ω ⊆ {φ, ψ, θ}라 하면, 매 MPC 스텝 후 U회 경사 갱신 Ω ← Ω − η∇ℒ_ada(ℬ)을 수행한다. 실험에서 Ω는 인코더·예측기의 작은 부분집합으로 제한되어 적응이 가볍다.
PushT·PointMaze 벤치마크에서 다양한 학습–테스트 분포 이동과 적응 모드·설계 선택 아래 계획 성능을 평가한다. 각 MPC 재계획 스텝에서 단 한 번의 경사 하강 갱신만으로 모든 설정에서 강력하고 견고한 성능 향상이 나타난다.
PushT 블록을 T에서 다른 형태로 변경. 학습 {T, L, Z, +} → 테스트에 미지의 {I, smallT, square} 추가. 같은 접촉 동역학, 미지의 기하.
프레임별 손상 — 가우시안 블러, 소금-후추(snp) 노이즈, 어두운 조명. 색 변화 — T·앵커·에이전트를 빨강으로.
PointMaze-Medium 물리 변경 — 저질량(×0.2, 같은 힘에 더 빠른 이동), 고감쇠(×20, 속도 더 빨리 감소).
PointMaze 미로 배치 변경. 8×8 격자에 학습 25개 배치 → 미지의 5개 배치 평가. 최단 경로 3–5셀 목표.
분포 내에서 테스트타임 적응은 안전하다 — 얼어붙은 모델이 차선일 때 큰 이득을 주고, 이미 최적에 가까울 때 해를 끼치지 않는다. PushObj 학습 형태에서 GD·CEM 플래너 모두 얼어붙은 모델을 크게 능가하며(형태 특화로 20% 이상 향상), 분포 이동에서는 재계획 스텝을 따라 성공률이 계속 증가하는 반면 얼어붙은 모델은 일찍 포화된다. 미지 형태에서 얼어붙은 모델의 성능이 크게 떨어지는 반면 AdaJEPA는 계획 성공률을 거의 두 배로 높인다.
| Adapt | default GD | default CEM | low mass GD | low mass CEM | high damp GD | Unseen Layout GD | CEM |
|---|---|---|---|---|---|---|---|
| Frozen | 82.7 | 84.0 | 77.3 | 82.0 | 77.3 | 53.3 | 49.3 |
| pred_last + enc_last | 83.3 ↑0.7 | 83.3 | 80.0 ↑2.7 | 86.7 ↑4.7 | 77.3 | 66.0 ↑12.7 | 55.3 ↑6.0 |
| pred_first + enc_last | 84.0 ↑1.3 | 84.0 | 82.0 ↑4.7 | 82.7 | 78.7 ↑1.3 | 78.7 ↑25.3 | 70.7 ↑21.3 |
TABLE 1. 저질량은 같은 힘에 더 빠른 이동, 고감쇠는 속도 감소 가속을 유발. 흥미롭게도 얼어붙은 모델도 세 프레임 이력의 문맥 내 학습(ICL) 덕에 새 동역학에 강하지만, AdaJEPA는 그 위에 일관된 추가 이득을 낸다. 배치 이동에서 예측기 첫 층 적응이 특히 효과적(+21~25).
적응 스텝은 계획 성공률을 크게 높이면서도, 작은 부분집합만 한 스텝 갱신하므로 증가 시간이 거의 무시할 만하다(스텝당 0.01–0.03초). 게다가 적응은 에이전트가 같거나 더 적은 재계획으로 목표에 도달하게 하여 전체 시간을 오히려 줄인다.
AdaJEPA는 기저 세계 모델 구현에 불가지론적(agnostic)이다. 전역·공간 표현, 모델 아키텍처, GD·CEM 플래너, 서로 다른 학습 목표 전반에서 계획 성공을 향상시키며, 잘 학습되어 분포 내 평가되는 모델에도 스텝당 0.01–0.03초만 더하며 일관된 이득을 낸다.
| 구현체 | Setting | GD (%) | Time (s) | CEM (%) | Time (s) |
|---|---|---|---|---|---|
| WM · Temporal Straightening (global) | Frozen | 84.0 | 3.14 | 74.0 | 0.24 |
| WM · Temporal Straightening (global) | Adapt | 85.3 ↑1.3 | 3.17 | 81.3 ↑7.3 | 0.27 |
| WM · Temporal Straightening (spatial) | Frozen | 91.3 | 3.37 | 89.3 | 5.37 |
| WM · Temporal Straightening (spatial) | Adapt | 92.0 ↑0.7 | 3.38 | 93.3 ↑4.0 | 5.39 |
| DINO-WM (patch, spatial) | Frozen | 68.0 | 3.66 | 86.7 | 9.53 |
| DINO-WM (patch, spatial) | Adapt | 70.0 ↑2.0 | 3.68 | 90.0 ↑3.3 | 9.56 |
TABLE 2. PushT 검증 궤적, H200 1대 기준 평균 MPC 성공률(%)과 재계획당 시간. 테스트타임 적응이 일관되게 향상시키며 지연은 거의 없다.
사전학습 잠재 공간에 디코더를 학습하면 경량 적응 후에도 시각 롤아웃을 재구성할 수 있다. 시각 손상이나 미지 PushObj 형태 아래에서 디코딩된 롤아웃은 학습 도메인 구조를 유지한다 — 미지의 빨간 PushT 블록이 회색 블록(학습 색)으로, 미지 물체가 시각적으로 유사한 학습 형태로 디코딩된다. AdaJEPA는 학습된 잠재 다양체에 가까이 머문 채 공유 잠재 구조를 활용하고 예측을 재보정하여 계획을 개선한다.
데이터가 부족할수록 적응의 가치는 커진다.
어떤 파라미터를 갱신할지, 학습률·경사 스텝 수·재생 버퍼 설계를 절제 실험한다. 전반적으로 AdaJEPA는 적응 대상 선택에 견고하다 — 모든 변형이 얼어붙은 모델을 능가하며, 우월한 성능이 특정 적응 대상에 묶여 있지 않다.
최적 적응 대상은 환경 의존적이지만 성능은 매우 민감하지 않다. 예측기의 첫 또는 마지막 블록을 마지막 인코더 단계와 함께 갱신하는 단순한 선택 층 갱신이 이미 모든 설정에서 강력하다.
MPC 루프 안에서 적응하므로 갱신은 최소 튜닝·최소 지연으로 효과적이어야 한다. 학습률과 경사 스텝 수는 긴밀히 결합된다 — 큰 학습률(학습률의 5배)은 단일 스텝에 매우 효과적이나 여러 스텝과 결합하면 과잉 조정될 수 있고, 작은 학습률(0.2배)은 안정적이나 더 많은 갱신을 요구해 재계획 비용을 늘린다. 학습률 그대로, 재계획당 한 스텝이 강력한 실용 기본값이다. 재생 버퍼 설계는 영향이 작으며 — 버퍼 없음을 포함한 모든 변형이 얼어붙은 모델을 능가하고 최근 전이 버퍼가 가장 안정적인 이득을 준다.
PushObj를 시험대로 형태 다양성 K와 형태당 궤적 수 N 두 축을 분석한다. 더 많은 궤적과 더 높은 형태 다양성 모두 유익하지만, 다양성이 형태당 개수보다 중요하다 — 16k 총 궤적을 네 형태에 분배(K=4, N=4k)하는 것이 한 형태에 집중(K=1, N=16k)하는 것보다 seen·unseen 모두에서 우수하다.
테스트타임 적응은 모든 스케일에서 일관된 이득을 주며 특히 저데이터 영역에서 학습 데이터의 큰 감소를 상쇄한다. seen 형태 K=1, N=1k에서 성공률을 28.1%에서 60.8%로 두 배 이상 높이며, 형태당 16배 많은 궤적으로 학습한 얼어붙은 모델(43.5%)을 능가한다. 더 많은 학습 데이터가 일반화를 개선하지만, 테스트타임 적응은 배포 중 모델을 정제하여 제한된 학습 커버리지를 보완하는, 데이터 스케일링과 상보적인 더 표본 효율적인 경로를 제공한다.
FIG 6. PushObj 학습 데이터 스케일이 계획 성공에 미치는 효과. 적응(실선)이 모든 스케일에서 얼어붙은 모델(점선)을 상회하며, 저데이터에서 격차가 가장 크다. 出處: Figure 6·10, AdaJEPA (2026)
AdaJEPA는 MPC 폐루프 중 테스트타임 적응을 수행하는 적응형 세계 모델이다. 모델이 예측으로 행동을 고르고, 행동이 환경에서 새 관측을 낳고, 새 관측이 모델을 갱신하고, 갱신된 모델이 다음 계획 스텝에 즉시 재사용되는 단순한 계획–실행–적응–재계획 루프를 만든다. 실험은 전이당 단 한 번의 경사 스텝이 시각·동역학 이동 아래 상당한 계획 성능을 회복하기에 충분함을 보인다.
경량 보정만 수행하므로 효과는 사전학습 표현의 커버리지에 의해 제한된다 — 테스트 환경이 학습에 없던 특징을 요구하면 적응이 계획을 개선하되 격차를 완전히 메우지 못할 수 있다. 자연스러운 다음 단계는 경량 테스트타임 적응을 지속 학습·능동 학습과 결합하여 시간에 따라 세계 모델의 커버리지를 확장하는 것이다. 더 넓게는, 잠재 세계 모델은 얼어붙어 있지 말고 배포 중에도 계속 학습되어야 한다.