서론비디오 생성 모델은 왜 물리적으로 흔들리는가
비디오 생성 모델은 체화 지능을 위한 월드 시뮬레이터로서 강한 잠재력을 보여 왔다 [17,28,34,45,50]. 데이터 생성, 월드 시뮬레이션, 정책 학습 같은 하류 응용에 사용할 수 있는 확장 가능한 시각적 미래를 제공한다 [1,5,29–31,33,51]. 그러나 체화 월드 시뮬레이션은 사실적인 영상 그 이상을 요구한다. 생성된 동역학은 물리적으로 타당해야 하며, 특히 접촉이 빈번한 조작에서 이 요구는 더욱 까다롭다.
접촉이 많은 조작에서 물리 위반은 두 가지 형태로 나타난다. 국소 동역학 오류는 그리퍼 궤적의 불연속, 물체 침투, 반중력 운동처럼 점 단위 운동에서 발생한다. 전역 관계 오류는 밀린 물체가 정지해 있거나 잡은 물체가 떠나가는 것처럼 상호작용 결과 자체가 어긋나는 형태로 나타난다. 두 오류 모두 예측 프레임이 로봇 행동의 타당한 결과를 더 이상 표현하지 못하게 만들어, 시각적 월드 시뮬레이터로서의 신뢰성을 직접 훼손한다.
관찰물리적 타당성은 본질적으로 계층적이다
기존 접근은 부분적 해법에 그친다. 범용 비디오 모델은 대규모 시각 사전학습에 의존하지만 체화 접촉 동역학에 대한 노출이 부족하다. 로봇 특화 월드 모델은 조작 데이터로 과제 적합성을 높이지만, 대개 물리적으로 중요한 영역과 배경 픽셀을 균일하게 다루는 재구성 목적함수로 학습된다. 깊이, 추적, 3D 구조 같은 기하 단서나 선호·보상 정렬을 도입한 최근 물리 인식 기법도 있으나, 기하 제약은 주로 국소 운동 일관성만 포착하고 선호 피드백은 희소하며 약하게 국소화되어 있다.
여기서 핵심 질문이 제기된다 — 물리 지도를 계층적이면서 영역에 집중된 방식으로 비디오 생성에 어떻게 주입할 것인가? 조작 비디오의 물리적 타당성은 본질적으로 계층 구조를 가진다. 픽셀 수준에서 국소 운동은 궤적 연속성, 깊이 일관성, 접촉 정합 변위를 만족해야 한다. 의미 수준에서 물체 관계는 상호작용 의미에 따라 진화해야 한다 — 밀린 물체는 멀어지고, 잡은 물체는 그리퍼와 결합을 유지하며, 놓인 물체는 지지면 위에 머문다. 동시에 물리 증거는 조작기, 물체, 접촉부, 움직이는 영역 주변에 고도로 국소화되어 있어, 모든 픽셀에 균일하게 지도를 가하면 신호가 희석된다.
① 계층성 — 픽셀 수준 운동 제약은 점 단위 궤적·접촉을 다스리고, 의미 수준 관계 단서는 영역 간 상호작용을 포착한다.
② 국소성 — 가장 정보가 풍부한 증거는 조작기·접촉면·움직이는 부위 주변에 있으며, 정적 배경에는 없다.
기여본 연구의 핵심 공헌
- 01
로봇 비디오 생성의 물리적 타당성을 계층적이고 영역에 집중된 정렬 문제로 정식화한다.
- 02
상호작용이 결정적인 영역에 물리 지도를 집중시키고, 픽셀 수준 운동과 의미 수준 영역 간 관계 양쪽에서 생성을 정렬하는 학습 시점 프레임워크 PhysisForcing을 제안한다.
- 03
Wan2.2-I2V-A14B와 Cosmos3-Nano 등 규모·계열이 다른 확산 백본에서 R-Bench, PAI-Bench, EZS-Bench에 걸쳐 일관된 향상을 보이고, WorldArena 행동 계획과 하류 정책 성공률까지 개선함을 입증한다.
방법영역 집중 계층적 물리 정렬 프레임워크
PhysisForcing은 영역 집중 계층적 정렬을 통해 비디오 생성에 물리 지도를 주입한다. 먼저 로봇·물체 상호작용이 일어나는 물리 정보 영역을 식별하고, 이어서 두 가지 상보적 학습 신호 — 국소 운동 일관성을 위한 픽셀 수준 궤적 정렬과 상호작용 결과 일관성을 위한 의미 수준 관계 정렬 — 을 적용한다.
3.1물리 정보 영역 추출
체화 비디오 생성 오류는 로봇·물체 상호작용이 전경에서 큰 국소 운동으로 나타나는 접촉 영역에서 자주 발생한다. PhysisForcing은 물리 지도를 가하기 전에 참조 비디오로부터 이러한 영역을 먼저 식별한다.
밀집 궤적과 운동 점수
오프더셸프 점 추적기 [25]로 밀집 시간 궤적 P를 얻고, 인접 프레임 변위의 누적 노름으로 점별 운동 점수 aᵢ를 계산한다. aᵢ가 클수록 국소 운동이 강하다.
깊이 인식 전경 가중
운동 크기만으로는 배경 흔들림도 강조될 수 있다. 첫 프레임 깊이 맵 D₀의 역수로 전경 가중 rᵢ를 정의하고, 물리 정보 점수 qᵢ = aᵢ · rᵢ로 결합한다. qᵢ가 클수록 강한 국소 운동과 높은 전경 적합성을 동시에 가진다.
적응적 임계값과 마스크
평균 점수를 적응적 임계값으로 사용해 궤적 단위 운동 마스크를 얻고, 선택된 궤적을 각 프레임에 투영해 시공간 물리 마스크 M^phy ∈ {0,1}^(T×H×W)를 구성한다. 이 마스크가 두 물리 손실의 공간 지침이 된다.
궤적 정렬 손실 L_pix^phy
중간 DiT 블록의 은닉 특징 Hₗ을 경량 MLP ϕ(·)로 정제해 프레임별 특징 맵 F̂로 재배열한다. 모든 궤적은 첫 프레임에서 질의되므로, 첫 프레임 특징을 질의로, 나머지 프레임 특징을 키로 사용한다.
각 질의 점에 대해 유사도 맵을 공간 차원으로 정규화한 뒤 좌표 기댓값으로 예측 위치 p̂ₜᵢ를 얻는다. 이를 CoTracker3로 추출한 참조 궤적과 마스킹 MSE로 비교한다.
관계 정렬 손실 L_sem^phy
그리퍼와 잡은 물체는 단단히 결합을 유지하고 밀린 물체는 접촉 영역과 함께 움직여야 한다. 이러한 영역 간 결합은 동결된 자기지도 비디오 이해 인코더의 쌍별 토큰 유사도에 자연스럽게 담긴다.
동일 중간 블록 특징 Hₗ을 MLP ψ(·)로 인코더 공간에 사상하고, 마스크가 선택한 토큰에 대해 DiT 측·인코더 측 관계 행렬 R̂, R을 코사인으로 계산한 뒤 L1로 정렬한다.
3.4학습과 추론
PhysisForcing은 사전학습 DiT 백본의 미세조정 단계에서 적용된다. 두 물리 손실을 모두 중간 블록 특징에 부과해, 비디오 예측에 사용되는 표현을 직접 정규화한다. 전체 학습 목적함수는 표준 흐름 정합 손실에 두 물리 손실을 가중 합한 형태다.
여기서 LFM은 표준 흐름 정합 손실이며, λpix, λsem은 두 물리 손실의 균형을 맞춘다. 모든 보조 모델(CoTracker3, Depth-Anything-V2, V-JEPA 2)은 학습 시점에만 사용되고 추론 시 폐기된다. 따라서 PhysisForcing은 추론 비용을 전혀 추가하지 않는다.
실험세 가지 벤치마크와 정책 학습에서의 검증
4.1실험 설정
학습 데이터. 다양한 체화·과제·환경을 포괄하는 대규모 RoVid-X 데이터셋 [13]의 400만 로봇 비디오 클립에서, 운동 점수·과제 단위 중복 제거·클립–텍스트 정합 필터링을 거쳐 약 50만 개의 고품질 클립을 선별했다.
구현. 규모와 계열이 다른 세 백본 — Wan2.2-I2V-A14B, Wan2.2-TI2V-5B, Cosmos3-Nano — 에 PhysisForcing을 적용했다. 두 Wan 백본은 640×480, 최대 81프레임으로 전역 배치 128, 학습률 1×10⁻⁵의 AdamW로 20K 스텝 학습했다. Cosmos3-Nano는 LoRA로 공식 I2V 사후학습 설정을 따라 720p, 최대 189프레임으로 학습했다. PhysisForcing으로 학습한 Cosmos3-Nano와 Wan2.2-I2V-A14B를 각각 PF-Cosmos, PF-Wan으로 표기한다.
벤치마크. R-Bench(650개 이미지–텍스트 쌍), PAI-Bench 로봇 도메인(174개 실세계 이미지–프롬프트 쌍), 그리고 분포 외 일반화를 검증하는 학습 독립 제로샷 벤치마크 EZS-Bench(196개 미지 조합)에서 평가했다.
4.2체화 비디오 생성 결과
| 모델 | Avg. | Manip. | Spatial | Multi | Long | Reason | Single | Dual |
|---|---|---|---|---|---|---|---|---|
| 상용 | ||||||||
| Wan2.6 | 60.7 | 54.6 | 65.6 | 47.9 | 51.4 | 53.1 | 66.6 | 68.1 |
| Veo 3.1 | 59.9 | 54.1 | 47.4 | 53.4 | 59.2 | 46.7 | 67.0 | 66.6 |
| Seedance 1.5 Pro | 58.4 | 57.7 | 49.5 | 48.4 | 57.0 | 47.0 | 64.8 | 64.1 |
| Sora v2 Pro | 36.2 | 20.8 | 26.8 | 18.6 | 25.5 | 11.5 | 47.6 | 51.3 |
| 로봇 특화 | ||||||||
| Cosmos3-Super | 58.1 | 48.7 | 64.2 | 44.4 | 59.1 | 39.5 | 61.5 | 62.3 |
| Abot-PhysWorld | 52.9 | 48.6 | 54.8 | 43.4 | 52.3 | 45.4 | 66.2 | 66.8 |
| 미세조정 / 본 연구 | ||||||||
| Wan2.2-I2V-A14B | 50.7 | 38.1 | 45.4 | 37.3 | 50.1 | 33.0 | 60.8 | 58.2 |
| Wan2.2-I2V-A14B (ft) | 57.9 | 52.3 | 62.8 | 45.2 | 54.5 | 47.8 | 64.2 | 63.5 |
| PF-Wan | 62.0 | 56.4 | 65.4 | 49.1 | 58.4 | 52.4 | 68.7 | 69.6 |
| Cosmos3-Nano | 58.4 | 55.0 | 67.0 | 46.6 | 57.6 | 39.4 | 59.1 | 61.1 |
| Cosmos3-Nano (ft) | 61.5 | 57.8 | 67.4 | 49.2 | 59.3 | 48.5 | 66.5 | 67.1 |
| PF-Cosmos | 63.8 | 58.9 | 69.7 | 51.3 | 60.8 | 53.0 | 69.3 | 70.0 |
R-Bench. PhysisForcing은 모든 백본을 향상시킨다. PF-Cosmos는 종합 63.8(기저 대비 +9.2%)로 최강 상용 모델 Wan2.6(60.7)을 포함한 모든 기준선을 능가하며 전체 1위를 차지했다. PF-Wan은 62.0(기저 대비 +22.3%)로 두 번째로 높은 종합 점수를 기록했다.
PAI-Bench / EZS-Bench. 두 벤치마크 모두에서 PhysisForcing은 단순 미세조정 대비 두 백본을 개선한다 (PAI-Bench: A14B 79.9→81.7, Cosmos 84.0→85.2). PF-Cosmos가 종합 평균에서 최고치를 기록하며, 최강 상용 모델 Wan2.5와 로봇 특화 기준선 Abot-PhysWorld를 모두 능가했다. 제로샷 EZS-Bench에서도 PF-Cosmos가 81.1로 모든 기준선을 앞서 학습 분포를 벗어난 조합에서도 일반화됨을 보인다.
4.3정책 학습 결과
PhysisForcing으로 학습한 Wan2.2-TI2V-5B를 Fast-WAM [52]의 비디오 DiT 자리에 그대로 끼워 넣어, 접촉이 빈번한 RoboTwin 2.0 여섯 과제에서 단일 정책을 공동 학습하고 과제별 200회 롤아웃으로 평가했다.
| 과제 | 기준선 | PhysisForcing | Δ |
|---|---|---|---|
| place_empty_cup | 41.5 | 63.0 | +21.5 |
| press_stapler | 49.0 | 60.0 | +11.0 |
| grab_roller | 58.5 | 63.0 | +4.5 |
| shake_bottle | 97.5 | 94.5 | −3.0 |
| adjust_bottle | 93.0 | 93.0 | 0.0 |
| stack_bowls_two | 69.5 | 63.0 | −6.5 |
| 평균 | 68.2 | 72.8 | +4.6 |
평균 성공률이 68.2%에서 72.8%로 상승했으며, 특히 접촉이 결정적인 놓기·누르기 과제에서 가장 큰 향상을 보였다 (place_empty_cup +21.5, press_stapler +11.0).
| 모델 | Task 1 | Task 2 | Avg. |
|---|---|---|---|
| Genie Envisioner | 10.0 | 20.0 | 15.0 |
| TesserAct | 1.0 | 35.0 | 18.0 |
| RoboMaster | 8.0 | 20.0 | 14.0 |
| Vidar | 2.0 | 19.0 | 10.5 |
| WoW | 20.0 | 21.0 | 20.5 |
| Wan2.2-TI2V-5B | 12.0 | 20.0 | 16.0 |
| + PhysisForcing | 22.0 | 26.0 | 24.0 |
행동 계획기로서의 월드 모델. WorldArena [40]의 행동 계획기 프로토콜에서 월드 모델은 공유 역동역학 모델과 결합해 예측 롤아웃을 RoboTwin 2.0 시뮬레이터의 행동으로 디코딩한다. PhysisForcing은 평균 폐루프 성공률을 16.0%에서 24.0%로 끌어올려, 최강 기준선 WoW(20.5%)를 포함한 모든 월드 모델 계획기를 능가했다.
제거 연구두 손실은 상보적이며, 영역 집중과 중간 블록이 핵심이다
| 모델 | Emb. | Tasks | Avg. |
|---|---|---|---|
| TI2V-5B (ft) | 56.5 | 35.4 | 44.8 |
| + L_pix | 59.0 | 37.8 | 47.2 |
| + L_sem | 58.4 | 36.5 | 46.2 |
| + PhysisForcing | 58.2 | 38.9 | 47.5 |
| A14B (ft) | 64.7 | 52.5 | 57.9 |
| + L_pix | 67.5 | 55.2 | 60.7 |
| + L_sem | 66.8 | 54.6 | 60.0 |
| + PhysisForcing | 69.0 | 56.3 | 62.0 |
| 모델 | Emb. | Tasks | Avg. |
|---|---|---|---|
| TI2V-5B (ft) | 56.5 | 35.4 | 44.8 |
| 영역 집중 없음 | 57.0 | 37.2 | 46.0 |
| 영역 집중 | 58.2 | 38.9 | 47.5 |
| 층 | 10 | 15 | 20 | 25 |
|---|---|---|---|---|
| 로봇 도메인 점수 | 83.9 | 85.2 | 84.1 | 83.2 |
구성 요소 제거
두 손실은 상보적이다. Wan2.2-TI2V-5B에서 L_pix와 L_sem은 미세조정 기저(44.8)를 각각 47.2와 46.2로 개선하며, 둘을 결합할 때 최고(47.5)다. L_pix는 가장 흔한 국소 실패인 궤적 불연속을 직접 억제하므로 단일 손실 향상이 더 크고, L_sem은 접촉 단절 같은 전역 관계 오류를 주로 복구한다 — 서로 다른 오류 모드를 겨냥하기에 누적된다. 동일한 양상이 더 큰 A14B(57.9→62.0)에서도 유지되어, 이득이 백본 규모에 종속되지 않음을 확인한다.
물리 영역 집중
동일한 두 손실을 모든 토큰에 균일하게 적용해도 도움이 되지만(44.8→46.0), 물리 정보 영역에 한정하면 평균이 47.5까지 더 오른다. 특히 과제 지향 차원(35.4→38.9)에서 가장 큰 이득을 보이는데, 이는 배경과 거의 정지한 영역이 물리 신호를 희석하므로 로봇·물체 상호작용이 일어나는 곳에 집중하는 것이 과제 수준 정확성을 끌어낸다는 것을 보여준다.
정렬 층
정렬은 단일 DiT 블록에 부과되므로 그 깊이가 중요하다. Wan2.2-TI2V-5B에서 블록 인덱스를 훑은 결과 중간 블록 (층 15)이 85.2로 최적이며, 더 얕은 층(10, 83.9)과 더 깊은 층(25, 83.2)을 능가한다. 초기 블록은 얕은 외형 특징만 담아 관계 정렬에 필요한 의미 구조가 부족하고, 후기 블록은 이미 최종 노이즈 예측에 특화되어 조정하기 어렵다. 중간 블록이 최적의 절충점을 제공하며 인접 층 사이에서 성능이 안정적이다.
PAI-Bench 로봇 도메인 점수는 모든 체크포인트에서 단순 미세조정을 능가하며 전 구간에서 완전 모델이 선두를 유지한다. 점수는 20K에서 85.2로 정점(+4.1)에 이르고, 이후 모든 변형이 가벼운 과적합으로 소폭 하락하지만 30K에서도 PhysisForcing이 +3.7로 앞선다. 이는 일시적이 아닌 지속적 학습 신호임을 시사한다.
부록구현 세부·벤치마크·영향·한계
A보조 인지 모델과 백본 구성
세 보조 모델은 모두 동결되어 물리 타깃 추출에만 쓰이며, 학습 스텝마다 정답 클립 위에서 실시간으로 실행되고 추적기·깊이 출력은 두 물리 손실 사이에서 공유된다.
V-JEPA 2 (ViT-L/16)
vitl-fpc64-256 체크포인트(은닉 폭 1024). 픽셀 대신 마스킹 시공간 특징 타깃을 예측하도록 학습된 자기지도 비디오 인코더로, 토큰이 물체·상호작용 중심 구조를 포착한다. 클립을 64×256×256으로 재표본화·정규화하면 32×16×16 시공간 토큰 격자(튜블릿 2, 패치 16)를 반환한다. 학생·교사 토큰을 인덱스 정렬한 뒤 최대 K=512개의 마스크 선택 토큰에 대해 K×K 쌍별 코사인 관계 행렬을 비교한다.
CoTracker3 + Depth-Anything-V2
CoTracker3 오프라인 변형(인수분해 시공간 어텐션)으로 첫 프레임에 25×25 질의 격자(625점)를 초기화해 점별 2D 궤적과 가시성을 얻는다. 추가로 Depth-Anything-V2 ViT-L(약 335M)을 동결 단안 깊이 추정기로 실행해, 상대 깊이 맵으로 각 추적의 운동 크기에 가중을 주어 상위 K개의 활성 전경 추적을 유지한다.
| 백본 | 파라미터 | VAE 압축 (T×H×W) | 물리 적용 방식 |
|---|---|---|---|
| Wan2.2-I2V-A14B | 27B(활성 14B), MoE 2전문가 | 4×8×8 | 고노이즈 전문가만 미세조정, 전 스케줄 적용 |
| Wan2.2-TI2V-5B | ~5B 단일 디노이저 | 4×16×16 | 전체 디노이저 미세조정(MoE 라우팅 불필요) |
| Cosmos3-Nano | ~16B MoT, Qwen3-VL-8B 기반 | 4×16×16 | 720p, 중간 깊이 MoT 블록에 두 손실 부가 |
Wan2.2-I2V-A14B는 SNR 기반 경계 tmoe로 고노이즈·저노이즈 두 전문가가 확산 궤적을 나눠 맡는다. PhysisForcing은 물리 구조가 결정되는 동역학 형성 단계를 겨냥하므로 고노이즈 전문가만 미세조정한다. 학습 중에는 원래 MoE 라우팅에서 벗어나 전 구간 t∈[0,T]에 고노이즈 전문가를 적용하고, 두 물리 손실을 흐름 정합 목적함수에 더해 균일하게 부과한다.
B·C평가 벤치마크와 상세 결과
R-Bench는 650개 이미지–텍스트 쌍을 과제 축(조작·공간·다개체·장기·추론) 5개와 체화 축(단일팔·양팔·사족·휴머노이드) 4개로 주석한다. 균일 표본 키프레임을 시간 격자로 배열해 Qwen3-VL이 부유·침투·자발 출현·비접촉 부착 같은 물리 위반을 검출하는 MLLM-as-Judge VQA 파이프라인을 사용하며, 크라우드소싱 선호와 스피어만 상관 0.96을 보고한다.
PAI-Bench 로봇 도메인은 174개 실세계 이미지–프롬프트 쌍으로, Qwen3-VL-235B-A22B-Instruct가 채점하는 Domain Score(물리·의미 타당성)와 다차원 지각 지표를 집계한 Quality Score를 함께 보고한다(인간 ELO와 피어슨 상관 0.918). EZS-Bench는 196개 미지 조합의 학습 독립 제로샷 벤치마크로, 질문 생성기와 판정기를 분리한 이중 모델 프로토콜로 자기평가 편향을 피한다.
| 모델 | Quality | Domain | Avg. |
|---|---|---|---|
| Wan2.5 | 75.48 | 86.44 | 80.96 |
| Abot-PhysWorld | 76.76 | 93.06 | 84.91 |
| A14B (ft) | 75.38 | 84.42 | 79.90 |
| PF-Wan | 76.26 | 88.20 | 81.73 |
| Cosmos3-Nano (ft) | 76.52 | 91.54 | 84.03 |
| PF-Cosmos | 77.08 | 93.26 | 85.17 |
| 모델 | Quality | Domain | Avg. |
|---|---|---|---|
| Kling 2.6 Pro | 78.05 | 80.72 | 79.39 |
| Abot-PhysWorld | 76.94 | 83.66 | 80.30 |
| A14B (ft) | 76.12 | 81.95 | 79.04 |
| PF-Wan | 76.58 | 84.49 | 80.54 |
| Cosmos3-Nano (ft) | 77.42 | 83.16 | 80.29 |
| PF-Cosmos | 76.95 | 85.20 | 81.08 |
두 벤치마크 모두에서 이득은 물리·의미 타당성을 측정하는 Domain Score에서 가장 두드러지며, Quality Score는 경쟁력을 유지한다. 즉 계층적 물리 정렬은 시각 품질을 단순 미세조정 수준으로 유지하면서 물리 충실도를 개선한다.
E·F광범위한 영향과 한계
긍정적으로는 데이터 증강과 배포 전 정책 평가를 위한 저렴한 시뮬레이터를 제공해 체화 AI 연구의 진입 장벽을 낮추고, 하류 월드 모델에 더 신뢰할 만한 학습 신호를 준다. 부정적으로는 더 사실적인 로봇 영상이 기만적 영상 조작이나 하드웨어 능력 과장에 오용될 수 있다. 이를 연구용 한정 공개로 완화하며, 하류 사용자가 출처 검증 도구와 결합하고 합성 데이터 기반 정책을 배포 전 실제 하드웨어에서 검증할 것을 권장한다.
한계와 향후 연구. PhysisForcing은 미세조정 레시피이므로 기저 백본의 능력 상한을 물려받는다. 현재 오픈소스 비디오 생성기는 여전히 제한된 세계 지식과 장기 시간 추론 능력을 보이며, 이것이 어떤 미세조정 기법으로도 도달 가능한 물리적 타당성의 한계를 규정한다. 다만 궤적 수준·관계 수준 물리 제약은 모델 비종속적이고 백본의 표현 용량이 커질수록 더 정보가 풍부해지므로, 더 강력한 기반 모델이 등장하면 PhysisForcing의 효과가 함께 증폭될 것으로 기대한다.