세계는 당신의 마음 속에 있다 — 하나의 세계 잠재 공간을 학습하다.
Orca는 범용 세계 파운데이션 모델(general world foundation model)의 초기 구현이다. 멀티모달 세계 신호로부터 통합 세계 잠재 공간(unified world latent space)을 학습하고, 이를 멀티모달 판독 인터페이스로 노출한다. 다음 토큰·프레임·행동 예측을 개별 최적화하는 대신, 다음 상태 예측(Next-State-Prediction)을 중심 모델링 축으로 삼는다.
범용 지능을 향한 본질적 다음 단계는 인간처럼 지속적으로 학습·자기진화하며 물리 법칙·인과 관계·동적 진화를 내재화하는 모델을 구축하는 것이다. 그러한 모델은 멀티모달 세계 신호를 흡수하여 세계의 잠재 상태(latent state)를 모델링한다.
기존 지능 모델은 세 가지 예측 축 중 하나에 최적화되어 있다. 지시에 응답하는 다음 토큰 예측(Next-Token), 고품질 이미지·영상을 생성하는 다음 프레임 예측(Next-Frame), 고품질 행동을 생성하는 다음 행동 예측(Next-Action)이 그것이다. Orca는 이들을 개별 목표로 두지 않는다. 대신 세계 상태를 구성하고 다양한 다운스트림 과제를 지원하는 잠재 공간을 만드는 능력으로 지능을 재정의한다.
FIG. Orca는 세 가지 개별 예측 목표를 다음 상태 예측이라는 통합 상태 전이 모델링으로 수렴시킨다.
Orca는 세계 학습을 잠재 세계 상태 모델링으로 정식화한다. 세계 신호 X = {X_m}를 잠재 세계 상태 S = f_θ(X)로 사상한 뒤, 상태 S가 암묵적 동역학과 명시적 조건 아래에서 앞뒤로 진화하도록 모델링한다.
zt · 암묵적 동역학 — 물리 법칙·물체 속성·장면 동역학·환경력 등 관측되지 않는 요인 | ct · 명시적 조건 — 인간 지시 등 관측된 조건 | Δ>0 미래 예측, Δ<0 과거 역추적
연속 영상으로부터 자연스럽고 조밀한 상태 전이를 학습한다. 라벨 없이 자기 지도(self-supervision)로, 다음 프레임의 잠재를 예측하며 물체 이동·자연 동역학·물리 규칙성을 내재화한다. 조건 c_t = ∅인 관측 전용 상태 전이에 해당한다.
지시의 제약 아래 의미 있고 희소한 상태 전이를 학습한다. 언어 신호를 명시적 조건으로 취급하여 이벤트 e_{t+Δ}·과제 의도·인과 전제를 지정한다. 현재 상태가 목표 상태로 어떻게 전이해야 하는지를 안내한다.
Orca는 특정 과제를 위해 만들어지지 않았다.
먼저 세계 상태의 내부 표현을 학습하고,
그 표현을 전용 판독 인터페이스로 노출한다.
Orca는 Encoder-Decoder 구조를 따른다. Encoder는 상태 추상화와 상태 전이를 위한 통합 세계 잠재 공간을 학습하고, 모달리티별 Decoder가 이를 텍스트·이미지·행동으로 판독한다. 잠재의 유효성을 증명하기 위해 Encoder는 사전학습 후 동결되고, 경량 판독 모듈만 학습된다.
FIG. Encoder는 무의식·의식 학습으로 세계 잠재를 학습하고 동결된다(❄). 학습 가능한(🔥) 경량 Decoder만 잠재를 텍스트·이미지·행동으로 판독한다. 出處: Figure 1·2·4, Orca (2026)
별도 디코더 없이 LM head를 재사용하여 시각 관측·지시로부터 텍스트 응답을 생성한다. 잠재를 자연어로 표현한다.
잠재를 MLP 어댑터로 사상하여 동결된 Stable Diffusion 3.5의 경로 입력으로 사용한다. MLP·LoRA만 학습하여 픽셀 이미지를 판독한다.
흐름 정합(flow-matching) 손실의 DiT 기반 Action Expert를 처음부터 학습한다. 잠재·자기수용 상태·노이즈 행동으로 행동 청크를 생성한다.
Orca는 2단계로 학습된다. 사전학습 단계는 대규모 시각·언어 데이터로 세계 잠재를 학습한다. 다운스트림 사후학습 단계에서는 백본을 동결하고 모달리티별 판독 모듈만 학습하여 언어·시각·행동 정보를 얻는다.
사전학습은 세 목표를 결합한 손실로 세계 상태 모델링을 구현한다. 앞의 두 상태 전이 목표는 학습 가능한 쿼리 벡터로, VQA 응답 생성은 백본의 LM head로 최적화된다.
ℒobs 무의식 학습 · 자연 시각 전이 | ℒevt 의식 학습 · 언어 지정 전이 | ℒvqa 상식 · 표준 VQA 손실
데이터 구성은 세계 상태와 그 전이를 학습하도록 상호 보완적 지도를 제공한다. 모든 데이터는 실세계에 근거하며, 영상 데이터는 실제 영상으로 구축하고 이벤트·VQA 데이터는 그 위에서 상태 전이·물리 관계·공간 구성·행동 의도·인과 결과를 기술한다.
시각 신호. 자기중심 상호작용(ego-centric), 타자중심 조작(exo-centric), 행동 없는 로봇 실행, 자연 동역학의 네 유형. 목표 1)·2)를 지원한다.
영상에서 다단계 이벤트 분할·언어 주석으로 파생. 거친(coarse) 이벤트는 주요 단계를, 세밀한(fine) 이벤트는 그 안의 짧은 전이를 기술한다. 목표 2)를 지원한다.
언어 신호·영상으로 구성. 관측된 세계 상태를 기술·해석하도록 Orca를 가르친다. 목표 3)을 지원한다.
Orca 인프라는 자체 개발 FlagScale을 사용하며 FSDP2 재구축, 청크 교차 엔트로피 손실과 활성화 재계산을 통한 메모리 절약, 통신 스케줄링(순방향·역방향 프리페칭)을 도입했다. 그 결과 학습 처리량이 GPU당 초당 0.66 → 2.91 샘플로 증가하여, 임베디드 커뮤니티에서 널리 쓰이는 StarVLA 대비 약 4.4배 가속을 달성했다.
두 가지 질문. 패러다임은 확장되는가?
그리고 더 강한 잠재는 더 강한 판독으로 이어지는가?
다운스트림 결과에 앞서 Orca의 핵심 가설을 검증한다. 사전학습 데이터가 확장될수록 총 손실은 지속 감소하고, 더 큰 모델이 더 낮은 손실에 도달한다. 그리고 더 강한 잠재는 텍스트·이미지·행동 판독 모두를 향상시킨다.
Orca의 학습 패러다임은 모델·데이터가 커질수록 효과적이며 확장 가능하다. 손실 곡선은 빠르게 수렴하지 않고 더 많은 데이터·더 큰 모델로부터 지속적으로 이득을 얻으며 뚜렷한 하강 추세를 보인다.
더 강한 세계 잠재는 더 강한 판독으로 이어진다. 특히 사전학습에 행동 라벨 데이터를 전혀 쓰지 않았음에도 영상 데이터만으로 행동 생성 성능이 향상되는 창발적 능력이 관측되었다. 이는 로봇 데이터 희소성에 따른 저일반화 문제를 완화할 수 있다.
FIG. 총 손실은 사전학습 데이터가 늘수록 지속 하강하며, 4B 모델이 0.8B보다 더 낮은 손실에 도달한다. 出處: Figure 5, Orca (2026)
MVBench·TemporalBench·3DSRBench·SWITCH 네 벤치마크에서 OOD 상식 추론·이해·고차 인지 능력을 평가한다. 모든 결과는 제로샷이며, 벤치마크 특화 학습이나 튜닝은 없다. Orca-4B는 동급 VLM과 대형 세계 모델 모두를 능가한다.
| Model | Size(B) | MVBench↑ | TemporalBench↑ | 3DSRBench↑ | SWITCH↑ | Avg. |
|---|---|---|---|---|---|---|
| World Models (Large) | ||||||
| V-JEPA 2.1 (+LLaMA3-8B) | 10 | 75.4 | 28.5 | / | / | / |
| Emu3 | 8 | 35.2 | 9.5 | 39.1 | 38.0 | 30.4 |
| Emu3.5 | 34 | 39.5 | 9.5 | 31.3 | 38.9 | 29.8 |
| Vision-Language Models | ||||||
| MiniCPM-V-4.6 | 2 | 41.4 | 21.2 | 47.7 | 41.2 | 37.9 |
| Gemma 4 | 4 | 45.6 | 20.2 | 44.8 | 52.4 | 40.8 |
| Qwen3.5 | 4 | 67.1 | 25.2 | 48.1 | 42.8 | 46.7 |
| Orca | 0.8 | 53.6 | 22.6 | 43.4 | 43.7 | 40.8 |
| Orca | 4 | 65.3 | 34.2 | 52.1 | 55.6 | 51.8 |
TABLE 1. 텍스트 생성 비교(↑ 높을수록 우수). Orca-4B는 평균 51.8로 동급·대형 기준선을 상회한다.
여러 벤치마크의 샘플을 능력 차원별로 집계한 벤치마크 비의존 평가에서, Orca-4B는 Qwen3.5-4B 대비 특히 상태 전이(+12.27%)와 동적 운동(+8.52%)에서 큰 향상을 보인다.
TABLE 2. Orca-4B vs Qwen3.5-4B의 능력 차원별 성공률 변화.
목표는 화가를 만드는 것이 아니라, 잠재가 미래 상태를 예측하는 능력을 지녔는지 확인하는 것이다. 이를 위해 실세계 데이터셋 PRICE-V0.1(Prediction of Real-world Interactions with Constraints Evaluation)을 구축했다. Orca는 최고 평균 성능을 보이며, 로봇 형태·장면·물체 일관성·접촉 관계·지시 준수를 더 잘 보존한다.
| Model | Size(B) | Gemini 3.1 Pro↑ | GPT 5.4↑ | Doubao-Seed-2.0↑ | Gemma 4-31B↑ | Avg. |
|---|---|---|---|---|---|---|
| OmniGen2 | 3+4 | 24.6 | 46.8 | 41.4 | 45.5 | 39.6±10.2 |
| FLUX.1-Kontext | 12 | 21.6 | 46.9 | 42.7 | 52.5 | 40.9±13.5 |
| FLUX.2 [klein] | 4+4 | 29.7 | 64.6 | 60.0 | 70.2 | 56.1±18.1 |
| Orca | 0.8+2 | 17.0 | 48.5 | 46.0 | 26.5 | 34.5±15.3 |
| Orca | 4+2 | 44.0 | 67.9 | 61.0 | 66.3 | 59.8±10.9 |
TABLE 3. PRICE-V0.1 비교. Orca-4B는 평균 59.8로 최고, 표준편차도 낮아(±10.9) 안정적이다.
양팔 바퀴형 휴머노이드 로봇으로 5개 과제(Take Book·Stacked Bowls·Pull Out Tissue·Stamp·Scoop Sugar)를 수집하고, 환경·물체 두 OOD 설정에서 평가한다. 처음부터 학습한 Action Expert 조건에서 Orca는 모든 OOD 설정에서 Qwen3.5를 능가하며 0% 성공률을 돌파하고, 대규모 로봇 데이터로 사전학습된 강력한 π₀.₅와도 비견된다.
| Overall | Rule-based↑ | M25↑ | M50↑ | SR↑ | MaxP-F↑ | DRR↑ |
|---|---|---|---|---|---|---|
| V-JEPA 2.1 | 17.0 | 27 | 7 | 0 | 17.4 | 20.5 |
| Qwen3.5 | 10.5 | 18 | 5 | 0 | 13.1 | 11.9 |
| π₀.₅ | 29.4 | 54 | 14 | 5 | 26.5 | 26.7 |
| Orca | 32.4 | 55 | 14 | 6 | 27.9 | 30.3 |
TABLE 4. 행동 생성 종합 비교. 모든 백본은 동결, Action Expert는 처음부터 학습. DRR(편차 회복 비율)이 높아 실행 오류 후 복구가 우수하다.
Orca는 실행 중 의미 있는 중간 진전을 더 자주 만들고 정체가 적다. 높은 FNS는 실패 궤적조차 종료 전 더 후반 단계에 도달함을, 높은 DRR은 진전 하락 후 편차를 교정하고 과제를 이어감을 시사한다. 스푼 잡기 반복 실패 후에도 Orca는 복구하여 성공(DRR 100.0)하는 반면 π₀.₅는 불안정하게 반복 실패(DRR 53.7)한다.
세 손실(λobs·λevt·λvqa)을 절제한 결과, 세 목표를 함께 쓸 때 텍스트·이미지·행동 판독이 가장 균형 잡힌다. 관측 전용 전이는 행동 판독에, 이벤트 조건 전이는 시각 판독에 핵심이며, VQA는 언어 인터페이스와 의미 근거를 보존한다.
| λobs | λevt | λvqa | Text | Image | Action | Avg. |
|---|---|---|---|---|---|---|
| – | – | ✓ | 48.4 | – | 10.2 | 29.3 |
| ✓ | ✓ | – | – | 58.2 | 30.9 | 44.6 |
| ✓ | – | ✓ | 50.5 | – | 32.6 | 41.6 |
| – | ✓ | ✓ | 50.1 | 54.7 | 23.0 | 42.6 |
| ✓ | ✓ | ✓ | 51.8 | 59.8 | 32.4 | 48.0 |
TABLE 5. 절제 결과. 세 목표를 모두 사용할 때 평균 48.0으로 가장 균형 잡힌 판독을 얻는다.
Orca는 범용 세계 파운데이션 모델을 향한
이른 탐색적 이정표다. 그 경계는 곧 방향이 된다.
Orca는 세계 잠재 공간을 중심으로 구축된 세계 학습자다. 질의응답·시각 프레임 예측·행동 생성 같은 개별 과제를 위해 만들어진 것이 아니라, 멀티모달 세계 신호로부터 세계 상태의 내부 표현을 먼저 학습하고 전용 판독 인터페이스로 노출한다. 모델링 목표를 다음 토큰·프레임·행동 예측에서 다음 상태 예측으로 이동시킨다.
단순히 모달리티를 추가하는 것이 아니라, 이들을 동일한 기저 상태에 정렬하여 물리 법칙으로 상태 전이를 더 잘 제약한다.
기존 ViT 공간의 제약을 넘어, 다중 소스 세계 신호로부터 통합 잠재 공간을 직접 학습하고 네이티브 세계 모델을 처음부터 사전학습한다.
상태 예측·개입 응답·물리 정량성·반사실 추론을 위한 통합 평가 프레임워크를 구축하여, 세계 모델이 시각 생성 수준에 머물지 않게 한다.
모델이 상호작용·반사실 샘플을 생성하고 자동 평가·가치 필터링 후 재학습하는 "생성—필터링—학습—도약" 폐루프. 나아가 AI for science·양자·거시 우주·생명과학으로 인지 경계를 확장한다.