ORCA arXiv:2606.30534
World Foundation Model · Beijing Academy of AI

Orca
The World is
in Your Mind

세계는 당신의 마음 속에 있다 — 하나의 세계 잠재 공간을 학습하다.

Orca는 범용 세계 파운데이션 모델(general world foundation model)의 초기 구현이다. 멀티모달 세계 신호로부터 통합 세계 잠재 공간(unified world latent space)을 학습하고, 이를 멀티모달 판독 인터페이스로 노출한다. 다음 토큰·프레임·행동 예측을 개별 최적화하는 대신, 다음 상태 예측(Next-State-Prediction)을 중심 모델링 축으로 삼는다.

Paradigm
Next-State-Prediction
Learning
Unconscious · Conscious
Scale
125K h video · 160M events
Readouts
Text · Image · Action
SCROLL — 잠재 공간으로 들어가기
01 — 핵심 개념

지능은 다음 토큰이 아니라
다음 상태를 예측하는 능력이다

범용 지능을 향한 본질적 다음 단계는 인간처럼 지속적으로 학습·자기진화하며 물리 법칙·인과 관계·동적 진화를 내재화하는 모델을 구축하는 것이다. 그러한 모델은 멀티모달 세계 신호를 흡수하여 세계의 잠재 상태(latent state)를 모델링한다.

기존 지능 모델은 세 가지 예측 축 중 하나에 최적화되어 있다. 지시에 응답하는 다음 토큰 예측(Next-Token), 고품질 이미지·영상을 생성하는 다음 프레임 예측(Next-Frame), 고품질 행동을 생성하는 다음 행동 예측(Next-Action)이 그것이다. Orca는 이들을 개별 목표로 두지 않는다. 대신 세계 상태를 구성하고 다양한 다운스트림 과제를 지원하는 잠재 공간을 만드는 능력으로 지능을 재정의한다.

Next-Token→ 텍스트 응답 Next-Frame→ 이미지 · 영상 Next-Action→ 행동 생성 Next-State-Prediction 통합 세계 잠재 공간

FIG. Orca는 세 가지 개별 예측 목표를 다음 상태 예측이라는 통합 상태 전이 모델링으로 수렴시킨다.

상태 전이 모델링 State Transition

Orca는 세계 학습을 잠재 세계 상태 모델링으로 정식화한다. 세계 신호 X = {X_m}를 잠재 세계 상태 S = f_θ(X)로 사상한 뒤, 상태 S가 암묵적 동역학과 명시적 조건 아래에서 앞뒤로 진화하도록 모델링한다.

St+Δ  ~  pΘ( St+Δ  |  St, zt, ct ),   Δ ∈ ℤ≠0

zt · 암묵적 동역학 — 물리 법칙·물체 속성·장면 동역학·환경력 등 관측되지 않는 요인  |  ct · 명시적 조건 — 인간 지시 등 관측된 조건  |  Δ>0 미래 예측, Δ<0 과거 역추적

두 가지 상보적 학습 패러다임
Unconscious Learning · 무의식 학습

Dense & Natural

연속 영상으로부터 자연스럽고 조밀한 상태 전이를 학습한다. 라벨 없이 자기 지도(self-supervision)로, 다음 프레임의 잠재를 예측하며 물체 이동·자연 동역학·물리 규칙성을 내재화한다. 조건 c_t = ∅인 관측 전용 상태 전이에 해당한다.

Conscious Learning · 의식 학습

Sparse & Meaningful

지시의 제약 아래 의미 있고 희소한 상태 전이를 학습한다. 언어 신호를 명시적 조건으로 취급하여 이벤트 e_{t+Δ}·과제 의도·인과 전제를 지정한다. 현재 상태가 목표 상태로 어떻게 전이해야 하는지를 안내한다.

Orca는 특정 과제를 위해 만들어지지 않았다.
먼저 세계 상태의 내부 표현을 학습하고,
그 표현을 전용 판독 인터페이스로 노출한다.

02 — 아키텍처

Encoder–Decoder,
그리고 얼어붙은 백본

Orca는 Encoder-Decoder 구조를 따른다. Encoder는 상태 추상화와 상태 전이를 위한 통합 세계 잠재 공간을 학습하고, 모달리티별 Decoder가 이를 텍스트·이미지·행동으로 판독한다. 잠재의 유효성을 증명하기 위해 Encoder는 사전학습 후 동결되고, 경량 판독 모듈만 학습된다.

ENCODER — 통합 잠재 학습 DECODER — 판독 멀티모달세계 신호 Orca Unconscious Conscious World Latent Representation ❄ FROZEN 🔥 LM head → 텍스트 🔥 SD3.5 → 이미지 🔥 Action Expert → 행동

FIG. Encoder는 무의식·의식 학습으로 세계 잠재를 학습하고 동결된다(❄). 학습 가능한(🔥) 경량 Decoder만 잠재를 텍스트·이미지·행동으로 판독한다. 出處: Figure 1·2·4, Orca (2026)

Encoder · 세 가지 학습 목표
Decoder · 세 갈래 판독 인터페이스
(a) To Language

별도 디코더 없이 LM head를 재사용하여 시각 관측·지시로부터 텍스트 응답을 생성한다. 잠재를 자연어로 표현한다.

(b) To Vision

잠재를 MLP 어댑터로 사상하여 동결된 Stable Diffusion 3.5의 경로 입력으로 사용한다. MLP·LoRA만 학습하여 픽셀 이미지를 판독한다.

(c) To Action

흐름 정합(flow-matching) 손실의 DiT 기반 Action Expert를 처음부터 학습한다. 잠재·자기수용 상태·노이즈 행동으로 행동 청크를 생성한다.

03 — 학습

사전학습으로 세계를 흡수하고,
동결한 뒤 판독만 학습한다

Orca는 2단계로 학습된다. 사전학습 단계는 대규모 시각·언어 데이터로 세계 잠재를 학습한다. 다운스트림 사후학습 단계에서는 백본을 동결하고 모달리티별 판독 모듈만 학습하여 언어·시각·행동 정보를 얻는다.

사전학습 손실 Loss

사전학습은 세 목표를 결합한 손실로 세계 상태 모델링을 구현한다. 앞의 두 상태 전이 목표는 학습 가능한 쿼리 벡터로, VQA 응답 생성은 백본의 LM head로 최적화된다.

ℒ  =  λobsobs  +  λevtevt  +  λvqavqa

obs 무의식 학습 · 자연 시각 전이  |  evt 의식 학습 · 언어 지정 전이  |  vqa 상식 · 표준 VQA 손실

사전학습 데이터 · 세 가지 컬렉션

데이터 구성은 세계 상태와 그 전이를 학습하도록 상호 보완적 지도를 제공한다. 모든 데이터는 실세계에 근거하며, 영상 데이터는 실제 영상으로 구축하고 이벤트·VQA 데이터는 그 위에서 상태 전이·물리 관계·공간 구성·행동 의도·인과 결과를 기술한다.

A · Video Data

시각 신호. 자기중심 상호작용(ego-centric), 타자중심 조작(exo-centric), 행동 없는 로봇 실행, 자연 동역학의 네 유형. 목표 1)·2)를 지원한다.

B · Event Data

영상에서 다단계 이벤트 분할·언어 주석으로 파생. 거친(coarse) 이벤트는 주요 단계를, 세밀한(fine) 이벤트는 그 안의 짧은 전이를 기술한다. 목표 2)를 지원한다.

C · VQA Data

언어 신호·영상으로 구성. 관측된 세계 상태를 기술·해석하도록 Orca를 가르친다. 목표 3)을 지원한다.

125K h
일반 영상 데이터 (이번 버전은 1/10만 사용)
160M
이벤트 주석 (event annotations)
11.5M
일반 VQA 데이터
0.8B / 4B
모델 규모 (자원 제약 하 실험)
인프라 · FlagScale 최적화

Orca 인프라는 자체 개발 FlagScale을 사용하며 FSDP2 재구축, 청크 교차 엔트로피 손실과 활성화 재계산을 통한 메모리 절약, 통신 스케줄링(순방향·역방향 프리페칭)을 도입했다. 그 결과 학습 처리량이 GPU당 초당 0.66 → 2.91 샘플로 증가하여, 임베디드 커뮤니티에서 널리 쓰이는 StarVLA 대비 약 4.4배 가속을 달성했다.

StarVLA (기준) 0.66 samples/s/GPU Orca · FlagScale 2.91 samples/s/GPU · ≈ 4.4×

두 가지 질문. 패러다임은 확장되는가?
그리고 더 강한 잠재는 더 강한 판독으로 이어지는가?

04 — 평가

확장성과 창발을 증명하다

다운스트림 결과에 앞서 Orca의 핵심 가설을 검증한다. 사전학습 데이터가 확장될수록 총 손실은 지속 감소하고, 더 큰 모델이 더 낮은 손실에 도달한다. 그리고 더 강한 잠재는 텍스트·이미지·행동 판독 모두를 향상시킨다.

Answer 1.1 · 확장성

Orca의 학습 패러다임은 모델·데이터가 커질수록 효과적이며 확장 가능하다. 손실 곡선은 빠르게 수렴하지 않고 더 많은 데이터·더 큰 모델로부터 지속적으로 이득을 얻으며 뚜렷한 하강 추세를 보인다.

Answer 1.2 · 창발

더 강한 세계 잠재는 더 강한 판독으로 이어진다. 특히 사전학습에 행동 라벨 데이터를 전혀 쓰지 않았음에도 영상 데이터만으로 행동 생성 성능이 향상되는 창발적 능력이 관측되었다. 이는 로봇 데이터 희소성에 따른 저일반화 문제를 완화할 수 있다.

손실 확장 곡선
Loss Pre-Training Hours → 0.6 0.5 0.3 0.8B 4B

FIG. 총 손실은 사전학습 데이터가 늘수록 지속 하강하며, 4B 모델이 0.8B보다 더 낮은 손실에 도달한다. 出處: Figure 5, Orca (2026)

텍스트 생성 Text Generation

MVBench·TemporalBench·3DSRBench·SWITCH 네 벤치마크에서 OOD 상식 추론·이해·고차 인지 능력을 평가한다. 모든 결과는 제로샷이며, 벤치마크 특화 학습이나 튜닝은 없다. Orca-4B는 동급 VLM과 대형 세계 모델 모두를 능가한다.

ModelSize(B)MVBench↑TemporalBench↑3DSRBench↑SWITCH↑Avg.
World Models (Large)
V-JEPA 2.1 (+LLaMA3-8B)1075.428.5///
Emu3835.29.539.138.030.4
Emu3.53439.59.531.338.929.8
Vision-Language Models
MiniCPM-V-4.6241.421.247.741.237.9
Gemma 4445.620.244.852.440.8
Qwen3.5467.125.248.142.846.7
Orca0.853.622.643.443.740.8
Orca465.334.252.155.651.8

TABLE 1. 텍스트 생성 비교(↑ 높을수록 우수). Orca-4B는 평균 51.8로 동급·대형 기준선을 상회한다.

일반 능력 차원 분석

여러 벤치마크의 샘플을 능력 차원별로 집계한 벤치마크 비의존 평가에서, Orca-4B는 Qwen3.5-4B 대비 특히 상태 전이(+12.27%)동적 운동(+8.52%)에서 큰 향상을 보인다.

+12.27%
State Transition · 상태 전이 정확도
+5.19%
Commonsense · 상식·반사실 추론
+0.57%
Spatial Relations · 3D 기하 관계
+8.52%
Dynamic Motion · 운동 관성·연속성

TABLE 2. Orca-4B vs Qwen3.5-4B의 능력 차원별 성공률 변화.

이미지 예측 Image Prediction

목표는 화가를 만드는 것이 아니라, 잠재가 미래 상태를 예측하는 능력을 지녔는지 확인하는 것이다. 이를 위해 실세계 데이터셋 PRICE-V0.1(Prediction of Real-world Interactions with Constraints Evaluation)을 구축했다. Orca는 최고 평균 성능을 보이며, 로봇 형태·장면·물체 일관성·접촉 관계·지시 준수를 더 잘 보존한다.

ModelSize(B)Gemini 3.1 Pro↑GPT 5.4↑Doubao-Seed-2.0↑Gemma 4-31B↑Avg.
OmniGen23+424.646.841.445.539.6±10.2
FLUX.1-Kontext1221.646.942.752.540.9±13.5
FLUX.2 [klein]4+429.764.660.070.256.1±18.1
Orca0.8+217.048.546.026.534.5±15.3
Orca4+244.067.961.066.359.8±10.9

TABLE 3. PRICE-V0.1 비교. Orca-4B는 평균 59.8로 최고, 표준편차도 낮아(±10.9) 안정적이다.

행동 생성 Action Generation

양팔 바퀴형 휴머노이드 로봇으로 5개 과제(Take Book·Stacked Bowls·Pull Out Tissue·Stamp·Scoop Sugar)를 수집하고, 환경·물체 두 OOD 설정에서 평가한다. 처음부터 학습한 Action Expert 조건에서 Orca는 모든 OOD 설정에서 Qwen3.5를 능가하며 0% 성공률을 돌파하고, 대규모 로봇 데이터로 사전학습된 강력한 π₀.₅와도 비견된다.

OverallRule-based↑M25↑M50↑SR↑MaxP-F↑DRR↑
V-JEPA 2.117.0277017.420.5
Qwen3.510.5185013.111.9
π₀.₅29.45414526.526.7
Orca32.45514627.930.3

TABLE 4. 행동 생성 종합 비교. 모든 백본은 동결, Action Expert는 처음부터 학습. DRR(편차 회복 비율)이 높아 실행 오류 후 복구가 우수하다.

Orca는 실행 중 의미 있는 중간 진전을 더 자주 만들고 정체가 적다. 높은 FNS는 실패 궤적조차 종료 전 더 후반 단계에 도달함을, 높은 DRR은 진전 하락 후 편차를 교정하고 과제를 이어감을 시사한다. 스푼 잡기 반복 실패 후에도 Orca는 복구하여 성공(DRR 100.0)하는 반면 π₀.₅는 불안정하게 반복 실패(DRR 53.7)한다.

절제 실험 Ablation

세 손실(λobs·λevt·λvqa)을 절제한 결과, 세 목표를 함께 쓸 때 텍스트·이미지·행동 판독이 가장 균형 잡힌다. 관측 전용 전이는 행동 판독에, 이벤트 조건 전이는 시각 판독에 핵심이며, VQA는 언어 인터페이스와 의미 근거를 보존한다.

λobsλevtλvqaTextImageActionAvg.
48.410.229.3
58.230.944.6
50.532.641.6
50.154.723.042.6
51.859.832.448.0

TABLE 5. 절제 결과. 세 목표를 모두 사용할 때 평균 48.0으로 가장 균형 잡힌 판독을 얻는다.

Orca는 범용 세계 파운데이션 모델을 향한
이른 탐색적 이정표다. 그 경계는 곧 방향이 된다.

05 — 결론 · 한계 · 향후

다음 상태를 향하여

Orca는 세계 잠재 공간을 중심으로 구축된 세계 학습자다. 질의응답·시각 프레임 예측·행동 생성 같은 개별 과제를 위해 만들어진 것이 아니라, 멀티모달 세계 신호로부터 세계 상태의 내부 표현을 먼저 학습하고 전용 판독 인터페이스로 노출한다. 모델링 목표를 다음 토큰·프레임·행동 예측에서 다음 상태 예측으로 이동시킨다.

현재의 한계 Limitations
향후 연구 Future Works
더 많은 모달리티 입력

단순히 모달리티를 추가하는 것이 아니라, 이들을 동일한 기저 상태에 정렬하여 물리 법칙으로 상태 전이를 더 잘 제약한다.

네이티브 세계 상태 모델링

기존 ViT 공간의 제약을 넘어, 다중 소스 세계 신호로부터 통합 잠재 공간을 직접 학습하고 네이티브 세계 모델을 처음부터 사전학습한다.

상태 전이 평가 체계

상태 예측·개입 응답·물리 정량성·반사실 추론을 위한 통합 평가 프레임워크를 구축하여, 세계 모델이 시각 생성 수준에 머물지 않게 한다.

자기진화 폐루프 · 인지 경계 확장

모델이 상호작용·반사실 샘플을 생성하고 자동 평가·가치 필터링 후 재학습하는 "생성—필터링—학습—도약" 폐루프. 나아가 AI for science·양자·거시 우주·생명과학으로 인지 경계를 확장한다.