World Foundation Model · Beijing Academy of AI

Orca
The World is
in Your Mind

세계는 당신의 마음 속에 있다 — 하나의 세계 잠재 공간을 학습하다.

Orca는 범용 세계 파운데이션 모델(general world foundation model)의 초기 구현이다. 멀티모달 세계 신호로부터 통합 세계 잠재 공간(unified world latent space)을 학습하고, 이를 멀티모달 판독 인터페이스로 노출한다. 다음 토큰·프레임·행동 예측을 개별 최적화하는 대신, 다음 상태 예측(Next-State-Prediction)을 중심 모델링 축으로 삼는다.

Paradigm

Next-State-Prediction

Learning

Unconscious · Conscious

Scale

125K h video · 160M events

Readouts

Text · Image · Action

SCROLL — 잠재 공간으로 들어가기

01 — 핵심 개념

지능은 다음 토큰이 아니라
다음 상태를 예측하는 능력이다

범용 지능을 향한 본질적 다음 단계는 인간처럼 지속적으로 학습·자기진화하며 물리 법칙·인과 관계·동적 진화를 내재화하는 모델을 구축하는 것이다. 그러한 모델은 멀티모달 세계 신호를 흡수하여 세계의 잠재 상태(latent state)를 모델링한다.

기존 지능 모델은 세 가지 예측 축 중 하나에 최적화되어 있다. 지시에 응답하는 다음 토큰 예측(Next-Token), 고품질 이미지·영상을 생성하는 다음 프레임 예측(Next-Frame), 고품질 행동을 생성하는 다음 행동 예측(Next-Action)이 그것이다. Orca는 이들을 개별 목표로 두지 않는다. 대신 세계 상태를 구성하고 다양한 다운스트림 과제를 지원하는 잠재 공간을 만드는 능력으로 지능을 재정의한다.

FIG. Orca는 세 가지 개별 예측 목표를 다음 상태 예측이라는 통합 상태 전이 모델링으로 수렴시킨다.

상태 전이 모델링 State Transition

Orca는 세계 학습을 잠재 세계 상태 모델링으로 정식화한다. 세계 신호 X = {X_m}를 잠재 세계 상태 S = f_θ(X)로 사상한 뒤, 상태 S가 암묵적 동역학과 명시적 조건 아래에서 앞뒤로 진화하도록 모델링한다.

S_t+Δ ~ p_Θ( S_t+Δ | S_t, z_t, c_t ), Δ ∈ ℤ_≠0

z_t · 암묵적 동역학 — 물리 법칙·물체 속성·장면 동역학·환경력 등 관측되지 않는 요인 | c_t · 명시적 조건 — 인간 지시 등 관측된 조건 | Δ>0 미래 예측, Δ<0 과거 역추적

두 가지 상보적 학습 패러다임

Unconscious Learning · 무의식 학습

Dense & Natural

연속 영상으로부터 자연스럽고 조밀한 상태 전이를 학습한다. 라벨 없이 자기 지도(self-supervision)로, 다음 프레임의 잠재를 예측하며 물체 이동·자연 동역학·물리 규칙성을 내재화한다. 조건 c_t = ∅인 관측 전용 상태 전이에 해당한다.

Conscious Learning · 의식 학습

Sparse & Meaningful

지시의 제약 아래 의미 있고 희소한 상태 전이를 학습한다. 언어 신호를 명시적 조건으로 취급하여 이벤트 e_{t+Δ}·과제 의도·인과 전제를 지정한다. 현재 상태가 목표 상태로 어떻게 전이해야 하는지를 안내한다.

Orca는 특정 과제를 위해 만들어지지 않았다.
먼저 세계 상태의 내부 표현을 학습하고,
그 표현을 전용 판독 인터페이스로 노출한다.

02 — 아키텍처

Encoder–Decoder,
그리고 얼어붙은 백본

Orca는 Encoder-Decoder 구조를 따른다. Encoder는 상태 추상화와 상태 전이를 위한 통합 세계 잠재 공간을 학습하고, 모달리티별 Decoder가 이를 텍스트·이미지·행동으로 판독한다. 잠재의 유효성을 증명하기 위해 Encoder는 사전학습 후 동결되고, 경량 판독 모듈만 학습된다.

FIG. Encoder는 무의식·의식 학습으로 세계 잠재를 학습하고 동결된다(❄). 학습 가능한(🔥) 경량 Decoder만 잠재를 텍스트·이미지·행동으로 판독한다. 出處: Figure 1·2·4, Orca (2026)

Encoder · 세 가지 학습 목표

1)관측 전용 상태 전이 (무의식). 프레임 v_t와 학습 쿼리 <Query 1>로부터 다음 프레임 잠재 v̂_{t+1}을 예측한다. 정답은 동결된 비전 인코더가 생성하며, 교사 강요(teacher forcing)로 정렬한다.
2)이벤트 조건 상태 전이 (의식). 프레임·쿼리에 이벤트 설명 e_{t+Δ}과 <Query 2>를 더해 이벤트 관련 잠재 v̂_{t+Δ}을 예측한다. 이벤트·과제 의도·인과 전제를 조건으로 삼는다.
3)VQA 응답 생성. 영상 V와 질문 l_q로부터 언어 답변 l_a를 표준 다음 토큰 예측 손실로 생성한다. 언어 인터페이스와 상식적 근거를 유지한다.

Decoder · 세 갈래 판독 인터페이스

(a) To Language

별도 디코더 없이 LM head를 재사용하여 시각 관측·지시로부터 텍스트 응답을 생성한다. 잠재를 자연어로 표현한다.

(b) To Vision

잠재를 MLP 어댑터로 사상하여 동결된 Stable Diffusion 3.5의 경로 입력으로 사용한다. MLP·LoRA만 학습하여 픽셀 이미지를 판독한다.

흐름 정합(flow-matching) 손실의 DiT 기반 Action Expert를 처음부터 학습한다. 잠재·자기수용 상태·노이즈 행동으로 행동 청크를 생성한다.

03 — 학습

사전학습으로 세계를 흡수하고,
동결한 뒤 판독만 학습한다

Orca는 2단계로 학습된다. 사전학습 단계는 대규모 시각·언어 데이터로 세계 잠재를 학습한다. 다운스트림 사후학습 단계에서는 백본을 동결하고 모달리티별 판독 모듈만 학습하여 언어·시각·행동 정보를 얻는다.

사전학습 손실 Loss

사전학습은 세 목표를 결합한 손실로 세계 상태 모델링을 구현한다. 앞의 두 상태 전이 목표는 학습 가능한 쿼리 벡터로, VQA 응답 생성은 백본의 LM head로 최적화된다.

ℒ = λ_obsℒ_obs + λ_evtℒ_evt + λ_vqaℒ_vqa

ℒ_obs 무의식 학습 · 자연 시각 전이 | ℒ_evt 의식 학습 · 언어 지정 전이 | ℒ_vqa 상식 · 표준 VQA 손실

사전학습 데이터 · 세 가지 컬렉션

데이터 구성은 세계 상태와 그 전이를 학습하도록 상호 보완적 지도를 제공한다. 모든 데이터는 실세계에 근거하며, 영상 데이터는 실제 영상으로 구축하고 이벤트·VQA 데이터는 그 위에서 상태 전이·물리 관계·공간 구성·행동 의도·인과 결과를 기술한다.

A · Video Data

시각 신호. 자기중심 상호작용(ego-centric), 타자중심 조작(exo-centric), 행동 없는 로봇 실행, 자연 동역학의 네 유형. 목표 1)·2)를 지원한다.

B · Event Data

영상에서 다단계 이벤트 분할·언어 주석으로 파생. 거친(coarse) 이벤트는 주요 단계를, 세밀한(fine) 이벤트는 그 안의 짧은 전이를 기술한다. 목표 2)를 지원한다.

C · VQA Data

언어 신호·영상으로 구성. 관측된 세계 상태를 기술·해석하도록 Orca를 가르친다. 목표 3)을 지원한다.

125K h

일반 영상 데이터 (이번 버전은 1/10만 사용)

160M

이벤트 주석 (event annotations)

11.5M

일반 VQA 데이터

0.8B / 4B

모델 규모 (자원 제약 하 실험)

인프라 · FlagScale 최적화

Orca 인프라는 자체 개발 FlagScale을 사용하며 FSDP2 재구축, 청크 교차 엔트로피 손실과 활성화 재계산을 통한 메모리 절약, 통신 스케줄링(순방향·역방향 프리페칭)을 도입했다. 그 결과 학습 처리량이 GPU당 초당 0.66 → 2.91 샘플로 증가하여, 임베디드 커뮤니티에서 널리 쓰이는 StarVLA 대비 약 4.4배 가속을 달성했다.

두 가지 질문. 패러다임은 확장되는가?
그리고 더 강한 잠재는 더 강한 판독으로 이어지는가?

04 — 평가

확장성과 창발을 증명하다

다운스트림 결과에 앞서 Orca의 핵심 가설을 검증한다. 사전학습 데이터가 확장될수록 총 손실은 지속 감소하고, 더 큰 모델이 더 낮은 손실에 도달한다. 그리고 더 강한 잠재는 텍스트·이미지·행동 판독 모두를 향상시킨다.

Answer 1.1 · 확장성

Orca의 학습 패러다임은 모델·데이터가 커질수록 효과적이며 확장 가능하다. 손실 곡선은 빠르게 수렴하지 않고 더 많은 데이터·더 큰 모델로부터 지속적으로 이득을 얻으며 뚜렷한 하강 추세를 보인다.

Answer 1.2 · 창발

더 강한 세계 잠재는 더 강한 판독으로 이어진다. 특히 사전학습에 행동 라벨 데이터를 전혀 쓰지 않았음에도 영상 데이터만으로 행동 생성 성능이 향상되는 창발적 능력이 관측되었다. 이는 로봇 데이터 희소성에 따른 저일반화 문제를 완화할 수 있다.

손실 확장 곡선

FIG. 총 손실은 사전학습 데이터가 늘수록 지속 하강하며, 4B 모델이 0.8B보다 더 낮은 손실에 도달한다. 出處: Figure 5, Orca (2026)

텍스트 생성 Text Generation

MVBench·TemporalBench·3DSRBench·SWITCH 네 벤치마크에서 OOD 상식 추론·이해·고차 인지 능력을 평가한다. 모든 결과는 제로샷이며, 벤치마크 특화 학습이나 튜닝은 없다. Orca-4B는 동급 VLM과 대형 세계 모델 모두를 능가한다.

Model	Size(B)	MVBench↑	TemporalBench↑	3DSRBench↑	SWITCH↑	Avg.
World Models (Large)
V-JEPA 2.1 (+LLaMA3-8B)	10	75.4	28.5	/	/	/
Emu3	8	35.2	9.5	39.1	38.0	30.4
Emu3.5	34	39.5	9.5	31.3	38.9	29.8
Vision-Language Models
MiniCPM-V-4.6	2	41.4	21.2	47.7	41.2	37.9
Gemma 4	4	45.6	20.2	44.8	52.4	40.8
Qwen3.5	4	67.1	25.2	48.1	42.8	46.7
Orca	0.8	53.6	22.6	43.4	43.7	40.8
Orca	4	65.3	34.2	52.1	55.6	51.8

TABLE 1. 텍스트 생성 비교(↑ 높을수록 우수). Orca-4B는 평균 51.8로 동급·대형 기준선을 상회한다.

일반 능력 차원 분석

여러 벤치마크의 샘플을 능력 차원별로 집계한 벤치마크 비의존 평가에서, Orca-4B는 Qwen3.5-4B 대비 특히 상태 전이(+12.27%)와 동적 운동(+8.52%)에서 큰 향상을 보인다.

+12.27%

State Transition · 상태 전이 정확도

+5.19%

Commonsense · 상식·반사실 추론

+0.57%

Spatial Relations · 3D 기하 관계

+8.52%

Dynamic Motion · 운동 관성·연속성

TABLE 2. Orca-4B vs Qwen3.5-4B의 능력 차원별 성공률 변화.

이미지 예측 Image Prediction

목표는 화가를 만드는 것이 아니라, 잠재가 미래 상태를 예측하는 능력을 지녔는지 확인하는 것이다. 이를 위해 실세계 데이터셋 PRICE-V0.1(Prediction of Real-world Interactions with Constraints Evaluation)을 구축했다. Orca는 최고 평균 성능을 보이며, 로봇 형태·장면·물체 일관성·접촉 관계·지시 준수를 더 잘 보존한다.

Model	Size(B)	Gemini 3.1 Pro↑	GPT 5.4↑	Doubao-Seed-2.0↑	Gemma 4-31B↑	Avg.
OmniGen2	3+4	24.6	46.8	41.4	45.5	39.6±10.2
FLUX.1-Kontext	12	21.6	46.9	42.7	52.5	40.9±13.5
FLUX.2 [klein]	4+4	29.7	64.6	60.0	70.2	56.1±18.1
Orca	0.8+2	17.0	48.5	46.0	26.5	34.5±15.3
Orca	4+2	44.0	67.9	61.0	66.3	59.8±10.9

TABLE 3. PRICE-V0.1 비교. Orca-4B는 평균 59.8로 최고, 표준편차도 낮아(±10.9) 안정적이다.

행동 생성 Action Generation

양팔 바퀴형 휴머노이드 로봇으로 5개 과제(Take Book·Stacked Bowls·Pull Out Tissue·Stamp·Scoop Sugar)를 수집하고, 환경·물체 두 OOD 설정에서 평가한다. 처음부터 학습한 Action Expert 조건에서 Orca는 모든 OOD 설정에서 Qwen3.5를 능가하며 0% 성공률을 돌파하고, 대규모 로봇 데이터로 사전학습된 강력한 π₀.₅와도 비견된다.

Overall	Rule-based↑	M25↑	M50↑	SR↑	MaxP-F↑	DRR↑
V-JEPA 2.1	17.0	27	7	0	17.4	20.5
Qwen3.5	10.5	18	5	0	13.1	11.9
π₀.₅	29.4	54	14	5	26.5	26.7
Orca	32.4	55	14	6	27.9	30.3

TABLE 4. 행동 생성 종합 비교. 모든 백본은 동결, Action Expert는 처음부터 학습. DRR(편차 회복 비율)이 높아 실행 오류 후 복구가 우수하다.

Orca는 실행 중 의미 있는 중간 진전을 더 자주 만들고 정체가 적다. 높은 FNS는 실패 궤적조차 종료 전 더 후반 단계에 도달함을, 높은 DRR은 진전 하락 후 편차를 교정하고 과제를 이어감을 시사한다. 스푼 잡기 반복 실패 후에도 Orca는 복구하여 성공(DRR 100.0)하는 반면 π₀.₅는 불안정하게 반복 실패(DRR 53.7)한다.

절제 실험 Ablation

세 손실(λ_obs·λ_evt·λ_vqa)을 절제한 결과, 세 목표를 함께 쓸 때 텍스트·이미지·행동 판독이 가장 균형 잡힌다. 관측 전용 전이는 행동 판독에, 이벤트 조건 전이는 시각 판독에 핵심이며, VQA는 언어 인터페이스와 의미 근거를 보존한다.

λ_obs	λ_evt	λ_vqa	Text	Image	Action	Avg.
–	–	✓	48.4	–	10.2	29.3
✓	✓	–	–	58.2	30.9	44.6
✓	–	✓	50.5	–	32.6	41.6
–	✓	✓	50.1	54.7	23.0	42.6
✓	✓	✓	51.8	59.8	32.4	48.0

TABLE 5. 절제 결과. 세 목표를 모두 사용할 때 평균 48.0으로 가장 균형 잡힌 판독을 얻는다.

Orca는 범용 세계 파운데이션 모델을 향한
이른 탐색적 이정표다. 그 경계는 곧 방향이 된다.

05 — 결론 · 한계 · 향후

다음 상태를 향하여

Orca는 세계 잠재 공간을 중심으로 구축된 세계 학습자다. 질의응답·시각 프레임 예측·행동 생성 같은 개별 과제를 위해 만들어진 것이 아니라, 멀티모달 세계 신호로부터 세계 상태의 내부 표현을 먼저 학습하고 전용 판독 인터페이스로 노출한다. 모델링 목표를 다음 토큰·프레임·행동 예측에서 다음 상태 예측으로 이동시킨다.

현재의 한계 Limitations

1)제한된 멀티모달 신호. 현재 주로 시각·언어로 학습한다. 그러나 많은 상태 전이는 소리·촉각·힘 피드백 등 다른 감각·물리 신호로 표현된다(예: 물이 끓는지는 시각 변화 전 소리로 추론 가능). 향후 오디오·촉각·힘·빛·자기수용 등 더 풍부한 신호를 통합해야 한다.
2)ViT 공간 지도. 동결된 비전 인코더 안에서 시각 상태 예측을 지도하여 학습을 단순화했으나, 이는 학습된 상태 공간을 의미 공간에 정렬시킨다. 범용 세계 모델은 단일 사전학습 모달리티 공간에 의존하지 않고 다중 소스 신호로부터 통합 세계 공간을 직접 학습해야 한다.
3)제한된 모델 규모. 자원 제약으로 4B·0.8B 규모에 머문다. 4B 모델은 사전학습이 진행됨에 따라 언어·이미지·행동 판독 간 트레이드오프를 보이며 0.8B에서 더 두드러진다. 125K시간·160M주석을 만들었으나 현재 1/10만 사용했다. 세계 학습은 데이터뿐 아니라 충분한 모델 용량을 요구한다.
4)제한된 시각 벤치마크. PRICE-V0.1은 여러 실세계 소스를 다루지만 규모·다양성·상호작용 풍부성이 아직 제한적이다. 실세계 상태 예측의 더 포괄적 평가를 향한 초기 단계로 삼는다.
5)짧은 지평 전이 지도. 대부분의 이벤트 주석이 분 단위의 짧은 지평 전이를 기술한다. 국소 전이 학습에는 적합하나 시간·일 단위 이상의 장기 상태 진화 모델링에는 불충분하다.
6–8)판독·손실·임베디드 과제의 제한. 판독을 언어·시각·행동으로 검증했으나 청각·양자 회로·단백질 등은 여전히 세계의 중요한 일부다. 세 손실은 다음 상태 예측에 충분히 일관되지 않아 더 단순한 손실이 필요하며, 임베디드 과제는 아직 상대적으로 짧고 쉽다.

향후 연구 Future Works

더 많은 모달리티 입력

단순히 모달리티를 추가하는 것이 아니라, 이들을 동일한 기저 상태에 정렬하여 물리 법칙으로 상태 전이를 더 잘 제약한다.

네이티브 세계 상태 모델링

기존 ViT 공간의 제약을 넘어, 다중 소스 세계 신호로부터 통합 잠재 공간을 직접 학습하고 네이티브 세계 모델을 처음부터 사전학습한다.

상태 전이 평가 체계

상태 예측·개입 응답·물리 정량성·반사실 추론을 위한 통합 평가 프레임워크를 구축하여, 세계 모델이 시각 생성 수준에 머물지 않게 한다.

자기진화 폐루프 · 인지 경계 확장

모델이 상호작용·반사실 샘플을 생성하고 자동 평가·가치 필터링 후 재학습하는 "생성—필터링—학습—도약" 폐루프. 나아가 AI for science·양자·거시 우주·생명과학으로 인지 경계를 확장한다.

지능은 다음 토큰이 아니라다음 상태를 예측하는 능력이다

Dense & Natural

Sparse & Meaningful

Encoder–Decoder,그리고 얼어붙은 백본

사전학습으로 세계를 흡수하고,동결한 뒤 판독만 학습한다

확장성과 창발을 증명하다

다음 상태를 향하여

지능은 다음 토큰이 아니라
다음 상태를 예측하는 능력이다

Encoder–Decoder,
그리고 얼어붙은 백본

사전학습으로 세계를 흡수하고,
동결한 뒤 판독만 학습한다