Lance: Native Unified Multimodal Model

1. 인간의 뇌를 닮은 AI의 꿈

인간의 지능은 텍스트 이해, 시각적 심상 생성, 미래 상황 추론이 유기적으로 통합된 시스템입니다. 기존 AI는 이러한 통합적 능력을 구현하는 데 한계가 있었으며, 텍스트 이해 모델과 시각적 생성 모델이 독립적으로 발전하거나 단순히 결합되는 수준에 머물렀습니다.

'Lance'는 이러한 이분법적 구조를 깨고, 하나의 몸체 안에서 이해, 추론, 생성의 통합을 이룬 Native Unified Model입니다.

🧠

입체적 사고와 창조적 능력의 결합

이해(Understanding)와 생성(Generation) 사이의 '파라미터 경쟁(Competition for parameters)'이 성능의 병목을 야기했습니다.

멀티모달 이해 의미론적 특징(Semantic) 기반 고차원 추론

시각적 생성 저수준 픽셀(Low-level) 정보 기반 질감 보존

Lance는 이중 스트림 전문가 혼합(Dual-stream MoE) 아키텍처를 통해 파라미터 경쟁을 해결했습니다.

🔍

LLM-UND 이해 전문가

🎨

LLM-GEN 생성 전문가

Modality-aware Rotary Positional Encoding은 단일 시퀀스 내에 혼재된 의미론적 토큰과 픽셀 토큰의 혼동을 방지합니다. 시간 차원 오프셋을 부여하여 정보를 구분하되, 공간적 일관성은 유지하여 형태 왜곡을 방지합니다.

단 128개의 GPU만으로 1.5조 개의 토큰을 학습했습니다. 이는 대규모 리소스가 필요한 기존 모델들과 차별화되는 고효율 학습 전략의 승리입니다.

Lance (3B) 98% Efficiency

FLUX.1 (12B) 82%

Qwen-Image (20B) 75%

* Lance는 자신보다 4~7배 큰 모델의 성능을 상회합니다.

🔢

객체 개수 세기, 정확한 위치 파악, 동적 흐름 표현에서 독보적인 성적을 거두었습니다.

🎬

단순 이미지 생성을 넘어 정교한 비디오 편집과 이해에서도 최상위 성적을 달성했습니다.

⚡

3B의 활성 파라미터로 구현된 '최소 비용, 최대 지능'의 혁신적 사례입니다.

Lance는 단순히 여러 기능을 한데 모은 모델이 아니라, 이해하는 지능이 생성의 정교한 가이드가 되고, 생성 경험이 맥락 파악 통찰력을 더해주는 '지능의 완전체'를 향한 첫걸음입니다.

[1] Wang, P., et al. (2024). Qwen2.5-VL: Enhancing Vision-Language Models. arXiv.

[2] Black Forest Labs. (2024). FLUX.1: High-Resolution Text-to-Image Generation.

[3] Lipman, Y., et al. (2022). Flow Network Matching for Generative Modeling. ICLR.

[4] Shazeer, N., et al. (2017). Outrageously Large Neural Networks: MoE Layer. arXiv.

[5] Su, J., et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding.

[6] Bai, J., et al. (2023). Qwen-VL: A Versatile Vision-Language Model. arXiv.