Sparse Activation
희소 활성화의 힘
전체 25B 파라미터 중 추론 시 오직 3B만 활성화됩니다. 이는 Dense 모델 대비 약 8.3배의 연산 효율을 제공하며 GPU 메모리 대역폭 요구사항을 획기적으로 줄입니다.
Max Acceleration
Vs. VInO Baseline
MoE Structure
Routed + Shared Expert 설계
DiT-MoE
핵심 아키텍처
Mamoda2.5는 단순한 성능 향상을 넘어 하드웨어 효율성과 지능의 균형을 재정의합니다.
Fine-Grained MoE 설계
-
01
Top-8 라우팅 128개의 전문가 중 최적의 8개를 시그모이드 게이팅으로 선정하여 정교한 결과물을 도출합니다.
-
02
공유 전문가 (Shared Expert) 전문가 간의 발산을 방지하고 범용 지식을 효과적으로 캡처하여 일관성을 유지합니다.
3D 인과적 VAE 및 토큰화
4x16x16 고압축 3D Causal VAE를 적용하여 공간 토큰을 4배 감소시켰으며, 이는 핵심 DiT 연산 부하를 16배나 절감하는 결과로 이어집니다.
ByT5 텍스트 렌더링
문자 단위 추론이 가능한 ByT5 인코더를 통합하여 비디오 내 자막, 표지판 등 텍스트 레이아웃의 피델리티를 극대화했습니다. 상업적 영상 편집에 최적화된 성능을 제공합니다.
성능 벤치마크 및 경쟁력
시장의 주요 경쟁 모델 대비 압도적인 효율성과 정밀도를 증명합니다.
"복잡한 사물 구조 유지 및 일관성 있는 편집 가능"
인프라 기획자를 위한 제언
운영 탄력성(Operational Elasticity) 확보
지적 능력(25B)은 극대화하되 추론 비용(3B)은 고정하여 ROI를 극대화하십시오. 이는 하드웨어 TCO 절감의 핵심입니다.
데이터 효율적 업사이클링
기존 Dense 모델 가중치를 재활용하는 전략은 시장 출시 기간(Time-to-Market)과 학습 비용을 획기적으로 단축시킵니다.
추론 가속 기술 선제 도입
4-Step 증류 및 SSTA 토큰 프루닝 기술은 사용자 경험(UX) 향상과 GPU 인프라 효율성을 결정짓는 필수 요소입니다.
"희소성을 통한 효율의 극대화가 향후 대규모 시각 생성 모델 운영의 표준 아키텍처가 될 것입니다."