S 연구 동향
Architecture Deep Dive

DeepSeek-V4 아키텍처:
100만 토큰 컨텍스트 및 추론 확장을 위한 혁신

지능의 효율적 확장을 위한 새로운 표준을 제시하는 차세대 Mixture-of-Experts(MoE) 모델 시리즈를 분석합니다.

1. 서론: 백만 토큰 지능을 향한 도약

현대 AI 워크플로우

복잡한 에이전트 환경 및 대규모 문서 분석(Long-horizon) 태스크의 급증으로 인한 진화.

기존 기술의 한계

바닐라 어텐션의 $O(n^2)$ 복잡도로 인한 초장기 컨텍스트 처리의 물리적·경제적 병목.

DeepSeek-V4의 솔루션

  • 차세대 Mixture-of-Experts(MoE) 모델 시리즈 설계
  • 하이브리드 어텐션(CSA/HCA) 및 mHC 구조 도입으로 지능 확장 장벽 제거
  • 100만 토큰 컨텍스트 수용 및 '테스트 타임 스케일링' 기술적 토대 완성
  • DeepSeek-V4-Pro(1.6T/49B Activated) 및 Flash(284B/13B Activated)

2. mHC (Manifold-Constrained Hyper-Connections)

수치적 안정성 및 신호 전파 최적화를 위한 설계로, 확장 계수 $n_{hc} = 4$를 적용합니다.

핵심 메커니즘

Birkhoff Polytope 제약

잔차 매핑 행렬 $B_l$을 이중 확률 행렬 매니폴드로 제약하여 스펙트럴 노름을 1 이하로 유지, 그래디언트의 일관된 전파 보장.

Sinkhorn-Knopp 알고리즘

반복적 정규화($t_{max}=20$)를 통해 매핑 행렬을 이중 확률 행렬로 정밀 투영하여 수치적 신뢰도 확보.

동적 파라미터화: 입력/출력 매핑에 RMSNorm과 Sigmoid를 적용하여 MoE 구조의 신호 상쇄 리스크를 원천 차단했습니다. 연산 오버헤드는 전체 파이프라인의 단 6.7% 수준으로 억제되었습니다.

3. 하이브리드 어텐션 아키텍처: CSA & HCA

어텐션 병목을 상수 시간 검색 태스크로 전환하며 압축(Compression)과 희소성(Sparsity)을 결합했습니다.

CSA (Compressed Sparse Attention)

오버랩 압축: $m=4$ 비율로 KV 캐시 압축. Lightning Indexer를 통한 FP4 정밀도 연산으로 관련성 높은 $k$개의 엔트리(Flash 512, Pro 1024)를 정밀하게 선택합니다.

HCA (Heavily Compressed Attention)

공격적 압축: $m'=128$ 압축률 적용. CSA와 달리 비오버랩 Dense Attention을 유지하여 극단적인 메모리 절감과 전역적 맥락(Global Context) 가시성을 확보합니다.

보완 기술: Sliding Window Attention(SWA, $n_{win}=128$) 및 Attention Sink를 통해 미세 의존성 손실을 방지하고 인과관계 모델링의 정밀도를 보존합니다.

4. 연산 효율성 및 추론 최적화

V3.2 대비 동일 지능 수준에서 10배 이상의 KV 캐시 효율성을 입증했습니다.

모델 모델 추론 FLOPs KV 캐시 점유율
DeepSeek-V4-Pro (49B) 27% 감소 10% 수준 감축
DeepSeek-V4-Flash (13B) 10% 감소 7% 수준 최적화

FP4 양자화: MXFP4 QAT를 적용하여 메모리 대역폭 점유를 낮추고 계산 시 FP8로 무손실 변환하여 정밀도 저하를 차단했습니다.

5. Muon 옵티마이저 및 학습 가속

Newton-Schulz 반복을 통한 그래디언트 직교화로 AdamW 대비 압도적인 수렴 속도를 제공합니다.

Stage 1: 빠른 수렴

8회 반복, 특잇값을 1에 가깝게 유도.

Stage 2: 안정화

2회 반복, 특잇값을 정밀하게 1로 고정.

학습 안정화 및 이상치 제어

  • Anticipatory Routing: 백본과 라우팅 네트워크 업데이트 분리
  • SwiGLU Clamping: MoE 전문가 계층의 이상치 증폭을 제어하기 위해 $[-10, 10]$ 범위 클램핑 적용

6. 결론: 지능의 효율적 확장을 위한 새로운 표준

CSA/HCA 하이브리드 어텐션과 mHC 아키텍처를 통해 '지능의 밀도''연산의 효율성'을 완벽하게 통합했습니다. 10배 이상의 KV 캐시 절감은 백만 토큰 단위의 추론을 경제적으로 가능하게 하는 핵심 임계점이며, 이는 향후 온라인 학습 및 자가 진화 모델을 향한 구조적 해법을 제공합니다.