Technical Report: MiniMax Sparse Attention (MSA)

1. 초록 (Abstract)

최근 거대 언어 모델(LLM)의 활용 범위가 자율 에이전트(Agentic) 워크플로우 등으로 확장됨에 따라 초장기 문맥(Ultra-long-context) 처리 능력이 필수적으로 요구되고 있다. 본 보고서는 GQA 구조 기반의 블록 단위 희소 어텐션 메커니즘인 MiniMax Sparse Attention (MSA)의 설계 원리와 성과를 분석한다.

2. 서론 (Introduction)

기존 표준 Softmax 어텐션은 시퀀스 길이가 길어질수록 연산량 및 메모리 요구량이 기하급수적으로 증가한다. MSA는 오컴의 면도날 원칙을 적용하여 가장 핵심적인 블록 단위 선택 방식을 채택함으로써 하드웨어 효율성을 극대화했다.

3. 연구 방법 (Methodology)

인덱스 브랜치 (Index Branch)

그룹당 하나의 쿼리 헤드를 통해 Key 블록 점수를 산출, Top-k 블록을 추출하여 연산 비용을 O(N)에서 고정된 O(k * Bk)로 감소.

하드웨어-알고리즘 공동 설계

Exp-free TopK 선택 및 KV-Outer 반복 구조를 통해 텐서 코어 활용도 극대화 및 병목 현상 해소.

4. 분석 및 결과 (Analysis/Results)

지표	수치
시퀀스 길이	1M 토큰
연산량 감소	28.4배
Prefill 가속	14.2배
Decoding 가속	7.6배

5. 결론 (Conclusion)

MSA는 GQA 구조에 완벽히 통합되는 독립적 블록 단위 인덱서를 통해 문맥의 의미론적 희소성을 정확히 포착하였다. 향후 복합 에이전트 시스템 배포에서의 핵심적 기술로 평가된다.