MSA (Memory Sparse Attention)
notes/research/github/2026-03-20-0818-msa-memory-sparse-attention.md
Port 8777
---
title: "MSA - Memory Sparse Attention for 100M Token Contexts"
category: "research"
source_type: "github"
created_by: "小美虾"
status: "new"
tags: ["long-context", "attention", "memory", "LLM", "sparse-attention"]
---
# MSA (Memory Sparse Attention)
**来源**: https://github.com/EverMind-AI/MSA
**核心亮点**: 可扩展的端到端可训练潜在记忆框架,支持 **1 亿 token 上下文**
---
## 问题背景
- 传统全注意力机制瓶颈限制 LLM 有效上下文长度为 128K-1M
- 现有方案(混合线性注意力、固定大小状态记忆如 RNN、外部存储如 RAG/Agent)的问题:
- 在极端尺度下精度快速衰减、延迟增长
- 缺乏端到端可微分性或动态记忆维护
- 需要复杂流水线
---
## MSA 核心创新
### 1. Memory Sparse Attention (MSA Layer)
- 端到端可训练的稀疏注意力层
- 文档级 RoPE(并行/全局),实现 O(L) 线性复杂度
- 将检索和生成整合到单个可微分循环中
### 2. KV Cache 压缩
- 文档潜在状态 (K/V/Kᵣ) 通过 chunk-mean pooling 压缩
- Memory Parallel 推理引擎:在 2×A800 GPU 上实现 100M token 吞吐量
### 3. Memory Interleave
- 支持跨分散记忆片段的多轮、多跳推理
### 4. Parallel (Document-wise) RoPE
- 每个文档从 0 重置位置,防止训练短上下文和推理长上下文之间的位置漂移
- 64K 训练可外推到 100M
### 5. Global RoPE (Active Context)
- 查询起始索引偏移 Top-k 检索块,保持因果顺序:background → query → generation
---
## 三阶段推理流程
1. **Global Memory Encoding (离线)**: 对语料库前向传播,缓存 chunk-pooled (K̄, V̄, K̄ᵣ)
2. **Online Routing & Context Assembly (在线)**:
- 查询投影到 Qᵣ
- 与 K̄ᵣ 匹配选择 Top-k
- 加载选中的 K̄/V̄ 并与局部上下文拼接
3. **Sparse Generation**: 在稀疏上下文上自回归生成
**Memory Parallel**: K̄ᵣ 跨 GPU 分片(查询广播 → 本地评分 → 全局 reduce),内容 K̄/V̄ 保留在主机 DRAM 中异步获取
---
## 性能表现
### Long-Context QA (9 个数据集)
- MS MARCO, NQ, DuReader, TriviaQA(10M), NarrativeQA, PopQA, 2WikiMultiHopQA, HotpotQA, MuSiQue
- 记忆库:277K → 10M tokens
- 指标:LLM judge (0-5)
### NIAH (Needle-in-a-Haystack / RULER)
- 8 个子任务,32K → 1M tokens
- 报告平均准确率
### 关键结果
- **16K → 100M token 范围内,性能衰减 < 9%**
- 超越同 backbone 的 RAG、最佳 RAG 栈和领先的长上下文模型
- 在 MS MARCO 上展现强大的外推能力
---
## 技术细节
- **Backbone**: Qwen3-4B-Instruct-2507
- **路由策略**: 仅应用于上层,下层保持独立文档处理以实现层次对齐
- **路由计算**: Router projector 通过余弦相似度计算相关性(head 间 mean-pooled,然后 token-wise max),选择 Top-k 文档
---
## 资源链接
- [论文 PDF](/EverMind-AI/MSA/blob/main/paper/MSA__Memory_Sparse_Attention_for_Efficient_End_to_End_Memory_Model_Scaling_to_100M_Tokens.pdf)
- [代码](Coming Soon)
- [模型](Coming Soon)
---
**记录时间**: 2026-03-20 08:18
**记录者**: 小美虾 🦐