SGLang vs vLLM 版本调研
notes/research/sglang-vllm-versions-2026-03-19.md
Port 8777
# SGLang vs vLLM 版本调研
**调研时间**: 2026-03-19 08:07 (Asia/Shanghai)
**调研对象**: PyPI + GitHub Releases
---
## 📊 最新版本对比
| 项目 | PyPI 最新版本 | 发布日期 | GitHub Stars |
|------|--------------|----------|--------------|
| **SGLang** | `0.5.9` | 2026-03 | ~35K |
| **vLLM** | `0.17.1` | 2026-03-11 | ~45K |
---
## 🔥 SGLang 0.5.9
### 项目信息
- **GitHub**: https://github.com/sgl-project/sglang
- **PyPI**: https://pypi.org/project/sglang/
- **文档**: https://docs.sglang.io/
- **组织**: LMSYS Org (UC Berkeley)
### 近期动态 (2025-2026)
| 时间 | 更新内容 |
|------|----------|
| **2026-01** | SGLang Diffusion 加速视频和图像生成 |
| **2025-12** | Day-0 支持最新模型:MiMo-V2-Flash、Nemotron 3 Nano、Mistral Large 3、LLaDA 2.0、MiniMax M2 |
| **2025-10** | 原生支持 TPU (SGLang-Jax 后端) |
| **2025-09** | GB200 NVL72 部署 DeepSeek:Prefill 3.8x、Decode 4.8x 吞吐量提升 |
| **2025-09** | Day-0 支持 DeepSeek-V3 |
### 核心特性
- **原生 Python 编程模型**: 类似 PyTorch 的编程体验
- **RadixAttention**: 高效 KV cache 管理
- **连续批处理**: 动态批处理大小
- **多模态支持**: 图像、视频生成加速
- **TPU 支持**: Jax 后端
- **PD 分离**: Prefill-Decode 分离部署
### 安装
```bash
pip install sglang==0.5.9
```
---
## 🚀 vLLM 0.17.1
### 项目信息
- **GitHub**: https://github.com/vllm-project/vllm
- **PyPI**: https://pypi.org/project/vllm/
- **文档**: https://docs.vllm.ai/
- **组织**: vLLM Team (UC Berkeley Sky Computing Lab)
### v0.17.1 更新 (2026-03-11)
**补丁修复**:
- 新增模型:Nemotron 3 Super
- 修复 TRTLLM fused MoE NVFP4 和 FP8 的 activation_type 传递问题
- 修复/重新支持 non-gated fused moe triton
- 重新启用 TRTLLM MoE FP8 后端的 EP
- Mamba/Qwen3.5: GPU 上零释放 SSM 缓存块
- 修复 TRTLLM Block FP8 MoE Monolithic
- DeepSeek-V3.2/MTP: 优化 Indexer MTP 处理
### v0.17.0 亮点 (2026-03-07)
**699 次提交,272 位贡献者 (48 位新人)**
1. **PyTorch 2.10 升级**
- 破坏性变更:环境依赖升级
2. **FlashAttention 4 集成**
- 下一代注意力性能
3. **Model Runner V2 成熟**
- Pipeline Parallel 支持
- Decode Context Parallel
- Eagle3 推测解码 + CUDA 图
- Pooling 模型支持
- Piecewise & Mixed CUDA 图捕获
- DP+EP 推测解码
- 新 ModelState 架构
4. **Qwen3.5 模型家族完整支持**
- GDN (Gated Delta Networks)
- FP8 量化
- MTP 推测解码
- 推理解析器支持
5. **新 --performance-mode 标志**
- `balanced` / `interactivity` / `throughput`
- 简化常见部署场景的性能调优
6. **Anthropic API 兼容**
- Thinking blocks 支持
- count_tokens API
- tool_choice=none
### 已知问题 (v0.17.0)
CUDA 12.9+ 用户可能遇到 `CUBLAS_STATUS_INVALID_VALUE` 错误:
```bash
# 解决方案 1: 移除系统 CUDA 路径
unset LD_LIBRARY_PATH
# 解决方案 2: 使用 uv 安装
uv pip install vllm --torch-backend=auto
# 解决方案 3: 指定 CUDA 版本
pip install vllm --extra-index-url https://download.pytorch.org/whl/cu129
```
### 安装
```bash
pip install vllm==0.17.1
```
---
## 🆚 特性对比
| 特性 | SGLang | vLLM |
|------|--------|------|
| **最新版本** | 0.5.9 | 0.17.1 |
| **开发组织** | LMSYS (UC Berkeley) | vLLM Team (UC Berkeley) |
| **核心优势** | Python 编程模型、多模态 | 生产部署、吞吐量 |
| **注意力优化** | RadixAttention | PagedAttention + FlashAttention 4 |
| **批处理** | 连续批处理 | 连续批处理 |
| **TPU 支持** | ✅ (Jax 后端) | ❌ |
| **多模态** | ✅ (Diffusion) | ⚠️ (有限) |
| **推测解码** | ✅ | ✅ (Eagle3) |
| **量化支持** | FP8、INT4 | GPTQ、AWQ、AutoRound、FP8、INT4 |
| **PD 分离** | ✅ | ✅ |
| **模型支持** | Day-0 支持新模型 | Day-0 支持新模型 |
---
## 📈 选择建议
### 选择 SGLang 如果:
- ✅ 需要灵活的 Python 编程模型
- ✅ 做多模态任务 (图像/视频生成)
- ✅ 在 TPU 上部署
- ✅ 快速原型开发和研究
- ✅ 需要 Day-0 支持最新模型
### 选择 vLLM 如果:
- ✅ 生产环境部署
- ✅ 需要最高吞吐量
- ✅ 多 GPU 分布式推理
- ✅ 需要成熟的监控和运维工具
- ✅ 企业级支持和稳定性
---
## 🔗 相关链接
### SGLang
- GitHub: https://github.com/sgl-project/sglang
- PyPI: https://pypi.org/project/sglang/
- 文档: https://docs.sglang.io/
- Roadmap: https://roadmap.sglang.io/
- Slack: https://slack.sglang.io/
### vLLM
- GitHub: https://github.com/vllm-project/vllm
- PyPI: https://pypi.org/project/vllm/
- 文档: https://docs.vllm.ai/
- 博客: https://blog.vllm.ai/
- 用户论坛: https://discuss.vllm.ai/
---
*调研完成时间:2026-03-19 08:08 (Asia/Shanghai)*