SGLang vs vLLM 版本调研

notes/research/sglang-vllm-versions-2026-03-19.md

Port 8777
path
notes/research/sglang-vllm-versions-2026-03-19.md
# SGLang vs vLLM 版本调研 **调研时间**: 2026-03-19 08:07 (Asia/Shanghai) **调研对象**: PyPI + GitHub Releases --- ## 📊 最新版本对比 | 项目 | PyPI 最新版本 | 发布日期 | GitHub Stars | |------|--------------|----------|--------------| | **SGLang** | `0.5.9` | 2026-03 | ~35K | | **vLLM** | `0.17.1` | 2026-03-11 | ~45K | --- ## 🔥 SGLang 0.5.9 ### 项目信息 - **GitHub**: https://github.com/sgl-project/sglang - **PyPI**: https://pypi.org/project/sglang/ - **文档**: https://docs.sglang.io/ - **组织**: LMSYS Org (UC Berkeley) ### 近期动态 (2025-2026) | 时间 | 更新内容 | |------|----------| | **2026-01** | SGLang Diffusion 加速视频和图像生成 | | **2025-12** | Day-0 支持最新模型:MiMo-V2-Flash、Nemotron 3 Nano、Mistral Large 3、LLaDA 2.0、MiniMax M2 | | **2025-10** | 原生支持 TPU (SGLang-Jax 后端) | | **2025-09** | GB200 NVL72 部署 DeepSeek:Prefill 3.8x、Decode 4.8x 吞吐量提升 | | **2025-09** | Day-0 支持 DeepSeek-V3 | ### 核心特性 - **原生 Python 编程模型**: 类似 PyTorch 的编程体验 - **RadixAttention**: 高效 KV cache 管理 - **连续批处理**: 动态批处理大小 - **多模态支持**: 图像、视频生成加速 - **TPU 支持**: Jax 后端 - **PD 分离**: Prefill-Decode 分离部署 ### 安装 ```bash pip install sglang==0.5.9 ``` --- ## 🚀 vLLM 0.17.1 ### 项目信息 - **GitHub**: https://github.com/vllm-project/vllm - **PyPI**: https://pypi.org/project/vllm/ - **文档**: https://docs.vllm.ai/ - **组织**: vLLM Team (UC Berkeley Sky Computing Lab) ### v0.17.1 更新 (2026-03-11) **补丁修复**: - 新增模型:Nemotron 3 Super - 修复 TRTLLM fused MoE NVFP4 和 FP8 的 activation_type 传递问题 - 修复/重新支持 non-gated fused moe triton - 重新启用 TRTLLM MoE FP8 后端的 EP - Mamba/Qwen3.5: GPU 上零释放 SSM 缓存块 - 修复 TRTLLM Block FP8 MoE Monolithic - DeepSeek-V3.2/MTP: 优化 Indexer MTP 处理 ### v0.17.0 亮点 (2026-03-07) **699 次提交,272 位贡献者 (48 位新人)** 1. **PyTorch 2.10 升级** - 破坏性变更:环境依赖升级 2. **FlashAttention 4 集成** - 下一代注意力性能 3. **Model Runner V2 成熟** - Pipeline Parallel 支持 - Decode Context Parallel - Eagle3 推测解码 + CUDA 图 - Pooling 模型支持 - Piecewise & Mixed CUDA 图捕获 - DP+EP 推测解码 - 新 ModelState 架构 4. **Qwen3.5 模型家族完整支持** - GDN (Gated Delta Networks) - FP8 量化 - MTP 推测解码 - 推理解析器支持 5. **新 --performance-mode 标志** - `balanced` / `interactivity` / `throughput` - 简化常见部署场景的性能调优 6. **Anthropic API 兼容** - Thinking blocks 支持 - count_tokens API - tool_choice=none ### 已知问题 (v0.17.0) CUDA 12.9+ 用户可能遇到 `CUBLAS_STATUS_INVALID_VALUE` 错误: ```bash # 解决方案 1: 移除系统 CUDA 路径 unset LD_LIBRARY_PATH # 解决方案 2: 使用 uv 安装 uv pip install vllm --torch-backend=auto # 解决方案 3: 指定 CUDA 版本 pip install vllm --extra-index-url https://download.pytorch.org/whl/cu129 ``` ### 安装 ```bash pip install vllm==0.17.1 ``` --- ## 🆚 特性对比 | 特性 | SGLang | vLLM | |------|--------|------| | **最新版本** | 0.5.9 | 0.17.1 | | **开发组织** | LMSYS (UC Berkeley) | vLLM Team (UC Berkeley) | | **核心优势** | Python 编程模型、多模态 | 生产部署、吞吐量 | | **注意力优化** | RadixAttention | PagedAttention + FlashAttention 4 | | **批处理** | 连续批处理 | 连续批处理 | | **TPU 支持** | ✅ (Jax 后端) | ❌ | | **多模态** | ✅ (Diffusion) | ⚠️ (有限) | | **推测解码** | ✅ | ✅ (Eagle3) | | **量化支持** | FP8、INT4 | GPTQ、AWQ、AutoRound、FP8、INT4 | | **PD 分离** | ✅ | ✅ | | **模型支持** | Day-0 支持新模型 | Day-0 支持新模型 | --- ## 📈 选择建议 ### 选择 SGLang 如果: - ✅ 需要灵活的 Python 编程模型 - ✅ 做多模态任务 (图像/视频生成) - ✅ 在 TPU 上部署 - ✅ 快速原型开发和研究 - ✅ 需要 Day-0 支持最新模型 ### 选择 vLLM 如果: - ✅ 生产环境部署 - ✅ 需要最高吞吐量 - ✅ 多 GPU 分布式推理 - ✅ 需要成熟的监控和运维工具 - ✅ 企业级支持和稳定性 --- ## 🔗 相关链接 ### SGLang - GitHub: https://github.com/sgl-project/sglang - PyPI: https://pypi.org/project/sglang/ - 文档: https://docs.sglang.io/ - Roadmap: https://roadmap.sglang.io/ - Slack: https://slack.sglang.io/ ### vLLM - GitHub: https://github.com/vllm-project/vllm - PyPI: https://pypi.org/project/vllm/ - 文档: https://docs.vllm.ai/ - 博客: https://blog.vllm.ai/ - 用户论坛: https://discuss.vllm.ai/ --- *调研完成时间:2026-03-19 08:08 (Asia/Shanghai)*