大模型训练框架版本调研
notes/research/training-framework-versions-2026-03-19.md
Port 8777
# 大模型训练框架版本调研
**调研时间**: 2026-03-19 08:32 (Asia/Shanghai)
**调研对象**: ms-swift、SlimeRL (THUDM/slime)、LLaMA-Factory
---
## 📊 最新版本总览
| 框架 | PyPI 版本 | GitHub Release | 发布日期 | 开发组织 |
|------|-----------|----------------|----------|----------|
| **ms-swift** | `4.0.2` | `v4.0.2` | 2026-03-14 | ModelScope (阿里) |
| **SlimeRL** | N/A | `v0.2.3` | 2026-03-12 | THUDM (清华) |
| **LLaMA-Factory** | `0.9.4` | - | - | hiyouga |
---
## 🍎 ms-swift v4.0.2
### 项目信息
- **GitHub**: https://github.com/modelscope/ms-swift
- **PyPI**: https://pypi.org/project/ms-swift/
- **文档**: https://swift.readthedocs.io/
- **组织**: ModelScope Community (阿里巴巴)
- **论文**: https://arxiv.org/abs/2408.05517
### v4.0.2 更新 (2026-03-14)
#### 架构优化
- 目录结构重构与依赖关系优化,模块化设计
- model_type 与 template 解耦,简化多 template 模型支持
- Megatron-SWIFT 训练循环重写,使用 `megatron-core` 替代 `megatron-lm` (兼容 Ascend NPU)
#### Megatron-SWIFT 新特性
- **新模型支持**: Qwen3.5 系列、GLM4.7-Flash、MiniMax-M2.1、OLMoE
- **Embedding 任务支持**
- **Reranker 任务支持**
- 新增 `save_total_limit` 参数,自动清理过期 checkpoint
- Qwen3-Next/Qwen3.5 新增 `apply_wd_to_qk_layernorm` 参数
#### RL 算法更新
- 支持 **GDPO 算法**计算优势 (`--scale_rewards gdpo`)
- GKD 支持使用 top-k logits 计算 KL 节约显存 (`--gkd_topk_logits`)
- GKD 支持使用 teacher server,避免显式加载教师模型
#### 训练优化
- 新增 **muon clip 优化器**支持
- 依赖更新:兼容 Python 3.12、transformers 5.2.0、vllm 0.15.1、trl 0.28、liger-kernel 0.7.0
- generative reranker lm_head 计算优化,降低显存占用
- FSDP2 支持激活 CPU offload;DeepSpeed elastic 支持
### 支持的模型
#### 纯文本模型
- Qwen/Qwen3-Coder-Next
- ZhipuAI/GLM-4.7-Flash, ZhipuAI/GLM-5
- MiniMaxAI/MiniMax-M2.1
- Tencent-YouTu-Research/Youtu-LLM-2B
- IQuestLab/IQuest-Coder-V1-40B-Instruct
- allenai/OLMoE-1B-7B-0924-Instruct 系列
#### 多模态模型
- Qwen/Qwen3.5-35B-A3B, Qwen/Qwen3.5-9B 系列
- Qwen3-VL-Embedding, Qwen3-VL-Reranker
- deepseek-ai/DeepSeek-OCR-2
- ZhipuAI/GLM-OCR
- PaddlePaddle/PaddleOCR-VL-1.5
- OpenBMB/MiniCPM-o-4_5
- stepfun-ai/Step3-VL-10B
- google/medgemma-4b-it 系列
### 核心特性
- **600+ 文本大模型** + **400+ 多模态大模型**支持
- **Day-0 支持**热门模型
- **150+ 内置数据集**
- **硬件支持**: A10/A100/H100、RTX 系列、T4/V100、CPU、MPS、Ascend NPU
- **轻量级微调**: LoRA、QLoRA、DoRA、LoRA+、LLaMAPro、LongLoRA、LoRA-GA、ReFT、RS-LoRA、Adapter、LISA
- **量化训练**: BNB、AWQ、GPTQ、AQLM、HQQ、EETQ (7B 模型仅需 9GB)
- **Megatron 并行**: TP、PP、CP、EP
- **RL 算法**: GRPO、DAPO、GSPO、SAPO、CISPO、RLOO、Reinforce++
- **偏好学习**: DPO、KTO、RM、CPO、SimPO、ORPO
- **推理加速**: vLLM、SGLang、LMDeploy
### 安装
```bash
pip install ms-swift==4.0.2
```
---
## 🧪 SlimeRL (THUDM/slime) v0.2.3
### 项目信息
- **GitHub**: https://github.com/THUDM/slime
- **主页**: https://thudm.github.io/slime
- **组织**: THUDM (清华大学知识工程实验室)
- **定位**: LLM post-training framework for RL Scaling
### v0.2.3 更新 (2026-03-12)
#### 主要更新
1. **YAML -based sglang_config 支持**
- 更灵活的 rollout 设置
- 支持 PD disaggregation 的不同并行策略
- 支持 EPD 风格部署
- 支持在单个 rollout 设置中服务多个异构模型
2. **扩展模型支持**
- GLM5
- GLM-4.7-Flash
- Qwen3.5
3. **依赖和运行时更新**
- SGLang v0.5.9 Docker 支持
- PD、NSA、HiCache、CP+PP 等多项修复
#### 其他重要变更
- 添加多轮 rollout 的一致性哈希路由
- **移除 FSDP 支持** (专注于积极投资的训练和 rollout 路径)
#### Bug 修复
- 修复 sglang 回归问题
- 修复 compute logprobs 内存泄漏
- 修复 NSA + HiCache 问题
- 修复 Qwen3VL dense 模型转换问题
- 支持非对称 int4 QAT
- 支持无校准数据集的 torch_dist 转 hf
### 核心特性
- **RL Scaling 专用**: 专注于强化学习后训练
- **SGLang 集成**: 原生支持 SGLang 引擎
- **PD 分离**: Prefill-Decode 分离部署优化
- **多模型支持**: 异构模型同时服务
- **一致性哈希**: 多轮对话路由优化
### 安装
```bash
# 从 GitHub 安装
git clone https://github.com/THUDM/slime.git
cd slime
pip install -e .
```
---
## 🦙 LLaMA-Factory v0.9.4
### 项目信息
- **GitHub**: https://github.com/hiyouga/LLaMA-Factory
- **PyPI**: https://pypi.org/project/llamafactory/
- **文档**: https://llamafactory.net/
- **开发者**: @hiyouga
- **Stars**: 45K+
### 近期更新 (v0.9.x)
#### 新模型支持
- **InternVL2.5/InternVL3** 多模态模型
- **Qwen2.5-Omni** 多模态模型
- **Llama 4** 和 **Gemma 3** 多模态模型
- **GLM-4-0414** 和 **GLM-Z1**
- **Kimi-VL** 多模态模型
- **Qwen3** 系列
- **MiMo** 和 **MiMo-VL**
- **SmolLM/SmolLM2**
- **MiniCPM4**
- **Mistral-Small-3.1**
#### 新特性
- **SGLang 推理**支持
- **官方 GPU Docker 镜像** (hiyouga/llamafactory)
- **视频/音频推理**支持 (vLLM)
- **S3/GCS 云数据**支持
- **vLLM-Ascend** 支持
- **OmegaConf** 配置支持
- **早停 (early-stopping)** 支持
- **thinking 参数**支持推理模型
- **Muon 优化器**支持
- **BLEU/ROUGE 评估**脚本
#### 云平台支持
- **Colab** (免费): https://colab.research.google.com/drive/1eRTPn37ltBbYsISy9Aw2NuI2Aq5CQrD9
- **PAI-DSW** (免费试用): https://gallery.pai-ml.com/#/preview/deepLearning/nlp/llama_factory
- **LLaMA Factory Online**: https://www.llamafactory.com.cn/
- **Alaya NeW** (云 GPU)
### 核心特性
- **100+ 大模型**支持
- **零代码 CLI** 和 **Web UI** (LLaMA-Board)
- **全栈微调**: 预训练、SFT、RLHF、DPO、PPO
- **量化支持**: GPTQ、AWQ、BitsAndBytes
- **推理后端**: vLLM、SGLang、LMDeploy
- **多 GPU 分布式训练**
- **多模态支持**: 图像、视频、音频
### 安装
```bash
pip install llamafactory==0.9.4
```
---
## 🆚 框架对比
| 维度 | ms-swift | SlimeRL | LLaMA-Factory |
|------|----------|---------|---------------|
| **最新版本** | v4.0.2 | v0.2.3 | v0.9.4 |
| **开发组织** | ModelScope (阿里) | THUDM (清华) | @hiyouga (个人) |
| **定位** | 全栈训练 + 部署 | RL 后训练专用 | 零代码微调 |
| **模型数量** | 1000+ | 较少 | 100+ |
| **多模态** | ✅ 400+ 模型 | ⚠️ 有限 | ✅ 支持 |
| **RL 算法** | ✅ GRPO/DAPO/GSPO 等 | ✅ 专注 RL Scaling | ✅ PPO/DPO |
| **Megatron** | ✅ 完整支持 | ⚠️ 有限 | ❌ |
| **SGLang** | ✅ | ✅ 原生 | ✅ |
| **vLLM** | ✅ | ❌ | ✅ |
| **Web UI** | ❌ | ❌ | ✅ LLaMA-Board |
| **Docker** | ✅ | ✅ | ✅ 官方镜像 |
| **国产硬件** | ✅ Ascend NPU | ❌ | ✅ Ascend NPU |
| **文档** | 中英双语 | 英文为主 | 中英双语 |
---
## 💡 选择建议
### 选择 ms-swift 如果:
- ✅ 需要支持大量模型 (1000+)
- ✅ 使用 Megatron 大规模训练
- ✅ 需要完整的 RL 算法家族 (GRPO/DAPO/GSPO 等)
- ✅ 在 Ascend NPU 上部署
- ✅ 企业级全栈需求 (训练 + 推理 + 部署 + 量化)
### 选择 SlimeRL 如果:
- ✅ 专注 RL 后训练和 Scaling
- ✅ 使用 SGLang 作为推理引擎
- ✅ 需要 PD 分离部署优化
- ✅ 研究导向,需要最新 RL 技术
- ✅ 清华系模型 (GLM 系列) 深度优化
### 选择 LLaMA-Factory 如果:
- ✅ 需要零代码 Web UI
- ✅ 快速原型和实验
- ✅ 个人开发者或小团队
- ✅ 需要丰富的云平台集成
- ✅ 社区活跃,问题响应快
---
## 🔗 相关链接
### ms-swift
- GitHub: https://github.com/modelscope/ms-swift
- PyPI: https://pypi.org/project/ms-swift/
- 文档: https://swift.readthedocs.io/
- Discord: https://discord.com/invite/D27yfEFVz5
### SlimeRL
- GitHub: https://github.com/THUDM/slime
- 主页: https://thudm.github.io/slime
### LLaMA-Factory
- GitHub: https://github.com/hiyouga/LLaMA-Factory
- PyPI: https://pypi.org/project/llamafactory/
- 文档: https://llamafactory.net/
- Discord: https://discord.gg/rKfvV9r9FK
- Twitter: https://twitter.com/llamafactory_ai
---
*调研完成时间:2026-03-19 08:35 (Asia/Shanghai)*