大模型训练框架版本调研

notes/research/training-framework-versions-2026-03-19.md

Port 8777
path
notes/research/training-framework-versions-2026-03-19.md
# 大模型训练框架版本调研 **调研时间**: 2026-03-19 08:32 (Asia/Shanghai) **调研对象**: ms-swift、SlimeRL (THUDM/slime)、LLaMA-Factory --- ## 📊 最新版本总览 | 框架 | PyPI 版本 | GitHub Release | 发布日期 | 开发组织 | |------|-----------|----------------|----------|----------| | **ms-swift** | `4.0.2` | `v4.0.2` | 2026-03-14 | ModelScope (阿里) | | **SlimeRL** | N/A | `v0.2.3` | 2026-03-12 | THUDM (清华) | | **LLaMA-Factory** | `0.9.4` | - | - | hiyouga | --- ## 🍎 ms-swift v4.0.2 ### 项目信息 - **GitHub**: https://github.com/modelscope/ms-swift - **PyPI**: https://pypi.org/project/ms-swift/ - **文档**: https://swift.readthedocs.io/ - **组织**: ModelScope Community (阿里巴巴) - **论文**: https://arxiv.org/abs/2408.05517 ### v4.0.2 更新 (2026-03-14) #### 架构优化 - 目录结构重构与依赖关系优化,模块化设计 - model_type 与 template 解耦,简化多 template 模型支持 - Megatron-SWIFT 训练循环重写,使用 `megatron-core` 替代 `megatron-lm` (兼容 Ascend NPU) #### Megatron-SWIFT 新特性 - **新模型支持**: Qwen3.5 系列、GLM4.7-Flash、MiniMax-M2.1、OLMoE - **Embedding 任务支持** - **Reranker 任务支持** - 新增 `save_total_limit` 参数,自动清理过期 checkpoint - Qwen3-Next/Qwen3.5 新增 `apply_wd_to_qk_layernorm` 参数 #### RL 算法更新 - 支持 **GDPO 算法**计算优势 (`--scale_rewards gdpo`) - GKD 支持使用 top-k logits 计算 KL 节约显存 (`--gkd_topk_logits`) - GKD 支持使用 teacher server,避免显式加载教师模型 #### 训练优化 - 新增 **muon clip 优化器**支持 - 依赖更新:兼容 Python 3.12、transformers 5.2.0、vllm 0.15.1、trl 0.28、liger-kernel 0.7.0 - generative reranker lm_head 计算优化,降低显存占用 - FSDP2 支持激活 CPU offload;DeepSpeed elastic 支持 ### 支持的模型 #### 纯文本模型 - Qwen/Qwen3-Coder-Next - ZhipuAI/GLM-4.7-Flash, ZhipuAI/GLM-5 - MiniMaxAI/MiniMax-M2.1 - Tencent-YouTu-Research/Youtu-LLM-2B - IQuestLab/IQuest-Coder-V1-40B-Instruct - allenai/OLMoE-1B-7B-0924-Instruct 系列 #### 多模态模型 - Qwen/Qwen3.5-35B-A3B, Qwen/Qwen3.5-9B 系列 - Qwen3-VL-Embedding, Qwen3-VL-Reranker - deepseek-ai/DeepSeek-OCR-2 - ZhipuAI/GLM-OCR - PaddlePaddle/PaddleOCR-VL-1.5 - OpenBMB/MiniCPM-o-4_5 - stepfun-ai/Step3-VL-10B - google/medgemma-4b-it 系列 ### 核心特性 - **600+ 文本大模型** + **400+ 多模态大模型**支持 - **Day-0 支持**热门模型 - **150+ 内置数据集** - **硬件支持**: A10/A100/H100、RTX 系列、T4/V100、CPU、MPS、Ascend NPU - **轻量级微调**: LoRA、QLoRA、DoRA、LoRA+、LLaMAPro、LongLoRA、LoRA-GA、ReFT、RS-LoRA、Adapter、LISA - **量化训练**: BNB、AWQ、GPTQ、AQLM、HQQ、EETQ (7B 模型仅需 9GB) - **Megatron 并行**: TP、PP、CP、EP - **RL 算法**: GRPO、DAPO、GSPO、SAPO、CISPO、RLOO、Reinforce++ - **偏好学习**: DPO、KTO、RM、CPO、SimPO、ORPO - **推理加速**: vLLM、SGLang、LMDeploy ### 安装 ```bash pip install ms-swift==4.0.2 ``` --- ## 🧪 SlimeRL (THUDM/slime) v0.2.3 ### 项目信息 - **GitHub**: https://github.com/THUDM/slime - **主页**: https://thudm.github.io/slime - **组织**: THUDM (清华大学知识工程实验室) - **定位**: LLM post-training framework for RL Scaling ### v0.2.3 更新 (2026-03-12) #### 主要更新 1. **YAML -based sglang_config 支持** - 更灵活的 rollout 设置 - 支持 PD disaggregation 的不同并行策略 - 支持 EPD 风格部署 - 支持在单个 rollout 设置中服务多个异构模型 2. **扩展模型支持** - GLM5 - GLM-4.7-Flash - Qwen3.5 3. **依赖和运行时更新** - SGLang v0.5.9 Docker 支持 - PD、NSA、HiCache、CP+PP 等多项修复 #### 其他重要变更 - 添加多轮 rollout 的一致性哈希路由 - **移除 FSDP 支持** (专注于积极投资的训练和 rollout 路径) #### Bug 修复 - 修复 sglang 回归问题 - 修复 compute logprobs 内存泄漏 - 修复 NSA + HiCache 问题 - 修复 Qwen3VL dense 模型转换问题 - 支持非对称 int4 QAT - 支持无校准数据集的 torch_dist 转 hf ### 核心特性 - **RL Scaling 专用**: 专注于强化学习后训练 - **SGLang 集成**: 原生支持 SGLang 引擎 - **PD 分离**: Prefill-Decode 分离部署优化 - **多模型支持**: 异构模型同时服务 - **一致性哈希**: 多轮对话路由优化 ### 安装 ```bash # 从 GitHub 安装 git clone https://github.com/THUDM/slime.git cd slime pip install -e . ``` --- ## 🦙 LLaMA-Factory v0.9.4 ### 项目信息 - **GitHub**: https://github.com/hiyouga/LLaMA-Factory - **PyPI**: https://pypi.org/project/llamafactory/ - **文档**: https://llamafactory.net/ - **开发者**: @hiyouga - **Stars**: 45K+ ### 近期更新 (v0.9.x) #### 新模型支持 - **InternVL2.5/InternVL3** 多模态模型 - **Qwen2.5-Omni** 多模态模型 - **Llama 4** 和 **Gemma 3** 多模态模型 - **GLM-4-0414** 和 **GLM-Z1** - **Kimi-VL** 多模态模型 - **Qwen3** 系列 - **MiMo** 和 **MiMo-VL** - **SmolLM/SmolLM2** - **MiniCPM4** - **Mistral-Small-3.1** #### 新特性 - **SGLang 推理**支持 - **官方 GPU Docker 镜像** (hiyouga/llamafactory) - **视频/音频推理**支持 (vLLM) - **S3/GCS 云数据**支持 - **vLLM-Ascend** 支持 - **OmegaConf** 配置支持 - **早停 (early-stopping)** 支持 - **thinking 参数**支持推理模型 - **Muon 优化器**支持 - **BLEU/ROUGE 评估**脚本 #### 云平台支持 - **Colab** (免费): https://colab.research.google.com/drive/1eRTPn37ltBbYsISy9Aw2NuI2Aq5CQrD9 - **PAI-DSW** (免费试用): https://gallery.pai-ml.com/#/preview/deepLearning/nlp/llama_factory - **LLaMA Factory Online**: https://www.llamafactory.com.cn/ - **Alaya NeW** (云 GPU) ### 核心特性 - **100+ 大模型**支持 - **零代码 CLI** 和 **Web UI** (LLaMA-Board) - **全栈微调**: 预训练、SFT、RLHF、DPO、PPO - **量化支持**: GPTQ、AWQ、BitsAndBytes - **推理后端**: vLLM、SGLang、LMDeploy - **多 GPU 分布式训练** - **多模态支持**: 图像、视频、音频 ### 安装 ```bash pip install llamafactory==0.9.4 ``` --- ## 🆚 框架对比 | 维度 | ms-swift | SlimeRL | LLaMA-Factory | |------|----------|---------|---------------| | **最新版本** | v4.0.2 | v0.2.3 | v0.9.4 | | **开发组织** | ModelScope (阿里) | THUDM (清华) | @hiyouga (个人) | | **定位** | 全栈训练 + 部署 | RL 后训练专用 | 零代码微调 | | **模型数量** | 1000+ | 较少 | 100+ | | **多模态** | ✅ 400+ 模型 | ⚠️ 有限 | ✅ 支持 | | **RL 算法** | ✅ GRPO/DAPO/GSPO 等 | ✅ 专注 RL Scaling | ✅ PPO/DPO | | **Megatron** | ✅ 完整支持 | ⚠️ 有限 | ❌ | | **SGLang** | ✅ | ✅ 原生 | ✅ | | **vLLM** | ✅ | ❌ | ✅ | | **Web UI** | ❌ | ❌ | ✅ LLaMA-Board | | **Docker** | ✅ | ✅ | ✅ 官方镜像 | | **国产硬件** | ✅ Ascend NPU | ❌ | ✅ Ascend NPU | | **文档** | 中英双语 | 英文为主 | 中英双语 | --- ## 💡 选择建议 ### 选择 ms-swift 如果: - ✅ 需要支持大量模型 (1000+) - ✅ 使用 Megatron 大规模训练 - ✅ 需要完整的 RL 算法家族 (GRPO/DAPO/GSPO 等) - ✅ 在 Ascend NPU 上部署 - ✅ 企业级全栈需求 (训练 + 推理 + 部署 + 量化) ### 选择 SlimeRL 如果: - ✅ 专注 RL 后训练和 Scaling - ✅ 使用 SGLang 作为推理引擎 - ✅ 需要 PD 分离部署优化 - ✅ 研究导向,需要最新 RL 技术 - ✅ 清华系模型 (GLM 系列) 深度优化 ### 选择 LLaMA-Factory 如果: - ✅ 需要零代码 Web UI - ✅ 快速原型和实验 - ✅ 个人开发者或小团队 - ✅ 需要丰富的云平台集成 - ✅ 社区活跃,问题响应快 --- ## 🔗 相关链接 ### ms-swift - GitHub: https://github.com/modelscope/ms-swift - PyPI: https://pypi.org/project/ms-swift/ - 文档: https://swift.readthedocs.io/ - Discord: https://discord.com/invite/D27yfEFVz5 ### SlimeRL - GitHub: https://github.com/THUDM/slime - 主页: https://thudm.github.io/slime ### LLaMA-Factory - GitHub: https://github.com/hiyouga/LLaMA-Factory - PyPI: https://pypi.org/project/llamafactory/ - 文档: https://llamafactory.net/ - Discord: https://discord.gg/rKfvV9r9FK - Twitter: https://twitter.com/llamafactory_ai --- *调研完成时间:2026-03-19 08:35 (Asia/Shanghai)*