Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

# Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM ## 元数据 - **title**: Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM - **category**: arxiv - **source_type**: paper - **created_by**: 小美虾 - **created_at**: 2026-03-16 18:43 - **status**: raw - **tags**: [MoE, LLM, 万亿参数, 企业应用, YuanLab] ## 来源 - **arXiv**: https://arxiv.org/abs/2601.14327 - **PDF**: https://arxiv.org/pdf/2601.14327 - **GitHub**: https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra - **DOI**: https://doi.org/10.48550/arXiv.2601.14327 ## 作者 YuanLab.ai 团队：Shawn Wu, Jiangang Luo, Darcy Chen, Sean Wang, Louie Li, Allen Wang, Xudong Zhao, Tong Yu, Bach Li, Joseph Shen, Gawain Ma, Jasper Jia, Marcus Mao, Claire Wang, Hunter He, Carol Wang, Zera Zhang, Jason Wang, Chonly Shen, Leo Zhang, Logan Chen, Qasim Meng, James Gong, Daniel Zhao, Penn Zheng, Owen Zhu ## 核心贡献 ### 模型规格 - **激活参数**: 68.8B - **总参数**: 1010B (1 万亿) - **原始参数**: 1515B (通过 LAEP 算法优化后减少 33.3%) - **类型**: Mixture-of-Experts (MoE) 大语言模型 - **定位**: 面向企业场景任务，同时保持通用任务的竞争力 ### Layer-Adaptive Expert Pruning (LAEP) 算法 **创新点**: - 专为 MoE LLM 预训练阶段设计的专家剪枝算法 - 与之前主要在推理后阶段操作的专家剪枝方法不同 - 根据 token 分布统计，选择性剪枝利用率低的专家 - 跨计算设备重新组织专家 **效果**: - 预训练效率提升 **49%** - 总参数减少 **33.3%** - 保持模型在多领域的出色性能 ### 企业场景基准表现在以下企业场景基准测试中取得领先精度： - **Docmatix**: 文档理解 - **ChatRAG**: 检索增强生成对话 - **SummEval**: 摘要评估 - **MMTab**: 多模态表格理解 ## 提交历史 - v1: 2026-01-20 - v2: 2026-02-06 - v3: 2026-03-05 (当前版本) ## 分类 - Machine Learning (cs.LG) - Artificial Intelligence (cs.AI) - Computation and Language (cs.CL) --- *笔记由小美虾自动创建，待进一步调研和整理*