HuggingFace 模型调研报告
notes/research/huggingface-models-2026-03-19.md
Port 8777
# HuggingFace 模型调研报告
**调研时间**: 2026-03-19 07:51 (Asia/Shanghai)
**调研对象**: HuggingFace - 小米/MiMo 系列、MiniMax 系列
---
## 📊 调研结果总览
| 查询模型 | 是否存在 | 最新替代/相关信息 |
|----------|----------|------------------|
| **MiMo-V2-Pro** | ❌ 未找到 | ✅ MiMo-V2-Flash (310B) |
| **小米新模型** | ✅ 有 | MiMo-V2-Flash 系列 |
| **MiniMax-M2.7** | ❌ 未找到 | ✅ MiniMax-M2.5 (229B, 8 天前更新) |
---
## 🏮 小米 MiMo 系列模型
### 官方组织
- **HuggingFace ID**: `XiaomiMiMo`
- **主页**: https://huggingface.co/XiaomiMiMo
- **Slogan**: "Ask Mi Anything!"
### 最新模型:MiMo-V2-Flash
| 参数 | 数值 |
|------|------|
| **总参数量** | 309B (310B) |
| **激活参数** | 15B |
| **上下文长度** | 256K |
| **架构** | MoE (Mixture-of-Experts) |
| **更新时间** | 19 天前 |
| **下载量** | 302K |
| **点赞数** | 656 |
#### 核心技术特点
1. **混合注意力架构**
- 滑动窗口注意力 (SWA) + 全局注意力 (GA) 交替,比例 5:1
- 128-token 激进窗口设计
- KV-cache 存储减少近 6 倍
2. **多 Token 预测 (MTP)**
- 轻量级 MTP 模块 (0.33B 参数/块)
- 推理输出速度提升 3 倍
- 加速 RL 训练 rollout
3. **高效预训练**
- 27T tokens 训练数据
- FP8 混合精度训练
- 原生 32K 序列长度
4. **智能体能力**
- 多教师在线策略蒸馏 (MOPD)
- 大规模智能体 RL 后训练
- SWE-Bench 和复杂推理任务表现优异
#### 性能亮点
| 基准测试 | MiMo-V2 Flash | 对比模型 |
|----------|---------------|----------|
| **AIME 2025** | 94.1 | ≈ Kimi-K2 (94.5) |
| **GPQA-Diamond** | 83.7 | ≈ Kimi-K2 (84.5) |
| **MMLU-Pro** | 84.9 | ≈ Kimi-K2 (84.6) |
| **LiveCodeBench-v6** | 80.6 | < Claude Sonnet 4.5 (64.0) ✅ |
| **SWE-Bench (AgentLess)** | 30.8 | > DeepSeek-V3.2 (9.4) |
#### 可用版本
1. **MiMo-V2-Flash** (后训练版)
- https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
2. **MiMo-V2-Flash-Base** (基座版)
- https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash-Base
- 更新时间:2025 年 12 月 17 日
- 下载量:90K
---
## 🤖 MiniMax 系列模型
### 官方组织
- **HuggingFace ID**: `MiniMaxAI`
- **最新模型**: MiniMax-M2.5
### 最新模型:MiniMax-M2.5
| 参数 | 数值 |
|------|------|
| **参数量** | 229B |
| **更新时间** | 8 天前 |
| **下载量** | 540K |
| **点赞数** | 1.22K |
#### 核心亮点
1. **编码能力 SOTA**
- SWE-Bench Verified: **80.2%**
- Multi-SWE-Bench: **51.3%**
- 支持 10+ 编程语言 (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
- 在 200K+ 真实环境中训练
2. **智能体工具使用**
- BrowseComp: **76.3%** (带上下文管理)
- Wide Search 基准测试行业领先
3. **超高性价比**
- 100 tokens/秒 连续运行 1 小时 = **$1**
- 50 tokens/秒 连续运行 1 小时 = **$0.30**
- 官方宣称:"Intelligence too cheap to meter"
4. **推理速度**
- SWE-Bench Verified 评估比 M2.1 快 37%
- 速度匹配 Claude Opus 4.6
5. **架构师思维**
- 写代码前主动分解和规划项目
- 从软件架构师视角设计功能、结构和 UI
#### 性能对比
| 基准测试 | MiniMax-M2.5 | Claude Opus 4.6 |
|----------|--------------|-----------------|
| **SWE-Bench (Droid)** | 79.7% | 78.9% ✅ |
| **SWE-Bench (OpenCode)** | 76.1% | 75.9% ✅ |
| **VIBE Pro** | ≈ | 相当 |
#### MiniMax 模型家族
| 模型 | 参数量 | 更新时间 | 下载量 | 点赞数 |
|------|--------|----------|--------|--------|
| **MiniMax-M2.5** | 229B | 8 天前 | 540K | 1.22K |
| **MiniMax-M2.1** | 229B | 2 月 13 日 | 52.4K | 1.27K |
| **MiniMax-M2** | 229B | 2025 年 12 月 | 152K | 1.49K |
---
## 🔍 关于查询的模型
### ❌ MiMo-V2-Pro
- **状态**: 未在 HuggingFace 找到
- **可能原因**:
- 尚未公开发布
- 命名不准确(可能是内部版本)
- 可能已更名为 MiMo-V2-Flash 系列
- **建议替代**: **MiMo-V2-Flash** (310B MoE)
### ❌ MiniMax-M2.7
- **状态**: 未在 HuggingFace 找到
- **最新版本**: **MiniMax-M2.5** (2026-03-11 更新,8 天前)
- **版本迭代规律**: M2 → M2.1 → M2.5 → (未来 M2.7?)
- **建议**: 关注 MiniMaxAI 官方账号获取最新发布
---
## 📥 模型链接汇总
### 小米 MiMo
- **MiMo-V2-Flash**: https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
- **MiMo-V2-Flash-Base**: https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash-Base
- **官方组织**: https://huggingface.co/XiaomiMiMo
### MiniMax
- **MiniMax-M2.5**: https://huggingface.co/MiniMaxAI/MiniMax-M2.5
- **MiniMax-M2.1**: https://huggingface.co/MiniMaxAI/MiniMax-M2.1
- **MiniMax-M2**: https://huggingface.co/MiniMaxAI/MiniMax-M2
- **官方组织**: https://huggingface.co/MiniMaxAI
---
## 💡 总结建议
1. **小米模型**: MiMo-V2-Flash 是最新公开版本,310B MoE 架构,长上下文 (256K) 和高效推理是核心优势
2. **MiniMax 模型**: M2.5 是最新版本,编码和智能体能力突出,性价比极高
3. **未找到模型**: MiMo-V2-Pro 和 M2.7 可能尚未公开发布,建议关注官方渠道
4. **替代方案**:
- 需要长上下文 → MiMo-V2-Flash (256K)
- 需要编码/智能体 → MiniMax-M2.5
- 需要性价比 → MiniMax-M2.5 ($1/小时)
---
*调研完成时间:2026-03-19 07:52 (Asia/Shanghai)*