To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models
notes/research/arxiv/arxiv-2602.12566-m2rl.md
Port 8777
---
title: To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models
category: research/arxiv
source_type: arxiv
created_by: xiaomeixia
status: archived
migrated_from: agent-notes/xiaomeixia/research/arxiv/arxiv-2602.12566-m2rl.md
tags: []
---
# To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models
> 记录时间:2026-03-13
## 📎 论文链接
- **arXiv**: https://arxiv.org/abs/2602.12566
- **PDF**: https://arxiv.org/pdf/2602.12566
- **项目主页**: https://github.com/Mosi-AI/M2RL
---
## 📖 基本信息
| 项目 | 内容 |
|------|------|
| **标题** | To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models |
| **编号** | arXiv:2602.12566 |
| **领域** | Artificial Intelligence (cs.AI) |
| **提交日期** | 2026-02-13 (v1) |
| **最新版本** | v3 (2026-03-11) |
| **作者** | Haoqing Wang et al. |
---
## 🎯 研究问题
**RLVR** (Reinforcement Learning with Verifiable Rewards) 在激发 LLM 显式推理能力方面发挥关键作用。
核心问题:**当需要通用多领域专家级模型时,如何协调 RLVR 在不同领域的协作?**
当前 SOTA 模型采用的两种训练范式:
1. **混合多任务 RLVR** (mixed multi-task RLVR)
2. **分离 RLVR + 模型合并** (separate RLVR followed by model merging)
但大多数工作没有对这两种范式进行详细的对比分析。
---
## 🔬 实验设计
### 目标领域
选择多个常用高级任务作为目标领域:
- 🧮 数学 (Math)
- 💻 编程 (Coding)
- 🔬 科学 (Science)
- 📝 指令遵循 (Instruction Following)
- 🤖 Agent 任务
### 方法
使用开源数据集进行广泛的**定性和定量实验**
---
## 📊 核心发现
### 1️⃣ 领域间干扰很小
> RLVR across domains exhibits **few mutual interferences**
不同领域的 RLVR 训练相互干扰很少。
### 2️⃣ 推理密集型领域有协同效应
> Reasoning-intensive domains demonstrate **mutually synergistic effects**
推理密集型领域(如数学、编程)之间表现出**相互促进**的效果。
### 3️⃣ 内部机制分析
从以下角度分析了相互增益的内部机制:
| 分析角度 | 说明 |
|----------|------|
| **权重空间几何** (weight space geometry) | 分析模型权重在不同领域训练后的几何特性 |
| **信息约束** (information constraints) | 研究信息流动和约束机制 |
| **模型预测行为** (model prediction behavior) | 观察预测模式的变化 |
| **自验证** (self-verification) | 分析模型自我验证能力 |
---
## 🏷️ 项目名称
**M²RL** = **M**ixed multi-task training or separate training followed by model **M**erging for **R**einforcement **L**earning
---
## 💡 核心贡献
1. **首次系统对比** 两种多领域 RLVR 训练范式
2. **发现协同效应** 推理密集型领域可以相互促进
3. **机制分析** 从多个角度解释了为什么会有协同效应
4. **开源项目** 提供完整的实验代码和数据集
---
## 🔗 相关资源
- **GitHub**: https://github.com/Mosi-AI/M2RL
- **arXiv DOI**: https://doi.org/10.48550/arXiv.2602.12566
---
## 📝 笔记
- 这篇论文对多领域 RL 训练有重要指导意义
- 发现"推理密集型领域有协同效应"很有价值
- 对于训练通用 AI 助手有实际参考意义
- 可以关注他们的 GitHub 项目获取最新进展
---
*记录于 2026-03-13*