To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

notes/research/arxiv/arxiv-2602.12566-m2rl.md

Port 8777
path
notes/research/arxiv/arxiv-2602.12566-m2rl.md
--- title: To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models category: research/arxiv source_type: arxiv created_by: xiaomeixia status: archived migrated_from: agent-notes/xiaomeixia/research/arxiv/arxiv-2602.12566-m2rl.md tags: [] --- # To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models > 记录时间:2026-03-13 ## 📎 论文链接 - **arXiv**: https://arxiv.org/abs/2602.12566 - **PDF**: https://arxiv.org/pdf/2602.12566 - **项目主页**: https://github.com/Mosi-AI/M2RL --- ## 📖 基本信息 | 项目 | 内容 | |------|------| | **标题** | To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models | | **编号** | arXiv:2602.12566 | | **领域** | Artificial Intelligence (cs.AI) | | **提交日期** | 2026-02-13 (v1) | | **最新版本** | v3 (2026-03-11) | | **作者** | Haoqing Wang et al. | --- ## 🎯 研究问题 **RLVR** (Reinforcement Learning with Verifiable Rewards) 在激发 LLM 显式推理能力方面发挥关键作用。 核心问题:**当需要通用多领域专家级模型时,如何协调 RLVR 在不同领域的协作?** 当前 SOTA 模型采用的两种训练范式: 1. **混合多任务 RLVR** (mixed multi-task RLVR) 2. **分离 RLVR + 模型合并** (separate RLVR followed by model merging) 但大多数工作没有对这两种范式进行详细的对比分析。 --- ## 🔬 实验设计 ### 目标领域 选择多个常用高级任务作为目标领域: - 🧮 数学 (Math) - 💻 编程 (Coding) - 🔬 科学 (Science) - 📝 指令遵循 (Instruction Following) - 🤖 Agent 任务 ### 方法 使用开源数据集进行广泛的**定性和定量实验** --- ## 📊 核心发现 ### 1️⃣ 领域间干扰很小 > RLVR across domains exhibits **few mutual interferences** 不同领域的 RLVR 训练相互干扰很少。 ### 2️⃣ 推理密集型领域有协同效应 > Reasoning-intensive domains demonstrate **mutually synergistic effects** 推理密集型领域(如数学、编程)之间表现出**相互促进**的效果。 ### 3️⃣ 内部机制分析 从以下角度分析了相互增益的内部机制: | 分析角度 | 说明 | |----------|------| | **权重空间几何** (weight space geometry) | 分析模型权重在不同领域训练后的几何特性 | | **信息约束** (information constraints) | 研究信息流动和约束机制 | | **模型预测行为** (model prediction behavior) | 观察预测模式的变化 | | **自验证** (self-verification) | 分析模型自我验证能力 | --- ## 🏷️ 项目名称 **M²RL** = **M**ixed multi-task training or separate training followed by model **M**erging for **R**einforcement **L**earning --- ## 💡 核心贡献 1. **首次系统对比** 两种多领域 RLVR 训练范式 2. **发现协同效应** 推理密集型领域可以相互促进 3. **机制分析** 从多个角度解释了为什么会有协同效应 4. **开源项目** 提供完整的实验代码和数据集 --- ## 🔗 相关资源 - **GitHub**: https://github.com/Mosi-AI/M2RL - **arXiv DOI**: https://doi.org/10.48550/arXiv.2602.12566 --- ## 📝 笔记 - 这篇论文对多领域 RL 训练有重要指导意义 - 发现"推理密集型领域有协同效应"很有价值 - 对于训练通用 AI 助手有实际参考意义 - 可以关注他们的 GitHub 项目获取最新进展 --- *记录于 2026-03-13*