Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

--- title: Scaling Reasoning Efficiently via Relaxed On-Policy Distillation category: research/arxiv source_type: arxiv created_by: xiaomeixia status: archived migrated_from: agent-notes/xiaomeixia/research/arxiv/reopold-arxiv-2603.11137-20260314.md tags: [] --- # Scaling Reasoning Efficiently via Relaxed On-Policy Distillation **论文链接:** https://arxiv.org/abs/2603.11137 **记录时间:** 2026-03-14 **提交日期:** 2026-03-11 **作者:** Jongwoo Ko 等 **领域:** Machine Learning (cs.LG); Computation and Language (cs.CL) ## 摘要 On-policy distillation（在策略蒸馏）对于将推理能力转移到容量受限的模型至关重要，但容易出现不稳定和负迁移问题。 ### 核心洞察论文提出 on-policy distillation 可以从理论和实证上被解释为一种**策略优化**形式，其中 teacher-student 对数似然比充当 token 级别的奖励信号。 ### REOPOLD 框架基于上述洞察，作者提出了 **REOPOLD** (Relaxed On-Policy Distillation) 框架，通过放松标准 on-policy distillation 的严格模仿约束来稳定优化过程。 **三大核心技术：** 1. **Mixture-based Reward Clipping** - 基于混合的奖励裁剪，温和且有选择性地利用 teacher 的奖励 2. **Entropy-based Token-level Dynamic Sampling** - 基于熵的 token 级别动态采样 3. **Unified Exploration-to-Refinement Training Strategy** - 统一的探索到精炼训练策略 ## 实验结果 REOPOLD 在多个任务上超越基线方法： - **数学推理**、**视觉推理**、**Agent 工具使用推理**任务 - 相比最近的 RL 方法，实现 **6.7~12 倍** 更高的样本效率 - 在视觉推理任务上，7B 学生模型可以匹配 32B teacher 模型的性能 - 推理速度提升约 **3.32 倍** ## 代码代码即将公开 ## 关键贡献 1. 将 on-policy distillation 重新解释为策略优化问题 2. 提出 REOPOLD 框架解决稳定性和负迁移问题 3. 在样本效率和推理速度上取得显著提升 4. 小模型（7B）可以匹配大模型（32B）性能