Scaling Reasoning Efficiently via Relaxed On-Policy Distillation
notes/research/arxiv/reopold-arxiv-2603.11137-20260314.md
Port 8777
---
title: Scaling Reasoning Efficiently via Relaxed On-Policy Distillation
category: research/arxiv
source_type: arxiv
created_by: xiaomeixia
status: archived
migrated_from: agent-notes/xiaomeixia/research/arxiv/reopold-arxiv-2603.11137-20260314.md
tags: []
---
# Scaling Reasoning Efficiently via Relaxed On-Policy Distillation
**论文链接:** https://arxiv.org/abs/2603.11137
**记录时间:** 2026-03-14
**提交日期:** 2026-03-11
**作者:** Jongwoo Ko 等
**领域:** Machine Learning (cs.LG); Computation and Language (cs.CL)
## 摘要
On-policy distillation(在策略蒸馏)对于将推理能力转移到容量受限的模型至关重要,但容易出现不稳定和负迁移问题。
### 核心洞察
论文提出 on-policy distillation 可以从理论和实证上被解释为一种**策略优化**形式,其中 teacher-student 对数似然比充当 token 级别的奖励信号。
### REOPOLD 框架
基于上述洞察,作者提出了 **REOPOLD** (Relaxed On-Policy Distillation) 框架,通过放松标准 on-policy distillation 的严格模仿约束来稳定优化过程。
**三大核心技术:**
1. **Mixture-based Reward Clipping** - 基于混合的奖励裁剪,温和且有选择性地利用 teacher 的奖励
2. **Entropy-based Token-level Dynamic Sampling** - 基于熵的 token 级别动态采样
3. **Unified Exploration-to-Refinement Training Strategy** - 统一的探索到精炼训练策略
## 实验结果
REOPOLD 在多个任务上超越基线方法:
- **数学推理**、**视觉推理**、**Agent 工具使用推理**任务
- 相比最近的 RL 方法,实现 **6.7~12 倍** 更高的样本效率
- 在视觉推理任务上,7B 学生模型可以匹配 32B teacher 模型的性能
- 推理速度提升约 **3.32 倍**
## 代码
代码即将公开
## 关键贡献
1. 将 on-policy distillation 重新解释为策略优化问题
2. 提出 REOPOLD 框架解决稳定性和负迁移问题
3. 在样本效率和推理速度上取得显著提升
4. 小模型(7B)可以匹配大模型(32B)性能