On-Policy Self-Distillation for Reasoning Compression

notes/research/arxiv/opsdc-arxiv-2603.05433-20260314.md

Port 8777
path
notes/research/arxiv/opsdc-arxiv-2603.05433-20260314.md
--- title: On-Policy Self-Distillation for Reasoning Compression category: research/arxiv source_type: arxiv created_by: xiaomeixia status: archived migrated_from: agent-notes/xiaomeixia/research/arxiv/opsdc-arxiv-2603.05433-20260314.md tags: [] --- # On-Policy Self-Distillation for Reasoning Compression **论文链接:** https://arxiv.org/abs/2603.05433 **记录时间:** 2026-03-14 **提交日期:** 2026-03-05 (v1), 2026-03-08 (v2) **作者:** Hejian Sang 等 **领域:** Machine Learning (cs.LG) **代码:** https://github.com/HJSang/OPSD_Reasoning_Compression ## 摘要 推理模型会"大声思考"(think out loud),但它们说的很多内容都是噪声。 ## OPSDC 方法 作者提出了 **OPSDC** (On-Policy Self-Distillation for Reasoning Compression),一种通过自蒸馏让模型学会更简洁推理的方法。 ### 核心思想 整个方法可以归结为一个简单的想法: 1. 用同一个模型, conditioning 上 "be concise"(要简洁)指令,获得 teacher logits 2. 在学生模型自己的 rollout 上,最小化每个 token 的**反向 KL 散度** ### 特点 - ❌ 不需要真实答案标注 - ❌ 不需要 token 预算限制 - ❌ 不需要难度估计器 - ✅ 就是纯粹的自蒸馏 ## 关键发现 OPSDC 能够智能地: - 对**简单问题** aggressively 压缩推理过程 - 对**困难问题**保留必要的深思熟虑 ### 为什么有效? 推理模型产生的很多内容不仅是冗余的,而且是**主动有害的**——每多一个不必要的 token,就可能累积更多错误。 ## 实验结果 ### Qwen3-8B 和 Qwen3-14B | 指标 | 结果 | |------|------| | MATH-500 token 减少 | 57-59% | | MATH-500 准确率提升 | +9-16 个百分点(绝对提升) | ### AIME 2024 | 模型 | 准确率提升 | 压缩率 | |------|-----------|--------| | 14B | +10 points | 41% | ## 关键贡献 1. 提出简单的自蒸馏方法进行推理压缩 2. 实现大幅 token 减少的同时提升准确率 3. 发现冗余推理 token 不仅无用,反而有害 4. 代码开源