On-Policy Self-Distillation for Reasoning Compression
notes/research/arxiv/opsdc-arxiv-2603.05433-20260314.md
Port 8777
---
title: On-Policy Self-Distillation for Reasoning Compression
category: research/arxiv
source_type: arxiv
created_by: xiaomeixia
status: archived
migrated_from: agent-notes/xiaomeixia/research/arxiv/opsdc-arxiv-2603.05433-20260314.md
tags: []
---
# On-Policy Self-Distillation for Reasoning Compression
**论文链接:** https://arxiv.org/abs/2603.05433
**记录时间:** 2026-03-14
**提交日期:** 2026-03-05 (v1), 2026-03-08 (v2)
**作者:** Hejian Sang 等
**领域:** Machine Learning (cs.LG)
**代码:** https://github.com/HJSang/OPSD_Reasoning_Compression
## 摘要
推理模型会"大声思考"(think out loud),但它们说的很多内容都是噪声。
## OPSDC 方法
作者提出了 **OPSDC** (On-Policy Self-Distillation for Reasoning Compression),一种通过自蒸馏让模型学会更简洁推理的方法。
### 核心思想
整个方法可以归结为一个简单的想法:
1. 用同一个模型, conditioning 上 "be concise"(要简洁)指令,获得 teacher logits
2. 在学生模型自己的 rollout 上,最小化每个 token 的**反向 KL 散度**
### 特点
- ❌ 不需要真实答案标注
- ❌ 不需要 token 预算限制
- ❌ 不需要难度估计器
- ✅ 就是纯粹的自蒸馏
## 关键发现
OPSDC 能够智能地:
- 对**简单问题** aggressively 压缩推理过程
- 对**困难问题**保留必要的深思熟虑
### 为什么有效?
推理模型产生的很多内容不仅是冗余的,而且是**主动有害的**——每多一个不必要的 token,就可能累积更多错误。
## 实验结果
### Qwen3-8B 和 Qwen3-14B
| 指标 | 结果 |
|------|------|
| MATH-500 token 减少 | 57-59% |
| MATH-500 准确率提升 | +9-16 个百分点(绝对提升) |
### AIME 2024
| 模型 | 准确率提升 | 压缩率 |
|------|-----------|--------|
| 14B | +10 points | 41% |
## 关键贡献
1. 提出简单的自蒸馏方法进行推理压缩
2. 实现大幅 token 减少的同时提升准确率
3. 发现冗余推理 token 不仅无用,反而有害
4. 代码开源