📄 Context Bootstrapped Reinforcement Learning (CBRL)

notes/research/arxiv/2026-03-22-0945-cbrl-arxiv-2603-18953.md

Port 8777
path
notes/research/arxiv/2026-03-22-0945-cbrl-arxiv-2603-18953.md
--- title: "Context Bootstrapped Reinforcement Learning (CBRL) - arXiv 2603.18953" date: 2026-03-22 category: research type: paper_summary source_type: arxiv source_url: https://arxiv.org/abs/2603.18953 created_by: 小美虾 status: summarized tags: [reinforcement-learning, rlvr, in-context-learning, llm, reasoning, cbrl] --- # 📄 Context Bootstrapped Reinforcement Learning (CBRL) **arXiv:** 2603.18953 **日期:** 2026-03-19 **作者:** Saaket Agashe et al. **领域:** Machine Learning (cs.LG) --- ## 🎯 核心问题 **RLVR (Reinforcement Learning from Verifiable Rewards) 的探索效率低下问题:** - 模型在训练时难以生成成功的 rollout,导致学习信号极少 - 在需要新推理模式或领域特定知识的任务中尤为严重 - 当领域在预训练数据中代表性不足时(如领域特定编程语言),问题更突出 --- ## 💡 解决方案:CBRL **Context Bootstrapped Reinforcement Learning** 通过在训练提示中随机 prepend few-shot demonstrations 来增强 RLVR 训练。 ### 核心机制 1. **Few-Shot Example Bank** - 为每个任务构建已解决示例的 bank - 示例来源:专家演示、更强模型的解、手工构造 2. **随机上下文注入** - 每个训练步骤以概率 `pi` 采样 k 个示例并 prepend 到查询 - 策略在增强提示上生成完成,奖励仅基于生成的响应 - 随机性确保策略同时体验独立和 ICL 增强的提示 3. **课程调度 (Curriculum Schedule)** - 注入概率遵循线性退火: ``` pi = p_start + (t-1)/(T-1) * (p_end - p_start) ``` - `p_start`: 初始概率 (通常 0.5-1.0) - `p_end`: 最终概率 (通常 0.0) - 早期高频出现提供指导,后期逐渐减少迫使模型独立 ### 训练流程 ``` Algorithm 1: Context Bootstrapped Reinforcement Learning 1: for t = 1 to T do 2: 抽取 mini-batch {qi} ~ T 3: 设置注入概率 p ← pi 4: for each qi do 5: Ei ← Sample(B, k) 6: bi ← Bernoulli(p) 7: xi ← Compose(bi, Ei, qi) 8: end for 9: Dt ← RolloutBatch(πθ, {xi}) 10: πθ ← PolicyUpdate(πθ, Dt) 11: end for ``` --- ## 📊 实验结果 ### Reasoning Gym 任务 (5 个) | 任务 | 描述 | |------|------| | ARC-1D | 一维 ARC-AGI 挑战,推断数组转换规则 | | Manipulate Matrix | 矩阵操作序列(转置、旋转、翻转等) | | Word Sorting | 字母排序 3-10 个随机词 | | Spell Backward | 单词字符反转 | | Puzzle-24 | 经典"24 点"游戏 | **模型:** Qwen2.5-3B-Instruct, Llama-3.2-3B-Instruct ### 主要结果 1. **所有 10 个 model-environment 组合均有提升** - 准确率提升范围:+1.3% 到 +22.3% 2. **Q 编程语言任务** - Test-pass rate: 27.3% → 43.0% (+15.7%) - Pass@1: 5.0% → 26.3% (+21.3%) 3. **算法无关性** - 与 GRPO 和 RLOO 均兼容 - RLOO 下:Word Sorting 20%→67%, Puzzle-24 23%→66% 4. **学习曲线分析** - CBRL 在训练早期获得更高的平均奖励 - 随着注入概率退火,优势持续存在 - 性能不会在演示移除后崩溃 ### 注入概率消融 - **最佳值:** pi ≈ 0.5 - 过高:淹没策略自身的探索 - 过低:无法提供足够的支撑来跳出奖励平台 --- ## 🔑 关键贡献 1. **提出 CBRL** - 算法无关方法,利用 in-context learning 解决 RLVR 探索效率问题 2. **广泛验证** - 5 个 Reasoning Gym 任务 + Q 编程语言,跨多样任务和领域的一致提升 3. **深入分析** - 学习动态、注入概率调度消融、定性示例 --- ## 💭 思考与启发 ### 为什么有效? 1. **早期引导** - 在策略最弱时提供成功解决方案的示例 2. **逐步独立** - 退火机制迫使模型内化推理模式而非依赖示例 3. **无推理开销** - 训练时增强,推理时无额外计算成本 ### 潜在应用 - 领域特定代码生成(如 Q、SQL、正则表达式) - 复杂推理任务(数学证明、逻辑推理) - 低资源语言的微调 - 需要新推理模式的任何 RLVR 场景 ### 局限性 - 需要构建高质量的 few-shot example bank - 注入概率调度需要调优 - 对示例质量敏感 --- ## 🔗 相关链接 - [PDF](https://arxiv.org/pdf/2603.18953) - [HTML](https://arxiv.org/html/2603.18953v1) - [Reasoning Gym](https://github.com/reasoning-gym/reasoning-gym) - [Q Programming](https://github.com/KxSystems/q) --- _小美虾 🦐 | 2026-03-22 09:45_