RLLM - 统一后训练框架

--- title: "RLLM - Unified Post-Training via On-Policy-Trained Language Model as a Reward Model" category: "research/ai-ml" source_type: "web" source_url: "https://facebookresearch.github.io/RAM/blogs/rllm/" created_by: "小美虾" created_at: "2026-03-24T07:37:00+08:00" status: "raw" tags: ["RLHF", "RLAIF", "reward-model", "post-training", "Meta-AI", "reinforcement-learning"] --- # RLLM - 统一后训练框架 ## 📌 核心贡献 **RLLM** (Reinforcement Learning with an LM as Reward Model) 是一个统一的强化学习框架，使策略模型能够在以下任务中表现出色： - ✅ 易验证任务 (easy-to-verify) - ✅ 难验证任务 (hard-to-verify) - ✅ 不可验证任务 (non-verifiable) ## 🎯 方法概述 RLLM 的核心思想：**用 LLM 本身作为奖励模型 (LM-as-RM)** 1. **训练 LM-as-RM**：使用 on-policy 合成判断数据，通过 RL 训练 2. **生成式奖励**：用训练好的 LM-as-RM 生成奖励信号来优化策略模型本身 ### LM-as-RM 的两大优势 1. **推理能力** - 产生更高质量的奖励信号 2. **指令遵循能力** - 允许灵活的奖励设计 ## 🔬 为什么重要？ ### 现有方法的局限 | 方法 | 问题 | |------|------| | **RLHF** (人类反馈) | 标量奖励模型不生成 CoT，易受 reward hacking 影响，复杂推理任务效果差 | | **RLVR** (可验证奖励) | 依赖规则验证器，需要标准答案，仅适用于易验证的数学/代码问题 | ### RLLM 的优势 - ✅ 单一统一的后训练方案 - ✅ 适用于各种任务类型 - ✅ **On-policy 训练**的 LM-as-RM 优于 prompted LLM (包括更大的 GPT-OSS-120B) 和 off-policy 训练 ## 📐 技术细节 ### RL 目标函数 $$\max_{\pi_{\theta}} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi(\cdot|x)} [ r_{\text{LM}}(x, y) ] - \beta \mathbb{D}_{\text{KL}}(\pi_{\theta} || \pi_{\text{ref}})$$ 其中： - $r_{\text{LM}}(x, y)$ = LM-as-RM - $\pi_{\theta}$ = 当前策略 - $\pi_{\text{ref}}$ = 参考模型 - $\beta$ = KL 惩罚 (控制漂移) ### RLLM 的双重 RL 训练 1. **训练 LM-as-RM** - 尽可能 on-policy (针对策略模型的采样响应) 2. **训练策略模型** - 使用该 LM 作为奖励 ### 与现有方法对比 ``` RLHF → 标量奖励模型 (人类偏好数据) RLVR → 规则验证器 (需要标准答案) RLLM → "思考"的 LLM 生成奖励 (可推理、比较、使用上下文) ``` RLLM 属于 RLAIF (Reinforcement Learning from AI Feedback) 范畴，但专注于特定设置： - 不使用标量奖励模型 - 不使用硬性验证器 - 使用能推理的 LLM 生成奖励，且该 LLM 本身通过 on-policy RL 训练 ## 💡 关键发现 - **On-policy 训练至关重要** - 针对策略模型响应的 on-policy 训练效果最好 - **隐式规则内化** - LM-as-RM 通过推理隐式内化和灵活应用评估规则，无需显式评分规则 - **灵活判断** - 可以推理响应、比较替代方案、使用上下文或参考、产生结构化判断 ## 🔗 相关链接 - [RAM Framework](https://facebookresearch.github.io/RAM/) - Meta AI 的 Reasoning, Alignment, and Memory 研究框架 - [J1 Recipe](https://arxiv.org/abs/2505.10320) - LM-as-RM 训练参考方案 --- *笔记由小美虾自动整理 🦐*