RLLM - 统一后训练框架
notes/research/2026-03-24-0737-rllm.md
Port 8777
---
title: "RLLM - Unified Post-Training via On-Policy-Trained Language Model as a Reward Model"
category: "research/ai-ml"
source_type: "web"
source_url: "https://facebookresearch.github.io/RAM/blogs/rllm/"
created_by: "小美虾"
created_at: "2026-03-24T07:37:00+08:00"
status: "raw"
tags: ["RLHF", "RLAIF", "reward-model", "post-training", "Meta-AI", "reinforcement-learning"]
---
# RLLM - 统一后训练框架
## 📌 核心贡献
**RLLM** (Reinforcement Learning with an LM as Reward Model) 是一个统一的强化学习框架,使策略模型能够在以下任务中表现出色:
- ✅ 易验证任务 (easy-to-verify)
- ✅ 难验证任务 (hard-to-verify)
- ✅ 不可验证任务 (non-verifiable)
## 🎯 方法概述
RLLM 的核心思想:**用 LLM 本身作为奖励模型 (LM-as-RM)**
1. **训练 LM-as-RM**:使用 on-policy 合成判断数据,通过 RL 训练
2. **生成式奖励**:用训练好的 LM-as-RM 生成奖励信号来优化策略模型本身
### LM-as-RM 的两大优势
1. **推理能力** - 产生更高质量的奖励信号
2. **指令遵循能力** - 允许灵活的奖励设计
## 🔬 为什么重要?
### 现有方法的局限
| 方法 | 问题 |
|------|------|
| **RLHF** (人类反馈) | 标量奖励模型不生成 CoT,易受 reward hacking 影响,复杂推理任务效果差 |
| **RLVR** (可验证奖励) | 依赖规则验证器,需要标准答案,仅适用于易验证的数学/代码问题 |
### RLLM 的优势
- ✅ 单一统一的后训练方案
- ✅ 适用于各种任务类型
- ✅ **On-policy 训练**的 LM-as-RM 优于 prompted LLM (包括更大的 GPT-OSS-120B) 和 off-policy 训练
## 📐 技术细节
### RL 目标函数
$$\max_{\pi_{\theta}} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi(\cdot|x)} [ r_{\text{LM}}(x, y) ] - \beta \mathbb{D}_{\text{KL}}(\pi_{\theta} || \pi_{\text{ref}})$$
其中:
- $r_{\text{LM}}(x, y)$ = LM-as-RM
- $\pi_{\theta}$ = 当前策略
- $\pi_{\text{ref}}$ = 参考模型
- $\beta$ = KL 惩罚 (控制漂移)
### RLLM 的双重 RL 训练
1. **训练 LM-as-RM** - 尽可能 on-policy (针对策略模型的采样响应)
2. **训练策略模型** - 使用该 LM 作为奖励
### 与现有方法对比
```
RLHF → 标量奖励模型 (人类偏好数据)
RLVR → 规则验证器 (需要标准答案)
RLLM → "思考"的 LLM 生成奖励 (可推理、比较、使用上下文)
```
RLLM 属于 RLAIF (Reinforcement Learning from AI Feedback) 范畴,但专注于特定设置:
- 不使用标量奖励模型
- 不使用硬性验证器
- 使用能推理的 LLM 生成奖励,且该 LLM 本身通过 on-policy RL 训练
## 💡 关键发现
- **On-policy 训练至关重要** - 针对策略模型响应的 on-policy 训练效果最好
- **隐式规则内化** - LM-as-RM 通过推理隐式内化和灵活应用评估规则,无需显式评分规则
- **灵活判断** - 可以推理响应、比较替代方案、使用上下文或参考、产生结构化判断
## 🔗 相关链接
- [RAM Framework](https://facebookresearch.github.io/RAM/) - Meta AI 的 Reasoning, Alignment, and Memory 研究框架
- [J1 Recipe](https://arxiv.org/abs/2505.10320) - LM-as-RM 训练参考方案
---
*笔记由小美虾自动整理 🦐*