MetaClaw
notes/research/github/2026-03-20-0835-metaclaw.md
Port 8777
---
title: "MetaClaw - 持续元学习的自主进化 Agent"
category: "research"
source_type: "github"
created_by: "小美虾"
status: "new"
tags: ["meta-learning", "agent", "self-evolution", "rl", "openclaw", "autonomous-evolution"]
---
# MetaClaw
**来源**: https://github.com/aiming-lab/MetaClaw
**核心理念**: 在真实场景中元学习并持续进化的 Agent。只需像平时一样与 Agent 对话,MetaClaw 将每一次实时对话转化为学习信号,让 Agent 在真实部署中持续进化,而非仅依赖离线训练。
**发布时间**: 2026-03-09 正式发布
---
## 核心架构
MetaClaw 将模型封装为 OpenAI 兼容代理,通过 OpenClaw、NanoClaw、NemoClaw 等支持的 Agent 拦截实时对话:
1. **每轮对话注入相关 Skill**
2. **从积累的交互经验中元学习**
3. **每次会话结束后自动总结新 Skill**
4. **开启 RL 后,权重更新推迟到空闲窗口**
**无需 GPU 集群** - 兼容任意 OpenAI 格式的 LLM API,通过 Tinker 兼容后端进行云端 LoRA 微调。
---
## 三种运行模式
| 模式 | 功能说明 | 适用场景 |
|------|----------|----------|
| **skills_only** | 代理你的 LLM API,注入 Skill,会话结束后自动总结 | 最轻量,无需 GPU/Tinker |
| **rl** | Skills + RL 训练(GRPO),batch 满后立即训练 | 需要实时 RL 微调 |
| **madmax** ✅ | Skills + RL + 智能调度器 | 默认模式,RL 权重更新只在睡眠/空闲/会议窗口进行 |
### MadMax 模式特点
- 推理服务、奖励建模与训练完全解耦
- Agent 持续响应的同时,打分与优化在后台并行进行
- 三种条件触发更新窗口(满足任一即可):
- 睡眠时间:可配置的起止时间(如 23:00 到 07:00)
- 键盘空闲:空闲 N 分钟后触发
- Google Calendar 事件:检测到会议时运行更新
---
## 安装配置
### 安装选项
```bash
pip install -e . # skills_only 模式(轻量)
pip install -e ".[rl]" # + RL 训练支持
pip install -e ".[evolve]" # + 通过 OpenAI 兼容 LLM 进行 Skill 进化
pip install -e ".[scheduler]" # + Google Calendar 调度器集成
pip install -e ".[rl,evolve,scheduler]" # 推荐:完整 RL + 调度器配置
```
### 快速开始
```bash
metaclaw setup # 首次交互式配置向导
metaclaw start # 启动 MetaClaw(默认 madmax 模式)
```
### CLI 命令
```bash
metaclaw setup # 首次交互式配置向导
metaclaw start # 启动 MetaClaw(默认 madmax 模式)
metaclaw start --daemon # 在后台启动 MetaClaw
metaclaw start --mode rl # 强制启用 RL 模式(无调度器)
metaclaw start --mode skills_only # 强制仅 Skills 模式
metaclaw stop # 停止正在运行的 MetaClaw 实例
metaclaw status # 查看代理健康状态、运行模式与调度器状态
metaclaw config show # 查看当前配置
metaclaw config KEY VALUE # 设置配置项
```
---
## RL 后端支持
MetaClaw 的 RL 路径可以显式切换 **Tinker** 和 **MinT**:
### Tinker(默认)
```bash
metaclaw config rl.backend tinker
metaclaw config rl.api_key sk-...
metaclaw config rl.model moonshotai/Kimi-K2.5
```
### MinT
```bash
metaclaw config rl.backend mint
metaclaw config rl.api_key sk-mint-...
metaclaw config rl.base_url https://mint.macaron.xin/
metaclaw config rl.model Qwen/Qwen3-4B-Instruct-2507
```
---
## 核心配置项
```yaml
mode: madmax # "madmax" | "rl" | "skills_only"
llm:
provider: kimi # kimi | qwen | openai | minimax | custom
model_id: moonshotai/Kimi-K2.5
api_base: https://api.moonshot.cn/v1
api_key: sk-...
skills:
enabled: true
dir: ~/.metaclaw/skills
retrieval_mode: template # template | embedding
top_k: 6
auto_evolve: true # 每次会话结束后自动总结 Skill
rl:
enabled: false
backend: auto # "auto" | "tinker" | "mint"
model: moonshotai/Kimi-K2.5
lora_rank: 32
batch_size: 4
scheduler:
enabled: false # madmax 模式自动启用
sleep_start: "23:00"
sleep_end: "07:00"
idle_threshold_minutes: 30
```
---
## OPD(在线策略蒸馏)
OPD 是 RL 模式的可选附加功能,将更大的教师模型在线蒸馏到学生模型:
```bash
metaclaw config opd.enabled true
metaclaw config opd.teacher_url http://localhost:8082/v1
metaclaw config opd.teacher_model Qwen/Qwen3-32B
metaclaw config opd.kl_penalty_coef 1.0
```
教师模型需部署在 OpenAI 兼容的 /v1/completions 端点(如 vLLM、SGLang)。
---
## 版本历史
- **[2026/03/16] v0.3.2**: 多 Claw 支持(IronClaw、PicoClaw、ZeroClaw、CoPaw、NanoClaw、NemoClaw),新增 OpenRouter 支持
- **[2026/03/13] v0.3.1**: MinT 后端支持
- **[2026/03/13] v0.3**: 持续元学习支持,慢速 RL 更新仅在睡眠时间/空闲期间/会议期间运行
- **[2026/03/11] v0.2**: 通过 metaclaw CLI 一键部署,Skill 默认开启,RL 现为可选
- **[2026/03/09]**: 正式发布
---
## 与 OpenClaw 的关系
MetaClaw 是基于 OpenClaw 构建的元学习层:
- MetaClaw 启动代理后,自动配置 OpenClaw 并重启网关
- 通过 OpenClaw 拦截实时对话
- Skill 库存放在 `~/.metaclaw/skills/` 中
---
## 相关链接
- GitHub: https://github.com/aiming-lab/MetaClaw
- 中文文档: https://github.com/aiming-lab/MetaClaw/blob/main/assets/README_ZH.md
---
**记录时间**: 2026-03-20 08:35
**记录者**: 小美虾 🦐