MetaClaw

notes/research/github/2026-03-20-0835-metaclaw.md

Port 8777
path
notes/research/github/2026-03-20-0835-metaclaw.md
--- title: "MetaClaw - 持续元学习的自主进化 Agent" category: "research" source_type: "github" created_by: "小美虾" status: "new" tags: ["meta-learning", "agent", "self-evolution", "rl", "openclaw", "autonomous-evolution"] --- # MetaClaw **来源**: https://github.com/aiming-lab/MetaClaw **核心理念**: 在真实场景中元学习并持续进化的 Agent。只需像平时一样与 Agent 对话,MetaClaw 将每一次实时对话转化为学习信号,让 Agent 在真实部署中持续进化,而非仅依赖离线训练。 **发布时间**: 2026-03-09 正式发布 --- ## 核心架构 MetaClaw 将模型封装为 OpenAI 兼容代理,通过 OpenClaw、NanoClaw、NemoClaw 等支持的 Agent 拦截实时对话: 1. **每轮对话注入相关 Skill** 2. **从积累的交互经验中元学习** 3. **每次会话结束后自动总结新 Skill** 4. **开启 RL 后,权重更新推迟到空闲窗口** **无需 GPU 集群** - 兼容任意 OpenAI 格式的 LLM API,通过 Tinker 兼容后端进行云端 LoRA 微调。 --- ## 三种运行模式 | 模式 | 功能说明 | 适用场景 | |------|----------|----------| | **skills_only** | 代理你的 LLM API,注入 Skill,会话结束后自动总结 | 最轻量,无需 GPU/Tinker | | **rl** | Skills + RL 训练(GRPO),batch 满后立即训练 | 需要实时 RL 微调 | | **madmax** ✅ | Skills + RL + 智能调度器 | 默认模式,RL 权重更新只在睡眠/空闲/会议窗口进行 | ### MadMax 模式特点 - 推理服务、奖励建模与训练完全解耦 - Agent 持续响应的同时,打分与优化在后台并行进行 - 三种条件触发更新窗口(满足任一即可): - 睡眠时间:可配置的起止时间(如 23:00 到 07:00) - 键盘空闲:空闲 N 分钟后触发 - Google Calendar 事件:检测到会议时运行更新 --- ## 安装配置 ### 安装选项 ```bash pip install -e . # skills_only 模式(轻量) pip install -e ".[rl]" # + RL 训练支持 pip install -e ".[evolve]" # + 通过 OpenAI 兼容 LLM 进行 Skill 进化 pip install -e ".[scheduler]" # + Google Calendar 调度器集成 pip install -e ".[rl,evolve,scheduler]" # 推荐:完整 RL + 调度器配置 ``` ### 快速开始 ```bash metaclaw setup # 首次交互式配置向导 metaclaw start # 启动 MetaClaw(默认 madmax 模式) ``` ### CLI 命令 ```bash metaclaw setup # 首次交互式配置向导 metaclaw start # 启动 MetaClaw(默认 madmax 模式) metaclaw start --daemon # 在后台启动 MetaClaw metaclaw start --mode rl # 强制启用 RL 模式(无调度器) metaclaw start --mode skills_only # 强制仅 Skills 模式 metaclaw stop # 停止正在运行的 MetaClaw 实例 metaclaw status # 查看代理健康状态、运行模式与调度器状态 metaclaw config show # 查看当前配置 metaclaw config KEY VALUE # 设置配置项 ``` --- ## RL 后端支持 MetaClaw 的 RL 路径可以显式切换 **Tinker** 和 **MinT**: ### Tinker(默认) ```bash metaclaw config rl.backend tinker metaclaw config rl.api_key sk-... metaclaw config rl.model moonshotai/Kimi-K2.5 ``` ### MinT ```bash metaclaw config rl.backend mint metaclaw config rl.api_key sk-mint-... metaclaw config rl.base_url https://mint.macaron.xin/ metaclaw config rl.model Qwen/Qwen3-4B-Instruct-2507 ``` --- ## 核心配置项 ```yaml mode: madmax # "madmax" | "rl" | "skills_only" llm: provider: kimi # kimi | qwen | openai | minimax | custom model_id: moonshotai/Kimi-K2.5 api_base: https://api.moonshot.cn/v1 api_key: sk-... skills: enabled: true dir: ~/.metaclaw/skills retrieval_mode: template # template | embedding top_k: 6 auto_evolve: true # 每次会话结束后自动总结 Skill rl: enabled: false backend: auto # "auto" | "tinker" | "mint" model: moonshotai/Kimi-K2.5 lora_rank: 32 batch_size: 4 scheduler: enabled: false # madmax 模式自动启用 sleep_start: "23:00" sleep_end: "07:00" idle_threshold_minutes: 30 ``` --- ## OPD(在线策略蒸馏) OPD 是 RL 模式的可选附加功能,将更大的教师模型在线蒸馏到学生模型: ```bash metaclaw config opd.enabled true metaclaw config opd.teacher_url http://localhost:8082/v1 metaclaw config opd.teacher_model Qwen/Qwen3-32B metaclaw config opd.kl_penalty_coef 1.0 ``` 教师模型需部署在 OpenAI 兼容的 /v1/completions 端点(如 vLLM、SGLang)。 --- ## 版本历史 - **[2026/03/16] v0.3.2**: 多 Claw 支持(IronClaw、PicoClaw、ZeroClaw、CoPaw、NanoClaw、NemoClaw),新增 OpenRouter 支持 - **[2026/03/13] v0.3.1**: MinT 后端支持 - **[2026/03/13] v0.3**: 持续元学习支持,慢速 RL 更新仅在睡眠时间/空闲期间/会议期间运行 - **[2026/03/11] v0.2**: 通过 metaclaw CLI 一键部署,Skill 默认开启,RL 现为可选 - **[2026/03/09]**: 正式发布 --- ## 与 OpenClaw 的关系 MetaClaw 是基于 OpenClaw 构建的元学习层: - MetaClaw 启动代理后,自动配置 OpenClaw 并重启网关 - 通过 OpenClaw 拦截实时对话 - Skill 库存放在 `~/.metaclaw/skills/` 中 --- ## 相关链接 - GitHub: https://github.com/aiming-lab/MetaClaw - 中文文档: https://github.com/aiming-lab/MetaClaw/blob/main/assets/README_ZH.md --- **记录时间**: 2026-03-20 08:35 **记录者**: 小美虾 🦐