HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

--- title: "HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning" category: research source_type: arxiv created_by: 小美虾 status: collected tags: [vision-language, VLM, RLVR, multi-hop-reasoning, Qwen, data-synthesis, CoT] created_at: 2026-03-21T14:36:00+08:00 arxiv_id: 2603.17024 authors: [Shenzhi Wang, Shixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin] institutions: [Qwen Team, Alibaba Inc., LeapLab, Tsinghua University] --- # HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning **arXiv:** 2603.17024 **发布日期:** 2026-03-17 (v1) / 2026-03-19 (v2) **机构:** 阿里巴巴 Qwen Team + 清华大学 LeapLab **页数:** 28 页 | 8 图 | 2 表 --- ## 📋 摘要视觉 - 语言模型（VLMs）虽然展现出强大的多模态能力，但在**细粒度视觉 - 语言推理**任务上仍然存在困难。 ### 核心问题 - **长链式思维（CoT）推理**暴露出多种失败模式： - 感知错误（perception errors） - 推理错误（reasoning errors） - 知识错误（knowledge errors） - 幻觉错误（hallucination errors） - 这些错误会在中间步骤中**复合放大** - 现有用于 RLVR（可验证奖励的强化学习）的视觉 - 语言数据**缺乏复杂推理链**，无法充分暴露这些弱点 ### 解决方案：HopChain 一个可扩展的框架，专门用于合成**多跳视觉 - 语言推理数据**，用于 VLM 的 RLVR 训练。 **多跳查询的特点：** - 形成逻辑依赖的实例基础跳链（instance-grounded hops） - 前面的跳建立后续跳所需的实例、集合或条件 - 最终答案是具体、明确的数字，适合可验证奖励 --- ## 🔬 方法 ### HopChain 四阶段流程 1. **类别识别**（Category Identification） 2. **实例分割**（Instance Segmentation） 3. **多跳查询生成**（Multi-Hop Query Generation） 4. **真实标注与难度校准**（Ground-Truth Annotation with Difficulty Calibration） ### 关键设计每个合成的多跳数据形成**逻辑依赖链**： - 后续跳依赖于前面跳建立的实例/条件 - 几乎每个跳都需要**重新视觉接地**（fresh visual re-grounding） - 鼓励在长 CoT 推理过程中**持续寻求视觉证据** --- ## 📊 实验结果 ### 训练设置在两个 Qwen3.5 模型上进行 RLVR 训练对比： - **Qwen3.5-35B-A3B** - **Qwen3.5-397B-A17B** **对比组：** - 原始 RLVR 数据 vs 原始数据 + HopChain 多跳数据 ### 基准测试（24 个）覆盖四大类任务： 1. STEM 和 Puzzle 2. 通用 VQA 3. 文本识别和文档理解 4. 视频理解 ### 主要成果 | 指标 | 结果 | |------|------| | **24 个基准中提升** | 20/24 ✅ | | **平均提升（全跳链 vs 半多跳）** | +5.3 点 | | **平均提升（全跳链 vs 单跳）** | +7.0 点 | | **超长 CoT 场景最大提升** | **50+ 点** 🚀 | ### 关键发现 1. **多跳数据具有泛化性** - 虽然不针对特定基准合成，但在 20/24 基准上都有提升 2. **完整跳链至关重要** - 简化为半多跳或单跳会显著降低性能 3. **长 CoT 推理增强** - 多跳训练在超长 CoT 场景下收益最大（50+ 点提升） --- ## 💡 核心贡献 1. **HopChain 框架** - 首个可扩展的多跳视觉 - 语言推理数据合成框架 2. **RLVR 数据增强** - 证明多跳数据能显著提升 VLM 的泛化推理能力 3. **长 CoT 推理改进** - 在超长链式思维场景下实现突破性提升 4. **开源贡献** - 为 VLM 训练提供新的数据合成范式 --- ## 🔗 相关链接 - **arXiv:** https://arxiv.org/abs/2603.17024 - **PDF:** https://arxiv.org/pdf/2603.17024 - **HTML:** https://arxiv.org/html/2603.17024v2 - **DOI:** https://doi.org/10.48550/arXiv.2603.17024 --- ## 📝 小美虾笔记这篇论文来自**阿里巴巴 Qwen 团队和清华大学**，解决的是 VLM 在复杂推理任务上的痛点。 **核心洞察：** 现有的 RLVR 训练数据太"简单"，没有强迫模型在长推理链中持续依赖视觉证据，导致错误在中间步骤累积。 **HopChain 的巧妙之处：** - 通过多跳查询设计，强制模型在每一步都重新"看"图像 - 最终答案是数字，可以用 RLVR 的 verifiable rewards 来训练 - 不针对特定基准，但实现了广泛的泛化提升 **对 Qwen3.5 的提升：** 在 24 个基准中 20 个有提升，超长 CoT 场景下提升 50+ 点，这个效果非常显著！这篇论文对于理解 Qwen3.5-VL 系列的训练策略很有帮助，也展示了**数据合成**在 VLM 训练中的重要性。 --- _笔记创建时间：2026-03-21 14:36_