HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

notes/research/arxiv/hopchain-2603.17024.md

Port 8777
path
notes/research/arxiv/hopchain-2603.17024.md
--- title: "HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning" category: research source_type: arxiv created_by: 小美虾 status: collected tags: [vision-language, VLM, RLVR, multi-hop-reasoning, Qwen, data-synthesis, CoT] created_at: 2026-03-21T14:36:00+08:00 arxiv_id: 2603.17024 authors: [Shenzhi Wang, Shixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin] institutions: [Qwen Team, Alibaba Inc., LeapLab, Tsinghua University] --- # HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning **arXiv:** 2603.17024 **发布日期:** 2026-03-17 (v1) / 2026-03-19 (v2) **机构:** 阿里巴巴 Qwen Team + 清华大学 LeapLab **页数:** 28 页 | 8 图 | 2 表 --- ## 📋 摘要 视觉 - 语言模型(VLMs)虽然展现出强大的多模态能力,但在**细粒度视觉 - 语言推理**任务上仍然存在困难。 ### 核心问题 - **长链式思维(CoT)推理**暴露出多种失败模式: - 感知错误(perception errors) - 推理错误(reasoning errors) - 知识错误(knowledge errors) - 幻觉错误(hallucination errors) - 这些错误会在中间步骤中**复合放大** - 现有用于 RLVR(可验证奖励的强化学习)的视觉 - 语言数据**缺乏复杂推理链**,无法充分暴露这些弱点 ### 解决方案:HopChain 一个可扩展的框架,专门用于合成**多跳视觉 - 语言推理数据**,用于 VLM 的 RLVR 训练。 **多跳查询的特点:** - 形成逻辑依赖的实例基础跳链(instance-grounded hops) - 前面的跳建立后续跳所需的实例、集合或条件 - 最终答案是具体、明确的数字,适合可验证奖励 --- ## 🔬 方法 ### HopChain 四阶段流程 1. **类别识别**(Category Identification) 2. **实例分割**(Instance Segmentation) 3. **多跳查询生成**(Multi-Hop Query Generation) 4. **真实标注与难度校准**(Ground-Truth Annotation with Difficulty Calibration) ### 关键设计 每个合成的多跳数据形成**逻辑依赖链**: - 后续跳依赖于前面跳建立的实例/条件 - 几乎每个跳都需要**重新视觉接地**(fresh visual re-grounding) - 鼓励在长 CoT 推理过程中**持续寻求视觉证据** --- ## 📊 实验结果 ### 训练设置 在两个 Qwen3.5 模型上进行 RLVR 训练对比: - **Qwen3.5-35B-A3B** - **Qwen3.5-397B-A17B** **对比组:** - 原始 RLVR 数据 vs 原始数据 + HopChain 多跳数据 ### 基准测试(24 个) 覆盖四大类任务: 1. STEM 和 Puzzle 2. 通用 VQA 3. 文本识别和文档理解 4. 视频理解 ### 主要成果 | 指标 | 结果 | |------|------| | **24 个基准中提升** | 20/24 ✅ | | **平均提升(全跳链 vs 半多跳)** | +5.3 点 | | **平均提升(全跳链 vs 单跳)** | +7.0 点 | | **超长 CoT 场景最大提升** | **50+ 点** 🚀 | ### 关键发现 1. **多跳数据具有泛化性** - 虽然不针对特定基准合成,但在 20/24 基准上都有提升 2. **完整跳链至关重要** - 简化为半多跳或单跳会显著降低性能 3. **长 CoT 推理增强** - 多跳训练在超长 CoT 场景下收益最大(50+ 点提升) --- ## 💡 核心贡献 1. **HopChain 框架** - 首个可扩展的多跳视觉 - 语言推理数据合成框架 2. **RLVR 数据增强** - 证明多跳数据能显著提升 VLM 的泛化推理能力 3. **长 CoT 推理改进** - 在超长链式思维场景下实现突破性提升 4. **开源贡献** - 为 VLM 训练提供新的数据合成范式 --- ## 🔗 相关链接 - **arXiv:** https://arxiv.org/abs/2603.17024 - **PDF:** https://arxiv.org/pdf/2603.17024 - **HTML:** https://arxiv.org/html/2603.17024v2 - **DOI:** https://doi.org/10.48550/arXiv.2603.17024 --- ## 📝 小美虾笔记 这篇论文来自**阿里巴巴 Qwen 团队和清华大学**,解决的是 VLM 在复杂推理任务上的痛点。 **核心洞察:** 现有的 RLVR 训练数据太"简单",没有强迫模型在长推理链中持续依赖视觉证据,导致错误在中间步骤累积。 **HopChain 的巧妙之处:** - 通过多跳查询设计,强制模型在每一步都重新"看"图像 - 最终答案是数字,可以用 RLVR 的 verifiable rewards 来训练 - 不针对特定基准,但实现了广泛的泛化提升 **对 Qwen3.5 的提升:** 在 24 个基准中 20 个有提升,超长 CoT 场景下提升 50+ 点,这个效果非常显著! 这篇论文对于理解 Qwen3.5-VL 系列的训练策略很有帮助,也展示了**数据合成**在 VLM 训练中的重要性。 --- _笔记创建时间:2026-03-21 14:36_