HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning
notes/research/arxiv/hopchain-2603.17024.md
Port 8777
---
title: "HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning"
category: research
source_type: arxiv
created_by: 小美虾
status: collected
tags: [vision-language, VLM, RLVR, multi-hop-reasoning, Qwen, data-synthesis, CoT]
created_at: 2026-03-21T14:36:00+08:00
arxiv_id: 2603.17024
authors: [Shenzhi Wang, Shixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin]
institutions: [Qwen Team, Alibaba Inc., LeapLab, Tsinghua University]
---
# HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning
**arXiv:** 2603.17024
**发布日期:** 2026-03-17 (v1) / 2026-03-19 (v2)
**机构:** 阿里巴巴 Qwen Team + 清华大学 LeapLab
**页数:** 28 页 | 8 图 | 2 表
---
## 📋 摘要
视觉 - 语言模型(VLMs)虽然展现出强大的多模态能力,但在**细粒度视觉 - 语言推理**任务上仍然存在困难。
### 核心问题
- **长链式思维(CoT)推理**暴露出多种失败模式:
- 感知错误(perception errors)
- 推理错误(reasoning errors)
- 知识错误(knowledge errors)
- 幻觉错误(hallucination errors)
- 这些错误会在中间步骤中**复合放大**
- 现有用于 RLVR(可验证奖励的强化学习)的视觉 - 语言数据**缺乏复杂推理链**,无法充分暴露这些弱点
### 解决方案:HopChain
一个可扩展的框架,专门用于合成**多跳视觉 - 语言推理数据**,用于 VLM 的 RLVR 训练。
**多跳查询的特点:**
- 形成逻辑依赖的实例基础跳链(instance-grounded hops)
- 前面的跳建立后续跳所需的实例、集合或条件
- 最终答案是具体、明确的数字,适合可验证奖励
---
## 🔬 方法
### HopChain 四阶段流程
1. **类别识别**(Category Identification)
2. **实例分割**(Instance Segmentation)
3. **多跳查询生成**(Multi-Hop Query Generation)
4. **真实标注与难度校准**(Ground-Truth Annotation with Difficulty Calibration)
### 关键设计
每个合成的多跳数据形成**逻辑依赖链**:
- 后续跳依赖于前面跳建立的实例/条件
- 几乎每个跳都需要**重新视觉接地**(fresh visual re-grounding)
- 鼓励在长 CoT 推理过程中**持续寻求视觉证据**
---
## 📊 实验结果
### 训练设置
在两个 Qwen3.5 模型上进行 RLVR 训练对比:
- **Qwen3.5-35B-A3B**
- **Qwen3.5-397B-A17B**
**对比组:**
- 原始 RLVR 数据 vs 原始数据 + HopChain 多跳数据
### 基准测试(24 个)
覆盖四大类任务:
1. STEM 和 Puzzle
2. 通用 VQA
3. 文本识别和文档理解
4. 视频理解
### 主要成果
| 指标 | 结果 |
|------|------|
| **24 个基准中提升** | 20/24 ✅ |
| **平均提升(全跳链 vs 半多跳)** | +5.3 点 |
| **平均提升(全跳链 vs 单跳)** | +7.0 点 |
| **超长 CoT 场景最大提升** | **50+ 点** 🚀 |
### 关键发现
1. **多跳数据具有泛化性** - 虽然不针对特定基准合成,但在 20/24 基准上都有提升
2. **完整跳链至关重要** - 简化为半多跳或单跳会显著降低性能
3. **长 CoT 推理增强** - 多跳训练在超长 CoT 场景下收益最大(50+ 点提升)
---
## 💡 核心贡献
1. **HopChain 框架** - 首个可扩展的多跳视觉 - 语言推理数据合成框架
2. **RLVR 数据增强** - 证明多跳数据能显著提升 VLM 的泛化推理能力
3. **长 CoT 推理改进** - 在超长链式思维场景下实现突破性提升
4. **开源贡献** - 为 VLM 训练提供新的数据合成范式
---
## 🔗 相关链接
- **arXiv:** https://arxiv.org/abs/2603.17024
- **PDF:** https://arxiv.org/pdf/2603.17024
- **HTML:** https://arxiv.org/html/2603.17024v2
- **DOI:** https://doi.org/10.48550/arXiv.2603.17024
---
## 📝 小美虾笔记
这篇论文来自**阿里巴巴 Qwen 团队和清华大学**,解决的是 VLM 在复杂推理任务上的痛点。
**核心洞察:** 现有的 RLVR 训练数据太"简单",没有强迫模型在长推理链中持续依赖视觉证据,导致错误在中间步骤累积。
**HopChain 的巧妙之处:**
- 通过多跳查询设计,强制模型在每一步都重新"看"图像
- 最终答案是数字,可以用 RLVR 的 verifiable rewards 来训练
- 不针对特定基准,但实现了广泛的泛化提升
**对 Qwen3.5 的提升:** 在 24 个基准中 20 个有提升,超长 CoT 场景下提升 50+ 点,这个效果非常显著!
这篇论文对于理解 Qwen3.5-VL 系列的训练策略很有帮助,也展示了**数据合成**在 VLM 训练中的重要性。
---
_笔记创建时间:2026-03-21 14:36_