Skip to content

CPL++: Confidence-aware Pseudo-label Self-Correction for Weakly Supervised Visual Grounding


推文解读

外部推文/文章的概述性内容(摘要、背景、数据集概览)。方法细节、实验数值请阅读论文原文后补充。

摘要

问题: 视觉定位任务依赖密集的"图像-文本-物体框"细粒度标注,标注成本巨大。弱监督方法依赖跨模态匹配分数或重构损失,但高层抽象概念与像素级特征存在"异构鸿沟",导致错误关联和错误传播。

方案: CPL++ 框架通过自监督的关联校正与验证模块,在训练中动态识别、衰减并纠正错误的监督信号,让模型学会"自我纠偏"。

关键创新:

  • 高质量伪查询生成(三条互补生成管线:启发式增强、对象为中心、关系为中心)
  • 单模态匹配避开跨模态对齐挑战
  • 自监督关联校正与动态伪标签优化
  • 动态选择性定位损失

验证: 在 RefCOCO、RefCOCO+、RefCOCOg、ReferItGame、Flickr30K Entities 五个数据集上,弱监督 SOTA。CPL++ 在 CPL 基础上提升 2.78%、5.81%、1.08%、2.03%、2.55%。

背景

  • 视觉定位 (Visual Grounding): 根据自然语言查询定位图像中的目标区域
  • 全监督 vs 弱监督: 全监督依赖密集标注,弱监督仅用"图像-文本"训练
  • 核心挑战: 异构鸿沟 — 语言高层抽象 vs 图像像素特征

数据集

数据集类型
RefCOCO视觉定位
RefCOCO+视觉定位
RefCOCOg视觉定位
ReferItGame视觉定位
Flickr30K Entities视觉定位

论文原文解读

按论文原文 Section 顺序记录核心内容。有几个写几个,不跳过。

1. Introduction

背景 & 动机:

  • 视觉定位 (Visual Grounding):根据自然语言查询在图像中定位目标区域
  • 应用:VQA、机器人操作等
  • 全监督依赖密集 box 标注,成本高难扩展
  • 弱监督仅用图像-文本对训练,但存在两个问题:
    1. 异构鸿沟:跨模态匹配不可靠
    2. 错误传播:忽略关联置信度,对错误关联过拟合

本文贡献:

  1. 用单模态相似度代替跨模态匹配
  2. 置信度感知验证模块 + 选择性损失
  3. 五大数据集弱监督 SOTA

2.1 全监督视觉定位

  • 两阶段方法:预训练检测器生成候选区域 → 匹配选择
  • 一阶段方法:直接融合视觉和文本特征
  • Transformer-based:cross-modal 融合直接预测

2.2 弱监督视觉定位

  • 对比学习策略:学习 image-level 对齐
  • 重构损失策略:用 proposal 重构 query
  • 问题:忽略异构鸿沟,不考虑错误传播

2.3 预训练模型

  • Uni-modal:缺乏跨模态对齐
  • 跨模态 (CLIP, BLIP):缺少数域级定位能力
  • 本文创新:同时利用预训练模型的判别和生成能力

3. Method

3.1 问题形式化

  • 输入:图像 I + 自然语言查询 t
  • 输出:最匹配的目标区域

3.2 伪查询生成(三条管线)

管线方法特点
Heuristic+启发式规则(名词/属性/空间关系)基础,但描述短
Object-CentricBLIP + 条件 prompt关注对象属性和动作
Relation-Aware整图 + 空间关系 prompt生成关系描述

3.3 单模态真实查询传播

  • 文本特征空间计算相似度(公式1、2)
  • 将 top-1 伪查询的 box 传播给真实查询
  • 避开跨模态对齐挑战

3.4 跨模态验证模块

  • 用 BLIP 的 Image-Text Matching 评估置信度 ci
  • 过滤不可靠的区域-查询关联

3.5 定位模块与训练

  • 损失:Smooth-L1 + GIoU
  • 选择性定位损失:根据置信度调整样本权重(公式4、5)
  • 置信度低于阈值 τ 时设权重为 0

4. Experiments

4.1 数据集

  • RefCOCO/RefCOCO+/RefCOCOg:MSCOCO
  • ReferItGame:SAIAPR-12
  • Flickr30K Entities

4.2 数值结果

RefCOCO/RefCOCO+/RefCOCOg (Top-1 Acc %):

方法监督RefCOCO valRefCOCO+ valRefCOCOg val-g
Pseudo-Q无监督56.0238.8849.82
ReCLIP弱监督45.7847.87-
Ours (Uni)弱监督66.7550.6555.19
Ours (Cross)弱监督70.6751.8157.04
TransVG全监督80.3263.5066.56

关键发现:

  • 弱监督 SOTA,超越 ReCLIP 约 20%+
  • 仅用 5% 标注数据接近全监督,10% 可超越全监督

4.3 消融实验

  • 三条伪查询管线都有贡献
  • 单模态匹配比跨模态更可靠

5. Conclusion

总结:

  • 提出置信度感知的伪标签学习框架 CPL
  • 核心创新:伪查询生成 + 单模态匹配 + 置信度验证
  • 五大数据集弱监督 SOTA

局限性:

  • 与全监督方法仍有差距
  • 依赖预训练检测器生成候选区域

个人评价

核心价值: CPL++ 证明了让模型学会"自我纠错"是突破弱监督任务瓶颈的有效途径。伪标签自校正机制具有普遍借鉴意义。

可借鉴点:

  • 单模态匹配思路可迁移到其他跨模态任务
  • 动态损失加权机制可用于其他噪声标签学习场景
  • 自监督验证模块设计值得参考

疑问解答 (Q&A)

读论文过程中产生的疑问和解答。

Q1: CPL 和 CPL++ 的区别是什么?

: CPL 是基础框架,使用静态跨模态验证;CPL++ 升级为自监督关联校正与动态伪标签优化,能在训练过程中动态发现并纠正错误。