CPL++: Confidence-aware Pseudo-label Self-Correction for Weakly Supervised Visual Grounding
- 推文链接: https://mp.weixin.qq.com/s/klDAKcB_OTt0NGWauUEccA
- 推文标题: TPAMI 2026|弱监督视觉定位 SOTA!北大彭宇新团队开源 CPL++:无需密集标注,让视觉定位模型学会"自我纠偏"
- 来源: https://ieeexplore.ieee.org/document/11433810/
- 本地PDF:
../raw/2026-04-22-cpl-plus-plus.pdf - 日期: 2026-04-22
- 标签:
visual-grounding,weakly-supervised,pseudo-label,self-correction,tpami2026 - 研究方向: Computer Vision → 视觉语言模型 → 弱监督视觉定位
- 作者: 北大彭宇新教授团队 (MIPLatPKU)
- 代码: https://github.com/oceanflowlab/CPL
- 项目主页: http://mipl.pku.edu.cn
推文解读
外部推文/文章的概述性内容(摘要、背景、数据集概览)。方法细节、实验数值请阅读论文原文后补充。
摘要
问题: 视觉定位任务依赖密集的"图像-文本-物体框"细粒度标注,标注成本巨大。弱监督方法依赖跨模态匹配分数或重构损失,但高层抽象概念与像素级特征存在"异构鸿沟",导致错误关联和错误传播。
方案: CPL++ 框架通过自监督的关联校正与验证模块,在训练中动态识别、衰减并纠正错误的监督信号,让模型学会"自我纠偏"。
关键创新:
- 高质量伪查询生成(三条互补生成管线:启发式增强、对象为中心、关系为中心)
- 单模态匹配避开跨模态对齐挑战
- 自监督关联校正与动态伪标签优化
- 动态选择性定位损失
验证: 在 RefCOCO、RefCOCO+、RefCOCOg、ReferItGame、Flickr30K Entities 五个数据集上,弱监督 SOTA。CPL++ 在 CPL 基础上提升 2.78%、5.81%、1.08%、2.03%、2.55%。
背景
- 视觉定位 (Visual Grounding): 根据自然语言查询定位图像中的目标区域
- 全监督 vs 弱监督: 全监督依赖密集标注,弱监督仅用"图像-文本"训练
- 核心挑战: 异构鸿沟 — 语言高层抽象 vs 图像像素特征
数据集
| 数据集 | 类型 |
|---|---|
| RefCOCO | 视觉定位 |
| RefCOCO+ | 视觉定位 |
| RefCOCOg | 视觉定位 |
| ReferItGame | 视觉定位 |
| Flickr30K Entities | 视觉定位 |
论文原文解读
按论文原文 Section 顺序记录核心内容。有几个写几个,不跳过。
1. Introduction
背景 & 动机:
- 视觉定位 (Visual Grounding):根据自然语言查询在图像中定位目标区域
- 应用:VQA、机器人操作等
- 全监督依赖密集 box 标注,成本高难扩展
- 弱监督仅用图像-文本对训练,但存在两个问题:
- 异构鸿沟:跨模态匹配不可靠
- 错误传播:忽略关联置信度,对错误关联过拟合
本文贡献:
- 用单模态相似度代替跨模态匹配
- 置信度感知验证模块 + 选择性损失
- 五大数据集弱监督 SOTA
2. Related Work
2.1 全监督视觉定位
- 两阶段方法:预训练检测器生成候选区域 → 匹配选择
- 一阶段方法:直接融合视觉和文本特征
- Transformer-based:cross-modal 融合直接预测
2.2 弱监督视觉定位
- 对比学习策略:学习 image-level 对齐
- 重构损失策略:用 proposal 重构 query
- 问题:忽略异构鸿沟,不考虑错误传播
2.3 预训练模型
- Uni-modal:缺乏跨模态对齐
- 跨模态 (CLIP, BLIP):缺少数域级定位能力
- 本文创新:同时利用预训练模型的判别和生成能力
3. Method
3.1 问题形式化
- 输入:图像 I + 自然语言查询 t
- 输出:最匹配的目标区域
3.2 伪查询生成(三条管线)
| 管线 | 方法 | 特点 |
|---|---|---|
| Heuristic+ | 启发式规则(名词/属性/空间关系) | 基础,但描述短 |
| Object-Centric | BLIP + 条件 prompt | 关注对象属性和动作 |
| Relation-Aware | 整图 + 空间关系 prompt | 生成关系描述 |
3.3 单模态真实查询传播
- 文本特征空间计算相似度(公式1、2)
- 将 top-1 伪查询的 box 传播给真实查询
- 避开跨模态对齐挑战
3.4 跨模态验证模块
- 用 BLIP 的 Image-Text Matching 评估置信度 ci
- 过滤不可靠的区域-查询关联
3.5 定位模块与训练
- 损失:Smooth-L1 + GIoU
- 选择性定位损失:根据置信度调整样本权重(公式4、5)
- 置信度低于阈值 τ 时设权重为 0
4. Experiments
4.1 数据集
- RefCOCO/RefCOCO+/RefCOCOg:MSCOCO
- ReferItGame:SAIAPR-12
- Flickr30K Entities
4.2 数值结果
RefCOCO/RefCOCO+/RefCOCOg (Top-1 Acc %):
| 方法 | 监督 | RefCOCO val | RefCOCO+ val | RefCOCOg val-g |
|---|---|---|---|---|
| Pseudo-Q | 无监督 | 56.02 | 38.88 | 49.82 |
| ReCLIP | 弱监督 | 45.78 | 47.87 | - |
| Ours (Uni) | 弱监督 | 66.75 | 50.65 | 55.19 |
| Ours (Cross) | 弱监督 | 70.67 | 51.81 | 57.04 |
| TransVG | 全监督 | 80.32 | 63.50 | 66.56 |
关键发现:
- 弱监督 SOTA,超越 ReCLIP 约 20%+
- 仅用 5% 标注数据接近全监督,10% 可超越全监督
4.3 消融实验
- 三条伪查询管线都有贡献
- 单模态匹配比跨模态更可靠
5. Conclusion
总结:
- 提出置信度感知的伪标签学习框架 CPL
- 核心创新:伪查询生成 + 单模态匹配 + 置信度验证
- 五大数据集弱监督 SOTA
局限性:
- 与全监督方法仍有差距
- 依赖预训练检测器生成候选区域
个人评价
核心价值: CPL++ 证明了让模型学会"自我纠错"是突破弱监督任务瓶颈的有效途径。伪标签自校正机制具有普遍借鉴意义。
可借鉴点:
- 单模态匹配思路可迁移到其他跨模态任务
- 动态损失加权机制可用于其他噪声标签学习场景
- 自监督验证模块设计值得参考
疑问解答 (Q&A)
读论文过程中产生的疑问和解答。
Q1: CPL 和 CPL++ 的区别是什么?
答: CPL 是基础框架,使用静态跨模态验证;CPL++ 升级为自监督关联校正与动态伪标签优化,能在训练过程中动态发现并纠正错误。
