CPL++: Confidence-aware Pseudo-label Self-Correction for Weakly Supervised Visual Grounding

推文链接: https://mp.weixin.qq.com/s/klDAKcB_OTt0NGWauUEccA
推文标题: TPAMI 2026｜弱监督视觉定位 SOTA！北大彭宇新团队开源 CPL++：无需密集标注，让视觉定位模型学会"自我纠偏"
来源: https://ieeexplore.ieee.org/document/11433810/
本地PDF: ../raw/2026-04-22-cpl-plus-plus.pdf
日期: 2026-04-22
标签: visual-grounding, weakly-supervised, pseudo-label, self-correction, tpami2026
研究方向: Computer Vision → 视觉语言模型 → 弱监督视觉定位
作者: 北大彭宇新教授团队 (MIPLatPKU)
代码: https://github.com/oceanflowlab/CPL
项目主页: http://mipl.pku.edu.cn

推文解读

外部推文/文章的概述性内容（摘要、背景、数据集概览）。方法细节、实验数值请阅读论文原文后补充。

摘要

问题: 视觉定位任务依赖密集的"图像-文本-物体框"细粒度标注，标注成本巨大。弱监督方法依赖跨模态匹配分数或重构损失，但高层抽象概念与像素级特征存在"异构鸿沟"，导致错误关联和错误传播。

方案: CPL++ 框架通过自监督的关联校正与验证模块，在训练中动态识别、衰减并纠正错误的监督信号，让模型学会"自我纠偏"。

关键创新:

高质量伪查询生成（三条互补生成管线：启发式增强、对象为中心、关系为中心）
单模态匹配避开跨模态对齐挑战
自监督关联校正与动态伪标签优化
动态选择性定位损失

验证: 在 RefCOCO、RefCOCO+、RefCOCOg、ReferItGame、Flickr30K Entities 五个数据集上，弱监督 SOTA。CPL++ 在 CPL 基础上提升 2.78%、5.81%、1.08%、2.03%、2.55%。

背景

视觉定位 (Visual Grounding): 根据自然语言查询定位图像中的目标区域
全监督 vs 弱监督: 全监督依赖密集标注，弱监督仅用"图像-文本"训练
核心挑战: 异构鸿沟 — 语言高层抽象 vs 图像像素特征

数据集

数据集	类型
RefCOCO	视觉定位
RefCOCO+	视觉定位
RefCOCOg	视觉定位
ReferItGame	视觉定位
Flickr30K Entities	视觉定位

论文原文解读

按论文原文 Section 顺序记录核心内容。有几个写几个，不跳过。

1. Introduction

背景 & 动机:

视觉定位 (Visual Grounding)：根据自然语言查询在图像中定位目标区域
应用：VQA、机器人操作等
全监督依赖密集 box 标注，成本高难扩展
弱监督仅用图像-文本对训练，但存在两个问题：
1. 异构鸿沟：跨模态匹配不可靠
2. 错误传播：忽略关联置信度，对错误关联过拟合

本文贡献:

用单模态相似度代替跨模态匹配
置信度感知验证模块 + 选择性损失
五大数据集弱监督 SOTA

2.1 全监督视觉定位

两阶段方法：预训练检测器生成候选区域 → 匹配选择
一阶段方法：直接融合视觉和文本特征
Transformer-based：cross-modal 融合直接预测

2.2 弱监督视觉定位

对比学习策略：学习 image-level 对齐
重构损失策略：用 proposal 重构 query
问题：忽略异构鸿沟，不考虑错误传播

2.3 预训练模型

Uni-modal：缺乏跨模态对齐
跨模态 (CLIP, BLIP)：缺少数域级定位能力
本文创新：同时利用预训练模型的判别和生成能力

3. Method

3.1 问题形式化

输入：图像 I + 自然语言查询 t
输出：最匹配的目标区域

3.2 伪查询生成（三条管线）

管线	方法	特点
Heuristic+	启发式规则（名词/属性/空间关系）	基础，但描述短
Object-Centric	BLIP + 条件 prompt	关注对象属性和动作
Relation-Aware	整图 + 空间关系 prompt	生成关系描述

3.3 单模态真实查询传播

文本特征空间计算相似度（公式1、2）
将 top-1 伪查询的 box 传播给真实查询
避开跨模态对齐挑战

3.4 跨模态验证模块

用 BLIP 的 Image-Text Matching 评估置信度 ci
过滤不可靠的区域-查询关联

3.5 定位模块与训练

损失：Smooth-L1 + GIoU
选择性定位损失：根据置信度调整样本权重（公式4、5）
置信度低于阈值 τ 时设权重为 0

4. Experiments

4.1 数据集

RefCOCO/RefCOCO+/RefCOCOg：MSCOCO
ReferItGame：SAIAPR-12
Flickr30K Entities

4.2 数值结果

RefCOCO/RefCOCO+/RefCOCOg (Top-1 Acc %):

方法	监督	RefCOCO val	RefCOCO+ val	RefCOCOg val-g
Pseudo-Q	无监督	56.02	38.88	49.82
ReCLIP	弱监督	45.78	47.87	-
Ours (Uni)	弱监督	66.75	50.65	55.19
Ours (Cross)	弱监督	70.67	51.81	57.04
TransVG	全监督	80.32	63.50	66.56

关键发现:

弱监督 SOTA，超越 ReCLIP 约 20%+
仅用 5% 标注数据接近全监督，10% 可超越全监督

4.3 消融实验

三条伪查询管线都有贡献
单模态匹配比跨模态更可靠

5. Conclusion

总结:

提出置信度感知的伪标签学习框架 CPL
核心创新：伪查询生成 + 单模态匹配 + 置信度验证
五大数据集弱监督 SOTA

局限性:

与全监督方法仍有差距
依赖预训练检测器生成候选区域

个人评价

核心价值: CPL++ 证明了让模型学会"自我纠错"是突破弱监督任务瓶颈的有效途径。伪标签自校正机制具有普遍借鉴意义。

可借鉴点:

单模态匹配思路可迁移到其他跨模态任务
动态损失加权机制可用于其他噪声标签学习场景
自监督验证模块设计值得参考

疑问解答 (Q&A)

读论文过程中产生的疑问和解答。

Q1: CPL 和 CPL++ 的区别是什么？

答: CPL 是基础框架，使用静态跨模态验证；CPL++ 升级为自监督关联校正与动态伪标签优化，能在训练过程中动态发现并纠正错误。

CPL++: Confidence-aware Pseudo-label Self-Correction for Weakly Supervised Visual Grounding ​

推文解读 ​

摘要 ​

背景 ​

数据集 ​

论文原文解读 ​

1. Introduction ​

2. Related Work ​

2.1 全监督视觉定位 ​

2.2 弱监督视觉定位 ​

2.3 预训练模型 ​

3. Method ​

3.1 问题形式化 ​

3.2 伪查询生成（三条管线） ​

3.3 单模态真实查询传播 ​

3.4 跨模态验证模块 ​

3.5 定位模块与训练 ​

4. Experiments ​

4.1 数据集 ​

4.2 数值结果 ​

4.3 消融实验 ​

5. Conclusion ​

个人评价 ​

疑问解答 (Q&A) ​

Q1: CPL 和 CPL++ 的区别是什么？ ​