HSGDet: Prompt-Free Unknown Label Generation for Open World Detection in Remote Sensing

推文链接: https://mp.weixin.qq.com/s/jXCmp-XuS_x0Yj80DU2ytQ
推文标题: CVPR2026 | 深圳大学等提出无需prompt的开放世界遥感目标检测未知标签生成方法
来源: http://www.xcosmic.net/papers/AzeemCVPR2026.pdf
本地PDF: ../raw/2026-05-10-hsgdet.pdf
日期: 2026-05-10
标签: open world detection, remote sensing, unknown label generation, CVPR2026
研究方向: 2D Object Detection → 开放世界检测 → 遥感目标检测
作者: 深圳大学、重庆大学
会议: CVPR 2026

公众号推文解读

摘要

HSGDet 是首个无需外部提示或人工标注即可自主生成语义标签并持续扩展词汇表的开放世界遥感目标检测方法。基于 Deformable DETR + 冻结 CLIP，提出 DHGA（可变形层次图注意力）和 CR2T（上下文感知区域转文本），实现从粗到细的语义导航和未知目标即时语义定位。

核心创新

无需外部提示/LLM，自主生成语义标签
DHGA：层次语义图 + 场景上下文令牌，区分已知/未知
CR2T：为未知目标合成文本嵌入，无需外部语言模型
缓冲聚类验证新类别一致性，防止噪声污染

结果

在 DOTA-v2、FAIR1M、DIOR、COCO 上全面超越现有方法，已知/未知/荒野三项指标均 SOTA。

论文解读

1. Introduction

问题: 遥感检测中传统闭集检测器无法处理未知类别。OVD 依赖测试时文本提示，OWOD 只能标"unknown"无法赋予语义。

本文方案: HSGDet，首次实现无需外部提示的自主开放世界检测。

OVD: 依赖预定义词表或 CLIP 文本 prompt，无法自主发现新类别
OWOD: 能检测未知目标但无法自动赋予语义标签，仍需人工
HSGDet 不同: 完全自主，从粗到细语义导航 + 合成文本嵌入 + 持续词汇扩展

3. Method

3.1 整体框架

基础架构: Deformable DETR（可变形 DETR）
视觉编码器: 冻结 CLIP 提取多尺度特征
新增模块: DHGA + CR2T

3.2 层次语义图

基于 WordNet IS-A 分类体系构建
每个节点: 类别名 + CLIP 文本嵌入 + 可学习键嵌入
边: 父子"是一种"关系
支持动态添加新节点（词汇扩展）

3.3 DHGA（可变形层次图注意力）

场景上下文令牌（SCT）:

可学习令牌，通过 cross-attention 聚合所有查询的共现信息
注入全局场景线索到每个查询，使分类依赖场景背景

层次图导航:

对每个查询计算与图节点的相关性得分
Top-K 采样选取语义相关节点 -> 加权融合
浅层 -> 深层: 从粗粒度父节点逐步转向细粒度子节点
置信度低于阈值 -> 判定为未知目标 -> 路由至 CR2T

3.4 CR2T（上下文感知区域转文本模块）

未知嵌入生成:

选取 DHGA 中注意力最高的节点作为层次父节点
融合三部分: 精化后的视觉查询 + 场景上下文令牌 + 父节点文本嵌入
MLP 合成位于 CLIP 空间的语义文本嵌入

持续词汇扩展:

推理中积累未知嵌入到缓冲区
缓冲区内形成余弦相似度 > 阈值的簇时 -> 自动在语义图中创建新节点
继承父节点的视觉原型嵌入
新类别立即可用于后续图像检测

3.5 训练目标

边界框回归 loss
层次导航 loss：监督对祖先节点的注意力分配
CR2T 合成 loss：L1 对齐 + 对比兄弟引导（防止语义坍塌）
训练时 30% 已知类别掩码为伪未知，监督 CR2T 泛化

4. Experiments

4.1 数据集

DOTA-v2（18 类，4-task incremental）
FAIR1M（37 类，single-task）
DIOR（20 类，single-task）
COCO（80 类，跨域泛化）

4.2 结果

在已知/未知/荒野三项指标全面超越 SOTA。

随任务增加性能持续提升（层次图优势）
竞争方法普遍退化

5. Conclusion

HSGDet 首次实现无需外部提示的开放世界遥感检测，DHGA + CR2T 实现自主语义标签生成和持续词汇扩展。

个人评价

核心价值: 把 OWOD 从"标 unknown 等人来标"推向"自主发现并命名"，DHGA 的层次语义导航和 CR2T 的嵌入合成思路巧妙。

与 DisDop 对比: DisDop 做开放词汇检测（给定词表），HSGDet 做开放世界检测（自主发现未知类别 + 自动生成标签）。HSGDet 的任务更难、更自主。

疑问解答 (Q&A)

Q1: HSGDet 和传统 OVD 的核心区别？

答: OVD 需要测试时提供文本 prompt（"cat, dog, ..."），HSGDet 完全不需要——自主在推理中通过 DHGA+CR2T 发现未知目标、生成标签、扩展词表。

Q2: CR2T 不需要 LLM 怎么生成文本嵌入？

答: 利用冻结 CLIP 的视觉-文本对齐空间。用已知父节点的 CLIP 文本嵌入 + 视觉特征 + 场景上下文，通过 MLP 合成为 CLIP 空间中的文本嵌入。本质是"已知类别的文本空间插值"。

HSGDet: Prompt-Free Unknown Label Generation for Open World Detection in Remote Sensing ​

公众号推文解读 ​

摘要 ​

核心创新 ​

结果 ​

论文解读 ​

1. Introduction ​

2. Related Work ​

3. Method ​

3.1 整体框架 ​

3.2 层次语义图 ​

3.3 DHGA（可变形层次图注意力） ​

3.4 CR2T（上下文感知区域转文本模块） ​

3.5 训练目标 ​

4. Experiments ​

4.1 数据集 ​

4.2 结果 ​

5. Conclusion ​

个人评价 ​

疑问解答 (Q&A) ​

Q1: HSGDet 和传统 OVD 的核心区别？ ​

Q2: CR2T 不需要 LLM 怎么生成文本嵌入？ ​