无人机低空遥感开放集目标检测

专题调研：2026-05-30 | 涵盖 2023-2026 年核心工作

1. 问题定义与背景

开放集目标检测（Open-Vocabulary Object Detection, OVD）：训练时只见过 V_base 类别，测试时能检测 V_test ⊂ V_Ω 的任意类别。核心依赖文本编码器（BERT/CLIP）将任意类别名编码到语义空间，模型学到视觉特征与文本语义的对齐关系后即可泛化到新类别。

无人机低空遥感的特殊挑战：

域差距大：自然场景 OVD 方法（GLIP/GroundingDINO）在遥感上几乎不工作
视角特殊：俯视/斜视，目标外观与自然图像截然不同
小目标密集：目标常仅 10-30px，传统 CLIP 224×224 输入下信息严重丢失
标注稀缺：缺乏大规模多样化标注数据，且格式不统一
场景复杂：背景杂乱、类间相似性高、天气影响

与卫星遥感的区别：卫星近正射（90°），无人机倾斜/低角度；同名目标视觉特征完全不同（卫星图中 car 是小白点，无人机图中有清晰形状）。卫星图与无人机图混合训练会导致视觉信号矛盾，B2C caption 都写"有 car"但图像特征冲突，对齐不可靠。

2. 相关工作

2.1 演进路线

遥感 OVD 主线（域适配，从浅到深利用 VL 先验）：

RemoteCLIP（2023，基础模型）
  └→ CastDet（2023，首个航空 OVD，半监督+伪标签）
      └→ LAE-DINO（2024，大规模数据+检测器，奠基性工作）
          └→ DisDop（2026，域先验蒸馏，SOTA）

通用 OVD 三大范式（可迁移技术，详见 §2.5.0 范式总结）：

A. 视觉-语言对比匹配（CLIP 冻结，推理快）
   VLDet（2026，CLIP 特征金字塔适配）
     └→ YOLO-World（2024，RepVL-PAN + Prompt-then-Detect，52 FPS）
         └→ YOLOE（2025，统一三提示 + 重参数化）
             └→ YOLOE-26（2026，NMS-Free + 内置 4585 词表）

B. 视觉-语言深度融合（BERT 端到端，精度高）
   GLIP（2022，区域级对比预训练）
     └→ Grounding DINO（2023，三阶段深度融合 + Grounded Pre-Training）
         └→ LAE-DINO（2024，DVC + VisGT 遥感适配）

C. MLLM 生成式检测（坐标预测，语言理解强）
   Pix2Seq / OFA（早期：坐标序列化生成）
     └→ Rex-Omni（2025，量化坐标 + SFT+GRPO）
         └→ LocateAnything（2026，PBD 并行框解码，12.7 BPS）
     └→ Falcon Perception（2026，Early-Fusion + Chain-of-Perception）

2.2 各工作对比

维度	RemoteCLIP	CastDet	LAE-DINO	DisDop
年份	2023	2023	2024	2026
核心贡献	首个遥感 VL 基础模型	首个航空 OVD	大规模数据+检测器	域先验蒸馏
方法范式	CLIP 对比预训练	半监督+伪标签	OVD 检测器+数据引擎	知识蒸馏
训练数据	卫星+无人机混合 165k	VisDrone+DIOR	LAE-1M（100万实例）	LAE-1M
评估设定	分类/检索/计数	GZSD（base+novel）	开集（no fine-tune）	开集（no fine-tune）
评估数据集	零样本分类/检索	VisDroneZSD	DIOR/DOTAv2.0/LAE-80C	DIOR/DOTAv2.0/LAE-80C
对 CLIP 的利用	直接训练	做伪标签分类器（浅层）	不用 CLIP，用 BERT	蒸馏 RemoteCLIP+DINOv3（深层）
DIOR AP50（开集）	—	—	85.5	87.2
DOTAv2.0 mAP	—	—	46.8	47.5
LAE-80C mAP	—	—	20.2	22.5

2.3 RemoteCLIP

论文：RemoteCLIP: A Vision Language Foundation Model for Remote Sensing（TGRS 2024，612 引用）| 阅读笔记

核心问题：遥感基础模型用 MIM（Masked Image Modeling）自监督训练，学到低层特征（遮挡不变性），但遥感俯视图无遮挡、缺乏语义。CLIP 的大模型在遥感零样本分类上已经比 MIM 小模型强——问题不是架构，而是数据。

方案：首个遥感视觉-语言基础模型

B2C（Box-to-Caption）：将检测框标注转为自然语言描述，扩展预训练数据 12 倍
M2B（Mask-to-Box）：分割掩码 → 外接矩形框 → 再用 B2C 转为文本
在 OpenAI CLIP 权重基础上继续预训练

局限性（对后续工作的影响）：

image-level 对齐，缺乏 region-level 对齐——这也是 DisDop 要用 DINOv3 补充局部特征的原因
小目标困境：CLIP 输入 224×224，VisDrone 等数据集的小目标缩放后仅 1-3px，视觉编码器根本看不到
卫星+无人机混合训练隐患：两类图像差异极大，B2C caption 写"有 car"但图像视觉信号矛盾，对齐不可靠

在 OVD 链条中的角色：

CastDet：用 RemoteCLIP-R50 做伪标签分类器
DisDop：用 RemoteCLIP-ViT-L/14 做视觉教师（跨模态对齐）和文本教师（类别语义关系）

2.4 航空 OVD 演进

2.4.1 CastDet：首个航空 OVD

论文：CastDet: Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning（ECCV 2024）| 阅读笔记

核心思路：CLIP-Activated 机制——CLIP 做分类器而非直接教师，结合 Soft Teacher 做定位。

方法：

架构：Faster R-CNN，student + 定位教师（EMA）+ 外部教师（RemoteCLIP）
语义分类器：RoI 视觉特征与类名的文本嵌入（RemoteCLIP 生成）算余弦相似度
Dynamic Label Queue：动态存储/更新 CLIP 生成的伪标签，按类别平衡采样
混合训练：标注数据流 + 无标注数据流 + 队列数据流

评估设定：GZSD（Generalized Zero-Shot Detection），区分 base/novel 类别，用 HM（调和均值）评估。VisDroneZSD HM 40.0。

局限：

GZSD 设定需要预先知道 novel 类名，不是真正的"开放"
对 CLIP 利用较浅（仅分类），未挖掘视觉/文本先验
novel 类都是场景级大目标（airport 等），小目标场景未验证
评估体系未被后续工作沿用

2.4.2 LAE-DINO：奠基性工作

论文：LAE: Locate Anything on Earth — Advancing Open-Vocabulary Object Detection for Remote Sensing（2024，49 引用）| 阅读笔记

两大贡献：

数据：LAE-Label Engine → LAE-1M

LAE-FOD（细粒度）：7 个已有标注数据集 → COCO 格式统一 + 图像切片 → ~135k 张图，~139 万实例
LAE-COD（粗粒度）：4 个无标注数据集 → SAM 提取 RoI（top-K 面积）→ InternVL 零样本分类 → 规则过滤 → ~102k 实例，~1600 词汇量（InternVL 自由输出类别名，不受预定义限制）
合并：LAE-FOD + LAE-COD = 100 万实例，~1600 词汇量
LAE-COD 的缺陷：只保留面积最大的 top-K RoI → 小目标被丢弃；SAM 生成的框经常不够紧

模型：LAE-DINO

基于 GroundingDINO 架构，两个新模块：

GroundingDINO 基座：DINO 检测器 + BERT 文本编码器，三阶段深度融合（Feature Enhancer / Language-Guided Query Selection / Cross-Modality Decoder），ContrastiveEmbed 分类。BERT 端到端训练可适应检测任务，但推理慢（1-5 FPS）且受 256 token 限制。详见Grounding DINO 笔记

DVC（Dynamic Vocabulary Construction）：

动机：BERT 最大 256 token，~1600 类拼接后远超上限
方案：每 batch 动态选 N_DV=60 个类别（正类别 + 随机采样的负类别）
对比 APE（每个类别独立编码，丢失类别间关联），DVC 保留多类别在同一次编码中的关联

VisGT（Visual-Guided Text Prompt Learning）：

动机：同一图中多个目标共同定义场景（如 airplane + vehicle → 机场），单靠文本类别名表达不了这种场景信息
核心思想：image-level 对齐，不是 object-level
三步流程：
1. 构造文本侧场景特征 s（正类别文本特征加权平均，作为 GT）
2. 构造视觉侧场景特征 ŝ（图像特征经 MDSA 映射到语义空间，作为预测）
3. 用 S_v2t 增强文本特征：F_T + S_v2t，让每个类别的文本特征获得当前图像的场景上下文
约束损失：对比学习，让同一张图的 ŝ 和 s 靠近，不同图的远离

关键结果：

方法	DIOR AP50	DOTAv2.0 mAP	LAE-80C mAP
GroundingDINO + DVC	83.6	46.0	17.7
LAE-DINO	85.5	46.8	20.2

VisGT 消融：开集 +1.9% AP50，闭集 +2.3% AP50

LAE-80C benchmark 说明：图像和类别都来自各源数据集，与 DIOR/DOTAv2.0 评测集有图像级重合。主评测的"open-set"更准确说是"no fine-tune"而非"novel category"——大部分测试类别都在训练词汇 V_base 中。

2.4.3 DisDop：域先验蒸馏

论文：DisDop: Distillation with Domain Priors for Open-Vocabulary Aerial Object Detection（2026）| 阅读笔记

核心思路：不是从零训大模型，而是从已有遥感基础模型蒸馏域先验到轻量检测器。论文用 "drone's viewpoint" 描述目标场景，但实际评测数据集（DIOR/DOTAv2.0/LAE-80C）都是卫星/高空航拍图，和真正的低空无人机图（如 VisDrone）还有距离。遥感基础模型（RemoteCLIP/DINOv3）在这些数据上有天然优势，因为训练域和评测域一致。

三级域先验蒸馏：

视觉先验蒸馏：DINOv3 的自相似矩阵校准 RemoteCLIP 特征 + 语义自适应异常检测（SA-OD）过滤噪声 patch
- DINOv3：细粒度局部特征好但无文本对齐
- RemoteCLIP：跨模态对齐强但局部特征弱
- 融合：用 DINOv3 的空间结构校准 RemoteCLIP 的语义特征
文本先验蒸馏：Relational Distillation——建模类别间语义关系矩阵做 KL 蒸馏，比直接匹配离散文本嵌入更鲁棒
上下文先验蒸馏：小目标仅靠局部特征难以识别，用 cross-attention 聚合全局场景线索增强局部特征

训练：两阶段——Stage I 在 LAE-1M（无标签）上蒸馏 backbone；Stage II 在标注 LAE-1M 上训练完整检测器

消融：

配置	DIOR AP50	DOTAv2.0 mAP	LAE-80C mAP
baseline（LAE-DINO）	85.5	46.8	20.2
+ 视觉蒸馏	86.6	46.9	19.5
+ 文本蒸馏	86.1	47.1	21.7
+ 上下文蒸馏	86.8	47.0	20.9
全部	87.2	47.5	22.5

2.5 通用 OVD 方法（可迁移技术）

以下方法非专为遥感设计，但核心思路可迁移到低空遥感开放集检测：

2.5.0 范式

开放词汇检测（OVD）的核心问题是：如何让检测器识别训练时未见过的新类别？ 根据已有论文，可归纳为三大范式：

范式	核心思路	开放词汇来源	代表方法	速度	精度特点
A. 视觉-语言对比匹配	文本编码器编码类别名 → 与视觉特征做对比匹配（点积相似度） → 分类	CLIP/MobileCLIP 文本编码器（冻结或微调），类别名可任意扩展	VLDet, YOLO-World, YOLOE	快（YOLO-World 52 FPS）	精度中等，擅长常见类别
B. 视觉-语言深度融合	在检测器多个阶段（Encoder → Query Selection → Decoder）都做图文交互，端到端训练	BERT 编码类别名（参与训练，语义更强但受 256 token 上限），需要大规模 grounding 数据预训练	Grounding DINO, LAE	慢（1-5 FPS）	精度高，零样本强
C. MLLM 生成式检测	将检测统一为语言模型的坐标预测任务，自回归/并行生成 `<box>x1,y1,x2,y2</box>`	MLLM 本身的语言理解能力，支持组合推理（属性+关系），不依赖固定类别词表	Rex-Omni, LocateAnything, Falcon Perception	中等（LocateAnything 12.7 BPS）	密集场景强，但无置信度 → 无法算 mAP

范式 A vs B 的关键区别：

A 用 CLIP 文本编码器（冻结），文本特征可预计算/缓存，推理高效
B 用 BERT（端到端训练），文本语义更强但推理慢、受序列长度限制
YOLOE 的 RepRTA 是 A 的进化：用轻量辅助网络精炼 CLIP 文本嵌入，推理时重参数化为零开销，兼顾 A 的效率和 B 的语义质量

范式 C 的根本差异：

A/B 输出"类别概率 + 框坐标"，天然有置信度 → 可算 mAP
C 输出"坐标 token 序列"，没有置信度 → 只能算 F1，无法构建 PR 曲线
C 的优势是语言理解深度（支持"左边那只红色的猫"这种组合查询），劣势是推理慢、小目标精度差

对低空遥感的范式选择建议：

实时部署 → 范式 A（YOLO-World / YOLOE，Prompt-then-Detect 零文本编码开销）
精度优先 → 范式 B（Grounding DINO / LAE，深度融合语义更强）
密集小目标 + 组合查询 → 范式 C（LocateAnything PBD 并行解码，密集场景速度优势大）
域适配 → 在 A/B 基础上加蒸馏（DisDop 思路）

2.5.1 VLDet

核心：VL-PUB（Visual-Language Pyramid Upscale Block）将 CLIP 的单尺度特征重构为多尺度特征金字塔 + SigRPN（sigmoid-based anchor-text 对比对齐 loss）。解决 CLIP 单尺度不适配检测多尺度需求的问题。| 阅读笔记

2.5.2 YOLO-World

核心：基于 YOLOv8 + CLIP 文本编码器（冻结）+ RepVL-PAN。训练时图文融合，推理时重参数化为纯卷积（Prompt-then-Detect），无需在线文本编码。LVIS zero-shot 35.4 AP @ 52 FPS，比 Grounding DINO-L 快 37 倍且精度更高。

与 Grounding DINO 路线的关键区别：

文本编码器：CLIP（冻结，可预计算）vs BERT（端到端训练，但受 256 token 限制）
推理范式：Prompt-then-Detect（离线编码）vs 在线编码（每次推理都跑 BERT）
速度：52-105 FPS vs 1-5 FPS
数据量：162 万 vs 480-650 万，但 LVIS AP 更高

对低空遥感的启示：实时推理 + 重参数化部署友好，但 CLIP 冻结在遥感视角偏置下可能更弱，需要域适应机制。详见YOLO-World 笔记

2.5.3 YOLOE

核心：统一三种提示范式（Text/Visual/Prompt-Free）的实时开放词汇检测+分割。RepRTA 用轻量辅助网络精炼 CLIP 文本嵌入（推理时重参数化零开销）；SAVPE 解耦语义+激活分支编码视觉提示；LRPC 将 prompt-free 从生成问题转为检索问题（专用嵌入找目标+内置词表检索类别），无需 LLM。训练成本仅 YOLO-World 的 1/3，v8-S 超 YOLO-Worldv2-S 3.5 AP。| 阅读笔记

2.5.4 YOLOE-26

核心：统一 Object Embedding 空间，支持 Text/Visual/Prompt-Free 三种推理模式。NMS-Free 端到端架构，保留 YOLO 效率。内置 4585 类别词表，适合未知场景自动发现。

对低空遥感的启示：Prompt-Free 模式 + 内置大词表，可能适合无人机场景"先发现再确认"的工作流。| 阅读笔记

2.5.5 Rex-Omni

核心：MLLM-based detection，量化坐标 + 特殊 token + SFT+GRPO 两阶段训练。关键发现：GRPO 的主要价值是纠正行为缺陷（重复预测、过大框）而非提升原始坐标精度。

对低空遥感的启示：密集小目标场景下 MLLM 的重复预测问题严重（VisDrone 上 15.3%），GRPO 后训练可有效缓解。| 阅读笔记

2.5.6 Falcon Perception

核心：单一 early-fusion dense transformer，图像 patch 和文本 token 从第一层就共享同一 Transformer。Chain-of-Perception（coord→size→seg）coarse-to-fine 生成。0.6B 参数在 Dense 场景（≥600 实例）吊打大模型。

对低空遥感的启示：密集场景处理能力强，早期融合可能比 encoder-decoder 分离架构更适合无人机密集小目标。| 阅读笔记

2.5.7 LocateAnything

核心：VLM 并行框解码（Parallel Box Decoding, PBD）——将 bbox 视为原子单元一步并行解码，块内双向注意力保持框内几何连贯性。三种推理模式（Fast 16.9 BPS / Slow 52.1 F1 / Hybrid 12.7 BPS）。138M 查询、785M 框的大规模训练数据。

对低空遥感的启示：VisDrone 39.9 F1（+4.1 vs Rex-Omni），密集场景优势明显；Hybrid Mode 12.7 BPS 的速度适合近实时处理。但 3B 参数量 + H100 依赖限制了边缘部署。| 阅读笔记

2.6 Seg2Change（开放词汇变化检测）

核心：将开放词汇语义分割模型适配为变化检测。类别无关变化图（CACH）解耦语义分割与变化推理，摆脱 SAM 依赖和固定阈值。| 阅读笔记

3. 低空遥感评测与数据

3.1 UAVBench & UAVIT-1M

UAVBench：首个低空无人机 VL benchmark，966k 测试样本，43 个测试单元，10 个任务（image-level 6 + region-level 4）| 阅读笔记

UAVIT-1M：1.24M 指令微调数据集，789k 无人机图像，21 个源数据集

核心发现：

所有 MLLM 在低空任务上表现差，尤其是 region-level 任务（检测/grounding）
根本原因：CLIP 视觉编码器在正面视角预训练，低空俯视/斜视视角下语义对齐失败
Instruction tuning 只训练对齐层+LoRA，没动视觉编码器，region-level 提升有限

4. 关键技术问题与未解挑战

4.1 小目标问题

CLIP 224×224 输入下，无人机图中小目标仅 1-3px，视觉编码器看不到
DisDop 的解法：上下文先验蒸馏，用全局场景线索辅助小目标分类
根本解法需要：高分辨率输入、切图训练、或 region-text 对齐（GLIP 范式）

4.2 视角偏置（Perspective Gap）

CLIP 在互联网正面视角图上预训练，低空无人机图包含多样俯仰角
UAVIT-1M 的 instruction tuning 只部分缓解（image-level 任务提升），region-level 仍弱
DisDop 的解法：DINOv3（自监督，不依赖图文对齐）补充局部视觉特征

4.3 开集评估 vs 真正 Novel

LAE-DINO/DisDop 的"open-set"评测更准确说是"no fine-tune"——大部分测试类别都在训练词汇中
真正 novel 的类只在 HRRSD few-shot 实验中测了 3 个
CastDet 的 GZSD 设定需要预先知道 novel 类名，不是真正的"开放"

4.4 大词汇量训练

LAE-1M 有 ~1600 类，远超 BERT 256 token 上限
DVC 每 batch 动态选 60 个类别（正+负），确保所有类别都有机会被学习
但 60 个类别中负类别是随机采样，训练信号可能稀疏

4.5 半自动标注质量

LAE-COD 的 SAM+InternVL 流水线：类别识别还行，但框经常不够紧
只保留面积最大的 top-K RoI → 小目标被系统性忽略
需要更好的 RoI 提取策略或人工质量兜底

5. 未来方向

低空遥感 CLIP 范式基础模型：目前仍没有。UAVIT-1M 走 MLLM 路线，不是 CLIP 对比预训练。789k 无人机图 + 检测框标注可用于 GLIP 范式的 region-text 对齐，同时解决数据统一和小目标对齐
视觉编码器改造：冻结 CLIP ViT 无法根治视角偏置，需要融合多视觉编码器（DINOv3/EVA 等）或设计高分辨率输入
Region-level 对齐：从 image-level（RemoteCLIP）到 region-level（GLIP 范式），是低空遥感 VL 的关键升级
MLLM+检测融合：Rex-Omni 证明了 MLLM 可匹敌传统检测器，但推理速度慢；Falcon Perception 的 early-fusion 架构可能是更优解
GRPO 后训练：对密集场景行为纠正（重复预测/过大框）有效，可迁移到低空遥感检测

参考文献

论文	年份	笔记链接	核心角色
Grounding DINO	2023	笔记	LAE-DINO/DisDop 的检测器基座
RemoteCLIP	2023	笔记	首个遥感 VL 基础模型
CastDet	2023	笔记	首个航空 OVD
YOLO-World	2024	笔记	实时开放词汇检测（YOLO 路线）
LAE-DINO	2024	笔记	大规模数据+检测器
YOLOE	2025	笔记	统一三提示范式实时开放词汇检测
VLDet	2026	笔记	CLIP 特征金字塔适配
YOLOE-26	2026	笔记	统一 Embedding 开放词汇检测
UAVBench	2026	笔记	低空 VL benchmark
Seg2Change	2026	笔记	开放词汇变化检测
Falcon Perception	2026	笔记	Early-fusion dense transformer
Rex-Omni	2026	笔记	MLLM-based detection
DisDop	2026	笔记	域先验蒸馏 SOTA
LocateAnything	2026	笔记	VLM 并行框解码

无人机低空遥感开放集目标检测 ​

1. 问题定义与背景 ​

2. 相关工作 ​

2.1 演进路线 ​

2.2 各工作对比 ​

2.3 RemoteCLIP ​

2.4 航空 OVD 演进 ​

2.4.1 CastDet：首个航空 OVD ​

2.4.2 LAE-DINO：奠基性工作 ​

数据：LAE-Label Engine → LAE-1M ​

模型：LAE-DINO ​

2.4.3 DisDop：域先验蒸馏 ​

2.5 通用 OVD 方法（可迁移技术） ​

2.5.0 范式 ​

2.5.1 VLDet ​

2.5.2 YOLO-World ​

2.5.3 YOLOE ​

2.5.4 YOLOE-26 ​

2.5.5 Rex-Omni ​

2.5.6 Falcon Perception ​

2.5.7 LocateAnything ​

2.6 Seg2Change（开放词汇变化检测） ​

3. 低空遥感评测与数据 ​

3.1 UAVBench & UAVIT-1M ​

4. 关键技术问题与未解挑战 ​

4.1 小目标问题 ​

4.2 视角偏置（Perspective Gap） ​

4.3 开集评估 vs 真正 Novel ​

4.4 大词汇量训练 ​

4.5 半自动标注质量 ​

5. 未来方向 ​

参考文献 ​