RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes

来源: https://arxiv.org/abs/2502.00392
日期: 2025-11-24
标签: REC, UAV, drone, benchmark, multi-target, small object
研究方向: Computer Vision → Referring Expression Comprehension → UAV-based REC
作者: Zhichao Sun, Yepeng Liu, Zhiling Su, Huachao Zhu, Yuliang Gu, Yuda Zou, Zelong Liu, Gui-Song Xia, Bo Du, Yongchao Xu (Wuhan University)
提交日期: 2025-02-01 (v1), 2025-05-19 (v2), 2025-11-24 (v3)
会议/期刊: arXiv
代码: https://github.com/sunzc-sunny/refdrone
项目主页: (无)

摘要

问题: 无人机航拍场景的指代表达理解（REC）数据集匮乏，现有REC数据集均为地面视角，无法覆盖无人机场景的独特挑战。

方案: 构建了 RefDrone 基准数据集，并提出 NGDINO 方法显式建模目标数量。

关键创新/贡献：

RefDrone 数据集: 首个无人机场景 REC 基准，包含 17,900 表达式、8,536 图像、63,679 目标
RDAnnotator 框架: 多智能体半自动标注系统，降低标注成本至 $0.0539/表达式
NGDINO 方法: 显式预测目标数量，处理多目标/无目标场景

验证:

评估了 26 个 SOTA REC 模型（ specialized REC methods、LVLMs、closed-source APIs）
所有模型在 RefDrone 上性能显著下降（如 Qwen2.5-VL-7B: 26.52% vs RefCOCO: 92.5%）
NGDINO 在 RefDrone、gRefCOCO、RSVG 上取得 SOTA

1 Introduction

背景 & 动机:

无人机在娱乐、物流、交通监控、紧急救援等领域广泛应用
Embodied AI 需要 REC（指代表达理解）能力：用自然语言定位目标
现有 REC 数据集（如 RefCOCO）均为地面视角
无人机视角有独特挑战：多目标（0-242个）、小目标（31%）、复杂环境

RefDrone 数据集规模:

统计项	数值
图像	8,536
表达式	17,900
目标	63,679
平均表达式长度	9.0 词
平均每表达式目标数	3.8
小目标占比	31.1%
无目标表达式	847 条
数据来源	VisDrone2019-DET

RDAnnotator 标注框架:

多 LVLM 模块协作的半自动标注（5步流程）
成本：$0.0539/表达式
人工减少 85%（7分钟→1分钟/表达式）
通过率：42% 直接接受，47% 需微调，11% 拒绝重做

NGDINO 方法核心:

核心 insight：显式建模目标数量对多目标/无目标场景至关重要
三个组件：
1. Number prediction head：预测目标数量（量化 0,1,2,3,4+）
2. Number-queries + number-guided query selection：根据预测数量选择对应 queries
3. Number cross-attention：将数量信息注入检测流程

本文贡献:

RefDrone 基准：首个无人机 REC 基准，覆盖三大挑战，26 个模型评测
RDAnnotator 框架：低成本半自动标注，可扩展到其他 REC 任务
NGDINO 方法：在 RefDrone、gRefCOCO、RSVG 上取得 SOTA

2.1 数据集

类型	数据集	特点
早期	ReferIt, RefCOCO	简单表达式、单一目标
进阶	gRefCOCO, OV-VG, D3, RIS-CQ	多目标、开放词汇、更复杂表达式
领域专用	RSVG（遥感）、RAVAR（视频动作）、RIO（affordance）	特定领域
无人机	RefDrone（本文）	空白填补

LLM 辅助标注：LLaVA、Ferret、RIS-CQ、RIO 等用 LLM 生成表达式，但多为纯文本生成，缺乏视觉接地。本文用迭代反馈机制保证质量。

2.2 方法

类别	代表方法	特点
LMM（大模型）	GPT-4V, Claude 等	通用能力强，但输入分辨率限制导致小目标检测差
两阶段方法	MDETR, GLIP 等	先生成 proposals 再排序，推理慢
一阶段方法	GroundingDINO (GDINO)	直接预测，SOTA 但无法处理多目标/无目标

本文定位：基于 GDINO 改进，加入显式数量建模处理多目标/无目标场景。

3 RefDrone benchmark

3.1 数据来源

基于 VisDrone2019-DET（无人机拍摄的高质量检测数据集）
过滤条件：图像至少 3 个目标，排除边界框面积 < 64 像素的目标
坐标转换为归一化中心点（0-1 范围），减少 LVLM token 数同时保留空间关系

3.2 RDAnnotator 标注框架（5 步）

步骤	输入	输出	说明
Step 1: Scene Understanding	image	3 条 caption	GPT-4o 生成场景描述
Step 2: Color Categorization	image, object, caption	color attribute	CNN (WideResNet-101) + LVLM 混合
Step 3: Expression Generation	image, object, color	expression, referred object	重新表述为对象分组任务
Step 4: Quality Evaluation	image, object, expression	质量评估	错误返回对应步骤重做
Step 5: Human Verification	—	接受/微调/拒绝	三级审核

标注成本：

API 成本：$0.0539/表达式
人工减少 85%（7分钟→1分钟/表达式）
通过率：42% 直接接受，47% 需微调，11% 拒绝重做

3.3 数据集分析

规模：

图像：8,536 张
表达式：17,900 条
目标：63,679 个
类别：10 个
平均表达式长度：9.0 词
平均每表达式目标数：3.8

三大挑战：

多目标/无目标：11,362 多目标 + 847 无目标，目标数范围 0-242
多尺度/小目标：小目标 31%（<1024 像素）、中目标 55%、大目标 14%（>9216 像素）
复杂环境推理：描述对象-对象交互、对象-环境交互，超越简单颜色/空间关系

3.4 评估指标

指标	说明
Instance-level (Accinst., F1inst.)	逐目标评估，IoU≥0.5 为 TP
Image-level (Accimg., F1img.)	整图评估，要求预测集与 GT 集完全匹配
No-target 样本	无预测= TN，有预测= FP

4 NGDINO

整体架构

基于 GDINO（双编码器-单解码器）
改进集中在解码器部分（Fig 6 黄色区域）

4.1 Number Prediction Head

输入：检测 queries $Q_{det} \in \mathbb{R}^{B \times L_d \times D}$
处理：FFN + Mean Pooling + Softmax
输出：目标数量 $N_{pred}$（量化 5 类：{0, 1, 2, 3, 4+}，其中 4+ 代表 4 个或以上）
设计动机：真实数据中目标数量服从 Zipf 分布（长尾），量化成 5 类将开放域回归问题转为稳定的多分类任务

公式： $$N_{prob} = \text{softmax}(\text{MeanPool}(FFN(Q_{det})))$$ $$N_{pred} = \text{argmax}(N_{prob})$$

4.2 Number-queries + Number-guided Query Selection

引入可学习的 number-queries $Q_{num} \in \mathbb{R}^{B \times L_n \times D}$，随机初始化
根据预测数量 $N_{pred}$ 选择对应 slice： $$Q_{num}^{sel} = Q_{num}[:, L_s \cdot N_{pred} : L_s \cdot (N_{pred}+1), :]$$
超参数：$L_s = 10$（每类 10 个 queries），$L_n = 50$（5 类 × 10）

4.3 Number Cross-Attention

Q：检测 queries $Q_{det}$
K, V：选中的 number-queries $Q_{num}^{sel}$
与 self-attention 并行运作，输出加到 self-attention 之后，注入数量信息到检测流程

4.4 Training Objective

GDINO 原损失（边界框回归 + 标签分类）+ Number 预测的 Cross-Entropy 损失
端到端训练

5 Experiments

5.1 Zero-shot Results

测评 26 个模型（3 专用 REC 方法、7 专用 LVLMs、12 通用 LVLMs、4 闭源 API）：

类别	最佳模型	F1inst.
专用 REC 方法	MDETR	8.42%
专用 LVLMs	Rex-Omni	54.06%
通用 LVLMs	Qwen3-VL-235B	58.79%
闭源 API	DINO-XSeek	54.47%

结论：所有模型在 RefDrone 上性能大跌（vs RefCOCO 92.5%），证明数据集难度；Qwen3-VL-235B 最强。

5.2 Fine-tuning Results

RefDrone 数据集：

模型	F1inst.	Accinst.	F1img.	Accimg.
GDINO-T	67.64	51.55	54.54	39.63
NGDINO-T	71.11	55.52	56.51	41.20
GDINO-B	69.75	53.95	56.95	41.81
NGDINO-B	72.51	57.22	57.84	42.54

NGDINO-T 超越 GDINO-T：+3.47% F1inst.
推理速度：13.5 → 12.3 FPS（微降）

gRefCOCO：N-acc 提升 4.15%（testA）和 1.39%（testB）

RSVG：NGDINO-T 在所有指标上超越 GDINO-T 和 EarthGPT

5.3 Ablation Study

配置	F1inst.	提升
基准 GDINO-T	67.64	—
+ Number Prediction Head	69.73	+2.09%
+ Number Cross-Attention	68.88	+1.24%
两者结合	71.11	+3.47%

数量预测 MAE = 0.21，数量预测准确率 75.3%

5.4 Limitations

复杂表达式推理困难
密集背景干扰（目标伪装）
极小目标检测困难

6 Conclusion

(待解读)

个人评价

核心价值:

可借鉴点:

实验设计亮点:

疑问解答 (Q&A)

Q1:

答:

RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes ​

摘要 ​

1 Introduction ​

2 Related Works ​

2.1 数据集 ​

2.2 方法 ​

3 RefDrone benchmark ​

3.1 数据来源 ​

3.2 RDAnnotator 标注框架（5 步） ​

3.3 数据集分析 ​

3.4 评估指标 ​

4 NGDINO ​

整体架构 ​

4.1 Number Prediction Head ​

4.2 Number-queries + Number-guided Query Selection ​

4.3 Number Cross-Attention ​

4.4 Training Objective ​

5 Experiments ​

5.1 Zero-shot Results ​

5.2 Fine-tuning Results ​

5.3 Ablation Study ​

5.4 Limitations ​

6 Conclusion ​

个人评价 ​

疑问解答 (Q&A) ​

Q1: ​

Q2: ​