RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes
- 来源: https://arxiv.org/abs/2502.00392
- 日期: 2025-11-24
- 标签:
REC,UAV,drone,benchmark,multi-target,small object - 研究方向: Computer Vision → Referring Expression Comprehension → UAV-based REC
- 作者: Zhichao Sun, Yepeng Liu, Zhiling Su, Huachao Zhu, Yuliang Gu, Yuda Zou, Zelong Liu, Gui-Song Xia, Bo Du, Yongchao Xu (Wuhan University)
- 提交日期: 2025-02-01 (v1), 2025-05-19 (v2), 2025-11-24 (v3)
- 会议/期刊: arXiv
- 代码: https://github.com/sunzc-sunny/refdrone
- 项目主页: (无)
摘要
问题: 无人机航拍场景的指代表达理解(REC)数据集匮乏,现有REC数据集均为地面视角,无法覆盖无人机场景的独特挑战。
方案: 构建了 RefDrone 基准数据集,并提出 NGDINO 方法显式建模目标数量。
关键创新/贡献:
- RefDrone 数据集: 首个无人机场景 REC 基准,包含 17,900 表达式、8,536 图像、63,679 目标
- RDAnnotator 框架: 多智能体半自动标注系统,降低标注成本至 $0.0539/表达式
- NGDINO 方法: 显式预测目标数量,处理多目标/无目标场景
验证:
- 评估了 26 个 SOTA REC 模型( specialized REC methods、LVLMs、closed-source APIs)
- 所有模型在 RefDrone 上性能显著下降(如 Qwen2.5-VL-7B: 26.52% vs RefCOCO: 92.5%)
- NGDINO 在 RefDrone、gRefCOCO、RSVG 上取得 SOTA
1 Introduction
背景 & 动机:
- 无人机在娱乐、物流、交通监控、紧急救援等领域广泛应用
- Embodied AI 需要 REC(指代表达理解)能力:用自然语言定位目标
- 现有 REC 数据集(如 RefCOCO)均为地面视角
- 无人机视角有独特挑战:多目标(0-242个)、小目标(31%)、复杂环境
RefDrone 数据集规模:
| 统计项 | 数值 |
|---|---|
| 图像 | 8,536 |
| 表达式 | 17,900 |
| 目标 | 63,679 |
| 平均表达式长度 | 9.0 词 |
| 平均每表达式目标数 | 3.8 |
| 小目标占比 | 31.1% |
| 无目标表达式 | 847 条 |
| 数据来源 | VisDrone2019-DET |
RDAnnotator 标注框架:
- 多 LVLM 模块协作的半自动标注(5步流程)
- 成本:$0.0539/表达式
- 人工减少 85%(7分钟→1分钟/表达式)
- 通过率:42% 直接接受,47% 需微调,11% 拒绝重做
NGDINO 方法核心:
- 核心 insight:显式建模目标数量对多目标/无目标场景至关重要
- 三个组件:
- Number prediction head:预测目标数量(量化 0,1,2,3,4+)
- Number-queries + number-guided query selection:根据预测数量选择对应 queries
- Number cross-attention:将数量信息注入检测流程
本文贡献:
- RefDrone 基准:首个无人机 REC 基准,覆盖三大挑战,26 个模型评测
- RDAnnotator 框架:低成本半自动标注,可扩展到其他 REC 任务
- NGDINO 方法:在 RefDrone、gRefCOCO、RSVG 上取得 SOTA
2 Related Works
2.1 数据集
| 类型 | 数据集 | 特点 |
|---|---|---|
| 早期 | ReferIt, RefCOCO | 简单表达式、单一目标 |
| 进阶 | gRefCOCO, OV-VG, D3, RIS-CQ | 多目标、开放词汇、更复杂表达式 |
| 领域专用 | RSVG(遥感)、RAVAR(视频动作)、RIO(affordance) | 特定领域 |
| 无人机 | RefDrone(本文) | 空白填补 |
LLM 辅助标注:LLaVA、Ferret、RIS-CQ、RIO 等用 LLM 生成表达式,但多为纯文本生成,缺乏视觉接地。本文用迭代反馈机制保证质量。
2.2 方法
| 类别 | 代表方法 | 特点 |
|---|---|---|
| LMM(大模型) | GPT-4V, Claude 等 | 通用能力强,但输入分辨率限制导致小目标检测差 |
| 两阶段方法 | MDETR, GLIP 等 | 先生成 proposals 再排序,推理慢 |
| 一阶段方法 | GroundingDINO (GDINO) | 直接预测,SOTA 但无法处理多目标/无目标 |
本文定位:基于 GDINO 改进,加入显式数量建模处理多目标/无目标场景。
3 RefDrone benchmark
3.1 数据来源
- 基于 VisDrone2019-DET(无人机拍摄的高质量检测数据集)
- 过滤条件:图像至少 3 个目标,排除边界框面积 < 64 像素的目标
- 坐标转换为归一化中心点(0-1 范围),减少 LVLM token 数同时保留空间关系
3.2 RDAnnotator 标注框架(5 步)
| 步骤 | 输入 | 输出 | 说明 |
|---|---|---|---|
| Step 1: Scene Understanding | image | 3 条 caption | GPT-4o 生成场景描述 |
| Step 2: Color Categorization | image, object, caption | color attribute | CNN (WideResNet-101) + LVLM 混合 |
| Step 3: Expression Generation | image, object, color | expression, referred object | 重新表述为对象分组任务 |
| Step 4: Quality Evaluation | image, object, expression | 质量评估 | 错误返回对应步骤重做 |
| Step 5: Human Verification | — | 接受/微调/拒绝 | 三级审核 |
标注成本:
- API 成本:$0.0539/表达式
- 人工减少 85%(7分钟→1分钟/表达式)
- 通过率:42% 直接接受,47% 需微调,11% 拒绝重做
3.3 数据集分析
规模:
- 图像:8,536 张
- 表达式:17,900 条
- 目标:63,679 个
- 类别:10 个
- 平均表达式长度:9.0 词
- 平均每表达式目标数:3.8
三大挑战:
- 多目标/无目标:11,362 多目标 + 847 无目标,目标数范围 0-242
- 多尺度/小目标:小目标 31%(<1024 像素)、中目标 55%、大目标 14%(>9216 像素)
- 复杂环境推理:描述对象-对象交互、对象-环境交互,超越简单颜色/空间关系
3.4 评估指标
| 指标 | 说明 |
|---|---|
| Instance-level (Accinst., F1inst.) | 逐目标评估,IoU≥0.5 为 TP |
| Image-level (Accimg., F1img.) | 整图评估,要求预测集与 GT 集完全匹配 |
| No-target 样本 | 无预测= TN,有预测= FP |
4 NGDINO
整体架构
- 基于 GDINO(双编码器-单解码器)
- 改进集中在解码器部分(Fig 6 黄色区域)
4.1 Number Prediction Head
- 输入:检测 queries $Q_{det} \in \mathbb{R}^{B \times L_d \times D}$
- 处理:FFN + Mean Pooling + Softmax
- 输出:目标数量 $N_{pred}$(量化 5 类:{0, 1, 2, 3, 4+},其中 4+ 代表 4 个或以上)
- 设计动机:真实数据中目标数量服从 Zipf 分布(长尾),量化成 5 类将开放域回归问题转为稳定的多分类任务
公式: $$N_{prob} = \text{softmax}(\text{MeanPool}(FFN(Q_{det})))$$ $$N_{pred} = \text{argmax}(N_{prob})$$
4.2 Number-queries + Number-guided Query Selection
- 引入可学习的 number-queries $Q_{num} \in \mathbb{R}^{B \times L_n \times D}$,随机初始化
- 根据预测数量 $N_{pred}$ 选择对应 slice: $$Q_{num}^{sel} = Q_{num}[:, L_s \cdot N_{pred} : L_s \cdot (N_{pred}+1), :]$$
- 超参数:$L_s = 10$(每类 10 个 queries),$L_n = 50$(5 类 × 10)
4.3 Number Cross-Attention
- Q:检测 queries $Q_{det}$
- K, V:选中的 number-queries $Q_{num}^{sel}$
- 与 self-attention 并行运作,输出加到 self-attention 之后,注入数量信息到检测流程
4.4 Training Objective
- GDINO 原损失(边界框回归 + 标签分类)+ Number 预测的 Cross-Entropy 损失
- 端到端训练
5 Experiments
5.1 Zero-shot Results
测评 26 个模型(3 专用 REC 方法、7 专用 LVLMs、12 通用 LVLMs、4 闭源 API):
| 类别 | 最佳模型 | F1inst. |
|---|---|---|
| 专用 REC 方法 | MDETR | 8.42% |
| 专用 LVLMs | Rex-Omni | 54.06% |
| 通用 LVLMs | Qwen3-VL-235B | 58.79% |
| 闭源 API | DINO-XSeek | 54.47% |
结论:所有模型在 RefDrone 上性能大跌(vs RefCOCO 92.5%),证明数据集难度;Qwen3-VL-235B 最强。
5.2 Fine-tuning Results
RefDrone 数据集:
| 模型 | F1inst. | Accinst. | F1img. | Accimg. |
|---|---|---|---|---|
| GDINO-T | 67.64 | 51.55 | 54.54 | 39.63 |
| NGDINO-T | 71.11 | 55.52 | 56.51 | 41.20 |
| GDINO-B | 69.75 | 53.95 | 56.95 | 41.81 |
| NGDINO-B | 72.51 | 57.22 | 57.84 | 42.54 |
- NGDINO-T 超越 GDINO-T:+3.47% F1inst.
- 推理速度:13.5 → 12.3 FPS(微降)
gRefCOCO:N-acc 提升 4.15%(testA)和 1.39%(testB)
RSVG:NGDINO-T 在所有指标上超越 GDINO-T 和 EarthGPT
5.3 Ablation Study
| 配置 | F1inst. | 提升 |
|---|---|---|
| 基准 GDINO-T | 67.64 | — |
| + Number Prediction Head | 69.73 | +2.09% |
| + Number Cross-Attention | 68.88 | +1.24% |
| 两者结合 | 71.11 | +3.47% |
- 数量预测 MAE = 0.21,数量预测准确率 75.3%
5.4 Limitations
- 复杂表达式推理困难
- 密集背景干扰(目标伪装)
- 极小目标检测困难
6 Conclusion
(待解读)
个人评价
核心价值:
可借鉴点:
实验设计亮点:
疑问解答 (Q&A)
Q1:
答:
