Skip to content

RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes

  • 来源: https://arxiv.org/abs/2502.00392
  • 日期: 2025-11-24
  • 标签: REC, UAV, drone, benchmark, multi-target, small object
  • 研究方向: Computer Vision → Referring Expression Comprehension → UAV-based REC
  • 作者: Zhichao Sun, Yepeng Liu, Zhiling Su, Huachao Zhu, Yuliang Gu, Yuda Zou, Zelong Liu, Gui-Song Xia, Bo Du, Yongchao Xu (Wuhan University)
  • 提交日期: 2025-02-01 (v1), 2025-05-19 (v2), 2025-11-24 (v3)
  • 会议/期刊: arXiv
  • 代码: https://github.com/sunzc-sunny/refdrone
  • 项目主页: (无)

摘要

问题: 无人机航拍场景的指代表达理解(REC)数据集匮乏,现有REC数据集均为地面视角,无法覆盖无人机场景的独特挑战。

方案: 构建了 RefDrone 基准数据集,并提出 NGDINO 方法显式建模目标数量。

关键创新/贡献

  • RefDrone 数据集: 首个无人机场景 REC 基准,包含 17,900 表达式、8,536 图像、63,679 目标
  • RDAnnotator 框架: 多智能体半自动标注系统,降低标注成本至 $0.0539/表达式
  • NGDINO 方法: 显式预测目标数量,处理多目标/无目标场景

验证:

  • 评估了 26 个 SOTA REC 模型( specialized REC methods、LVLMs、closed-source APIs)
  • 所有模型在 RefDrone 上性能显著下降(如 Qwen2.5-VL-7B: 26.52% vs RefCOCO: 92.5%)
  • NGDINO 在 RefDrone、gRefCOCO、RSVG 上取得 SOTA

1 Introduction

背景 & 动机:

  • 无人机在娱乐、物流、交通监控、紧急救援等领域广泛应用
  • Embodied AI 需要 REC(指代表达理解)能力:用自然语言定位目标
  • 现有 REC 数据集(如 RefCOCO)均为地面视角
  • 无人机视角有独特挑战:多目标(0-242个)、小目标(31%)、复杂环境

RefDrone 数据集规模:

统计项数值
图像8,536
表达式17,900
目标63,679
平均表达式长度9.0 词
平均每表达式目标数3.8
小目标占比31.1%
无目标表达式847 条
数据来源VisDrone2019-DET

RDAnnotator 标注框架:

  • 多 LVLM 模块协作的半自动标注(5步流程)
  • 成本:$0.0539/表达式
  • 人工减少 85%(7分钟→1分钟/表达式)
  • 通过率:42% 直接接受,47% 需微调,11% 拒绝重做

NGDINO 方法核心:

  • 核心 insight:显式建模目标数量对多目标/无目标场景至关重要
  • 三个组件:
    1. Number prediction head:预测目标数量(量化 0,1,2,3,4+)
    2. Number-queries + number-guided query selection:根据预测数量选择对应 queries
    3. Number cross-attention:将数量信息注入检测流程

本文贡献:

  1. RefDrone 基准:首个无人机 REC 基准,覆盖三大挑战,26 个模型评测
  2. RDAnnotator 框架:低成本半自动标注,可扩展到其他 REC 任务
  3. NGDINO 方法:在 RefDrone、gRefCOCO、RSVG 上取得 SOTA

2.1 数据集

类型数据集特点
早期ReferIt, RefCOCO简单表达式、单一目标
进阶gRefCOCO, OV-VG, D3, RIS-CQ多目标、开放词汇、更复杂表达式
领域专用RSVG(遥感)、RAVAR(视频动作)、RIO(affordance)特定领域
无人机RefDrone(本文)空白填补

LLM 辅助标注:LLaVA、Ferret、RIS-CQ、RIO 等用 LLM 生成表达式,但多为纯文本生成,缺乏视觉接地。本文用迭代反馈机制保证质量。

2.2 方法

类别代表方法特点
LMM(大模型)GPT-4V, Claude 等通用能力强,但输入分辨率限制导致小目标检测差
两阶段方法MDETR, GLIP 等先生成 proposals 再排序,推理慢
一阶段方法GroundingDINO (GDINO)直接预测,SOTA 但无法处理多目标/无目标

本文定位:基于 GDINO 改进,加入显式数量建模处理多目标/无目标场景。

3 RefDrone benchmark

3.1 数据来源

  • 基于 VisDrone2019-DET(无人机拍摄的高质量检测数据集)
  • 过滤条件:图像至少 3 个目标,排除边界框面积 < 64 像素的目标
  • 坐标转换为归一化中心点(0-1 范围),减少 LVLM token 数同时保留空间关系

3.2 RDAnnotator 标注框架(5 步)

步骤输入输出说明
Step 1: Scene Understandingimage3 条 captionGPT-4o 生成场景描述
Step 2: Color Categorizationimage, object, captioncolor attributeCNN (WideResNet-101) + LVLM 混合
Step 3: Expression Generationimage, object, colorexpression, referred object重新表述为对象分组任务
Step 4: Quality Evaluationimage, object, expression质量评估错误返回对应步骤重做
Step 5: Human Verification接受/微调/拒绝三级审核

标注成本

  • API 成本:$0.0539/表达式
  • 人工减少 85%(7分钟→1分钟/表达式)
  • 通过率:42% 直接接受,47% 需微调,11% 拒绝重做

3.3 数据集分析

规模

  • 图像:8,536 张
  • 表达式:17,900 条
  • 目标:63,679 个
  • 类别:10 个
  • 平均表达式长度:9.0 词
  • 平均每表达式目标数:3.8

三大挑战

  1. 多目标/无目标:11,362 多目标 + 847 无目标,目标数范围 0-242
  2. 多尺度/小目标:小目标 31%(<1024 像素)、中目标 55%、大目标 14%(>9216 像素)
  3. 复杂环境推理:描述对象-对象交互、对象-环境交互,超越简单颜色/空间关系

3.4 评估指标

指标说明
Instance-level (Accinst., F1inst.)逐目标评估,IoU≥0.5 为 TP
Image-level (Accimg., F1img.)整图评估,要求预测集与 GT 集完全匹配
No-target 样本无预测= TN,有预测= FP

4 NGDINO

整体架构

  • 基于 GDINO(双编码器-单解码器)
  • 改进集中在解码器部分(Fig 6 黄色区域)

4.1 Number Prediction Head

  • 输入:检测 queries $Q_{det} \in \mathbb{R}^{B \times L_d \times D}$
  • 处理:FFN + Mean Pooling + Softmax
  • 输出:目标数量 $N_{pred}$(量化 5 类:{0, 1, 2, 3, 4+},其中 4+ 代表 4 个或以上)
  • 设计动机:真实数据中目标数量服从 Zipf 分布(长尾),量化成 5 类将开放域回归问题转为稳定的多分类任务

公式: $$N_{prob} = \text{softmax}(\text{MeanPool}(FFN(Q_{det})))$$ $$N_{pred} = \text{argmax}(N_{prob})$$

4.2 Number-queries + Number-guided Query Selection

  • 引入可学习的 number-queries $Q_{num} \in \mathbb{R}^{B \times L_n \times D}$,随机初始化
  • 根据预测数量 $N_{pred}$ 选择对应 slice: $$Q_{num}^{sel} = Q_{num}[:, L_s \cdot N_{pred} : L_s \cdot (N_{pred}+1), :]$$
  • 超参数:$L_s = 10$(每类 10 个 queries),$L_n = 50$(5 类 × 10)

4.3 Number Cross-Attention

  • Q:检测 queries $Q_{det}$
  • K, V:选中的 number-queries $Q_{num}^{sel}$
  • 与 self-attention 并行运作,输出加到 self-attention 之后,注入数量信息到检测流程

4.4 Training Objective

  • GDINO 原损失(边界框回归 + 标签分类)+ Number 预测的 Cross-Entropy 损失
  • 端到端训练

5 Experiments

5.1 Zero-shot Results

测评 26 个模型(3 专用 REC 方法、7 专用 LVLMs、12 通用 LVLMs、4 闭源 API):

类别最佳模型F1inst.
专用 REC 方法MDETR8.42%
专用 LVLMsRex-Omni54.06%
通用 LVLMsQwen3-VL-235B58.79%
闭源 APIDINO-XSeek54.47%

结论:所有模型在 RefDrone 上性能大跌(vs RefCOCO 92.5%),证明数据集难度;Qwen3-VL-235B 最强。

5.2 Fine-tuning Results

RefDrone 数据集

模型F1inst.Accinst.F1img.Accimg.
GDINO-T67.6451.5554.5439.63
NGDINO-T71.1155.5256.5141.20
GDINO-B69.7553.9556.9541.81
NGDINO-B72.5157.2257.8442.54
  • NGDINO-T 超越 GDINO-T:+3.47% F1inst.
  • 推理速度:13.5 → 12.3 FPS(微降)

gRefCOCO:N-acc 提升 4.15%(testA)和 1.39%(testB)

RSVG:NGDINO-T 在所有指标上超越 GDINO-T 和 EarthGPT

5.3 Ablation Study

配置F1inst.提升
基准 GDINO-T67.64
+ Number Prediction Head69.73+2.09%
+ Number Cross-Attention68.88+1.24%
两者结合71.11+3.47%
  • 数量预测 MAE = 0.21,数量预测准确率 75.3%

5.4 Limitations

  1. 复杂表达式推理困难
  2. 密集背景干扰(目标伪装)
  3. 极小目标检测困难

6 Conclusion

(待解读)


个人评价

核心价值:

可借鉴点:

实验设计亮点:


疑问解答 (Q&A)

Q1:

:


Q2: