Skip to content

SkyFind: A Large-Scale Benchmark Unveiling Referring Expression Comprehension for UAV

发表: IEEE TPAMI 2026
单位: 中国科学技术大学
论文: https://doi.org/10.1109/TPAMI.2026.3681112
GitHub: https://github.com/wangkunyu241/SkyFind
公众号解读: https://mp.weixin.qq.com/s/ijXVTJZIyMSKT2rJbNfPbA


一句话总结

首次将指代表达理解(REC)任务正式拓展到无人机航拍场景,构建了百万级规模的 SkyFind 数据集,并提出 AerialREC 两步定位基线框架。


核心动机

现有 REC 研究全聚焦地面场景(RefCOCO 等),而 UAV 视角有三大独特挑战:

  1. 背景干扰丰富 — 大视野下大量语义相似的非目标实体
  2. 目标尺寸极小 — 高空拍摄,目标占图像比例极低(测试集约 0.16%)
  3. 指代关系复杂 — 表达式更长(均约 27 词),含多层次空间与属性信息

领域鸿沟验证:在 RefCOCO 上训练的模型直接迁移到 SkyFind,IoU@0.5 仅约 5~7%,换 SkyFind 训练后提升 14~20 个百分点。


SkyFind 数据集

统计概览

统计项数值
图像35,599 张
标注目标352,910 个
目标-表达式对(原始)352,910 条
目标-表达式对(扩增后)1,015,638 条
表达式平均长度27.15 词(训练/验证)、25.48 词(测试)
词汇量11,934
目标占图像面积比0.767%(训练/验证)、0.161%(测试)
平均分辨率1952×1155

数据来源

14 个公开 UAV 数据集

  • Detection:DroneVehicle、SeaDronesSee、VisDrone2019、UAVDT、AU-AIR
  • Counting/Action:CAPRK、MOBDrone、Okutama-Action、Stanford Drone
  • Segmentation:Semantic Drone、UAVid、UDD、UVSD、Aeroscapes

网络爬取:YouTube 约 2 万段视频(Creative Commons),帧提取 + P-Hash 去重

标注流程(LM+Manual Pipeline)

阶段工具产出
基础描述生成CogVLM-grounding-generalist-v1.1-17B目标基础文字描述
位置关系扩展LLaVA-1.5-13B补充目标与周围环境相对位置
描述精炼GPT-4-turbo兼顾外观、类别与位置的简洁表达式
人工精修VIA 工具 + 三子团队处理—验证—复核三步流程

效率:平均标注时间从 85s 降至 52s,节省 38.8%

训练集扩增

  • GPT-4 为每条表达式生成 2 条语义等价变体
  • T-SNE 验证扩增后语义空间覆盖更广且保持语义一致性
  • 最终训练集:999,092 对

数据划分

子集数量来源
训练集331,364 → 999,092(扩增后)网络爬取 + 12 个公开数据集
验证集5,000同训练来源随机抽取
测试集16,546SeaDronesSee + MOBDrone(海洋场景)

测试集与训练/验证存在显著分布差异(海洋 vs 陆地),确保评估有效性。

音频模态

Google TTS AI 生成全部文本的音频文件,融入多种音调、音色、口音,支持多模态人机交互研究。


AerialREC 基线框架

核心思路

两步式目标定位:先粗搜索排除干扰,再精定位回归边界框。

两步流程

  1. Search Step(粗搜索)

    • 预测潜在目标区域,排除大量无关背景
    • 训练标签:在真实框周围随机采样扩大区间生成,非固定值
    • 作用:平滑损失函数,降低优化难度
  2. Refine Step(精定位)

    • 以第一步区域为视觉提示
    • 在更聚焦、干扰更少的区域内精确定位

两步之间用特殊分隔符 <SEP> 区分。

理论支撑

  • 随机采样监督等价于对原始损失函数做卷积平滑,形成更宽收敛盆地
  • 与延续法(Continuation Method)和课程学习(Curriculum Learning)原理一致:从易到难的渐进优化

实现

  • 基于 seq2seq REC 范式
  • 在 SeqTR 和 PolyFormer 两个代表性模型上实例化验证

实验结果(待补充)

  • AerialREC 在两个基线模型上的具体提升幅度
  • 与现有 SOTA REC 方法的对比
  • 12 个大规模视觉语言大模型零样本评估结果
  • 消融实验:两步策略、随机采样范围、扩增策略等

要点速查

项目内容
新任务UAV-based REC
数据集规模1M+ 目标-表达式对
核心挑战背景干扰、小目标、复杂指代
方法创新两步式定位(Search → Refine)
标注效率大模型预标注 + 人工精修,省 38.8% 时间
测试分布海洋场景(与训练陆地场景差异显著)