SkyFind: A Large-Scale Benchmark Unveiling Referring Expression Comprehension for UAV

发表: IEEE TPAMI 2026
单位: 中国科学技术大学
论文: https://doi.org/10.1109/TPAMI.2026.3681112
GitHub: https://github.com/wangkunyu241/SkyFind
公众号解读: https://mp.weixin.qq.com/s/ijXVTJZIyMSKT2rJbNfPbA

一句话总结

首次将指代表达理解（REC）任务正式拓展到无人机航拍场景，构建了百万级规模的 SkyFind 数据集，并提出 AerialREC 两步定位基线框架。

核心动机

现有 REC 研究全聚焦地面场景（RefCOCO 等），而 UAV 视角有三大独特挑战：

背景干扰丰富 — 大视野下大量语义相似的非目标实体
目标尺寸极小 — 高空拍摄，目标占图像比例极低（测试集约 0.16%）
指代关系复杂 — 表达式更长（均约 27 词），含多层次空间与属性信息

领域鸿沟验证：在 RefCOCO 上训练的模型直接迁移到 SkyFind，IoU@0.5 仅约 5~7%，换 SkyFind 训练后提升 14~20 个百分点。

SkyFind 数据集

统计概览

统计项	数值
图像	35,599 张
标注目标	352,910 个
目标-表达式对（原始）	352,910 条
目标-表达式对（扩增后）	1,015,638 条
表达式平均长度	27.15 词（训练/验证）、25.48 词（测试）
词汇量	11,934
目标占图像面积比	0.767%（训练/验证）、0.161%（测试）
平均分辨率	1952×1155

数据来源

14 个公开 UAV 数据集：

Detection：DroneVehicle、SeaDronesSee、VisDrone2019、UAVDT、AU-AIR
Counting/Action：CAPRK、MOBDrone、Okutama-Action、Stanford Drone
Segmentation：Semantic Drone、UAVid、UDD、UVSD、Aeroscapes

网络爬取：YouTube 约 2 万段视频（Creative Commons），帧提取 + P-Hash 去重

标注流程（LM+Manual Pipeline）

阶段	工具	产出
基础描述生成	CogVLM-grounding-generalist-v1.1-17B	目标基础文字描述
位置关系扩展	LLaVA-1.5-13B	补充目标与周围环境相对位置
描述精炼	GPT-4-turbo	兼顾外观、类别与位置的简洁表达式
人工精修	VIA 工具 + 三子团队	处理—验证—复核三步流程

效率：平均标注时间从 85s 降至 52s，节省 38.8%

训练集扩增

GPT-4 为每条表达式生成 2 条语义等价变体
T-SNE 验证扩增后语义空间覆盖更广且保持语义一致性
最终训练集：999,092 对

数据划分

子集	数量	来源
训练集	331,364 → 999,092（扩增后）	网络爬取 + 12 个公开数据集
验证集	5,000	同训练来源随机抽取
测试集	16,546	SeaDronesSee + MOBDrone（海洋场景）

测试集与训练/验证存在显著分布差异（海洋 vs 陆地），确保评估有效性。

音频模态

Google TTS AI 生成全部文本的音频文件，融入多种音调、音色、口音，支持多模态人机交互研究。

AerialREC 基线框架

核心思路

两步式目标定位：先粗搜索排除干扰，再精定位回归边界框。

两步流程

Search Step（粗搜索）
- 预测潜在目标区域，排除大量无关背景
- 训练标签：在真实框周围随机采样扩大区间生成，非固定值
- 作用：平滑损失函数，降低优化难度
Refine Step（精定位）
- 以第一步区域为视觉提示
- 在更聚焦、干扰更少的区域内精确定位

两步之间用特殊分隔符 <SEP> 区分。

理论支撑

随机采样监督等价于对原始损失函数做卷积平滑，形成更宽收敛盆地
与延续法（Continuation Method）和课程学习（Curriculum Learning）原理一致：从易到难的渐进优化

实现

基于 seq2seq REC 范式
在 SeqTR 和 PolyFormer 两个代表性模型上实例化验证

实验结果（待补充）

AerialREC 在两个基线模型上的具体提升幅度
与现有 SOTA REC 方法的对比
12 个大规模视觉语言大模型零样本评估结果
消融实验：两步策略、随机采样范围、扩增策略等

要点速查

项目	内容
新任务	UAV-based REC
数据集规模	1M+ 目标-表达式对
核心挑战	背景干扰、小目标、复杂指代
方法创新	两步式定位（Search → Refine）
标注效率	大模型预标注 + 人工精修，省 38.8% 时间
测试分布	海洋场景（与训练陆地场景差异显著）

SkyFind: A Large-Scale Benchmark Unveiling Referring Expression Comprehension for UAV ​

一句话总结 ​

核心动机 ​

SkyFind 数据集 ​

统计概览 ​

数据来源 ​

标注流程（LM+Manual Pipeline） ​

训练集扩增 ​

数据划分 ​

音频模态 ​

AerialREC 基线框架 ​

核心思路 ​

两步流程 ​

理论支撑 ​

实现 ​

实验结果（待补充） ​

要点速查 ​