SkyFind: A Large-Scale Benchmark Unveiling Referring Expression Comprehension for UAV
发表: IEEE TPAMI 2026
单位: 中国科学技术大学
论文: https://doi.org/10.1109/TPAMI.2026.3681112
GitHub: https://github.com/wangkunyu241/SkyFind
公众号解读: https://mp.weixin.qq.com/s/ijXVTJZIyMSKT2rJbNfPbA
一句话总结
首次将指代表达理解(REC)任务正式拓展到无人机航拍场景,构建了百万级规模的 SkyFind 数据集,并提出 AerialREC 两步定位基线框架。
核心动机
现有 REC 研究全聚焦地面场景(RefCOCO 等),而 UAV 视角有三大独特挑战:
- 背景干扰丰富 — 大视野下大量语义相似的非目标实体
- 目标尺寸极小 — 高空拍摄,目标占图像比例极低(测试集约 0.16%)
- 指代关系复杂 — 表达式更长(均约 27 词),含多层次空间与属性信息
领域鸿沟验证:在 RefCOCO 上训练的模型直接迁移到 SkyFind,IoU@0.5 仅约 5~7%,换 SkyFind 训练后提升 14~20 个百分点。
SkyFind 数据集
统计概览
| 统计项 | 数值 |
|---|---|
| 图像 | 35,599 张 |
| 标注目标 | 352,910 个 |
| 目标-表达式对(原始) | 352,910 条 |
| 目标-表达式对(扩增后) | 1,015,638 条 |
| 表达式平均长度 | 27.15 词(训练/验证)、25.48 词(测试) |
| 词汇量 | 11,934 |
| 目标占图像面积比 | 0.767%(训练/验证)、0.161%(测试) |
| 平均分辨率 | 1952×1155 |
数据来源
14 个公开 UAV 数据集:
- Detection:DroneVehicle、SeaDronesSee、VisDrone2019、UAVDT、AU-AIR
- Counting/Action:CAPRK、MOBDrone、Okutama-Action、Stanford Drone
- Segmentation:Semantic Drone、UAVid、UDD、UVSD、Aeroscapes
网络爬取:YouTube 约 2 万段视频(Creative Commons),帧提取 + P-Hash 去重
标注流程(LM+Manual Pipeline)
| 阶段 | 工具 | 产出 |
|---|---|---|
| 基础描述生成 | CogVLM-grounding-generalist-v1.1-17B | 目标基础文字描述 |
| 位置关系扩展 | LLaVA-1.5-13B | 补充目标与周围环境相对位置 |
| 描述精炼 | GPT-4-turbo | 兼顾外观、类别与位置的简洁表达式 |
| 人工精修 | VIA 工具 + 三子团队 | 处理—验证—复核三步流程 |
效率:平均标注时间从 85s 降至 52s,节省 38.8%
训练集扩增
- GPT-4 为每条表达式生成 2 条语义等价变体
- T-SNE 验证扩增后语义空间覆盖更广且保持语义一致性
- 最终训练集:999,092 对
数据划分
| 子集 | 数量 | 来源 |
|---|---|---|
| 训练集 | 331,364 → 999,092(扩增后) | 网络爬取 + 12 个公开数据集 |
| 验证集 | 5,000 | 同训练来源随机抽取 |
| 测试集 | 16,546 | SeaDronesSee + MOBDrone(海洋场景) |
测试集与训练/验证存在显著分布差异(海洋 vs 陆地),确保评估有效性。
音频模态
Google TTS AI 生成全部文本的音频文件,融入多种音调、音色、口音,支持多模态人机交互研究。
AerialREC 基线框架
核心思路
两步式目标定位:先粗搜索排除干扰,再精定位回归边界框。
两步流程
Search Step(粗搜索)
- 预测潜在目标区域,排除大量无关背景
- 训练标签:在真实框周围随机采样扩大区间生成,非固定值
- 作用:平滑损失函数,降低优化难度
Refine Step(精定位)
- 以第一步区域为视觉提示
- 在更聚焦、干扰更少的区域内精确定位
两步之间用特殊分隔符 <SEP> 区分。
理论支撑
- 随机采样监督等价于对原始损失函数做卷积平滑,形成更宽收敛盆地
- 与延续法(Continuation Method)和课程学习(Curriculum Learning)原理一致:从易到难的渐进优化
实现
- 基于 seq2seq REC 范式
- 在 SeqTR 和 PolyFormer 两个代表性模型上实例化验证
实验结果(待补充)
- AerialREC 在两个基线模型上的具体提升幅度
- 与现有 SOTA REC 方法的对比
- 12 个大规模视觉语言大模型零样本评估结果
- 消融实验:两步策略、随机采样范围、扩增策略等
要点速查
| 项目 | 内容 |
|---|---|
| 新任务 | UAV-based REC |
| 数据集规模 | 1M+ 目标-表达式对 |
| 核心挑战 | 背景干扰、小目标、复杂指代 |
| 方法创新 | 两步式定位(Search → Refine) |
| 标注效率 | 大模型预标注 + 人工精修,省 38.8% 时间 |
| 测试分布 | 海洋场景(与训练陆地场景差异显著) |
