VisDrone（无人机）数据集

VisDrone: 大规模无人机视觉目标检测、跟踪、人群计数基准数据集

概述

项目	内容
全称	Vision Meets Drone Dataset
发布机构	天津大学 AISKYEYE 团队
首次发布	2018 (与 ECCV 2018 联合)
数据来源	多种无人机平台，不同场景、天气、光照条件
覆盖	中国 14+ 个城市
官网	https://aiskyeye.com/

下载地址：https://github.com/VisDrone/VisDrone-Dataset

版本演进

年份	联合会议	静态图像	视频帧数	标注数	主要变化
2018	ECCV 2018	10,209	~260K	~2.5M	首届，基础数据
2019	ICCV 2019	10,209	261,908	471K	第一届挑战赛
2020	ECCV 2020	10,209	265,228	2.6M+	400 视频 clips，多属性标注
2021	ICCV 2021	-	-	-	首次引入 ZSD 任务
2022	PRCV 2022	-	-	-	继续扩展
2023	ICCV 2023	-	-	-	更复杂城市场景
2024	CCDM 2024	-	-	-	目标检测 + ZSD

常规检测任务 (10 类)

类别列表

pedestrian (行人)
person (人)
bicycle (自行车)
car (汽车)
van (厢式货车)
truck (卡车)
tricycle (三轮车)
awning-tricycle (遮阳三轮车)
bus (公交车)
motor (摩托车)

数据划分 (VisDrone2019)

Split	图像数	用途
Train	6,471	训练
Val	548	验证
Test-dev	1,610	论文评测
Test-challenge	~1,580	挑战赛

图像分辨率：1920x1080 / 960x540 / 1360x765

数据特点

挑战	描述
小目标密集	无人机视角下物体小而密集
遮挡严重	城市环境中物体互相遮挡
尺度变化大	高空到低空，物体尺度差异大
类别不平衡	车类多，行人/骑行者少

标注属性

边界框坐标 (x, y, w, h)
类别 ID
遮挡程度 (occlusion)
可见度 (visibility)

ZSD 零样本检测任务 (21 类)

注意：ZSD 任务使用另一套遥感数据集 (>20k 张)，类别类似 DOTA，不是 VisDrone 原有的 10 类

类别划分

类型	类别数	列表
Seen 类	16	airplane, baseballfield, bridge, chimney, dam, Expressway-Service-area, Expressway-toll-station, golffield, harbor, overpass, ship, stadium, storagetank, tenniscourt, trainstation, vehicle
Unseen 类	4	airport, basketballcourt, groundtrackfield, windmill
背景类	1	-

测试集

Test-GZSD: 3,337 张图像
评测指标: Average Precision, Recall@100 (IoU=0.5)
任务设置: GZSD (Generalized ZSD) — 同时检测 seen 和 unseen 类别

ZSD 技术路径 + SOTA 方法

技术路线

路线	思路	典型方法
语义嵌入	Word2Vec/GloVe/BERT/CLIP 类别向量，训练映射	GBWS, SAE
视觉-语言蒸馏	CLIP 知识蒸馏到检测器	ViLD (Microsoft)
原型迁移	seen 类原型通过语义相似性迁移到 unseen	-
对比学习	视觉-语义对比学习泛化新类	-
Transformer 方法	Open-Vocabulary	OWL-ViT, Grounding DINO

SOTA 方法

OVA-DETR (2024)

论文: arXiv:2408.12246
核心: RT-DETR + 双向视觉语言融合 (Bi-VLF)
组件: DAFE 编码器 + MTFD 解码器
结果: VisDrone mAP 58.8% (800²) → 63.6% (1280²)
优势: 开集检测，ZSD/GZSD 超越 YOLO-World

DescReg (2024)

论文: arXiv:2402.18233 (AAAI 2024)
核心: Visual Description Regularization
适配: Faster R-CNN, Cascaded R-CNN, YOLOv8
结果: DIOR/xView/DOTA SOTA

挑战赛

目标检测 (10 类): https://aiskyeye.com/object-detection_2024/

为防止过拟合并提升算法泛化能力，测试集分为两部分：

ZSD 零样本检测: https://aiskyeye.com/zero-shot-object-detection_2024/
- 20k张静态图像，test-GZSD 3,337 张图像
- 同时评估对 seen + unseen 类别的检测能力
- 下载页面同时提供21x1024类别词向量
排名: https://aiskyeye.com/evaluate/leaderboard_2024/

技术路线总结

任务类型	推荐方法	核心思路
常规检测 (10类)	CF-YOLO / LAM-YOLO	YOLO 家族小目标优化，多尺度特征融合，P2 检测头
ZSD 零样本检测	OVA-DETR	CLIP 文本编码 + 视觉语言融合

核心难点

小目标密集: 无人机视角下物体小而密集
遮挡严重: 城市环境中物体互相遮挡
尺度变化大: 高空到低空，物体尺度差异大

常规检测优化方向

P2 检测头（增强小目标特征）
跨尺度特征金字塔 (CS-FPN)
注意力机制增强特征交互
轻量化模型设计

参考链接

官网: https://aiskyeye.com/
GitHub: https://github.com/VisDrone/VisDrone-Dataset
Ultralytics 集成: https://docs.ultralytics.com/datasets/detect/visdrone/

总结

VisDrone 是无人机视觉领域最广泛使用的数据集：

连续 7 年 (2018-2024) 与顶级会议联合举办挑战赛
两个独立任务：
- 常规检测：10 类，UAV 低空视角
- ZSD 零样本检测：21 类，遥感视角
特点：小目标密集、遮挡严重、尺度变化大