Detection and Tracking Meet Drones Challenge

来源: https://arxiv.org/abs/2001.06303
本地PDF: ../raw/2020-01-17-visdrone.pdf
日期: 2020-01-17
标签: drone, object detection, tracking, benchmark, VisDrone
研究方向: 无人机目标检测与跟踪
核心贡献: 发布VisDrone大规模无人机检测跟踪数据集（263视频+10k图像，250万+标注框），组织ECCV 2018/ICCV 2019/ECCV 2020挑战赛，吸引100+团队
方法简述: 四个赛道：DET图像检测、VID视频检测、SOT单目标跟踪、MOT多目标跟踪
关键结果: 当年最大规模无人机视觉数据集
缺点/局限: 仅中国14个城市数据，类别有限（10类）
可复用代码: https://github.com/VisDrone/VisDrone-Dataset
个人评价: 开创性工作，但后续有更完善的Anti-UAV等数据集

Abstract

1. Introduction

背景

无人机市场2028年预计达5014亿美元（CAGR 57.5%）
应用场景：农业、航空摄影、物流配送、安保监控、搜救

无人机视觉的特殊挑战

挑战	说明
视角变化	无人机可从任意角度拍摄，区别于固定监控摄像头
尺度变化	不同飞行高度导致目标尺度差异大
运动模糊	飞行中拍摄导致视频模糊

Challenge 组织

ECCV 2018 → ICCV 2019 → ECCV 2020
全球100+团队参赛
四个赛道：DET（图像检测）、VID（视频检测）、SOT（单目标跟踪）、MOT（多目标跟踪）

数据集规模

263个视频片段，共179,264帧
10,209张静态图像
覆盖中国14个城市
250万+标注框，10个类别（行人、汽车、公交车、自行车等）
提供了遮挡、可见度等属性标注

Liu et al. [37] 综述300+目标检测论文
Ciaparrone et al. [39] 深度学习MOT算法综述
相关Challenge：CV for UAVs、Low Power Object Detection、VOT、BMTT-PETS、Tiny Object Detection

2.2 各类数据集对比

类型	数据集	场景	规模	特点
图像检测	PASCAL VOC	生活	22.5k图/20类	经典基准
图像检测	MS COCO	生活	328k图/80类	主流基准
图像检测	DOTA	航拍	2.8k图/15类	旋转框
图像检测	VisDrone	无人机	10k图/10类	250万标注
视频检测	VisDrone-VID	无人机	40k帧/10类	高分辨率
单目标跟踪	UAV123	无人机	123序列/110k帧	低空视角
单目标跟踪	GOT-10k	生活	10k序列/150万帧	大规模
单目标跟踪	LaSOT	生活	1.55k序列	长时跟踪
多目标跟踪	UAVDT-MOT	无人机	40k帧	车辆跟踪
多目标跟踪	MOT17	监控	11k帧	行人跟踪

2.3 无人机专用数据集

CARPK：首个无人机车辆计数数据集（1448图）
DOTA：航拍图像大规模数据集，15类旋转框
Okutama-Action：无人机人体行为检测（43分钟）
MOR-UAV：移动目标识别视频数据集
UAV123：无人机单目标跟踪基准（123序列）
UAVDT：无人机目标检测/跟踪综合数据集

结论：VisDrone 相比之前数据集，覆盖更多城市、更多场景、更多任务，是当时最大规模的无人机视觉综合基准。

3. Benchmark (VisDrone Overview)

数据集构成

视频：263个片段，共179,264帧
图像：10,209张静态图像
采集设备：DJI Mavic, Phantom系列 (3, 3A, 3SE, 3P, 4, 4A, 4P)
覆盖区域：中国14个城市（天津、香港、大庆、赣州、广州等）
分辨率：视频最高 3840×2160，图像最高 2000×1500，具体分布不明

10个目标类别

pedestrian, person, car, van, bus, truck, motor, bicycle, awning-tricycle, tricycle

属性标注

遮挡程度（无遮挡/部分遮挡/重度遮挡）
截断比例

数据划分

训练集、验证集公开标注
测试挑战集（test-challenge）用于竞赛
测试开发集（test-dev）用于公开评估

四赛道

DET（图像检测）、VID（视频检测）、SOT（单目标跟踪）、MOT（多目标跟踪）

4. Challenge（DET 赛道）

4.1 Data Collection and Annotation

10,209张图像，10个类别
数据划分：
- 训练集：6,471 张
- 验证集：548 张
- 测试挑战集（test-challenge）：1,580 张
- 测试开发集（test-dev）：1,610 张
类别严重不平衡：awning-tricycle 数量是 car 的 1/40

4.2 Evaluation Protocol

AP@[0.5:0.95]（COCO风格）、AP50、AP75
AR1/10/100/500

4.3 Review of Image Object Detection Methods

Two-stage：Faster R-CNN, FPN, Cascade R-CNN, Light-RCNN

One-stage：YOLOv3, SSD, RetinaNet, ReﬁneDet

Anchor-free：CornerNet, CenterNet, FCOS, RepPoints, FSAF

其他策略：

集成学习（多 backbone 融合，如 CBNet）
注意力机制（SE、non-local）
Deformable Conv、HRNet、DetectoRS、全局上下文
级联架构（Cascade R-CNN）
ATSS / PAA（自适应anchor选择）
区域搜索策略（ClusDet, AutoFocus）

4.4 Results and Analysis

训练策略：多尺度训练、SNIPER、Mosaic数据增强、分割分支

测试策略：大多数方法使用多尺度测试（multi-scale testing）

结果（test-challenge）：

年份	冠军方法	AP	AP50
2018	HAL-Retina-Net	31.88%	46.18%
2019	DPNet-ensemble	29.62%	54.00%
2020	DroneEye2020	34.57%	58.21%

结果（test-dev）：

方法	AP	AP50
CornerNet	23.43%	41.18%
Light-RCNN	22.08%	39.56%
FPN	22.06%	39.57%
Cascade R-CNN	21.80%	37.84%

4.5 Discussion

小目标检测仍是最大挑战（person/bicycle AP < 25%）
NMS 对密集遮挡场景不友好
建议：群体检测用大框+计数、引入粗分割

5. VID Track（视频目标检测）

5.1 数据集

96个视频片段，共40k帧
数据划分：
- 训练集：56 clips（24,198帧）
- 验证集：7 clips（2,846帧）
- 测试挑战集：16 clips（6,322帧）
- 测试开发集：17 clips（6,635帧）
5个类别：pedestrian, car, van, bus, truck
类别极度不平衡：car 轨迹数是 bus 的 50 倍+
轨迹长度差异大：1~1255 帧

5.2 方法分类

方法类型	代表/策略
数据关联	图像检测器 + 单目标跟踪器（SiamRPN++等）
特征聚合	FGFA+, DFF, MANet, MEGA（光流/时序特征融合）
RNN	LSTM, STMM, OGEMN（长时序上下文）

5.3 结果

年份	冠军方法	AP	AP50
2018	CFE-SSDv2	21.57%	44.75%
2019	DBAI-Det	29.22%	58.00%

挑战：长时间遮挡、视角快速变化、快速运动

6. SOT Track（单目标跟踪）

6.1 数据集

2018：167个序列，139,276帧
- 训练集：86 sequences（69,941帧）
- 验证集：11 sequences（7,046帧）
- 测试挑战集：35 sequences（29,367帧）
- 测试开发集：35 sequences（32,922帧）
2019：新增25个长时跟踪序列（82,644帧）→ 测试挑战2019集
标注12种属性：遮挡、尺度变化、相机运动、快速运动、背景杂乱等

6.2 评估指标

Success Score：成功跟踪帧比例 vs. IoU 阈值曲线下面积（主指标）
Precision Score：中心点距离<20像素的帧比例

6.3 方法分类

类型	代表方法
相关滤波器	Staple, ECO, C-COT, BACF
Siamese网络	SiamFC, DSiam, SiamRPN++, SiamMask, Siam R-CNN
CNN	MDNet, VITAL, CFNet, ATOM, DiMP

6.4 结果

年份	冠军方法	Success	Precision
2018	LZZ-ECO	68.0%	92.9%
2019	ED-ATOM	48.9%	81.9%
2020	LTNMI	76.5%	92.3%

注意：2019年新增25个长时序列后，性能显著下降

7. MOT Track（多目标跟踪）

7.1 数据集

与 VID 相同：96个视频片段，5个类别（pedestrian, car, van, bus, truck）

7.2 评估指标

无输入检测时（协议[131]）：mAP
有输入检测时（CLEAR-MOT [24]）：MOTA、MOTP、IDF1、MT/ML、IDS、FM

7.2 方法分类

类型	代表方法
TBD（跟踪-检测）	GOG, SORT, Deep SORT, IOU Tracker
联合检测跟踪	Tracktor, FairMOT, CenterTrack
外观建模	OSNet, ReID模型，多粒度网络
运动建模	光流、KLT、LSTM

7.3 结果

无输入检测（AP）

年份	冠军方法	AP
2018	Ctrack	16.12%
2019	DBAI-Tracker	43.94%
2020	COFE	61.88%

有输入检测（MOTA）

年份	冠军方法	MOTA	IDF1
2018	TrackCG	42.6%	58.0%

7.4 讨论

检测质量对MOT影响极大（Cascade R-CNN显著提升）
运动信息（光流）很重要，能恢复遮挡目标轨迹
联合检测跟踪是未来方向（端到端更高效准确）
需要场景理解（推断目标的出入口、背景先验）

Detection and Tracking Meet Drones Challenge ​

Abstract ​

1. Introduction ​

背景 ​

无人机视觉的特殊挑战 ​

Challenge 组织 ​

数据集规模 ​

2. Related Work ​

2.1 Surveys and Related Challenges ​

2.2 各类数据集对比 ​

2.3 无人机专用数据集 ​

3. Benchmark (VisDrone Overview) ​

数据集构成 ​

10个目标类别 ​

属性标注 ​

数据划分 ​

四赛道 ​

4. Challenge（DET 赛道） ​

4.1 Data Collection and Annotation ​

4.2 Evaluation Protocol ​

4.3 Review of Image Object Detection Methods ​

4.4 Results and Analysis ​

4.5 Discussion ​

5. VID Track（视频目标检测） ​

5.1 数据集 ​

5.2 方法分类 ​

5.3 结果 ​

6. SOT Track（单目标跟踪） ​

6.1 数据集 ​

6.2 评估指标 ​

6.3 方法分类 ​

6.4 结果 ​

7. MOT Track（多目标跟踪） ​

7.1 数据集 ​

7.2 评估指标 ​

7.2 方法分类 ​

7.3 结果 ​

7.4 讨论 ​

5. Conclusion ​