Detection and Tracking Meet Drones Challenge
- 来源: https://arxiv.org/abs/2001.06303
- 本地PDF:
../raw/2020-01-17-visdrone.pdf - 日期: 2020-01-17
- 标签:
drone,object detection,tracking,benchmark,VisDrone - 研究方向: 无人机目标检测与跟踪
- 核心贡献: 发布VisDrone大规模无人机检测跟踪数据集(263视频+10k图像,250万+标注框),组织ECCV 2018/ICCV 2019/ECCV 2020挑战赛,吸引100+团队
- 方法简述: 四个赛道:DET图像检测、VID视频检测、SOT单目标跟踪、MOT多目标跟踪
- 关键结果: 当年最大规模无人机视觉数据集
- 缺点/局限: 仅中国14个城市数据,类别有限(10类)
- 可复用代码: https://github.com/VisDrone/VisDrone-Dataset
- 个人评价: 开创性工作,但后续有更完善的Anti-UAV等数据集
Abstract
1. Introduction
背景
- 无人机市场2028年预计达5014亿美元(CAGR 57.5%)
- 应用场景:农业、航空摄影、物流配送、安保监控、搜救
无人机视觉的特殊挑战
| 挑战 | 说明 |
|---|---|
| 视角变化 | 无人机可从任意角度拍摄,区别于固定监控摄像头 |
| 尺度变化 | 不同飞行高度导致目标尺度差异大 |
| 运动模糊 | 飞行中拍摄导致视频模糊 |
Challenge 组织
- ECCV 2018 → ICCV 2019 → ECCV 2020
- 全球100+团队参赛
- 四个赛道:DET(图像检测)、VID(视频检测)、SOT(单目标跟踪)、MOT(多目标跟踪)
数据集规模
- 263个视频片段,共179,264帧
- 10,209张静态图像
- 覆盖中国14个城市
- 250万+标注框,10个类别(行人、汽车、公交车、自行车等)
- 提供了遮挡、可见度等属性标注
2. Related Work
2.1 Surveys and Related Challenges
- Liu et al. [37] 综述300+目标检测论文
- Ciaparrone et al. [39] 深度学习MOT算法综述
- 相关Challenge:CV for UAVs、Low Power Object Detection、VOT、BMTT-PETS、Tiny Object Detection
2.2 各类数据集对比
| 类型 | 数据集 | 场景 | 规模 | 特点 |
|---|---|---|---|---|
| 图像检测 | PASCAL VOC | 生活 | 22.5k图/20类 | 经典基准 |
| 图像检测 | MS COCO | 生活 | 328k图/80类 | 主流基准 |
| 图像检测 | DOTA | 航拍 | 2.8k图/15类 | 旋转框 |
| 图像检测 | VisDrone | 无人机 | 10k图/10类 | 250万标注 |
| 视频检测 | VisDrone-VID | 无人机 | 40k帧/10类 | 高分辨率 |
| 单目标跟踪 | UAV123 | 无人机 | 123序列/110k帧 | 低空视角 |
| 单目标跟踪 | GOT-10k | 生活 | 10k序列/150万帧 | 大规模 |
| 单目标跟踪 | LaSOT | 生活 | 1.55k序列 | 长时跟踪 |
| 多目标跟踪 | UAVDT-MOT | 无人机 | 40k帧 | 车辆跟踪 |
| 多目标跟踪 | MOT17 | 监控 | 11k帧 | 行人跟踪 |
2.3 无人机专用数据集
- CARPK:首个无人机车辆计数数据集(1448图)
- DOTA:航拍图像大规模数据集,15类旋转框
- Okutama-Action:无人机人体行为检测(43分钟)
- MOR-UAV:移动目标识别视频数据集
- UAV123:无人机单目标跟踪基准(123序列)
- UAVDT:无人机目标检测/跟踪综合数据集
结论:VisDrone 相比之前数据集,覆盖更多城市、更多场景、更多任务,是当时最大规模的无人机视觉综合基准。
3. Benchmark (VisDrone Overview)
数据集构成
- 视频:263个片段,共179,264帧
- 图像:10,209张静态图像
- 采集设备:DJI Mavic, Phantom系列 (3, 3A, 3SE, 3P, 4, 4A, 4P)
- 覆盖区域:中国14个城市(天津、香港、大庆、赣州、广州等)
- 分辨率:视频最高 3840×2160,图像最高 2000×1500,具体分布不明
10个目标类别
pedestrian, person, car, van, bus, truck, motor, bicycle, awning-tricycle, tricycle
属性标注
- 遮挡程度(无遮挡/部分遮挡/重度遮挡)
- 截断比例
数据划分
- 训练集、验证集公开标注
- 测试挑战集(test-challenge)用于竞赛
- 测试开发集(test-dev)用于公开评估
四赛道
DET(图像检测)、VID(视频检测)、SOT(单目标跟踪)、MOT(多目标跟踪)
4. Challenge(DET 赛道)
4.1 Data Collection and Annotation
- 10,209张图像,10个类别
- 数据划分:
- 训练集:6,471 张
- 验证集:548 张
- 测试挑战集(test-challenge):1,580 张
- 测试开发集(test-dev):1,610 张
- 类别严重不平衡:awning-tricycle 数量是 car 的 1/40
4.2 Evaluation Protocol
- AP@[0.5:0.95](COCO风格)、AP50、AP75
- AR1/10/100/500
4.3 Review of Image Object Detection Methods
Two-stage:Faster R-CNN, FPN, Cascade R-CNN, Light-RCNN
One-stage:YOLOv3, SSD, RetinaNet, RefineDet
Anchor-free:CornerNet, CenterNet, FCOS, RepPoints, FSAF
其他策略:
- 集成学习(多 backbone 融合,如 CBNet)
- 注意力机制(SE、non-local)
- Deformable Conv、HRNet、DetectoRS、全局上下文
- 级联架构(Cascade R-CNN)
- ATSS / PAA(自适应anchor选择)
- 区域搜索策略(ClusDet, AutoFocus)
4.4 Results and Analysis
训练策略:多尺度训练、SNIPER、Mosaic数据增强、分割分支
测试策略:大多数方法使用多尺度测试(multi-scale testing)
结果(test-challenge):
| 年份 | 冠军方法 | AP | AP50 |
|---|---|---|---|
| 2018 | HAL-Retina-Net | 31.88% | 46.18% |
| 2019 | DPNet-ensemble | 29.62% | 54.00% |
| 2020 | DroneEye2020 | 34.57% | 58.21% |
结果(test-dev):
| 方法 | AP | AP50 |
|---|---|---|
| CornerNet | 23.43% | 41.18% |
| Light-RCNN | 22.08% | 39.56% |
| FPN | 22.06% | 39.57% |
| Cascade R-CNN | 21.80% | 37.84% |
4.5 Discussion
- 小目标检测仍是最大挑战(person/bicycle AP < 25%)
- NMS 对密集遮挡场景不友好
- 建议:群体检测用大框+计数、引入粗分割
5. VID Track(视频目标检测)
5.1 数据集
- 96个视频片段,共40k帧
- 数据划分:
- 训练集:56 clips(24,198帧)
- 验证集:7 clips(2,846帧)
- 测试挑战集:16 clips(6,322帧)
- 测试开发集:17 clips(6,635帧)
- 5个类别:pedestrian, car, van, bus, truck
- 类别极度不平衡:car 轨迹数是 bus 的 50 倍+
- 轨迹长度差异大:1~1255 帧
5.2 方法分类
| 方法类型 | 代表/策略 |
|---|---|
| 数据关联 | 图像检测器 + 单目标跟踪器(SiamRPN++等) |
| 特征聚合 | FGFA+, DFF, MANet, MEGA(光流/时序特征融合) |
| RNN | LSTM, STMM, OGEMN(长时序上下文) |
5.3 结果
| 年份 | 冠军方法 | AP | AP50 |
|---|---|---|---|
| 2018 | CFE-SSDv2 | 21.57% | 44.75% |
| 2019 | DBAI-Det | 29.22% | 58.00% |
挑战:长时间遮挡、视角快速变化、快速运动
6. SOT Track(单目标跟踪)
6.1 数据集
- 2018:167个序列,139,276帧
- 训练集:86 sequences(69,941帧)
- 验证集:11 sequences(7,046帧)
- 测试挑战集:35 sequences(29,367帧)
- 测试开发集:35 sequences(32,922帧)
- 2019:新增25个长时跟踪序列(82,644帧)→ 测试挑战2019集
- 标注12种属性:遮挡、尺度变化、相机运动、快速运动、背景杂乱等
6.2 评估指标
- Success Score:成功跟踪帧比例 vs. IoU 阈值曲线下面积(主指标)
- Precision Score:中心点距离<20像素的帧比例
6.3 方法分类
| 类型 | 代表方法 |
|---|---|
| 相关滤波器 | Staple, ECO, C-COT, BACF |
| Siamese网络 | SiamFC, DSiam, SiamRPN++, SiamMask, Siam R-CNN |
| CNN | MDNet, VITAL, CFNet, ATOM, DiMP |
6.4 结果
| 年份 | 冠军方法 | Success | Precision |
|---|---|---|---|
| 2018 | LZZ-ECO | 68.0% | 92.9% |
| 2019 | ED-ATOM | 48.9% | 81.9% |
| 2020 | LTNMI | 76.5% | 92.3% |
注意:2019年新增25个长时序列后,性能显著下降
7. MOT Track(多目标跟踪)
7.1 数据集
- 与 VID 相同:96个视频片段,5个类别(pedestrian, car, van, bus, truck)
7.2 评估指标
- 无输入检测时(协议[131]):mAP
- 有输入检测时(CLEAR-MOT [24]):MOTA、MOTP、IDF1、MT/ML、IDS、FM
7.2 方法分类
| 类型 | 代表方法 |
|---|---|
| TBD(跟踪-检测) | GOG, SORT, Deep SORT, IOU Tracker |
| 联合检测跟踪 | Tracktor, FairMOT, CenterTrack |
| 外观建模 | OSNet, ReID模型,多粒度网络 |
| 运动建模 | 光流、KLT、LSTM |
7.3 结果
无输入检测(AP)
| 年份 | 冠军方法 | AP |
|---|---|---|
| 2018 | Ctrack | 16.12% |
| 2019 | DBAI-Tracker | 43.94% |
| 2020 | COFE | 61.88% |
有输入检测(MOTA)
| 年份 | 冠军方法 | MOTA | IDF1 |
|---|---|---|---|
| 2018 | TrackCG | 42.6% | 58.0% |
7.4 讨论
- 检测质量对MOT影响极大(Cascade R-CNN显著提升)
- 运动信息(光流)很重要,能恢复遮挡目标轨迹
- 联合检测跟踪是未来方向(端到端更高效准确)
- 需要场景理解(推断目标的出入口、背景先验)
