Skip to content

Detection and Tracking Meet Drones Challenge

  • 来源: https://arxiv.org/abs/2001.06303
  • 本地PDF: ../raw/2020-01-17-visdrone.pdf
  • 日期: 2020-01-17
  • 标签: drone, object detection, tracking, benchmark, VisDrone
  • 研究方向: 无人机目标检测与跟踪
  • 核心贡献: 发布VisDrone大规模无人机检测跟踪数据集(263视频+10k图像,250万+标注框),组织ECCV 2018/ICCV 2019/ECCV 2020挑战赛,吸引100+团队
  • 方法简述: 四个赛道:DET图像检测、VID视频检测、SOT单目标跟踪、MOT多目标跟踪
  • 关键结果: 当年最大规模无人机视觉数据集
  • 缺点/局限: 仅中国14个城市数据,类别有限(10类)
  • 可复用代码: https://github.com/VisDrone/VisDrone-Dataset
  • 个人评价: 开创性工作,但后续有更完善的Anti-UAV等数据集

Abstract


1. Introduction

背景

  • 无人机市场2028年预计达5014亿美元(CAGR 57.5%)
  • 应用场景:农业、航空摄影、物流配送、安保监控、搜救

无人机视觉的特殊挑战

挑战说明
视角变化无人机可从任意角度拍摄,区别于固定监控摄像头
尺度变化不同飞行高度导致目标尺度差异大
运动模糊飞行中拍摄导致视频模糊

Challenge 组织

  • ECCV 2018 → ICCV 2019 → ECCV 2020
  • 全球100+团队参赛
  • 四个赛道:DET(图像检测)、VID(视频检测)、SOT(单目标跟踪)、MOT(多目标跟踪)

数据集规模

  • 263个视频片段,共179,264帧
  • 10,209张静态图像
  • 覆盖中国14个城市
  • 250万+标注框,10个类别(行人、汽车、公交车、自行车等)
  • 提供了遮挡、可见度等属性标注

  • Liu et al. [37] 综述300+目标检测论文
  • Ciaparrone et al. [39] 深度学习MOT算法综述
  • 相关Challenge:CV for UAVs、Low Power Object Detection、VOT、BMTT-PETS、Tiny Object Detection

2.2 各类数据集对比

类型数据集场景规模特点
图像检测PASCAL VOC生活22.5k图/20类经典基准
图像检测MS COCO生活328k图/80类主流基准
图像检测DOTA航拍2.8k图/15类旋转框
图像检测VisDrone无人机10k图/10类250万标注
视频检测VisDrone-VID无人机40k帧/10类高分辨率
单目标跟踪UAV123无人机123序列/110k帧低空视角
单目标跟踪GOT-10k生活10k序列/150万帧大规模
单目标跟踪LaSOT生活1.55k序列长时跟踪
多目标跟踪UAVDT-MOT无人机40k帧车辆跟踪
多目标跟踪MOT17监控11k帧行人跟踪

2.3 无人机专用数据集

  • CARPK:首个无人机车辆计数数据集(1448图)
  • DOTA:航拍图像大规模数据集,15类旋转框
  • Okutama-Action:无人机人体行为检测(43分钟)
  • MOR-UAV:移动目标识别视频数据集
  • UAV123:无人机单目标跟踪基准(123序列)
  • UAVDT:无人机目标检测/跟踪综合数据集

结论:VisDrone 相比之前数据集,覆盖更多城市、更多场景、更多任务,是当时最大规模的无人机视觉综合基准。


3. Benchmark (VisDrone Overview)

数据集构成

  • 视频:263个片段,共179,264帧
  • 图像:10,209张静态图像
  • 采集设备:DJI Mavic, Phantom系列 (3, 3A, 3SE, 3P, 4, 4A, 4P)
  • 覆盖区域:中国14个城市(天津、香港、大庆、赣州、广州等)
  • 分辨率:视频最高 3840×2160,图像最高 2000×1500,具体分布不明

10个目标类别

pedestrian, person, car, van, bus, truck, motor, bicycle, awning-tricycle, tricycle

属性标注

  • 遮挡程度(无遮挡/部分遮挡/重度遮挡)
  • 截断比例

数据划分

  • 训练集、验证集公开标注
  • 测试挑战集(test-challenge)用于竞赛
  • 测试开发集(test-dev)用于公开评估

四赛道

DET(图像检测)、VID(视频检测)、SOT(单目标跟踪)、MOT(多目标跟踪)


4. Challenge(DET 赛道)

4.1 Data Collection and Annotation

  • 10,209张图像,10个类别
  • 数据划分:
    • 训练集:6,471 张
    • 验证集:548 张
    • 测试挑战集(test-challenge):1,580 张
    • 测试开发集(test-dev):1,610 张
  • 类别严重不平衡:awning-tricycle 数量是 car 的 1/40

4.2 Evaluation Protocol

  • AP@[0.5:0.95](COCO风格)、AP50、AP75
  • AR1/10/100/500

4.3 Review of Image Object Detection Methods

Two-stage:Faster R-CNN, FPN, Cascade R-CNN, Light-RCNN

One-stage:YOLOv3, SSD, RetinaNet, RefineDet

Anchor-free:CornerNet, CenterNet, FCOS, RepPoints, FSAF

其他策略

  • 集成学习(多 backbone 融合,如 CBNet)
  • 注意力机制(SE、non-local)
  • Deformable Conv、HRNet、DetectoRS、全局上下文
  • 级联架构(Cascade R-CNN)
  • ATSS / PAA(自适应anchor选择)
  • 区域搜索策略(ClusDet, AutoFocus)

4.4 Results and Analysis

训练策略:多尺度训练、SNIPER、Mosaic数据增强、分割分支

测试策略:大多数方法使用多尺度测试(multi-scale testing)

结果(test-challenge)

年份冠军方法APAP50
2018HAL-Retina-Net31.88%46.18%
2019DPNet-ensemble29.62%54.00%
2020DroneEye202034.57%58.21%

结果(test-dev)

方法APAP50
CornerNet23.43%41.18%
Light-RCNN22.08%39.56%
FPN22.06%39.57%
Cascade R-CNN21.80%37.84%

4.5 Discussion

  • 小目标检测仍是最大挑战(person/bicycle AP < 25%)
  • NMS 对密集遮挡场景不友好
  • 建议:群体检测用大框+计数、引入粗分割

5. VID Track(视频目标检测)

5.1 数据集

  • 96个视频片段,共40k帧
  • 数据划分:
    • 训练集:56 clips(24,198帧)
    • 验证集:7 clips(2,846帧)
    • 测试挑战集:16 clips(6,322帧)
    • 测试开发集:17 clips(6,635帧)
  • 5个类别:pedestrian, car, van, bus, truck
  • 类别极度不平衡:car 轨迹数是 bus 的 50 倍+
  • 轨迹长度差异大:1~1255 帧

5.2 方法分类

方法类型代表/策略
数据关联图像检测器 + 单目标跟踪器(SiamRPN++等)
特征聚合FGFA+, DFF, MANet, MEGA(光流/时序特征融合)
RNNLSTM, STMM, OGEMN(长时序上下文)

5.3 结果

年份冠军方法APAP50
2018CFE-SSDv221.57%44.75%
2019DBAI-Det29.22%58.00%

挑战:长时间遮挡、视角快速变化、快速运动


6. SOT Track(单目标跟踪)

6.1 数据集

  • 2018:167个序列,139,276帧
    • 训练集:86 sequences(69,941帧)
    • 验证集:11 sequences(7,046帧)
    • 测试挑战集:35 sequences(29,367帧)
    • 测试开发集:35 sequences(32,922帧)
  • 2019:新增25个长时跟踪序列(82,644帧)→ 测试挑战2019集
  • 标注12种属性:遮挡、尺度变化、相机运动、快速运动、背景杂乱等

6.2 评估指标

  • Success Score:成功跟踪帧比例 vs. IoU 阈值曲线下面积(主指标)
  • Precision Score:中心点距离<20像素的帧比例

6.3 方法分类

类型代表方法
相关滤波器Staple, ECO, C-COT, BACF
Siamese网络SiamFC, DSiam, SiamRPN++, SiamMask, Siam R-CNN
CNNMDNet, VITAL, CFNet, ATOM, DiMP

6.4 结果

年份冠军方法SuccessPrecision
2018LZZ-ECO68.0%92.9%
2019ED-ATOM48.9%81.9%
2020LTNMI76.5%92.3%

注意:2019年新增25个长时序列后,性能显著下降


7. MOT Track(多目标跟踪)

7.1 数据集

  • 与 VID 相同:96个视频片段,5个类别(pedestrian, car, van, bus, truck)

7.2 评估指标

  • 无输入检测时(协议[131]):mAP
  • 有输入检测时(CLEAR-MOT [24]):MOTA、MOTP、IDF1、MT/ML、IDS、FM

7.2 方法分类

类型代表方法
TBD(跟踪-检测)GOG, SORT, Deep SORT, IOU Tracker
联合检测跟踪Tracktor, FairMOT, CenterTrack
外观建模OSNet, ReID模型,多粒度网络
运动建模光流、KLT、LSTM

7.3 结果

无输入检测(AP)

年份冠军方法AP
2018Ctrack16.12%
2019DBAI-Tracker43.94%
2020COFE61.88%

有输入检测(MOTA)

年份冠军方法MOTAIDF1
2018TrackCG42.6%58.0%

7.4 讨论

  • 检测质量对MOT影响极大(Cascade R-CNN显著提升)
  • 运动信息(光流)很重要,能恢复遮挡目标轨迹
  • 联合检测跟踪是未来方向(端到端更高效准确)
  • 需要场景理解(推断目标的出入口、背景先验)

5. Conclusion