Skip to content

More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection Benchmark for UAV

  • 来源: https://arxiv.org/abs/2504.20032
  • 本地PDF: ../raw/2025-04-28-codrone.pdf
  • 日期: 2025-04-28
  • 标签: uav, oriented-object-detection, obb, drone, dataset
  • 研究方向: 2D Object Detection → UAV 航拍 → OBB 旋转框检测
  • 核心贡献: 提出 CODrone,首个针对 UAV 场景的大规模 OBB 旋转框检测数据集
  • 方法简述:
    • 解决现有 UAV OOD 数据集的 4 个局限:低分辨率、类别少、单视角、受限飞行高度
    • 多城市、多光照条件数据采集
    • 22 个经典/SOTA 方法的 benchmark
  • 个人评价: 首个 UAV 视角的 OBB 数据集,填补了领域空白,实验揭示了当前 OOD 方法在 UAV 场景的挑战
  • GitHub: https://github.com/AHideoKuzeA/CODrone-A-Comprehensive-Oriented-Object-Detection-benchmark-for-UAV

摘要 (Abstract)

UAV 在物流、农业、城市管理、应急响应等领域的应用高度依赖 OOD (Oriented Object Detection) 来增强视觉感知。现有 UAV OOD 数据集通常针对特定下游任务设计,泛化性能有限。

CODrone 解决的问题

  1. 图像分辨率低
  2. 目标类别有限
  3. 单视角成像
  4. 受限的飞行高度

CODrone 包含从多个城市采集的广泛标注图像,在各种光照条件下增强了 benchmark 的真实性。


1. Introduction

背景

  • UAV 在低高度、灵活视角下运行,比卫星更适合城市应用
  • OOD 是核心感知任务,不仅定位分类,还估计旋转角度

现有数据集的问题

现有数据集问题
DOTA, DIOR-R (卫星)高空视角,与 UAV 场景差异大
VisDrone, UAVDT (UAV)只有水平框标注,无 OBB
DroneVehicle, UAV-ROD只专注车辆,类别有限

四个关键局限(原文详解)

  1. 图像分辨率需提升 — 无人机硬件升级,高分辨率图像是趋势。小目标(行人、自行车)在低分辨率下过于模糊,无法可靠检测
  2. 目标类别需丰富 — 现有 UAV OOD 数据集主要关注车辆。VisDrone 有更多类别但无 OBB 标注;DOTA 有 OBB 但高空视角与 UAV 差异大,存在显著的领域 gap
  3. 多高度成像需扩展 — 高度变化导致尺度变化大。低空物体中/大尺寸,高空变极小。现有数据集通常固定高度或高度范围窄,模型难以泛化
  4. 多样视角需求 — 倾斜视角 vs 垂直视角,物体外观不同。30° 倾斜视角可揭示物体侧影,丰富空间上下文;垂直视角操作不便且信息有限

CODrone 贡献

  • 10,000+ 高分辨率 UAV 图像,OBB 标注
  • 首次 UAV 视角的多类别 OBB 数据集
  • 6 种视角组合 (3 高度 × 2 角度)
  • 22 个方法的 benchmark

A. 高空 HOD 数据集

  • SIMD: 5,000 图, 1024×768, 15 类 (车辆、飞机、船舶)
  • COWC: 58,000 硬负样本,专注车辆检测
  • NWPU VHR-10: 800 图, 10 类, 650 标注+150 背景图
  • RSOD: 4 类 (飞机、油罐、操场、天桥)
  • DIOR: 20,000+ 图, 190,000 标注, 20 类
  • xView: 100 万标注, 60 类, 0.3米分辨率, 1400 km²
  • HRRSD: 21,761 图, 0.15-1.2米分辨率, 55,740 标注, 13 类
  • LEVIR: 城市/农村/山区/海岸,3 类 (飞机、船舶、油罐)
  • AI-TOD: 小目标检测,平均目标尺寸仅 12.8 像素

B. 高空 OOD 数据集

  • DOTA (v1/v2): 18 类, 11,268 图, 1,793,658 标注 — 最常用
  • SODA-A: 高分辨率航拍,SODA 子集
  • DIOR-R: 20 类 OBB,标注类别最多的 OOD 数据集
  • FAIR1M: 细粒度分类,飞机 11 子类,车辆 10 子类
  • HRSC2016: 船舶检测,多级别类别
  • VEDAI: 多种分辨率 (低到高),车辆+船舶
  • FGSD: 15,000+ 图, 100 万船舶标注,港 口城市机场
  • EAGLE: 215,986 车辆标注,带方向,多传感器/分辨率/高度/天气/光照

C. UAV-based HOD 数据集

  • VisDrone: 10 类, 10,200 图, 54,200 标注, 最常用
  • UAVDT: 80,000 帧, 841,500 标注, 3 类, 60m 高度, 交通场景
  • AU-AIR: 8 类, 3,200 图, 132,000 标注, 25m, 45°
  • CARPK: 1 类 (车辆), 1,400 图, 89,700 标注, 40m
  • HazyDet: 11,600 图, 383,000 标注, 雾天检测

D. UAV-based OOD 数据集(极度匮乏)

  • DroneVehicle: 56,800 图, 953,000 标注, 5 类车辆, RGB+红外, 40m, 30°
  • UAV-ROD: 1,500 图, 30,000 标注, 1 类, 50m, 车辆检测

仅上述两个公开数据集,类别极其有限


3. CODrone Dataset

数据集对比 (Table I)

数据集分辨率类别高度范围角度图像数标注数OBB
VisDrone20192000×150010--10.2k54.2k
UAVDT1080×540360m-80k841.5k
AU-AIR1920×1080825m45°3.2k132k
CARPK1280×7201--1.4k89.7k
DroneVehicle840×712540m30°56.8k953k
UAV-ROD1920×1080150m-1.5k30k
CODrone3840×21601230-100m30°/90°10,004596.7k

3A. Overview(概述)

  • 从数百个 60fps 视频 clip 中手动筛选出 10,004 张高质量图像
  • 每 200 帧取 1 帧,去除运动模糊和冗余帧
  • 剩余视频资源将用于未来任务(目标跟踪、多帧检测)
  • 每张图像显式标注了高度和角度信息(文件名后缀编码)

3B. Data Capturing(数据采集)

项目详情
设备DJI Mavic 3 Pro
速度10-15 m/s
高度30m(最低安全), 60m(平衡), 100m(接近120m限高,留20m余量)
角度30°(倾斜视角), 90°(垂直俯视)
视角组合3×2 = 6 种均匀分布
场景公园、城市道路、农村、桥梁、停车场、码头、海岸(5+ 城市,10+ 区域)
光照晴天、阴天、白天、夜间
隐私高空拍摄,目标小,无个人信息

3C. Data Labeling(数据标注)

12 个类别:car, truck, traffic-sign, people, motor, bicycle, traffic-light, tricycle, bridge(人行天桥), bus, boat, ship

标注数量(Table II)

类别总数TrainValTest
car227,751112,58846,39668,767
people79,48539,34315,45724,685
motor73,59336,66214,98621,945
truck24,43112,1475,0587,226
traffic-sign11,7975,7062,4253,666
bicycle3,8351,8928131,130
traffic-light6,8913,3361,4982,057
tricycle2,8451,398599848
bridge40818077151
bus4,9792,4441,0211,514
boat7,1433,6071,0802,456
ship43422458152
总计443,592---
ignored16,8048,1693,5905,045

标注格式L, C, D

  • L = {(x_i, y_i)}₄ (四个角点坐标,顺时针)
  • C = 类别
  • D = 难度(1=hard, 0=normal)
    • Hard 定义:小目标(<32×32 像素)、重度遮挡(≥50%)、畸变模糊

规则

  • 遮挡 >80% 丢弃
  • 密集物体按 SODA 方式标为 ignored(不参与训练)
  • 划分:Train 50% / Val 20% / Test 30%(测试集标注公开)

3D. Characteristics & Challenges(特性与挑战)

3D-1. 高分辨率带来更多高质量信息

  • 3840×2160 分辨率,对齐现代 UAV 硬件
  • 小目标(行人、自行车)在低分辨率下呈噪声/模糊状态,高分辨率保留清晰结构细节,可实现精确 OBB 标注
  • 大目标(车辆)高分辨率提供更锐利的边缘信息,orientation 估计更准确

3D-2. 多高度多角度适应广泛飞行场景

高度选择依据

  • 30m:城市环境相对安全最低高度(避开电线杆、人行天桥、高植被)
  • 100m:接近小 UAV 法规限高(120m),留 20m 安全余量
  • 60m:平衡视场与目标细节的中介高度

角度选择依据

  • 90°(nadir):与现有遥感 OOD 数据集一致,简化 OOD 定义
  • 30°(oblique):真实 UAV 部署特征,揭示侧影和透视缩短效果

关键发现

  • 倾斜 30° 视角下,物体方向与特征对应关系更模糊
  • 垂直 90° 提供简化的顶视外观,rotation 更容易定义
  • 但倾斜视角提供更丰富的视觉线索(侧影、遮蔽)

6 种组合分布(Table III)

组合图像数比例
30m+30°1,86518.64%
30m+90°1,27612.75%
60m+30°2,04720.46%
60m+90°2,26922.68%
100m+30°1,04810.48%
100m+90°1,49914.98%

3D-3. 更多样场景,更广泛应用

  • 覆盖:城市、农村、港口、工业区
  • 首次在 UAV OOD 数据集中包含夜间图像(Table IV)
    • 白天:6,121 张(61%)
    • 夜间:3,883 张(39%)
  • 类别如 ship、boat(沿海环境)有多个标注实例

4. Experiments

4A. Evaluation Metrics(评估指标)

  • AP50:IoU threshold = 0.5
  • AP75:IoU threshold = 0.75(更严格,惩罚角度偏差)
    • 对细长物体(船舶、桥梁、车辆)尤其敏感
    • AP50 高但 AP75 低说明精确定位困难

4B. Selected Algorithms(22 个方法)

类别方法年份/来源核心思想
两阶段Rotated Faster R-CNNTPAMI 2017扩展 Faster R-CNN 支持 OBB
RoI TransformerCVPR 2019监督旋转 RoI + 旋转位置敏感 RoI 对齐
Oriented R-CNNICCV 2021Oriented RPN,6 参数表示(引入2个角度参数)
单阶段Rotated RetinaNetICCV 2017扩展 RetinaNet 支持 OBB
Rotated ATSSCVPR 2020自适应训练样本选择
S2ANetTGRS 2021特征对齐模块 + 主动旋转滤波
R3DetAAAI 2021特征 refinement 模块,从水平到旋转
GWDICML 2021Gaussian Wasserstein Distance 损失
KLDNeurIPS 2021Kullback-Leibler Divergence,2D 高斯分布建模
KFIoUICLR 2023高斯建模 + 积近似 SkewIoU
点表示Rotated RepPointsICCV 2019关键点检测框架
Oriented RepPointsCVPR 2022自适应点学习,捕捉非轴对齐特征
角度回归CSLECCV 2020循环平滑标签编码,解决边界不连续问题
Gliding VertexTPAMI 2020顶点滑动机制
PSCCVPR 2023相位编码解决周期性歧义
旋转等变ReDetCVPR 2021旋转等变特征提取器
弱监督H2RBoxICLR 2023仅用水平框标注训练 OOD
H2RBox-v2NeurIPS 2023引入对称感知自监督分支
其他DCFLCVPR 2023动态粗到细策略
LSKNetICCV 2023大核选择性卷积机制,动态调整感受野
OrientFormerTGRS 2024Wasserstein 自注意力
DeCoupleNetTGRS 2024特征解耦下采样 + 多分支特征解耦

4C. Implementation Details(实现细节)

  • GPU:单卡 GTX 3090
  • 训练:30 epochs,报告最佳结果
  • 优化器:momentum 0.9,weight decay 0.00005
  • 切图策略:采用 DOTA 的切图策略(高分辨率图像切小块训练)

4D. Performance Analysis(性能分析)

Benchmark 结果(Table V)

排名方法AP50AP75
1LSKNet46.9221.15
2ReDet44.7320.17
3Oriented RepPoints44.5919.62
4RoI Transformer43.0319.98
5Rotated ATSS42.8519.19
6DCFL42.7717.68
7Oriented R-CNN42.3318.99
8Gliding Vertex41.7115.43
9OrientFormer41.0218.00
10KLD40.9817.73
11KFIoU40.6318.13
12Rotated RetinaNet40.6218.26
13GWD40.5118.04
14Rotated Faster R-CNN40.4015.23
15PSC40.1318.93
16CSL40.0517.28
17DeCoupleNet39.9016.70
18R3Det39.8816.28
19H2RBox-v239.0712.21
20H2RBox36.2210.29
21S2ANet37.6110.61
22Rotated RepPoints31.2513.21

关键发现

发现说明
LSKNet 最佳大kernel卷积 + 空间选择机制,动态调整感受野,适合多场景
ReDet 其次旋转 equivariant 设计,从 backbone 融入旋转感知
AP75 远低于 AP50精确定位困难,尤其细长物体
RoI Transformer学习仿射变换纠正旋转错位,效果好
Transformer 类 (OrientFormer)AP50 有潜力,AP75 稍弱,局部空间线索不足
表现较差Rotated RepPoints、H2RBox、H2RBox-v2(几何建模不足或解码复杂)

4E. Effects of Altitude & Angle(高度和角度影响)

整体趋势

观察说明
高度越高,性能越差AP75 下降尤其明显(目标更小)
90° (垂直) 比 30° (倾斜) 好垂直视角遮挡少、畸变小
30°+高空 最差100m+30° 组合性能急剧下降

6 种组合性能排名(由好到差):

  1. 30m + 90°(低空垂直)— 相对最好
  2. 60m + 90°
  3. 100m + 90°
  4. 30m + 30°(低空倾斜)
  5. 60m + 30°
  6. 100m + 30°(高空倾斜)— 最差

LSKNet 在各组合下的表现

组合AP50AP75
30m30°43.8719.75
30m90°55.7132.38
60m30°43.8619.34
60m90°51.8227.17
100m30°38.6316.45
100m90°51.3128.23

5. Conclusion

  • CODrone 是首个 UAV 视角、多类别 OBB 数据集
  • 填补了 UAV OOD 领域的 benchmark 空白
  • 实验证明现有方法在 UAV 场景下存在显著性能差距
  • 未来方向:空间特征对齐、本地-全局上下文集成、旋转敏感性

参考资料