More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection Benchmark for UAV
- 来源: https://arxiv.org/abs/2504.20032
- 本地PDF:
../raw/2025-04-28-codrone.pdf - 日期: 2025-04-28
- 标签:
uav,oriented-object-detection,obb,drone,dataset - 研究方向: 2D Object Detection → UAV 航拍 → OBB 旋转框检测
- 核心贡献: 提出 CODrone,首个针对 UAV 场景的大规模 OBB 旋转框检测数据集
- 方法简述:
- 解决现有 UAV OOD 数据集的 4 个局限:低分辨率、类别少、单视角、受限飞行高度
- 多城市、多光照条件数据采集
- 22 个经典/SOTA 方法的 benchmark
- 个人评价: 首个 UAV 视角的 OBB 数据集,填补了领域空白,实验揭示了当前 OOD 方法在 UAV 场景的挑战
- GitHub: https://github.com/AHideoKuzeA/CODrone-A-Comprehensive-Oriented-Object-Detection-benchmark-for-UAV
摘要 (Abstract)
UAV 在物流、农业、城市管理、应急响应等领域的应用高度依赖 OOD (Oriented Object Detection) 来增强视觉感知。现有 UAV OOD 数据集通常针对特定下游任务设计,泛化性能有限。
CODrone 解决的问题:
- 图像分辨率低
- 目标类别有限
- 单视角成像
- 受限的飞行高度
CODrone 包含从多个城市采集的广泛标注图像,在各种光照条件下增强了 benchmark 的真实性。
1. Introduction
背景
- UAV 在低高度、灵活视角下运行,比卫星更适合城市应用
- OOD 是核心感知任务,不仅定位分类,还估计旋转角度
现有数据集的问题
| 现有数据集 | 问题 |
|---|---|
| DOTA, DIOR-R (卫星) | 高空视角,与 UAV 场景差异大 |
| VisDrone, UAVDT (UAV) | 只有水平框标注,无 OBB |
| DroneVehicle, UAV-ROD | 只专注车辆,类别有限 |
四个关键局限(原文详解)
- 图像分辨率需提升 — 无人机硬件升级,高分辨率图像是趋势。小目标(行人、自行车)在低分辨率下过于模糊,无法可靠检测
- 目标类别需丰富 — 现有 UAV OOD 数据集主要关注车辆。VisDrone 有更多类别但无 OBB 标注;DOTA 有 OBB 但高空视角与 UAV 差异大,存在显著的领域 gap
- 多高度成像需扩展 — 高度变化导致尺度变化大。低空物体中/大尺寸,高空变极小。现有数据集通常固定高度或高度范围窄,模型难以泛化
- 多样视角需求 — 倾斜视角 vs 垂直视角,物体外观不同。30° 倾斜视角可揭示物体侧影,丰富空间上下文;垂直视角操作不便且信息有限
CODrone 贡献
- 10,000+ 高分辨率 UAV 图像,OBB 标注
- 首次 UAV 视角的多类别 OBB 数据集
- 6 种视角组合 (3 高度 × 2 角度)
- 22 个方法的 benchmark
2. Related Work
A. 高空 HOD 数据集
- SIMD: 5,000 图, 1024×768, 15 类 (车辆、飞机、船舶)
- COWC: 58,000 硬负样本,专注车辆检测
- NWPU VHR-10: 800 图, 10 类, 650 标注+150 背景图
- RSOD: 4 类 (飞机、油罐、操场、天桥)
- DIOR: 20,000+ 图, 190,000 标注, 20 类
- xView: 100 万标注, 60 类, 0.3米分辨率, 1400 km²
- HRRSD: 21,761 图, 0.15-1.2米分辨率, 55,740 标注, 13 类
- LEVIR: 城市/农村/山区/海岸,3 类 (飞机、船舶、油罐)
- AI-TOD: 小目标检测,平均目标尺寸仅 12.8 像素
B. 高空 OOD 数据集
- DOTA (v1/v2): 18 类, 11,268 图, 1,793,658 标注 — 最常用
- SODA-A: 高分辨率航拍,SODA 子集
- DIOR-R: 20 类 OBB,标注类别最多的 OOD 数据集
- FAIR1M: 细粒度分类,飞机 11 子类,车辆 10 子类
- HRSC2016: 船舶检测,多级别类别
- VEDAI: 多种分辨率 (低到高),车辆+船舶
- FGSD: 15,000+ 图, 100 万船舶标注,港 口城市机场
- EAGLE: 215,986 车辆标注,带方向,多传感器/分辨率/高度/天气/光照
C. UAV-based HOD 数据集
- VisDrone: 10 类, 10,200 图, 54,200 标注, 最常用
- UAVDT: 80,000 帧, 841,500 标注, 3 类, 60m 高度, 交通场景
- AU-AIR: 8 类, 3,200 图, 132,000 标注, 25m, 45°
- CARPK: 1 类 (车辆), 1,400 图, 89,700 标注, 40m
- HazyDet: 11,600 图, 383,000 标注, 雾天检测
D. UAV-based OOD 数据集(极度匮乏)
- DroneVehicle: 56,800 图, 953,000 标注, 5 类车辆, RGB+红外, 40m, 30°
- UAV-ROD: 1,500 图, 30,000 标注, 1 类, 50m, 车辆检测
仅上述两个公开数据集,类别极其有限
3. CODrone Dataset
数据集对比 (Table I)
| 数据集 | 分辨率 | 类别 | 高度范围 | 角度 | 图像数 | 标注数 | OBB |
|---|---|---|---|---|---|---|---|
| VisDrone2019 | 2000×1500 | 10 | - | - | 10.2k | 54.2k | ❌ |
| UAVDT | 1080×540 | 3 | 60m | - | 80k | 841.5k | ❌ |
| AU-AIR | 1920×1080 | 8 | 25m | 45° | 3.2k | 132k | ❌ |
| CARPK | 1280×720 | 1 | - | - | 1.4k | 89.7k | ❌ |
| DroneVehicle | 840×712 | 5 | 40m | 30° | 56.8k | 953k | ✅ |
| UAV-ROD | 1920×1080 | 1 | 50m | - | 1.5k | 30k | ✅ |
| CODrone | 3840×2160 | 12 | 30-100m | 30°/90° | 10,004 | 596.7k | ✅ |
3A. Overview(概述)
- 从数百个 60fps 视频 clip 中手动筛选出 10,004 张高质量图像
- 每 200 帧取 1 帧,去除运动模糊和冗余帧
- 剩余视频资源将用于未来任务(目标跟踪、多帧检测)
- 每张图像显式标注了高度和角度信息(文件名后缀编码)
3B. Data Capturing(数据采集)
| 项目 | 详情 |
|---|---|
| 设备 | DJI Mavic 3 Pro |
| 速度 | 10-15 m/s |
| 高度 | 30m(最低安全), 60m(平衡), 100m(接近120m限高,留20m余量) |
| 角度 | 30°(倾斜视角), 90°(垂直俯视) |
| 视角组合 | 3×2 = 6 种均匀分布 |
| 场景 | 公园、城市道路、农村、桥梁、停车场、码头、海岸(5+ 城市,10+ 区域) |
| 光照 | 晴天、阴天、白天、夜间 |
| 隐私 | 高空拍摄,目标小,无个人信息 |
3C. Data Labeling(数据标注)
12 个类别:car, truck, traffic-sign, people, motor, bicycle, traffic-light, tricycle, bridge(人行天桥), bus, boat, ship
标注数量(Table II):
| 类别 | 总数 | Train | Val | Test |
|---|---|---|---|---|
| car | 227,751 | 112,588 | 46,396 | 68,767 |
| people | 79,485 | 39,343 | 15,457 | 24,685 |
| motor | 73,593 | 36,662 | 14,986 | 21,945 |
| truck | 24,431 | 12,147 | 5,058 | 7,226 |
| traffic-sign | 11,797 | 5,706 | 2,425 | 3,666 |
| bicycle | 3,835 | 1,892 | 813 | 1,130 |
| traffic-light | 6,891 | 3,336 | 1,498 | 2,057 |
| tricycle | 2,845 | 1,398 | 599 | 848 |
| bridge | 408 | 180 | 77 | 151 |
| bus | 4,979 | 2,444 | 1,021 | 1,514 |
| boat | 7,143 | 3,607 | 1,080 | 2,456 |
| ship | 434 | 224 | 58 | 152 |
| 总计 | 443,592 | - | - | - |
| ignored | 16,804 | 8,169 | 3,590 | 5,045 |
标注格式:L, C, D
- L = {(x_i, y_i)}₄ (四个角点坐标,顺时针)
- C = 类别
- D = 难度(1=hard, 0=normal)
- Hard 定义:小目标(<32×32 像素)、重度遮挡(≥50%)、畸变模糊
规则:
- 遮挡 >80% 丢弃
- 密集物体按 SODA 方式标为 ignored(不参与训练)
- 划分:Train 50% / Val 20% / Test 30%(测试集标注公开)
3D. Characteristics & Challenges(特性与挑战)
3D-1. 高分辨率带来更多高质量信息
- 3840×2160 分辨率,对齐现代 UAV 硬件
- 小目标(行人、自行车)在低分辨率下呈噪声/模糊状态,高分辨率保留清晰结构细节,可实现精确 OBB 标注
- 大目标(车辆)高分辨率提供更锐利的边缘信息,orientation 估计更准确
3D-2. 多高度多角度适应广泛飞行场景
高度选择依据:
- 30m:城市环境相对安全最低高度(避开电线杆、人行天桥、高植被)
- 100m:接近小 UAV 法规限高(120m),留 20m 安全余量
- 60m:平衡视场与目标细节的中介高度
角度选择依据:
- 90°(nadir):与现有遥感 OOD 数据集一致,简化 OOD 定义
- 30°(oblique):真实 UAV 部署特征,揭示侧影和透视缩短效果
关键发现:
- 倾斜 30° 视角下,物体方向与特征对应关系更模糊
- 垂直 90° 提供简化的顶视外观,rotation 更容易定义
- 但倾斜视角提供更丰富的视觉线索(侧影、遮蔽)
6 种组合分布(Table III):
| 组合 | 图像数 | 比例 |
|---|---|---|
| 30m+30° | 1,865 | 18.64% |
| 30m+90° | 1,276 | 12.75% |
| 60m+30° | 2,047 | 20.46% |
| 60m+90° | 2,269 | 22.68% |
| 100m+30° | 1,048 | 10.48% |
| 100m+90° | 1,499 | 14.98% |
3D-3. 更多样场景,更广泛应用
- 覆盖:城市、农村、港口、工业区
- 首次在 UAV OOD 数据集中包含夜间图像(Table IV)
- 白天:6,121 张(61%)
- 夜间:3,883 张(39%)
- 类别如 ship、boat(沿海环境)有多个标注实例
4. Experiments
4A. Evaluation Metrics(评估指标)
- AP50:IoU threshold = 0.5
- AP75:IoU threshold = 0.75(更严格,惩罚角度偏差)
- 对细长物体(船舶、桥梁、车辆)尤其敏感
- AP50 高但 AP75 低说明精确定位困难
4B. Selected Algorithms(22 个方法)
| 类别 | 方法 | 年份/来源 | 核心思想 |
|---|---|---|---|
| 两阶段 | Rotated Faster R-CNN | TPAMI 2017 | 扩展 Faster R-CNN 支持 OBB |
| RoI Transformer | CVPR 2019 | 监督旋转 RoI + 旋转位置敏感 RoI 对齐 | |
| Oriented R-CNN | ICCV 2021 | Oriented RPN,6 参数表示(引入2个角度参数) | |
| 单阶段 | Rotated RetinaNet | ICCV 2017 | 扩展 RetinaNet 支持 OBB |
| Rotated ATSS | CVPR 2020 | 自适应训练样本选择 | |
| S2ANet | TGRS 2021 | 特征对齐模块 + 主动旋转滤波 | |
| R3Det | AAAI 2021 | 特征 refinement 模块,从水平到旋转 | |
| GWD | ICML 2021 | Gaussian Wasserstein Distance 损失 | |
| KLD | NeurIPS 2021 | Kullback-Leibler Divergence,2D 高斯分布建模 | |
| KFIoU | ICLR 2023 | 高斯建模 + 积近似 SkewIoU | |
| 点表示 | Rotated RepPoints | ICCV 2019 | 关键点检测框架 |
| Oriented RepPoints | CVPR 2022 | 自适应点学习,捕捉非轴对齐特征 | |
| 角度回归 | CSL | ECCV 2020 | 循环平滑标签编码,解决边界不连续问题 |
| Gliding Vertex | TPAMI 2020 | 顶点滑动机制 | |
| PSC | CVPR 2023 | 相位编码解决周期性歧义 | |
| 旋转等变 | ReDet | CVPR 2021 | 旋转等变特征提取器 |
| 弱监督 | H2RBox | ICLR 2023 | 仅用水平框标注训练 OOD |
| H2RBox-v2 | NeurIPS 2023 | 引入对称感知自监督分支 | |
| 其他 | DCFL | CVPR 2023 | 动态粗到细策略 |
| LSKNet | ICCV 2023 | 大核选择性卷积机制,动态调整感受野 | |
| OrientFormer | TGRS 2024 | Wasserstein 自注意力 | |
| DeCoupleNet | TGRS 2024 | 特征解耦下采样 + 多分支特征解耦 |
4C. Implementation Details(实现细节)
- GPU:单卡 GTX 3090
- 训练:30 epochs,报告最佳结果
- 优化器:momentum 0.9,weight decay 0.00005
- 切图策略:采用 DOTA 的切图策略(高分辨率图像切小块训练)
4D. Performance Analysis(性能分析)
Benchmark 结果(Table V):
| 排名 | 方法 | AP50 | AP75 |
|---|---|---|---|
| 1 | LSKNet | 46.92 | 21.15 |
| 2 | ReDet | 44.73 | 20.17 |
| 3 | Oriented RepPoints | 44.59 | 19.62 |
| 4 | RoI Transformer | 43.03 | 19.98 |
| 5 | Rotated ATSS | 42.85 | 19.19 |
| 6 | DCFL | 42.77 | 17.68 |
| 7 | Oriented R-CNN | 42.33 | 18.99 |
| 8 | Gliding Vertex | 41.71 | 15.43 |
| 9 | OrientFormer | 41.02 | 18.00 |
| 10 | KLD | 40.98 | 17.73 |
| 11 | KFIoU | 40.63 | 18.13 |
| 12 | Rotated RetinaNet | 40.62 | 18.26 |
| 13 | GWD | 40.51 | 18.04 |
| 14 | Rotated Faster R-CNN | 40.40 | 15.23 |
| 15 | PSC | 40.13 | 18.93 |
| 16 | CSL | 40.05 | 17.28 |
| 17 | DeCoupleNet | 39.90 | 16.70 |
| 18 | R3Det | 39.88 | 16.28 |
| 19 | H2RBox-v2 | 39.07 | 12.21 |
| 20 | H2RBox | 36.22 | 10.29 |
| 21 | S2ANet | 37.61 | 10.61 |
| 22 | Rotated RepPoints | 31.25 | 13.21 |
关键发现:
| 发现 | 说明 |
|---|---|
| LSKNet 最佳 | 大kernel卷积 + 空间选择机制,动态调整感受野,适合多场景 |
| ReDet 其次 | 旋转 equivariant 设计,从 backbone 融入旋转感知 |
| AP75 远低于 AP50 | 精确定位困难,尤其细长物体 |
| RoI Transformer | 学习仿射变换纠正旋转错位,效果好 |
| Transformer 类 (OrientFormer) | AP50 有潜力,AP75 稍弱,局部空间线索不足 |
| 表现较差 | Rotated RepPoints、H2RBox、H2RBox-v2(几何建模不足或解码复杂) |
4E. Effects of Altitude & Angle(高度和角度影响)
整体趋势:
| 观察 | 说明 |
|---|---|
| 高度越高,性能越差 | AP75 下降尤其明显(目标更小) |
| 90° (垂直) 比 30° (倾斜) 好 | 垂直视角遮挡少、畸变小 |
| 30°+高空 最差 | 100m+30° 组合性能急剧下降 |
6 种组合性能排名(由好到差):
- 30m + 90°(低空垂直)— 相对最好
- 60m + 90°
- 100m + 90°
- 30m + 30°(低空倾斜)
- 60m + 30°
- 100m + 30°(高空倾斜)— 最差
LSKNet 在各组合下的表现:
| 组合 | AP50 | AP75 |
|---|---|---|
| 30m30° | 43.87 | 19.75 |
| 30m90° | 55.71 | 32.38 |
| 60m30° | 43.86 | 19.34 |
| 60m90° | 51.82 | 27.17 |
| 100m30° | 38.63 | 16.45 |
| 100m90° | 51.31 | 28.23 |
5. Conclusion
- CODrone 是首个 UAV 视角、多类别 OBB 数据集
- 填补了 UAV OOD 领域的 benchmark 空白
- 实验证明现有方法在 UAV 场景下存在显著性能差距
- 未来方向:空间特征对齐、本地-全局上下文集成、旋转敏感性
