More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection Benchmark for UAV

来源: https://arxiv.org/abs/2504.20032
本地PDF: ../raw/2025-04-28-codrone.pdf
日期: 2025-04-28
标签: uav, oriented-object-detection, obb, drone, dataset
研究方向: 2D Object Detection → UAV 航拍 → OBB 旋转框检测
核心贡献: 提出 CODrone，首个针对 UAV 场景的大规模 OBB 旋转框检测数据集
方法简述:
- 解决现有 UAV OOD 数据集的 4 个局限：低分辨率、类别少、单视角、受限飞行高度
- 多城市、多光照条件数据采集
- 22 个经典/SOTA 方法的 benchmark
个人评价: 首个 UAV 视角的 OBB 数据集，填补了领域空白，实验揭示了当前 OOD 方法在 UAV 场景的挑战
GitHub: https://github.com/AHideoKuzeA/CODrone-A-Comprehensive-Oriented-Object-Detection-benchmark-for-UAV

摘要 (Abstract)

UAV 在物流、农业、城市管理、应急响应等领域的应用高度依赖 OOD (Oriented Object Detection) 来增强视觉感知。现有 UAV OOD 数据集通常针对特定下游任务设计，泛化性能有限。

CODrone 解决的问题：

图像分辨率低
目标类别有限
单视角成像
受限的飞行高度

CODrone 包含从多个城市采集的广泛标注图像，在各种光照条件下增强了 benchmark 的真实性。

1. Introduction

背景

UAV 在低高度、灵活视角下运行，比卫星更适合城市应用
OOD 是核心感知任务，不仅定位分类，还估计旋转角度

现有数据集的问题

现有数据集	问题
DOTA, DIOR-R (卫星)	高空视角，与 UAV 场景差异大
VisDrone, UAVDT (UAV)	只有水平框标注，无 OBB
DroneVehicle, UAV-ROD	只专注车辆，类别有限

四个关键局限（原文详解）

图像分辨率需提升 — 无人机硬件升级，高分辨率图像是趋势。小目标（行人、自行车）在低分辨率下过于模糊，无法可靠检测
目标类别需丰富 — 现有 UAV OOD 数据集主要关注车辆。VisDrone 有更多类别但无 OBB 标注；DOTA 有 OBB 但高空视角与 UAV 差异大，存在显著的领域 gap
多高度成像需扩展 — 高度变化导致尺度变化大。低空物体中/大尺寸，高空变极小。现有数据集通常固定高度或高度范围窄，模型难以泛化
多样视角需求 — 倾斜视角 vs 垂直视角，物体外观不同。30° 倾斜视角可揭示物体侧影，丰富空间上下文；垂直视角操作不便且信息有限

CODrone 贡献

10,000+ 高分辨率 UAV 图像，OBB 标注
首次 UAV 视角的多类别 OBB 数据集
6 种视角组合 (3 高度 × 2 角度)
22 个方法的 benchmark

A. 高空 HOD 数据集

SIMD: 5,000 图, 1024×768, 15 类 (车辆、飞机、船舶)
COWC: 58,000 硬负样本，专注车辆检测
NWPU VHR-10: 800 图, 10 类, 650 标注+150 背景图
RSOD: 4 类 (飞机、油罐、操场、天桥)
DIOR: 20,000+ 图, 190,000 标注, 20 类
xView: 100 万标注, 60 类, 0.3米分辨率, 1400 km²
HRRSD: 21,761 图, 0.15-1.2米分辨率, 55,740 标注, 13 类
LEVIR: 城市/农村/山区/海岸，3 类 (飞机、船舶、油罐)
AI-TOD: 小目标检测，平均目标尺寸仅 12.8 像素

B. 高空 OOD 数据集

DOTA (v1/v2): 18 类, 11,268 图, 1,793,658 标注 — 最常用
SODA-A: 高分辨率航拍，SODA 子集
DIOR-R: 20 类 OBB，标注类别最多的 OOD 数据集
FAIR1M: 细粒度分类，飞机 11 子类，车辆 10 子类
HRSC2016: 船舶检测，多级别类别
VEDAI: 多种分辨率 (低到高)，车辆+船舶
FGSD: 15,000+ 图, 100 万船舶标注，港口城市机场
EAGLE: 215,986 车辆标注，带方向，多传感器/分辨率/高度/天气/光照

C. UAV-based HOD 数据集

VisDrone: 10 类, 10,200 图, 54,200 标注, 最常用
UAVDT: 80,000 帧, 841,500 标注, 3 类, 60m 高度, 交通场景
AU-AIR: 8 类, 3,200 图, 132,000 标注, 25m, 45°
CARPK: 1 类 (车辆), 1,400 图, 89,700 标注, 40m
HazyDet: 11,600 图, 383,000 标注, 雾天检测

D. UAV-based OOD 数据集（极度匮乏）

DroneVehicle: 56,800 图, 953,000 标注, 5 类车辆, RGB+红外, 40m, 30°
UAV-ROD: 1,500 图, 30,000 标注, 1 类, 50m, 车辆检测

仅上述两个公开数据集，类别极其有限

3. CODrone Dataset

数据集对比 (Table I)

数据集	分辨率	类别	高度范围	角度	图像数	标注数	OBB
VisDrone2019	2000×1500	10	-	-	10.2k	54.2k	❌
UAVDT	1080×540	3	60m	-	80k	841.5k	❌
AU-AIR	1920×1080	8	25m	45°	3.2k	132k	❌
CARPK	1280×720	1	-	-	1.4k	89.7k	❌
DroneVehicle	840×712	5	40m	30°	56.8k	953k	✅
UAV-ROD	1920×1080	1	50m	-	1.5k	30k	✅
CODrone	3840×2160	12	30-100m	30°/90°	10,004	596.7k	✅

3A. Overview（概述）

从数百个 60fps 视频 clip 中手动筛选出 10,004 张高质量图像
每 200 帧取 1 帧，去除运动模糊和冗余帧
剩余视频资源将用于未来任务（目标跟踪、多帧检测）
每张图像显式标注了高度和角度信息（文件名后缀编码）

3B. Data Capturing（数据采集）

项目	详情
设备	DJI Mavic 3 Pro
速度	10-15 m/s
高度	30m（最低安全）, 60m（平衡）, 100m（接近120m限高，留20m余量）
角度	30°（倾斜视角）, 90°（垂直俯视）
视角组合	3×2 = 6 种均匀分布
场景	公园、城市道路、农村、桥梁、停车场、码头、海岸（5+ 城市，10+ 区域）
光照	晴天、阴天、白天、夜间
隐私	高空拍摄，目标小，无个人信息

3C. Data Labeling（数据标注）

12 个类别：car, truck, traffic-sign, people, motor, bicycle, traffic-light, tricycle, bridge（人行天桥）, bus, boat, ship

标注数量（Table II）：

类别	总数	Train	Val	Test
car	227,751	112,588	46,396	68,767
people	79,485	39,343	15,457	24,685
motor	73,593	36,662	14,986	21,945
truck	24,431	12,147	5,058	7,226
traffic-sign	11,797	5,706	2,425	3,666
bicycle	3,835	1,892	813	1,130
traffic-light	6,891	3,336	1,498	2,057
tricycle	2,845	1,398	599	848
bridge	408	180	77	151
bus	4,979	2,444	1,021	1,514
boat	7,143	3,607	1,080	2,456
ship	434	224	58	152
总计	443,592	-	-	-
ignored	16,804	8,169	3,590	5,045

标注格式：L, C, D

L = {(x_i, y_i)}₄ (四个角点坐标，顺时针)
C = 类别
D = 难度（1=hard, 0=normal）
- Hard 定义：小目标（<32×32 像素）、重度遮挡（≥50%）、畸变模糊

规则：

遮挡 >80% 丢弃
密集物体按 SODA 方式标为 ignored（不参与训练）
划分：Train 50% / Val 20% / Test 30%（测试集标注公开）

3D. Characteristics & Challenges（特性与挑战）

3D-1. 高分辨率带来更多高质量信息

3840×2160 分辨率，对齐现代 UAV 硬件
小目标（行人、自行车）在低分辨率下呈噪声/模糊状态，高分辨率保留清晰结构细节，可实现精确 OBB 标注
大目标（车辆）高分辨率提供更锐利的边缘信息，orientation 估计更准确

3D-2. 多高度多角度适应广泛飞行场景

高度选择依据：

30m：城市环境相对安全最低高度（避开电线杆、人行天桥、高植被）
100m：接近小 UAV 法规限高（120m），留 20m 安全余量
60m：平衡视场与目标细节的中介高度

角度选择依据：

90°（nadir）：与现有遥感 OOD 数据集一致，简化 OOD 定义
30°（oblique）：真实 UAV 部署特征，揭示侧影和透视缩短效果

关键发现：

倾斜 30° 视角下，物体方向与特征对应关系更模糊
垂直 90° 提供简化的顶视外观，rotation 更容易定义
但倾斜视角提供更丰富的视觉线索（侧影、遮蔽）

6 种组合分布（Table III）：

组合	图像数	比例
30m+30°	1,865	18.64%
30m+90°	1,276	12.75%
60m+30°	2,047	20.46%
60m+90°	2,269	22.68%
100m+30°	1,048	10.48%
100m+90°	1,499	14.98%

3D-3. 更多样场景，更广泛应用

覆盖：城市、农村、港口、工业区
首次在 UAV OOD 数据集中包含夜间图像（Table IV）
- 白天：6,121 张（61%）
- 夜间：3,883 张（39%）
类别如 ship、boat（沿海环境）有多个标注实例

4. Experiments

4A. Evaluation Metrics（评估指标）

AP50：IoU threshold = 0.5
AP75：IoU threshold = 0.75（更严格，惩罚角度偏差）
- 对细长物体（船舶、桥梁、车辆）尤其敏感
- AP50 高但 AP75 低说明精确定位困难

4B. Selected Algorithms（22 个方法）

类别	方法	年份/来源	核心思想
两阶段	Rotated Faster R-CNN	TPAMI 2017	扩展 Faster R-CNN 支持 OBB
	RoI Transformer	CVPR 2019	监督旋转 RoI + 旋转位置敏感 RoI 对齐
	Oriented R-CNN	ICCV 2021	Oriented RPN，6 参数表示（引入2个角度参数）
单阶段	Rotated RetinaNet	ICCV 2017	扩展 RetinaNet 支持 OBB
	Rotated ATSS	CVPR 2020	自适应训练样本选择
	S2ANet	TGRS 2021	特征对齐模块 + 主动旋转滤波
	R3Det	AAAI 2021	特征 refinement 模块，从水平到旋转
	GWD	ICML 2021	Gaussian Wasserstein Distance 损失
	KLD	NeurIPS 2021	Kullback-Leibler Divergence，2D 高斯分布建模
	KFIoU	ICLR 2023	高斯建模 + 积近似 SkewIoU
点表示	Rotated RepPoints	ICCV 2019	关键点检测框架
	Oriented RepPoints	CVPR 2022	自适应点学习，捕捉非轴对齐特征
角度回归	CSL	ECCV 2020	循环平滑标签编码，解决边界不连续问题
	Gliding Vertex	TPAMI 2020	顶点滑动机制
	PSC	CVPR 2023	相位编码解决周期性歧义
旋转等变	ReDet	CVPR 2021	旋转等变特征提取器
弱监督	H2RBox	ICLR 2023	仅用水平框标注训练 OOD
	H2RBox-v2	NeurIPS 2023	引入对称感知自监督分支
其他	DCFL	CVPR 2023	动态粗到细策略
	LSKNet	ICCV 2023	大核选择性卷积机制，动态调整感受野
	OrientFormer	TGRS 2024	Wasserstein 自注意力
	DeCoupleNet	TGRS 2024	特征解耦下采样 + 多分支特征解耦

4C. Implementation Details（实现细节）

GPU：单卡 GTX 3090
训练：30 epochs，报告最佳结果
优化器：momentum 0.9，weight decay 0.00005
切图策略：采用 DOTA 的切图策略（高分辨率图像切小块训练）

4D. Performance Analysis（性能分析）

Benchmark 结果（Table V）：

排名	方法	AP50	AP75
1	LSKNet	46.92	21.15
2	ReDet	44.73	20.17
3	Oriented RepPoints	44.59	19.62
4	RoI Transformer	43.03	19.98
5	Rotated ATSS	42.85	19.19
6	DCFL	42.77	17.68
7	Oriented R-CNN	42.33	18.99
8	Gliding Vertex	41.71	15.43
9	OrientFormer	41.02	18.00
10	KLD	40.98	17.73
11	KFIoU	40.63	18.13
12	Rotated RetinaNet	40.62	18.26
13	GWD	40.51	18.04
14	Rotated Faster R-CNN	40.40	15.23
15	PSC	40.13	18.93
16	CSL	40.05	17.28
17	DeCoupleNet	39.90	16.70
18	R3Det	39.88	16.28
19	H2RBox-v2	39.07	12.21
20	H2RBox	36.22	10.29
21	S2ANet	37.61	10.61
22	Rotated RepPoints	31.25	13.21

关键发现：

发现	说明
LSKNet 最佳	大kernel卷积 + 空间选择机制，动态调整感受野，适合多场景
ReDet 其次	旋转 equivariant 设计，从 backbone 融入旋转感知
AP75 远低于 AP50	精确定位困难，尤其细长物体
RoI Transformer	学习仿射变换纠正旋转错位，效果好
Transformer 类 (OrientFormer)	AP50 有潜力，AP75 稍弱，局部空间线索不足
表现较差	Rotated RepPoints、H2RBox、H2RBox-v2（几何建模不足或解码复杂）

4E. Effects of Altitude & Angle（高度和角度影响）

整体趋势：

观察	说明
高度越高，性能越差	AP75 下降尤其明显（目标更小）
90° (垂直) 比 30° (倾斜) 好	垂直视角遮挡少、畸变小
30°+高空最差	100m+30° 组合性能急剧下降

6 种组合性能排名（由好到差）：

30m + 90°（低空垂直）— 相对最好
60m + 90°
100m + 90°
30m + 30°（低空倾斜）
60m + 30°
100m + 30°（高空倾斜）— 最差

LSKNet 在各组合下的表现：

组合	AP50	AP75
30m30°	43.87	19.75
30m90°	55.71	32.38
60m30°	43.86	19.34
60m90°	51.82	27.17
100m30°	38.63	16.45
100m90°	51.31	28.23

5. Conclusion

CODrone 是首个 UAV 视角、多类别 OBB 数据集
填补了 UAV OOD 领域的 benchmark 空白
实验证明现有方法在 UAV 场景下存在显著性能差距
未来方向：空间特征对齐、本地-全局上下文集成、旋转敏感性

More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection Benchmark for UAV ​

摘要 (Abstract) ​

1. Introduction ​

背景 ​

现有数据集的问题 ​

四个关键局限（原文详解） ​

CODrone 贡献 ​

2. Related Work ​

A. 高空 HOD 数据集 ​

B. 高空 OOD 数据集 ​

C. UAV-based HOD 数据集 ​

D. UAV-based OOD 数据集（极度匮乏） ​

3. CODrone Dataset ​

数据集对比 (Table I) ​

3A. Overview（概述） ​

3B. Data Capturing（数据采集） ​

3C. Data Labeling（数据标注） ​

3D. Characteristics & Challenges（特性与挑战） ​

3D-1. 高分辨率带来更多高质量信息 ​

3D-2. 多高度多角度适应广泛飞行场景 ​

3D-3. 更多样场景，更广泛应用 ​

4. Experiments ​

4A. Evaluation Metrics（评估指标） ​

4B. Selected Algorithms（22 个方法） ​

4C. Implementation Details（实现细节） ​

4D. Performance Analysis（性能分析） ​

4E. Effects of Altitude & Angle（高度和角度影响） ​

5. Conclusion ​

参考资料 ​