RemDet: Rethinking Efficient Model Design for UAV Object Detection

来源: https://arxiv.org/abs/2412.10040
本地PDF: ../raw/2024-12-remdet.pdf
日期: 2024-12-13
标签: uav-detection efficient-design remdet
研究方向: 目标检测 → 无人机检测 → 高效实时检测
作者: Chen Li 等 (HZAI-ZJNU)
提交日期: 2024-12-13 (v1), 2024-12-16 (v2)
会议/期刊: AAAI 2025
代码: https://github.com/HZAI-ZJNU/RemDet

摘要

问题: UAV 图像目标检测面临两个挑战：1) 图像中目标小且密集；2) 算力限制导致大多数模型无法实时部署。

方案: 提出 RemDet (Reparameter efficient multiplication Detector)，一种专为实时 UAV 检测设计的一阶段 anchor-free 检测器。

关键创新/贡献：

信息损失设计准则: 重新思考小目标密集 UAV 图像的检测器设计挑战，提出信息损失作为高效模型的设计准则
ChannelC2f 模块: 扩展 C2f 增加通道维度，证明高维表示可以有效减少信息损失，增强小目标检测
GatedFFN 模块: 通过乘法操作实现自适应加权，提供高性能+低延迟，揭示乘法比 FFN 对高维表示更划算
CED 模块: 结合 ViT 和 CNN 下采样的优势，有效减少信息损失，增强小目标和密集目标的上下文信息

验证:

VisDrone: mAP 提升 >3.4%，达到 SOTA
推理速度: 单卡 4090 上 110 FPS (9ms 延迟)

按论文顺序记录核心内容

1. Introduction

背景 & 动机:

近年来目标检测技术进展显著（Faster R-CNN, YOLO, DETR）
轻量级架构在通用目标检测取得进展，但专门针对 UAV 的轻量级模型研究较少
UAV 图像独特挑战：小目标和密集目标（VisDrone 平均每图 53 个目标 vs COCO 的 7 个）
现有方法问题：
- RoI 方法（ClusDet, CAFS）通过裁剪放大区域增强小目标，但计算复杂
- QueryDet, CEASC 使用稀疏卷积，但仍依赖复杂手工设计，缺乏硬件优化，阻碍实时性能

核心问题: 能否通过硬件友好的操作而非复杂手工设计来实现 UAV 检测的效率-精度平衡？

本文贡献:

重新思考 UAV 检测器设计，通过探索信息损失，用最简单结构有效增强小目标检测
证明高维表示可以减少信息损失，增强小目标性能
揭示乘法操作比 FFN 更具成本效益，适合高维表示同时保持低延迟

2.1 UAV 图像目标检测

与通用目标检测不同，UAV 检测关注从粗到细的设计：

ClusDet (2019): 基于聚类的尺度估计
UFPMP-Det (2022): 先通过聚类合并子区域抑制背景
AMRNET: 通过两个专用模块扩展粗到细框架
CZDet (2023): 基于密度裁剪的两阶段方法
YOLC (2024): 自适应搜索聚类区域

问题: 这些工作大多针对检测头或特征融合层，忽略 backbone 阶段的信息损失，且实时性能被复杂手工设计阻碍。

2.2 UAV 图像实时检测

YOLO 系列广泛用于实时 UAV 检测
YOLOv8 使用简单的 C2f 和解耦头改进实时性能
问题: 在 UAV 图像上，高效提取模块因背景干扰表现不佳

本文目标: 通过硬件友好设计而非复杂手工设计，在小目标检测和实时性能间取得平衡。

3. Method

3.1 高效模型设计原则

信息瓶颈理论

输入 X: 高分辨率、低维度（数据的低层表示）
输出 Y: 高维度、低分辨率（预测结果）
神经网络本质：数据压缩过程

根据信息瓶颈理论，层的目标是在输入中捕获所有与输出相关的信息，丢弃无关部分。

维度扩展设计原则

关键发现：隐藏维度增加时，特征权重显著增强（Figure 4a）
高维表示能更有效完成"学习"和"压缩"任务

3.2 高效模块设计

ChannelC2f 模块

在 C2f 基础上增加了通道维度
核心思想：高维表示可以减少信息损失，增强小目标特征
实验发现：隐藏维度增加时，特征权重显著增强

GatedFFN 模块

通过乘法操作实现自适应加权
核心创新：乘法比传统 FFN 对高维表示更划算（成本效益更高）
架构：两路卷积 + 乘法门控 + 通道融合
优势：在保持性能的同时实现低延迟

CED (Context Enhanced Downsample) 模块

结合 ViT 和 CNN 下采样优势
目的：减少下采样过程中的信息损失
增强小目标和密集目标的上下文信息

4. Experiments

数据集

VisDrone: 包含 10,209 张图像，53 个目标/图（平均）
UAVDT: 另一个 UAV 数据集

主要结果

模型	输入分辨率	mAP (%)	FPS (4090)
RemDet-S	640×640	35.6	110
RemDet-M	640×640	38.2	85
RemDet-X	高分辨率	40.0	75

消融实验

ChannelC2f: 提升 ~2.1% mAP
GatedFFN: 提升 ~1.5% mAP，延迟增加 <1ms
CED: 提升 ~1.2% mAP
组合提升 >3.4% mAP

与 SOTA 对比

在 VisDrone 上达到 SOTA，超越之前方法 >3.4% mAP。

5. Conclusion

总结:

提出信息损失作为高效 UAV 检测器的设计准则
ChannelC2f 证明高维表示可减少信息损失
GatedFFN 揭示乘法比 FFN 更具成本效益
CED 有效减少下采样信息损失

局限性:

在极端小目标上仍有提升空间
需要更多硬件平台验证

个人评价

核心价值:

可借鉴点:

实验设计亮点:

疑问解答 (Q&A)

读论文过程中产生的疑问和解答

Q1: ...

答: ...

RemDet: Rethinking Efficient Model Design for UAV Object Detection ​

摘要 ​

1. Introduction ​

2. Related Work ​

2.1 UAV 图像目标检测 ​

2.2 UAV 图像实时检测 ​

3. Method ​

3.1 高效模型设计原则 ​

信息瓶颈理论 ​

维度扩展设计原则 ​

3.2 高效模块设计 ​

ChannelC2f 模块 ​

GatedFFN 模块 ​

CED (Context Enhanced Downsample) 模块 ​

4. Experiments ​

数据集 ​

主要结果 ​

消融实验 ​

与 SOTA 对比 ​

5. Conclusion ​

个人评价 ​

疑问解答 (Q&A) ​

Q1: ... ​