Large Selective Kernel Network for Remote Sensing Object Detection

来源: https://arxiv.org/abs/2303.09030
本地PDF: ../raw/2023-03-16-lsknet.pdf
日期: 2023-03-16
标签: remote-sensing, object-detection, backbone, lsknet, oriented-bounding-box
研究方向: 2D Object Detection → 遥感检测 → 主干网络
核心贡献: 提出 LSKNet，首个大选择性核机制，能动态调整感受野以适应不同距离的遥感物体
方法简述:
- Large Selective Kernel: 大核 + 选择性机制
- 动态调整感受野以建模不同物体的上下文距离
个人评价: 将 NLP/视觉的大核思路引入遥感，思路新颖，在多个遥感 OOD 数据集上达到 SOTA
GitHub: https://github.com/zcablii/Large-Selective-Kernel-Network

摘要 (Abstract)

遥感目标检测的研究主要集中在改进定向边界框的表示，但忽略了遥感场景中的独特先验知识：

小目标需要足够远的上下文才能正确检测
不同类型物体需要的上下文距离不同

LSKNet 能动态调整大空间感受野，更好地建模遥感场景中各种物体的距离上下文。

在标准 benchmark 上取得 SOTA:

HRSC2016: 98.46% mAP
DOTA-v1.0: 81.85% mAP
FAIR1M-v1.0: 47.87% mAP

1. Introduction

背景

遥感检测主流方向：生成定向边界框 (OBB) 而非水平框
现有方法专注于：检测框架 (RoI Transformer, Oriented R-CNN, R3Det)、编码方式 (gliding vertex)、损失函数 (GWD, KLD)

忽视的先验知识

遥感图像的两个重要特性：

需要大范围上下文: Fig 1(a) 有限上下文导致误检（如把交叉口误判）
不同物体需要不同距离上下文: Fig 1(b) 船只需要大范围，车辆需要小范围

核心思想

首次在遥感目标检测中引入 大选择性核机制 (Large Selective Kernel)，能：

动态调整感受野
根据不同物体自适应选择上下文距离

2.1 遥感目标检测框架

类别	方法	核心思想
Two-stage	RoI Transformer	用全连接层旋转候选水平框
	SCRDet	注意力机制减少背景噪声
	Oriented RCNN	引入新的 box 编码系统解决旋转角度周期性
	Gliding Vertex	顶点滑动机制
One-stage	S2A-Net	Oriented feature alignment + 方向不变特征提取
	DRN	注意力机制动态细化特征
	RSDet	调制损失解决回归不连续性
	AOPG / R3Det	从粗到细的渐进回归
Transformer	AO2-DETR	将 DETR 引入遥感检测

2.2 大核网络

方法	核大小	特点
ConvNeXt	7×7 depth-wise	在下游任务显著提升
RepLKNet	31×31	通过重参数化实现
SLaK	51×51	内核分解 + 稀疏分组技术
VAN	大核分解	高效的大核卷积注意力
SegNeXt / Conv2Former	大核	丰富上下文的卷积特征调制

论文观点：尽管大核卷积在通用目标识别中受到关注，但缺乏在遥感检测中的研究。航拍图像的特殊性使大核特别适合遥感任务。

2.3 注意力/选择性机制

方法	类型	核心思想
SE Block	Channel attention	全局平均信息重加权通道
GENet / GCNet / SGE	Spatial attention	通过空间掩码增强上下文建模
CBAM / BAM	联合	结合 channel + spatial attention
CondConv / Dynamic Conv	Kernel selection	并行核自适应聚合特征
SKNet	Channel selection	多分支不同卷积核，沿通道维度选择性组合
ResNeSt	Channel selection	对 SKNet 扩展，输入特征分组
SCNet	联合	分支注意力 + 空间注意力
Deformable Conv	柔性卷积	灵活的卷积核形状

LSKNet 与 SKNet 的区别：

选择性机制基于分解的大核序列，而不是现有的注意力方法
LSKNet 在空间维度而不是通道维度聚合不同大核的信息
- 论文观点：通道选择无法建模图像空间中不同目标的空间差异

3. Method

3.1 整体结构

LSKNet 变体（Table 1）：

变体	通道数 C	LSK 块数	参数量
LSKNet-T	32, 64, 160, 256	3, 3, 5, 2	4.3M
LSKNet-S	64, 128, 320, 512	2, 2, 4, 2	14.4M

每个 LSKNet block 由两个 residual sub-blocks 组成：
1. LK Selection（Large Kernel Selection）— 核心 LSK 模块
2. FFN（Feed-forward Network）

3.2 Large Kernel Convolutions（大核卷积）

核心思想：将大核分解为一系列 depth-wise 卷积，核 size 和膨胀率(dilation)逐渐增大。

公式：

核大小：$k_{i-1} \leq k_i$
膨胀率：$d_1 = 1, d_{i-1} < d_i \leq RF_{i-1}$
感受野：$RF_1 = k_1, RF_i = d_i(k_i - 1) + RF_{i-1}$

分解示例（Table 2）：

(k, d) 序列	理论 RF	参数量	FLOPs
(23, 1)	23	40.4K	42.4G
(5, 1) → (7, 3)	29	11.3K	11.9G
(29, 1)	29	60.4K	63.3G
(3, 1) → (5, 2) → (7, 3)	29	11.3K	13.6G

两个优势：

显式生成多个不同感受野的特征，方便后续 kernel selection
序列分解比直接用大核更高效（参数量和 FLOPs 大幅减少）

实现：

U0 = X
Ui+1 = Fdw_i(Ui)  # depth-wise conv with kernel ki, dilation di

Ũi = F1×1_i(Ui)  # 1×1 conv 做 channel mixing

3.3 Spatial Kernel Selection（空间核选择）

目的：让网络聚焦于检测目标最相关的空间上下文区域。

步骤：

特征拼接：Ũ = [Ũ1; ...; ŨN]
空间描述子提取（channel-wise avg + max pooling）：
- $SA_{avg} = P_{avg}(Ũ)$
- $SA_{max} = P_{max}(Ũ)$
生成空间注意力图：
- $ẐA = F_{2→N}([SA_{avg}; SA_{max}])$ # 2→N 通道
- $S̃A_i = σ(ẐA_i)$ # sigmoid 得到 N 个 mask
特征加权融合：
- $S = F(\sum_{i=1}^{N} S̃A_i · Ũi)$
残差连接：
- $Y = X · S$ # element-wise product

核选择机制：通过空间注意力图进行自适应选择 — 不同的物体（如船、车）可以自适应地"选择"哪个感受野的特征最合适。

与 SKNet 的区别：

SKNet 用 channel attention
LSKNet 用 spatial attention（论文 ablation 证明空间注意力更适合遥感任务）

4. Experiments

4.1 数据集

数据集	图像数	标注数	类别数	特点
HRSC2016	1,061	2,976	1 (船)	高分辨率船舶检测
DOTA-v1.0	2,806	188,282	15	航拍 OBB 最常用基准
FAIR1M-v1.0	15,266	1,000,000+	5类37子类	细粒度船舶/车辆

DOTA-v1.0 15 类：Plane(PL), Baseball diamond(BD), Bridge(BR), Ground track field(GTF), Small vehicle(SV), Large vehicle(LV), Ship(SH), Tennis court(TC), Basketball court(BC), Storage tank(ST), Soccer-ball field(SBF), Roundabout(RA), Harbor(HA), Swimming pool(SP), Helicopter(HC)

4.2 实现细节

预训练：先在 ImageNet-1K 预训练，再微调到目标数据集
- 消融实验：100-epoch 预训练（效率优先）
- 主实验：300-epoch 预训练（更高精度）
训练配置：
- HRSC2016：36 epochs，lr=0.0004
- DOTA/FAIR1M：12 epochs，lr=0.0002
- Optimizer：AdamW，weight_decay=0.05
- GPU：8×RTX3090（训练），1×RTX3090（测试）
- 输入尺寸：1024×1024

4.3 消融实验

4.3.1 大核分解数量（Table 3）

分解数量	(k, d) 序列	RF	FPS	mAP (%)
1	(29, 1)	29	18.6	80.66
2	(5, 1)→(7, 4)	29	20.5	80.91
3	(3, 1)→(5, 2)→(7, 3)	29	19.2	80.77

结论：分解为 2 个 depth-wise 核达到速度和精度最佳平衡。

4.3.2 感受野大小与选择类型（Table 4）

(k1,d1)	(k2,d2)	CS	SS	RF	FPS	mAP (%)
(3,1)	(5,2)	-	-	11	22.1	80.80
(5,1)	(7,3)	-	-	23	21.7	80.94
(7,1)	(9,4)	-	-	39	21.3	80.84
(5,1)	(7,3)	✓	-	23	19.6	80.57
(5,1)	(7,3)	-	✓	23	20.7	81.31

结论：

RF=23 最有效（太大或太小都影响性能）
空间选择（SS）比通道选择（CS）更适合遥感任务

4.3.3 Pooling 方式（Table 5）

Max Pool	Avg Pool	FPS	mAP (%)
✓	-	20.7	81.23
-	✓	20.7	81.12
✓	✓	20.7	81.31

结论：同时使用 Max 和 Avg pooling 效果最好。

4.3.4 不同检测框架（Table 6）

Backbone	O-RCNN	RoI Trans.	S2A-Net	R3Det
ResNet-18	79.27	78.32	76.82	74.16
LSKNet-T	81.31	80.89	80.15	78.39
提升	+2.04	+2.57	+3.33	+4.23

Backbone 参数量	FLOPs
ResNet-18	11.2M / 38.1G
LSKNet-T	4.3M (-62%) / 19.1G (-50%)

结论：LSKNet-T 显著优于 ResNet-18，且参数量和 FLOPs 大幅减少。

4.3.5 与其他大核/选择性注意力 Backbone 对比（Table 7）

Model	#P	FLOPs	mAP (%)
ResNet-18 (baseline)	11.2M	38.1G	79.27
VAN-B1 (大核)	13.4M	52.7G	81.15
ConvNeXt V2-N (大核)	15.0M	51.2G	80.81
MSCAN-S (大核)	13.1M	45.0G	81.12
SKNet-26 (选择性)	14.5M	58.5G	80.67
ResNeSt-14 (选择性)	8.6M	57.9G	79.51
SCNet-18 (选择性)	14.0M	50.7G	79.69
LSKNet-S (ours)	14.4M	54.4G	81.48
Prev Best (CSPNeXt)	26.1M	87.6G	81.33

结论：在相似复杂度下，LSKNet 达到最佳 mAP。

4.4 主实验结果

4.4.1 HRSC2016（Table 8）

Method	Pre.	mAP(07)	mAP(12)	#P	FLOPs
DRN	IN	-	92.70	-	-
CenterMap	IN	-	92.80	41.1M	198G
RoI Trans.	IN	86.20	-	55.1M	200G
R3Det	IN	89.26	96.01	41.9M	336G
ReDet	IN	90.46	97.63	31.6M	-
O-RCNN	IN	90.50	97.60	41.1M	199G
RTMDet	CO	90.60	97.10	52.3M	205G
LSKNet-S (ours)	IN	90.65	98.46	31.0M	161G

结论：LSKNet-S 在 HRSC2016 达到 SOTA（98.46% mAP12）。

4.4.2 DOTA-v1.0（Table 9）

Method	Pre.	mAP	#P	FLOPs
O-RCNN	IN	80.87	41.1M	199G
ReDet	IN	80.10	31.6M	-
RVSA	MA	81.24	114.4M	414G
RTMDet-R	CO	81.33	52.3M	205G
LSKNet-T	IN	81.37	21.0M	124G
LSKNet-S	IN	81.64	31.0M	161G
LSKNet-S*	IN	81.85	31.0M	161G

注：LSKNet-S 使用 EMA fine-tune

结论：LSKNet-S* 在 DOTA-v1.0 达到 81.85% mAP，且参数量和 FLOPs 更少。

4.4.3 FAIR1M-v1.0（Table 10）

Method	mAP(%)
G.V.*	29.92
RetinaNet*	30.67
C-RCNN*	31.18
F-RCNN*	32.12
RoI Trans.*	35.29
O-RCNN	45.60
LSKNet-T	46.93
LSKNet-S	47.87

结论：LSKNet 在 FAIR1M 上大幅领先（+2.27% mAP）。

4.4.4 2022 大湾区算法竞赛（Table 11）

排名	团队	Final-stage mAP
1	nust milab	74.16
2	Secret;Weapon (ours)	73.94
3	JiaNeng	72.90

结论：LSKNet 方案获得竞赛第二名。

4.5 泛化性分析

不同物体的感受野需求（Fig 6）：

Bridge（桥梁）需要最大的上下文范围
不同类别对 RF 的需求差异显著，验证了论文先验知识的合理性

5. Conclusion

LSKNet 作为一个主干网络 (backbone)，专为遥感目标检测设计，核心创新点是：

大核分解 — 序列分解大核，高效获取多尺度感受野
空间选择机制 — 通过注意力图自适应选择核，适合遥感场景

在 DOTA、HRSC2016、FAIR1M 等遥感 OOD 主流数据集上均达到 SOTA，且参数量和 FLOPs 显著低于 ResNet-18。

参考资料

论文: https://arxiv.org/abs/2303.09030
GitHub: https://github.com/zcablii/Large-Selective-Kernel-Network
参考: CODrone 论文用它取得了 AP50=46.92 (最佳)

Large Selective Kernel Network for Remote Sensing Object Detection ​

摘要 (Abstract) ​

1. Introduction ​

背景 ​

忽视的先验知识 ​

核心思想 ​

2. Related Work ​

2.1 遥感目标检测框架 ​

2.2 大核网络 ​

2.3 注意力/选择性机制 ​

3. Method ​

3.1 整体结构 ​

3.2 Large Kernel Convolutions（大核卷积） ​

3.3 Spatial Kernel Selection（空间核选择） ​

4. Experiments ​

4.1 数据集 ​

4.2 实现细节 ​

4.3 消融实验 ​

4.3.1 大核分解数量（Table 3） ​

4.3.2 感受野大小与选择类型（Table 4） ​

4.3.3 Pooling 方式（Table 5） ​

4.3.4 不同检测框架（Table 6） ​

4.3.5 与其他大核/选择性注意力 Backbone 对比（Table 7） ​

4.4 主实验结果 ​

4.4.1 HRSC2016（Table 8） ​

4.4.2 DOTA-v1.0（Table 9） ​

4.4.3 FAIR1M-v1.0（Table 10） ​

4.4.4 2022 大湾区算法竞赛（Table 11） ​

4.5 泛化性分析 ​

5. Conclusion ​

参考资料 ​