Skip to content

Large Selective Kernel Network for Remote Sensing Object Detection

  • 来源: https://arxiv.org/abs/2303.09030
  • 本地PDF: ../raw/2023-03-16-lsknet.pdf
  • 日期: 2023-03-16
  • 标签: remote-sensing, object-detection, backbone, lsknet, oriented-bounding-box
  • 研究方向: 2D Object Detection → 遥感检测 → 主干网络
  • 核心贡献: 提出 LSKNet,首个大选择性核机制,能动态调整感受野以适应不同距离的遥感物体
  • 方法简述:
    • Large Selective Kernel: 大核 + 选择性机制
    • 动态调整感受野以建模不同物体的上下文距离
  • 个人评价: 将 NLP/视觉的大核思路引入遥感,思路新颖,在多个遥感 OOD 数据集上达到 SOTA
  • GitHub: https://github.com/zcablii/Large-Selective-Kernel-Network

摘要 (Abstract)

遥感目标检测的研究主要集中在改进定向边界框的表示,但忽略了遥感场景中的独特先验知识:

  • 小目标需要足够远的上下文才能正确检测
  • 不同类型物体需要的上下文距离不同

LSKNet 能动态调整大空间感受野,更好地建模遥感场景中各种物体的距离上下文。

在标准 benchmark 上取得 SOTA:

  • HRSC2016: 98.46% mAP
  • DOTA-v1.0: 81.85% mAP
  • FAIR1M-v1.0: 47.87% mAP

1. Introduction

背景

  • 遥感检测主流方向:生成定向边界框 (OBB) 而非水平框
  • 现有方法专注于:检测框架 (RoI Transformer, Oriented R-CNN, R3Det)、编码方式 (gliding vertex)、损失函数 (GWD, KLD)

忽视的先验知识

遥感图像的两个重要特性:

  1. 需要大范围上下文: Fig 1(a) 有限上下文导致误检(如把交叉口误判)
  2. 不同物体需要不同距离上下文: Fig 1(b) 船只需要大范围,车辆需要小范围

核心思想

首次在遥感目标检测中引入 大选择性核机制 (Large Selective Kernel),能:

  • 动态调整感受野
  • 根据不同物体自适应选择上下文距离

2.1 遥感目标检测框架

类别方法核心思想
Two-stageRoI Transformer用全连接层旋转候选水平框
SCRDet注意力机制减少背景噪声
Oriented RCNN引入新的 box 编码系统解决旋转角度周期性
Gliding Vertex顶点滑动机制
One-stageS2A-NetOriented feature alignment + 方向不变特征提取
DRN注意力机制动态细化特征
RSDet调制损失解决回归不连续性
AOPG / R3Det从粗到细的渐进回归
TransformerAO2-DETR将 DETR 引入遥感检测

2.2 大核网络

方法核大小特点
ConvNeXt7×7 depth-wise在下游任务显著提升
RepLKNet31×31通过重参数化实现
SLaK51×51内核分解 + 稀疏分组技术
VAN大核分解高效的大核卷积注意力
SegNeXt / Conv2Former大核丰富上下文的卷积特征调制

论文观点:尽管大核卷积在通用目标识别中受到关注,但缺乏在遥感检测中的研究。航拍图像的特殊性使大核特别适合遥感任务。

2.3 注意力/选择性机制

方法类型核心思想
SE BlockChannel attention全局平均信息重加权通道
GENet / GCNet / SGESpatial attention通过空间掩码增强上下文建模
CBAM / BAM联合结合 channel + spatial attention
CondConv / Dynamic ConvKernel selection并行核自适应聚合特征
SKNetChannel selection多分支不同卷积核,沿通道维度选择性组合
ResNeStChannel selection对 SKNet 扩展,输入特征分组
SCNet联合分支注意力 + 空间注意力
Deformable Conv柔性卷积灵活的卷积核形状

LSKNet 与 SKNet 的区别

  1. 选择性机制基于分解的大核序列,而不是现有的注意力方法
  2. LSKNet 在空间维度而不是通道维度聚合不同大核的信息
    • 论文观点:通道选择无法建模图像空间中不同目标的空间差异

3. Method

3.1 整体结构

LSKNet 变体(Table 1)

变体通道数 CLSK 块数参数量
LSKNet-T32, 64, 160, 2563, 3, 5, 24.3M
LSKNet-S64, 128, 320, 5122, 2, 4, 214.4M
  • 每个 LSKNet block 由两个 residual sub-blocks 组成:
    1. LK Selection(Large Kernel Selection)— 核心 LSK 模块
    2. FFN(Feed-forward Network)

3.2 Large Kernel Convolutions(大核卷积)

核心思想:将大核分解为一系列 depth-wise 卷积,核 size 和膨胀率(dilation)逐渐增大。

公式

  • 核大小:$k_{i-1} \leq k_i$
  • 膨胀率:$d_1 = 1, d_{i-1} < d_i \leq RF_{i-1}$
  • 感受野:$RF_1 = k_1, RF_i = d_i(k_i - 1) + RF_{i-1}$

分解示例(Table 2)

(k, d) 序列理论 RF参数量FLOPs
(23, 1)2340.4K42.4G
(5, 1) → (7, 3)2911.3K11.9G
(29, 1)2960.4K63.3G
(3, 1) → (5, 2) → (7, 3)2911.3K13.6G

两个优势

  1. 显式生成多个不同感受野的特征,方便后续 kernel selection
  2. 序列分解比直接用大核更高效(参数量和 FLOPs 大幅减少)

实现

U0 = X
Ui+1 = Fdw_i(Ui)  # depth-wise conv with kernel ki, dilation di

Ũi = F1×1_i(Ui)  # 1×1 conv 做 channel mixing

3.3 Spatial Kernel Selection(空间核选择)

目的:让网络聚焦于检测目标最相关的空间上下文区域。

步骤

  1. 特征拼接Ũ = [Ũ1; ...; ŨN]

  2. 空间描述子提取(channel-wise avg + max pooling):

    • $SA_{avg} = P_{avg}(Ũ)$
    • $SA_{max} = P_{max}(Ũ)$
  3. 生成空间注意力图

    • $ẐA = F_{2→N}([SA_{avg}; SA_{max}])$ # 2→N 通道
    • $S̃A_i = σ(ẐA_i)$ # sigmoid 得到 N 个 mask
  4. 特征加权融合

    • $S = F(\sum_{i=1}^{N} S̃A_i · Ũi)$
  5. 残差连接

    • $Y = X · S$ # element-wise product

核选择机制:通过空间注意力图进行自适应选择 — 不同的物体(如船、车)可以自适应地"选择"哪个感受野的特征最合适。

与 SKNet 的区别

  • SKNet 用 channel attention
  • LSKNet 用 spatial attention(论文 ablation 证明空间注意力更适合遥感任务)

4. Experiments

4.1 数据集

数据集图像数标注数类别数特点
HRSC20161,0612,9761 (船)高分辨率船舶检测
DOTA-v1.02,806188,28215航拍 OBB 最常用基准
FAIR1M-v1.015,2661,000,000+5类37子类细粒度船舶/车辆

DOTA-v1.0 15 类:Plane(PL), Baseball diamond(BD), Bridge(BR), Ground track field(GTF), Small vehicle(SV), Large vehicle(LV), Ship(SH), Tennis court(TC), Basketball court(BC), Storage tank(ST), Soccer-ball field(SBF), Roundabout(RA), Harbor(HA), Swimming pool(SP), Helicopter(HC)


4.2 实现细节

  • 预训练:先在 ImageNet-1K 预训练,再微调到目标数据集
    • 消融实验:100-epoch 预训练(效率优先)
    • 主实验:300-epoch 预训练(更高精度)
  • 训练配置
    • HRSC2016:36 epochs,lr=0.0004
    • DOTA/FAIR1M:12 epochs,lr=0.0002
    • Optimizer:AdamW,weight_decay=0.05
    • GPU:8×RTX3090(训练),1×RTX3090(测试)
    • 输入尺寸:1024×1024

4.3 消融实验

4.3.1 大核分解数量(Table 3)

分解数量(k, d) 序列RFFPSmAP (%)
1(29, 1)2918.680.66
2(5, 1)→(7, 4)2920.580.91
3(3, 1)→(5, 2)→(7, 3)2919.280.77

结论:分解为 2 个 depth-wise 核达到速度和精度最佳平衡。


4.3.2 感受野大小与选择类型(Table 4)

(k1,d1)(k2,d2)CSSSRFFPSmAP (%)
(3,1)(5,2)--1122.180.80
(5,1)(7,3)--2321.780.94
(7,1)(9,4)--3921.380.84
(5,1)(7,3)-2319.680.57
(5,1)(7,3)-2320.781.31

结论

  • RF=23 最有效(太大或太小都影响性能)
  • 空间选择(SS)比通道选择(CS)更适合遥感任务

4.3.3 Pooling 方式(Table 5)

Max PoolAvg PoolFPSmAP (%)
-20.781.23
-20.781.12
20.781.31

结论:同时使用 Max 和 Avg pooling 效果最好。


4.3.4 不同检测框架(Table 6)

BackboneO-RCNNRoI Trans.S2A-NetR3Det
ResNet-1879.2778.3276.8274.16
LSKNet-T81.3180.8980.1578.39
提升+2.04+2.57+3.33+4.23
Backbone 参数量FLOPs
ResNet-1811.2M / 38.1G
LSKNet-T4.3M (-62%) / 19.1G (-50%)

结论:LSKNet-T 显著优于 ResNet-18,且参数量和 FLOPs 大幅减少。


4.3.5 与其他大核/选择性注意力 Backbone 对比(Table 7)

Model#PFLOPsmAP (%)
ResNet-18 (baseline)11.2M38.1G79.27
VAN-B1 (大核)13.4M52.7G81.15
ConvNeXt V2-N (大核)15.0M51.2G80.81
MSCAN-S (大核)13.1M45.0G81.12
SKNet-26 (选择性)14.5M58.5G80.67
ResNeSt-14 (选择性)8.6M57.9G79.51
SCNet-18 (选择性)14.0M50.7G79.69
LSKNet-S (ours)14.4M54.4G81.48
Prev Best (CSPNeXt)26.1M87.6G81.33

结论:在相似复杂度下,LSKNet 达到最佳 mAP。


4.4 主实验结果

4.4.1 HRSC2016(Table 8)

MethodPre.mAP(07)mAP(12)#PFLOPs
DRNIN-92.70--
CenterMapIN-92.8041.1M198G
RoI Trans.IN86.20-55.1M200G
R3DetIN89.2696.0141.9M336G
ReDetIN90.4697.6331.6M-
O-RCNNIN90.5097.6041.1M199G
RTMDetCO90.6097.1052.3M205G
LSKNet-S (ours)IN90.6598.4631.0M161G

结论:LSKNet-S 在 HRSC2016 达到 SOTA(98.46% mAP12)。


4.4.2 DOTA-v1.0(Table 9)

MethodPre.mAP#PFLOPs
O-RCNNIN80.8741.1M199G
ReDetIN80.1031.6M-
RVSAMA81.24114.4M414G
RTMDet-RCO81.3352.3M205G
LSKNet-TIN81.3721.0M124G
LSKNet-SIN81.6431.0M161G
LSKNet-S*IN81.8531.0M161G

注:LSKNet-S 使用 EMA fine-tune

结论:LSKNet-S* 在 DOTA-v1.0 达到 81.85% mAP,且参数量和 FLOPs 更少。


4.4.3 FAIR1M-v1.0(Table 10)

MethodmAP(%)
G.V.*29.92
RetinaNet*30.67
C-RCNN*31.18
F-RCNN*32.12
RoI Trans.*35.29
O-RCNN45.60
LSKNet-T46.93
LSKNet-S47.87

结论:LSKNet 在 FAIR1M 上大幅领先(+2.27% mAP)。


4.4.4 2022 大湾区算法竞赛(Table 11)

排名团队Final-stage mAP
1nust milab74.16
2Secret;Weapon (ours)73.94
3JiaNeng72.90

结论:LSKNet 方案获得竞赛第二名。


4.5 泛化性分析

不同物体的感受野需求(Fig 6)

  • Bridge(桥梁)需要最大的上下文范围
  • 不同类别对 RF 的需求差异显著,验证了论文先验知识的合理性

5. Conclusion

LSKNet 作为一个主干网络 (backbone),专为遥感目标检测设计,核心创新点是:

  1. 大核分解 — 序列分解大核,高效获取多尺度感受野
  2. 空间选择机制 — 通过注意力图自适应选择核,适合遥感场景

在 DOTA、HRSC2016、FAIR1M 等遥感 OOD 主流数据集上均达到 SOTA,且参数量和 FLOPs 显著低于 ResNet-18。


参考资料