Large Selective Kernel Network for Remote Sensing Object Detection
- 来源: https://arxiv.org/abs/2303.09030
- 本地PDF:
../raw/2023-03-16-lsknet.pdf - 日期: 2023-03-16
- 标签:
remote-sensing,object-detection,backbone,lsknet,oriented-bounding-box - 研究方向: 2D Object Detection → 遥感检测 → 主干网络
- 核心贡献: 提出 LSKNet,首个大选择性核机制,能动态调整感受野以适应不同距离的遥感物体
- 方法简述:
- Large Selective Kernel: 大核 + 选择性机制
- 动态调整感受野以建模不同物体的上下文距离
- 个人评价: 将 NLP/视觉的大核思路引入遥感,思路新颖,在多个遥感 OOD 数据集上达到 SOTA
- GitHub: https://github.com/zcablii/Large-Selective-Kernel-Network
摘要 (Abstract)
遥感目标检测的研究主要集中在改进定向边界框的表示,但忽略了遥感场景中的独特先验知识:
- 小目标需要足够远的上下文才能正确检测
- 不同类型物体需要的上下文距离不同
LSKNet 能动态调整大空间感受野,更好地建模遥感场景中各种物体的距离上下文。
在标准 benchmark 上取得 SOTA:
- HRSC2016: 98.46% mAP
- DOTA-v1.0: 81.85% mAP
- FAIR1M-v1.0: 47.87% mAP
1. Introduction
背景
- 遥感检测主流方向:生成定向边界框 (OBB) 而非水平框
- 现有方法专注于:检测框架 (RoI Transformer, Oriented R-CNN, R3Det)、编码方式 (gliding vertex)、损失函数 (GWD, KLD)
忽视的先验知识
遥感图像的两个重要特性:
- 需要大范围上下文: Fig 1(a) 有限上下文导致误检(如把交叉口误判)
- 不同物体需要不同距离上下文: Fig 1(b) 船只需要大范围,车辆需要小范围
核心思想
首次在遥感目标检测中引入 大选择性核机制 (Large Selective Kernel),能:
- 动态调整感受野
- 根据不同物体自适应选择上下文距离
2. Related Work
2.1 遥感目标检测框架
| 类别 | 方法 | 核心思想 |
|---|---|---|
| Two-stage | RoI Transformer | 用全连接层旋转候选水平框 |
| SCRDet | 注意力机制减少背景噪声 | |
| Oriented RCNN | 引入新的 box 编码系统解决旋转角度周期性 | |
| Gliding Vertex | 顶点滑动机制 | |
| One-stage | S2A-Net | Oriented feature alignment + 方向不变特征提取 |
| DRN | 注意力机制动态细化特征 | |
| RSDet | 调制损失解决回归不连续性 | |
| AOPG / R3Det | 从粗到细的渐进回归 | |
| Transformer | AO2-DETR | 将 DETR 引入遥感检测 |
2.2 大核网络
| 方法 | 核大小 | 特点 |
|---|---|---|
| ConvNeXt | 7×7 depth-wise | 在下游任务显著提升 |
| RepLKNet | 31×31 | 通过重参数化实现 |
| SLaK | 51×51 | 内核分解 + 稀疏分组技术 |
| VAN | 大核分解 | 高效的大核卷积注意力 |
| SegNeXt / Conv2Former | 大核 | 丰富上下文的卷积特征调制 |
论文观点:尽管大核卷积在通用目标识别中受到关注,但缺乏在遥感检测中的研究。航拍图像的特殊性使大核特别适合遥感任务。
2.3 注意力/选择性机制
| 方法 | 类型 | 核心思想 |
|---|---|---|
| SE Block | Channel attention | 全局平均信息重加权通道 |
| GENet / GCNet / SGE | Spatial attention | 通过空间掩码增强上下文建模 |
| CBAM / BAM | 联合 | 结合 channel + spatial attention |
| CondConv / Dynamic Conv | Kernel selection | 并行核自适应聚合特征 |
| SKNet | Channel selection | 多分支不同卷积核,沿通道维度选择性组合 |
| ResNeSt | Channel selection | 对 SKNet 扩展,输入特征分组 |
| SCNet | 联合 | 分支注意力 + 空间注意力 |
| Deformable Conv | 柔性卷积 | 灵活的卷积核形状 |
LSKNet 与 SKNet 的区别:
- 选择性机制基于分解的大核序列,而不是现有的注意力方法
- LSKNet 在空间维度而不是通道维度聚合不同大核的信息
- 论文观点:通道选择无法建模图像空间中不同目标的空间差异
3. Method
3.1 整体结构
LSKNet 变体(Table 1):
| 变体 | 通道数 C | LSK 块数 | 参数量 |
|---|---|---|---|
| LSKNet-T | 32, 64, 160, 256 | 3, 3, 5, 2 | 4.3M |
| LSKNet-S | 64, 128, 320, 512 | 2, 2, 4, 2 | 14.4M |
- 每个 LSKNet block 由两个 residual sub-blocks 组成:
- LK Selection(Large Kernel Selection)— 核心 LSK 模块
- FFN(Feed-forward Network)
3.2 Large Kernel Convolutions(大核卷积)
核心思想:将大核分解为一系列 depth-wise 卷积,核 size 和膨胀率(dilation)逐渐增大。
公式:
- 核大小:$k_{i-1} \leq k_i$
- 膨胀率:$d_1 = 1, d_{i-1} < d_i \leq RF_{i-1}$
- 感受野:$RF_1 = k_1, RF_i = d_i(k_i - 1) + RF_{i-1}$
分解示例(Table 2):
| (k, d) 序列 | 理论 RF | 参数量 | FLOPs |
|---|---|---|---|
| (23, 1) | 23 | 40.4K | 42.4G |
| (5, 1) → (7, 3) | 29 | 11.3K | 11.9G |
| (29, 1) | 29 | 60.4K | 63.3G |
| (3, 1) → (5, 2) → (7, 3) | 29 | 11.3K | 13.6G |
两个优势:
- 显式生成多个不同感受野的特征,方便后续 kernel selection
- 序列分解比直接用大核更高效(参数量和 FLOPs 大幅减少)
实现:
U0 = X
Ui+1 = Fdw_i(Ui) # depth-wise conv with kernel ki, dilation di
Ũi = F1×1_i(Ui) # 1×1 conv 做 channel mixing3.3 Spatial Kernel Selection(空间核选择)
目的:让网络聚焦于检测目标最相关的空间上下文区域。
步骤:
特征拼接:
Ũ = [Ũ1; ...; ŨN]空间描述子提取(channel-wise avg + max pooling):
- $SA_{avg} = P_{avg}(Ũ)$
- $SA_{max} = P_{max}(Ũ)$
生成空间注意力图:
- $ẐA = F_{2→N}([SA_{avg}; SA_{max}])$ # 2→N 通道
- $S̃A_i = σ(ẐA_i)$ # sigmoid 得到 N 个 mask
特征加权融合:
- $S = F(\sum_{i=1}^{N} S̃A_i · Ũi)$
残差连接:
- $Y = X · S$ # element-wise product
核选择机制:通过空间注意力图进行自适应选择 — 不同的物体(如船、车)可以自适应地"选择"哪个感受野的特征最合适。
与 SKNet 的区别:
- SKNet 用 channel attention
- LSKNet 用 spatial attention(论文 ablation 证明空间注意力更适合遥感任务)
4. Experiments
4.1 数据集
| 数据集 | 图像数 | 标注数 | 类别数 | 特点 |
|---|---|---|---|---|
| HRSC2016 | 1,061 | 2,976 | 1 (船) | 高分辨率船舶检测 |
| DOTA-v1.0 | 2,806 | 188,282 | 15 | 航拍 OBB 最常用基准 |
| FAIR1M-v1.0 | 15,266 | 1,000,000+ | 5类37子类 | 细粒度船舶/车辆 |
DOTA-v1.0 15 类:Plane(PL), Baseball diamond(BD), Bridge(BR), Ground track field(GTF), Small vehicle(SV), Large vehicle(LV), Ship(SH), Tennis court(TC), Basketball court(BC), Storage tank(ST), Soccer-ball field(SBF), Roundabout(RA), Harbor(HA), Swimming pool(SP), Helicopter(HC)
4.2 实现细节
- 预训练:先在 ImageNet-1K 预训练,再微调到目标数据集
- 消融实验:100-epoch 预训练(效率优先)
- 主实验:300-epoch 预训练(更高精度)
- 训练配置:
- HRSC2016:36 epochs,lr=0.0004
- DOTA/FAIR1M:12 epochs,lr=0.0002
- Optimizer:AdamW,weight_decay=0.05
- GPU:8×RTX3090(训练),1×RTX3090(测试)
- 输入尺寸:1024×1024
4.3 消融实验
4.3.1 大核分解数量(Table 3)
| 分解数量 | (k, d) 序列 | RF | FPS | mAP (%) |
|---|---|---|---|---|
| 1 | (29, 1) | 29 | 18.6 | 80.66 |
| 2 | (5, 1)→(7, 4) | 29 | 20.5 | 80.91 |
| 3 | (3, 1)→(5, 2)→(7, 3) | 29 | 19.2 | 80.77 |
结论:分解为 2 个 depth-wise 核达到速度和精度最佳平衡。
4.3.2 感受野大小与选择类型(Table 4)
| (k1,d1) | (k2,d2) | CS | SS | RF | FPS | mAP (%) |
|---|---|---|---|---|---|---|
| (3,1) | (5,2) | - | - | 11 | 22.1 | 80.80 |
| (5,1) | (7,3) | - | - | 23 | 21.7 | 80.94 |
| (7,1) | (9,4) | - | - | 39 | 21.3 | 80.84 |
| (5,1) | (7,3) | ✓ | - | 23 | 19.6 | 80.57 |
| (5,1) | (7,3) | - | ✓ | 23 | 20.7 | 81.31 |
结论:
- RF=23 最有效(太大或太小都影响性能)
- 空间选择(SS)比通道选择(CS)更适合遥感任务
4.3.3 Pooling 方式(Table 5)
| Max Pool | Avg Pool | FPS | mAP (%) |
|---|---|---|---|
| ✓ | - | 20.7 | 81.23 |
| - | ✓ | 20.7 | 81.12 |
| ✓ | ✓ | 20.7 | 81.31 |
结论:同时使用 Max 和 Avg pooling 效果最好。
4.3.4 不同检测框架(Table 6)
| Backbone | O-RCNN | RoI Trans. | S2A-Net | R3Det |
|---|---|---|---|---|
| ResNet-18 | 79.27 | 78.32 | 76.82 | 74.16 |
| LSKNet-T | 81.31 | 80.89 | 80.15 | 78.39 |
| 提升 | +2.04 | +2.57 | +3.33 | +4.23 |
| Backbone 参数量 | FLOPs |
|---|---|
| ResNet-18 | 11.2M / 38.1G |
| LSKNet-T | 4.3M (-62%) / 19.1G (-50%) |
结论:LSKNet-T 显著优于 ResNet-18,且参数量和 FLOPs 大幅减少。
4.3.5 与其他大核/选择性注意力 Backbone 对比(Table 7)
| Model | #P | FLOPs | mAP (%) |
|---|---|---|---|
| ResNet-18 (baseline) | 11.2M | 38.1G | 79.27 |
| VAN-B1 (大核) | 13.4M | 52.7G | 81.15 |
| ConvNeXt V2-N (大核) | 15.0M | 51.2G | 80.81 |
| MSCAN-S (大核) | 13.1M | 45.0G | 81.12 |
| SKNet-26 (选择性) | 14.5M | 58.5G | 80.67 |
| ResNeSt-14 (选择性) | 8.6M | 57.9G | 79.51 |
| SCNet-18 (选择性) | 14.0M | 50.7G | 79.69 |
| LSKNet-S (ours) | 14.4M | 54.4G | 81.48 |
| Prev Best (CSPNeXt) | 26.1M | 87.6G | 81.33 |
结论:在相似复杂度下,LSKNet 达到最佳 mAP。
4.4 主实验结果
4.4.1 HRSC2016(Table 8)
| Method | Pre. | mAP(07) | mAP(12) | #P | FLOPs |
|---|---|---|---|---|---|
| DRN | IN | - | 92.70 | - | - |
| CenterMap | IN | - | 92.80 | 41.1M | 198G |
| RoI Trans. | IN | 86.20 | - | 55.1M | 200G |
| R3Det | IN | 89.26 | 96.01 | 41.9M | 336G |
| ReDet | IN | 90.46 | 97.63 | 31.6M | - |
| O-RCNN | IN | 90.50 | 97.60 | 41.1M | 199G |
| RTMDet | CO | 90.60 | 97.10 | 52.3M | 205G |
| LSKNet-S (ours) | IN | 90.65 | 98.46 | 31.0M | 161G |
结论:LSKNet-S 在 HRSC2016 达到 SOTA(98.46% mAP12)。
4.4.2 DOTA-v1.0(Table 9)
| Method | Pre. | mAP | #P | FLOPs |
|---|---|---|---|---|
| O-RCNN | IN | 80.87 | 41.1M | 199G |
| ReDet | IN | 80.10 | 31.6M | - |
| RVSA | MA | 81.24 | 114.4M | 414G |
| RTMDet-R | CO | 81.33 | 52.3M | 205G |
| LSKNet-T | IN | 81.37 | 21.0M | 124G |
| LSKNet-S | IN | 81.64 | 31.0M | 161G |
| LSKNet-S* | IN | 81.85 | 31.0M | 161G |
注:LSKNet-S 使用 EMA fine-tune
结论:LSKNet-S* 在 DOTA-v1.0 达到 81.85% mAP,且参数量和 FLOPs 更少。
4.4.3 FAIR1M-v1.0(Table 10)
| Method | mAP(%) |
|---|---|
| G.V.* | 29.92 |
| RetinaNet* | 30.67 |
| C-RCNN* | 31.18 |
| F-RCNN* | 32.12 |
| RoI Trans.* | 35.29 |
| O-RCNN | 45.60 |
| LSKNet-T | 46.93 |
| LSKNet-S | 47.87 |
结论:LSKNet 在 FAIR1M 上大幅领先(+2.27% mAP)。
4.4.4 2022 大湾区算法竞赛(Table 11)
| 排名 | 团队 | Final-stage mAP |
|---|---|---|
| 1 | nust milab | 74.16 |
| 2 | Secret;Weapon (ours) | 73.94 |
| 3 | JiaNeng | 72.90 |
结论:LSKNet 方案获得竞赛第二名。
4.5 泛化性分析
不同物体的感受野需求(Fig 6):
- Bridge(桥梁)需要最大的上下文范围
- 不同类别对 RF 的需求差异显著,验证了论文先验知识的合理性
5. Conclusion
LSKNet 作为一个主干网络 (backbone),专为遥感目标检测设计,核心创新点是:
- 大核分解 — 序列分解大核,高效获取多尺度感受野
- 空间选择机制 — 通过注意力图自适应选择核,适合遥感场景
在 DOTA、HRSC2016、FAIR1M 等遥感 OOD 主流数据集上均达到 SOTA,且参数量和 FLOPs 显著低于 ResNet-18。
参考资料
- 论文: https://arxiv.org/abs/2303.09030
- GitHub: https://github.com/zcablii/Large-Selective-Kernel-Network
- 参考: CODrone 论文用它取得了 AP50=46.92 (最佳)
