Skip to content

Seg2Change: Adapting Open-Vocabulary Semantic Segmentation Model for Remote Sensing Change Detection


公众号推文解读

摘要

问题: 现有遥感变化检测方法依赖大规模标注数据且仅能识别预定义类别,难以适应开放世界场景;现有开放词汇变化检测(OVCD)方法依赖 SAM 等掩码生成器,产生分割误差传播,且使用固定阈值判断变化,泛化能力有限。

方案: 提出 Seg2Change 适配框架,将开放词汇语义分割模型直接迁移至变化检测任务。核心是类别无关变化图(category-agnostic change map),直接从双时相分割掩码中提取变化,摆脱对掩码生成器和预定义阈值的依赖。

关键创新:

  • 类别无关变化检测范式: 通过类别无关变化图直接提取变化,解耦语义分割与变化推理
  • CA-CDD 数据集: 将现有有限类别数据集扩展为任意类别的开放变化标注
  • CACH 模块: 融合双时相差异增强模块(BDFM)与有效差异查询注意力模块(EDQA)
  • 即插即用: 可将任意 OVSS 模型迁移至变化检测任务

验证: 在 WHU-CD、LEVIR-CD、DSIFN、CLCD、SC-SCD、SECOND 六个数据集上达到 SOTA,参数仅 3.9M

背景

遥感变化检测任务

  • 任务目标: 利用双时相/多时相遥感图像检测地表覆盖变化的位置与语义类别
  • 应用场景: 城市规划、自然资源管理

现有问题

方法问题
监督方法依赖大规模标注数据,仅能识别预定义类别
现有 OVCD 方法依赖掩码生成器(如 SAM),误差逐级传播;固定阈值判断,泛化能力有限

已有范式

  • M–C–I: Mask → Compare → Identify(建筑检测)
  • I–M–C: Identify → Mask → Compare(地表覆盖检测)
  • 问题: 不同任务需要切换配置,缺乏统一范式

数据集

CA-CDD(类别无关变化检测数据集)

  • 来源: SECOND、JL1-CD、CNAM-CD 训练集,约 4968 对双时相图像
  • 特点: 将原始粗粒度类别受限标注扩展为任意类别的类别无关变化图
  • 评估: 排除 SECOND 测试集,保证训练/测试无交叉

基准数据集

数据集任务类型描述
WHU-CD建筑变化新西兰克赖斯特彻奇,0.3m,22万余栋建筑,测试集 660 对
LEVIR-CD建筑变化美国得克萨斯,0.5m,时间跨度 5–14 年,31333 处变化实例,测试集 512 对
DSIFN地表覆盖中国六大城市,多类地表变化,测试集 48 对
CLCD地表覆盖广东高分二号,专注耕地变化,0.5–2m,测试集 120 对
SC-SCD语义变化福建龙文区,0.5m,7 类(裸地、水体、建筑、结构体、农田、植被、道路),测试集 322 对
SECOND语义变化杭州/成都/上海,0.5–3m,6 类,测试集 1694 对

论文解读

Introduction

背景

  • 地球受人类活动和气候变化影响日益加剧
  • 变化检测用双时相遥感图像检测地表变化的位置和语义类别
  • 应用:城市规划、自然资源管理

现有方法问题

方法问题
监督方法依赖大规模标注数据,仅能识别预定义类别
OVCD (M-C-I)依赖 SAM 等 mask 生成器,误差逐级传播
OVCD (I-M-C)同样依赖 mask 生成器,分割误差影响后续
UCD-SCM使用 OTSU 全局阈值,线性阈值难以区分变化像素
DynamicEarth仍用预定义阈值判断变化

两种已有范式

  • M-C-I: Mask → Compare → Identify(适合地表覆盖变化)
  • I-M-C: Identify → Mask → Compare(适合建筑变化)
  • 问题:不同任务需切换配置,缺乏统一范式

本文方案 Seg2Change

  • 核心:类别无关变化图,直接从双时相分割掩码提取变化
  • 摆脱 mask 生成器依赖,消除固定阈值
  • 设计 CACH 模块:特征差异增强+校准
  • 即插即用:任意 OVSS 模型可迁移

贡献三点

  1. 新范式 Seg2Change,简单有效
  2. 构建 CA-CDD 数据集 + CACH 模块
  3. 六个数据集 SOTA,效率最优

2.1 视觉-语言模型(VLM)

  • CLIP、ALIGN:对比学习,奠定 VLM 基础
  • BLIP、Flamingo:探索图像_caption、VQA、对话生成
  • Grounding DINO:目标检测 + 自然语言理解,文本驱动目标定位
  • APE、SegEarth-OV:像素级语义分割,多任务(检测、分割、定位)
  • RemoteCLIP:首个遥感专用 VLM
  • SegEarth-OV3:结合 SAM3 的语义分割头和实例头,用置信度过滤,达到遥感开放词汇分割 SOTA

2.2 无监督 & 开放词汇变化检测

方法描述
CVA变化矢量分析,直接比较双时相光谱
DCVACNN 特征增强变化相关特征区分
I3PE单时相图像 patch 交换生成伪双时相对
AnyChangeSAM 特征 latent matching + 手动标注点聚类
UCD-SCMPSA 机制 + FastSAM 减少伪变化
Inst-CEG变化事件生成 (CEG) 提取变化提议
DynamicEarthM-C-I 和 I-M-C 两种范式

现有方法局限

  • 仍依赖实例级变化估计,难以确定可靠的阈值
  • 仍依赖 mask 生成器提供变化提议,分割误差会传播

3. Methodology

3.1 Analysis of Previous OVCD Paradigms

核心问题:现有方法依赖实例级变化决策

流程

  1. Mask 生成器(如 SAM)生成变化提议
  2. 比较器(如 CVA、OTSU)判断变化
  3. 用预定义阈值 β 判断(公式1):D(p) = -z1[p]·z2[p]/(|z1||z2|),相似度 > β 判定为变化

问题

  • Mask 生成器产生碎片化分割(大目标拆成多个碎片)
  • 预定义阈值 β 泛化能力差,需手动调参
  • 必须遍历所有提议,无法并行

3.2 A Category-Agnostic CD Dataset

现有数据集局限

  • WHU-CD、LEVIR-CD:聚焦建筑变化
  • DSIFN、CLCD:聚焦土地覆盖变化
  • SECOND:6 类,类别有限

CA-CDD 构建

  • 来源:SECOND、JL1-CD、CNAM-CD 训练集
  • 重新标注:将粗粒度类别受限标注扩展为类别无关变化图
  • 扩展到开放、无约束的类别范围

3.3 Semantic Segmentation to Change Detection

整体架构

双时相图像 I1, I2 → DINOv2 特征提取 → [CACH 分支] → 类别无关变化图 Mca → [OVSS 分支] → 语义分割图 M1, M2

最终变化图:Mch = Mca · M1 + Mca · M2 (公式2)

3.3.1 BDFM (Bi-temporal Difference Fusion Module)

公式3:生成差异注意力图

Att_i = σ(Conv3×3 * |F̃1^i - F̃2^i|)

公式4:注入空间差异表征

X_t^i = γConv3×3 * (F̃t^i + Att_i · F̃t^i)

公式5:融合双时相差异特征

D_i = γConv3×3 * (γConv3×3 * (X_1^i || X_2^i) · Att_i)

3.3.2 EDQA (Effective Difference Query Attention)

背景问题

  • 双时相图像成像条件、季节差异引入噪声
  • 变化区域通常只占小部分,前景背景不平衡
  • BDFM 增强差异时引入伪变化

公式6:滑动窗口注意力校准噪声

ṼD_t^i = φ_proj(Softmax((Q_i · K_i^T)/√d + b) · V_t^i)
  • Q/K 来自差异特征 D_i,V 来自引导特征 G̃_t^i

公式8-10:MoE MLP 处理异构数据源

weight_G = Softmax(W_g · D̃^i + b_g)
expert_j(D̃^i) = W_o,j · GELU(W_h,j · D̃^i + b_h,j) + b_o,j
X_d^i = Σ weight_j · expert_j(D̃^i)

3.4 Model Detail

损失函数

公式11:变化图损失

L_cd = L_bce(δ↑(X_d^2, X_d^5, X_d^8, X_d^11), y_l)

公式12:多尺度上采样损失

L_ups = Σ L_bce(δ↑(X_d^i), y_l), i ∈ {2,5,8,11}

公式13:不变区域相似度损失

L_sim = [1 - cos(δ↑(F̃_1), δ↑(F̃_2))] · ŷ_l

公式14:总损失

L_total = αL_cd + βL_ups + γL_sim

Seg2Change 整体框架

双时相图像 → [OVSS 分支] → 语义分割图
            → [CACH 分支] → 类别无关变化图 → 逐元素相乘 → 最终变化检测结果

核心思想:解耦为两条并行分支,最终融合得到特定类别变化。

类别无关变化头(CACH)

DINOv2-Base 作为共享权重的图像编码器,提取双时相图像的多尺度特征。

1. 特征调制模块(FMM)
  • 1×1 卷积 + 多尺度缩放操作
  • 将 DINOv2 特征对齐至遥感图像特性
  • 构建金字塔调制特征
2. 双时相差异融合模块(BDFM)
  • Sigmoid 激活的卷积 → 差异注意力图(突出变化区域)
  • 差异注意力反作用于双时相调制特征(增强差异区域)
  • 拼接融合,抑制伪变化干扰
3. 有效差异查询注意力模块(EDQA)
  • 融合差异特征 + 双时相调制特征 → 引导特征
  • 滑动窗口注意力: 差异特征为 Q/K,引导特征为 V,跨时相校准噪声差异响应
  • MoE MLP: 自适应处理异构数据源的成像条件与季节差异

残差上采样器(ResUp)

  • 各层校准差异特征逐层残差上采样聚合
  • 输出卷积 + 插值 → 原图分辨率
  • argmax → 类别无关变化图(无阈值)

损失函数

损失类型作用
变化图损失预测变化图与标注的二元交叉熵
上采样损失各层逐层预测多尺度监督
不变区域相似度损失未变化区域余弦相似度约束,抑制伪变化

开放词汇语义分割分支

  • 双时相图像 + 用户文本描述 → OVSS 模型(默认 SegEarth-OV3)→ 语义分割图
  • 类别无关变化图索引语义图 → 最终变化检测结果

4. Experiments

4.1 数据集 & 基准

任务类型数据集
建筑变化检测WHU-CD, LEVIR-CD
土地覆盖变化检测DSIFN, CLCD
语义变化检测SC-SCD, SECOND

对比方法:

  • 传统方法:PCA_KMeans, CVA, DCVA, UCD-SCM
  • VLM方法:AnyChange, Inst-CEG, DynamicEarth

4.2 数值结果

数据集Seg2ChangePrevious Best提升
WHU-CD75.7266.20+9.52
LEVIR-CD73.6967.24+6.45
DSIFN78.1670.45+7.71
CLCD66.8559.07+7.78
SC-SCD55.3851.21+4.17
SECOND61.6257.51+4.11

4.3 效率

  • 显存:降低 36%
  • 推理速度:提升 53%
  • 参数量:3.9M

4.4 消融实验

  • BDFM 贡献最大
  • EDQA 有效校准噪声
  • MoE MLP 对异构数据源有显著提升

5. Conclusion

总结

  • 分析了现有 OVCD 方法的局限性(依赖 mask 生成器 + 固定阈值)
  • 构建了 CA-CDD 类别无关变化检测数据集
  • 设计了 CACH 模块增强和校准特征差异
  • 开发了简单高效的 Seg2Change 架构

三大贡献

  1. Seg2Change 新范式
  2. CA-CDD 数据集 + CACH 模块
  3. 六个数据集 SOTA,效率最优

意义

  • 摆脱 SAM 等 mask 生成器依赖
  • 消除固定阈值,用类别无关变化图决策
  • 任意 OVSS 模型可迁移至变化检测