Seg2Change: Adapting Open-Vocabulary Semantic Segmentation Model for Remote Sensing Change Detection
- 推文链接:https://mp.weixin.qq.com/s/acQw8vrie9a0a7s5oq2VIg
- 推文标题:Seg2Change: 西交团队将开放词汇语义分割模型适配用于遥感变化检测, 构建类别无关变化检测数据集 CA-CDD
- 来源: https://arxiv.org/abs/2604.11231
- 本地PDF:
../raw/2026-04-12-seg2change.pdf - 日期: 2026-04-12
- 标签:
remote-sensing,change-detection,open-vocabulary,segmentation - 研究方向: 遥感 → 变化检测 → 开放词汇变化检测
- 作者: 西安交通大学团队
- 代码: https://github.com/yogurts-sy/Seg2Change
公众号推文解读
摘要
问题: 现有遥感变化检测方法依赖大规模标注数据且仅能识别预定义类别,难以适应开放世界场景;现有开放词汇变化检测(OVCD)方法依赖 SAM 等掩码生成器,产生分割误差传播,且使用固定阈值判断变化,泛化能力有限。
方案: 提出 Seg2Change 适配框架,将开放词汇语义分割模型直接迁移至变化检测任务。核心是类别无关变化图(category-agnostic change map),直接从双时相分割掩码中提取变化,摆脱对掩码生成器和预定义阈值的依赖。
关键创新:
- 类别无关变化检测范式: 通过类别无关变化图直接提取变化,解耦语义分割与变化推理
- CA-CDD 数据集: 将现有有限类别数据集扩展为任意类别的开放变化标注
- CACH 模块: 融合双时相差异增强模块(BDFM)与有效差异查询注意力模块(EDQA)
- 即插即用: 可将任意 OVSS 模型迁移至变化检测任务
验证: 在 WHU-CD、LEVIR-CD、DSIFN、CLCD、SC-SCD、SECOND 六个数据集上达到 SOTA,参数仅 3.9M
背景
遥感变化检测任务
- 任务目标: 利用双时相/多时相遥感图像检测地表覆盖变化的位置与语义类别
- 应用场景: 城市规划、自然资源管理
现有问题
| 方法 | 问题 |
|---|---|
| 监督方法 | 依赖大规模标注数据,仅能识别预定义类别 |
| 现有 OVCD 方法 | 依赖掩码生成器(如 SAM),误差逐级传播;固定阈值判断,泛化能力有限 |
已有范式
- M–C–I: Mask → Compare → Identify(建筑检测)
- I–M–C: Identify → Mask → Compare(地表覆盖检测)
- 问题: 不同任务需要切换配置,缺乏统一范式
数据集
CA-CDD(类别无关变化检测数据集)
- 来源: SECOND、JL1-CD、CNAM-CD 训练集,约 4968 对双时相图像
- 特点: 将原始粗粒度类别受限标注扩展为任意类别的类别无关变化图
- 评估: 排除 SECOND 测试集,保证训练/测试无交叉
基准数据集
| 数据集 | 任务类型 | 描述 |
|---|---|---|
| WHU-CD | 建筑变化 | 新西兰克赖斯特彻奇,0.3m,22万余栋建筑,测试集 660 对 |
| LEVIR-CD | 建筑变化 | 美国得克萨斯,0.5m,时间跨度 5–14 年,31333 处变化实例,测试集 512 对 |
| DSIFN | 地表覆盖 | 中国六大城市,多类地表变化,测试集 48 对 |
| CLCD | 地表覆盖 | 广东高分二号,专注耕地变化,0.5–2m,测试集 120 对 |
| SC-SCD | 语义变化 | 福建龙文区,0.5m,7 类(裸地、水体、建筑、结构体、农田、植被、道路),测试集 322 对 |
| SECOND | 语义变化 | 杭州/成都/上海,0.5–3m,6 类,测试集 1694 对 |
论文解读
Introduction
背景:
- 地球受人类活动和气候变化影响日益加剧
- 变化检测用双时相遥感图像检测地表变化的位置和语义类别
- 应用:城市规划、自然资源管理
现有方法问题:
| 方法 | 问题 |
|---|---|
| 监督方法 | 依赖大规模标注数据,仅能识别预定义类别 |
| OVCD (M-C-I) | 依赖 SAM 等 mask 生成器,误差逐级传播 |
| OVCD (I-M-C) | 同样依赖 mask 生成器,分割误差影响后续 |
| UCD-SCM | 使用 OTSU 全局阈值,线性阈值难以区分变化像素 |
| DynamicEarth | 仍用预定义阈值判断变化 |
两种已有范式:
- M-C-I: Mask → Compare → Identify(适合地表覆盖变化)
- I-M-C: Identify → Mask → Compare(适合建筑变化)
- 问题:不同任务需切换配置,缺乏统一范式
本文方案 Seg2Change:
- 核心:类别无关变化图,直接从双时相分割掩码提取变化
- 摆脱 mask 生成器依赖,消除固定阈值
- 设计 CACH 模块:特征差异增强+校准
- 即插即用:任意 OVSS 模型可迁移
贡献三点:
- 新范式 Seg2Change,简单有效
- 构建 CA-CDD 数据集 + CACH 模块
- 六个数据集 SOTA,效率最优
Related Work
2.1 视觉-语言模型(VLM)
- CLIP、ALIGN:对比学习,奠定 VLM 基础
- BLIP、Flamingo:探索图像_caption、VQA、对话生成
- Grounding DINO:目标检测 + 自然语言理解,文本驱动目标定位
- APE、SegEarth-OV:像素级语义分割,多任务(检测、分割、定位)
- RemoteCLIP:首个遥感专用 VLM
- SegEarth-OV3:结合 SAM3 的语义分割头和实例头,用置信度过滤,达到遥感开放词汇分割 SOTA
2.2 无监督 & 开放词汇变化检测
| 方法 | 描述 |
|---|---|
| CVA | 变化矢量分析,直接比较双时相光谱 |
| DCVA | CNN 特征增强变化相关特征区分 |
| I3PE | 单时相图像 patch 交换生成伪双时相对 |
| AnyChange | SAM 特征 latent matching + 手动标注点聚类 |
| UCD-SCM | PSA 机制 + FastSAM 减少伪变化 |
| Inst-CEG | 变化事件生成 (CEG) 提取变化提议 |
| DynamicEarth | M-C-I 和 I-M-C 两种范式 |
现有方法局限:
- 仍依赖实例级变化估计,难以确定可靠的阈值
- 仍依赖 mask 生成器提供变化提议,分割误差会传播
3. Methodology
3.1 Analysis of Previous OVCD Paradigms
核心问题:现有方法依赖实例级变化决策
流程:
- Mask 生成器(如 SAM)生成变化提议
- 比较器(如 CVA、OTSU)判断变化
- 用预定义阈值 β 判断(公式1):D(p) = -z1[p]·z2[p]/(|z1||z2|),相似度 > β 判定为变化
问题:
- Mask 生成器产生碎片化分割(大目标拆成多个碎片)
- 预定义阈值 β 泛化能力差,需手动调参
- 必须遍历所有提议,无法并行
3.2 A Category-Agnostic CD Dataset
现有数据集局限:
- WHU-CD、LEVIR-CD:聚焦建筑变化
- DSIFN、CLCD:聚焦土地覆盖变化
- SECOND:6 类,类别有限
CA-CDD 构建:
- 来源:SECOND、JL1-CD、CNAM-CD 训练集
- 重新标注:将粗粒度类别受限标注扩展为类别无关变化图
- 扩展到开放、无约束的类别范围
3.3 Semantic Segmentation to Change Detection
整体架构
双时相图像 I1, I2 → DINOv2 特征提取 → [CACH 分支] → 类别无关变化图 Mca → [OVSS 分支] → 语义分割图 M1, M2
最终变化图:Mch = Mca · M1 + Mca · M2 (公式2)
3.3.1 BDFM (Bi-temporal Difference Fusion Module)
公式3:生成差异注意力图
Att_i = σ(Conv3×3 * |F̃1^i - F̃2^i|)公式4:注入空间差异表征
X_t^i = γConv3×3 * (F̃t^i + Att_i · F̃t^i)公式5:融合双时相差异特征
D_i = γConv3×3 * (γConv3×3 * (X_1^i || X_2^i) · Att_i)3.3.2 EDQA (Effective Difference Query Attention)
背景问题:
- 双时相图像成像条件、季节差异引入噪声
- 变化区域通常只占小部分,前景背景不平衡
- BDFM 增强差异时引入伪变化
公式6:滑动窗口注意力校准噪声
ṼD_t^i = φ_proj(Softmax((Q_i · K_i^T)/√d + b) · V_t^i)- Q/K 来自差异特征 D_i,V 来自引导特征 G̃_t^i
公式8-10:MoE MLP 处理异构数据源
weight_G = Softmax(W_g · D̃^i + b_g)
expert_j(D̃^i) = W_o,j · GELU(W_h,j · D̃^i + b_h,j) + b_o,j
X_d^i = Σ weight_j · expert_j(D̃^i)3.4 Model Detail
损失函数
公式11:变化图损失
L_cd = L_bce(δ↑(X_d^2, X_d^5, X_d^8, X_d^11), y_l)公式12:多尺度上采样损失
L_ups = Σ L_bce(δ↑(X_d^i), y_l), i ∈ {2,5,8,11}公式13:不变区域相似度损失
L_sim = [1 - cos(δ↑(F̃_1), δ↑(F̃_2))] · ŷ_l公式14:总损失
L_total = αL_cd + βL_ups + γL_simSeg2Change 整体框架
双时相图像 → [OVSS 分支] → 语义分割图
→ [CACH 分支] → 类别无关变化图 → 逐元素相乘 → 最终变化检测结果核心思想:解耦为两条并行分支,最终融合得到特定类别变化。
类别无关变化头(CACH)
以 DINOv2-Base 作为共享权重的图像编码器,提取双时相图像的多尺度特征。
1. 特征调制模块(FMM)
- 1×1 卷积 + 多尺度缩放操作
- 将 DINOv2 特征对齐至遥感图像特性
- 构建金字塔调制特征
2. 双时相差异融合模块(BDFM)
- Sigmoid 激活的卷积 → 差异注意力图(突出变化区域)
- 差异注意力反作用于双时相调制特征(增强差异区域)
- 拼接融合,抑制伪变化干扰
3. 有效差异查询注意力模块(EDQA)
- 融合差异特征 + 双时相调制特征 → 引导特征
- 滑动窗口注意力: 差异特征为 Q/K,引导特征为 V,跨时相校准噪声差异响应
- MoE MLP: 自适应处理异构数据源的成像条件与季节差异
残差上采样器(ResUp)
- 各层校准差异特征逐层残差上采样聚合
- 输出卷积 + 插值 → 原图分辨率
- argmax → 类别无关变化图(无阈值)
损失函数
| 损失类型 | 作用 |
|---|---|
| 变化图损失 | 预测变化图与标注的二元交叉熵 |
| 上采样损失 | 各层逐层预测多尺度监督 |
| 不变区域相似度损失 | 未变化区域余弦相似度约束,抑制伪变化 |
开放词汇语义分割分支
- 双时相图像 + 用户文本描述 → OVSS 模型(默认 SegEarth-OV3)→ 语义分割图
- 类别无关变化图索引语义图 → 最终变化检测结果
4. Experiments
4.1 数据集 & 基准
| 任务类型 | 数据集 |
|---|---|
| 建筑变化检测 | WHU-CD, LEVIR-CD |
| 土地覆盖变化检测 | DSIFN, CLCD |
| 语义变化检测 | SC-SCD, SECOND |
对比方法:
- 传统方法:PCA_KMeans, CVA, DCVA, UCD-SCM
- VLM方法:AnyChange, Inst-CEG, DynamicEarth
4.2 数值结果
| 数据集 | Seg2Change | Previous Best | 提升 |
|---|---|---|---|
| WHU-CD | 75.72 | 66.20 | +9.52 |
| LEVIR-CD | 73.69 | 67.24 | +6.45 |
| DSIFN | 78.16 | 70.45 | +7.71 |
| CLCD | 66.85 | 59.07 | +7.78 |
| SC-SCD | 55.38 | 51.21 | +4.17 |
| SECOND | 61.62 | 57.51 | +4.11 |
4.3 效率
- 显存:降低 36%
- 推理速度:提升 53%
- 参数量:3.9M
4.4 消融实验
- BDFM 贡献最大
- EDQA 有效校准噪声
- MoE MLP 对异构数据源有显著提升
5. Conclusion
总结:
- 分析了现有 OVCD 方法的局限性(依赖 mask 生成器 + 固定阈值)
- 构建了 CA-CDD 类别无关变化检测数据集
- 设计了 CACH 模块增强和校准特征差异
- 开发了简单高效的 Seg2Change 架构
三大贡献:
- Seg2Change 新范式
- CA-CDD 数据集 + CACH 模块
- 六个数据集 SOTA,效率最优
意义:
- 摆脱 SAM 等 mask 生成器依赖
- 消除固定阈值,用类别无关变化图决策
- 任意 OVSS 模型可迁移至变化检测
