Seg2Change: Adapting Open-Vocabulary Semantic Segmentation Model for Remote Sensing Change Detection

推文链接：https://mp.weixin.qq.com/s/acQw8vrie9a0a7s5oq2VIg
推文标题：Seg2Change: 西交团队将开放词汇语义分割模型适配用于遥感变化检测, 构建类别无关变化检测数据集 CA-CDD
来源: https://arxiv.org/abs/2604.11231
本地PDF: ../raw/2026-04-12-seg2change.pdf
日期: 2026-04-12
标签: remote-sensing, change-detection, open-vocabulary, segmentation
研究方向: 遥感 → 变化检测 → 开放词汇变化检测
作者: 西安交通大学团队
代码: https://github.com/yogurts-sy/Seg2Change

推文解读

摘要

问题: 现有遥感变化检测方法依赖大规模标注数据且仅能识别预定义类别，难以适应开放世界场景；现有开放词汇变化检测（OVCD）方法依赖 SAM 等掩码生成器，产生分割误差传播，且使用固定阈值判断变化，泛化能力有限。

方案: 提出 Seg2Change 适配框架，将开放词汇语义分割模型直接迁移至变化检测任务。核心是类别无关变化图（category-agnostic change map），直接从双时相分割掩码中提取变化，摆脱对掩码生成器和预定义阈值的依赖。

关键创新:

类别无关变化检测范式: 通过类别无关变化图直接提取变化，解耦语义分割与变化推理
CA-CDD 数据集: 将现有有限类别数据集扩展为任意类别的开放变化标注
CACH 模块: 融合双时相差异增强模块（BDFM）与有效差异查询注意力模块（EDQA）
即插即用: 可将任意 OVSS 模型迁移至变化检测任务

验证: 在 WHU-CD、LEVIR-CD、DSIFN、CLCD、SC-SCD、SECOND 六个数据集上达到 SOTA，参数仅 3.9M

背景

遥感变化检测任务

任务目标: 利用双时相/多时相遥感图像检测地表覆盖变化的位置与语义类别
应用场景: 城市规划、自然资源管理

现有问题

方法	问题
监督方法	依赖大规模标注数据，仅能识别预定义类别
现有 OVCD 方法	依赖掩码生成器（如 SAM），误差逐级传播；固定阈值判断，泛化能力有限

已有范式

M–C–I: Mask → Compare → Identify（建筑检测）
I–M–C: Identify → Mask → Compare（地表覆盖检测）
问题: 不同任务需要切换配置，缺乏统一范式

数据集

CA-CDD（类别无关变化检测数据集）

来源: SECOND、JL1-CD、CNAM-CD 训练集，约 4968 对双时相图像
特点: 将原始粗粒度类别受限标注扩展为任意类别的类别无关变化图
评估: 排除 SECOND 测试集，保证训练/测试无交叉

基准数据集

数据集	任务类型	描述
WHU-CD	建筑变化	新西兰克赖斯特彻奇，0.3m，22万余栋建筑，测试集 660 对
LEVIR-CD	建筑变化	美国得克萨斯，0.5m，时间跨度 5–14 年，31333 处变化实例，测试集 512 对
DSIFN	地表覆盖	中国六大城市，多类地表变化，测试集 48 对
CLCD	地表覆盖	广东高分二号，专注耕地变化，0.5–2m，测试集 120 对
SC-SCD	语义变化	福建龙文区，0.5m，7 类（裸地、水体、建筑、结构体、农田、植被、道路），测试集 322 对
SECOND	语义变化	杭州/成都/上海，0.5–3m，6 类，测试集 1694 对

论文解读

Introduction

背景：

地球受人类活动和气候变化影响日益加剧
变化检测用双时相遥感图像检测地表变化的位置和语义类别
应用：城市规划、自然资源管理

现有方法问题：

方法	问题
监督方法	依赖大规模标注数据，仅能识别预定义类别
OVCD (M-C-I)	依赖 SAM 等 mask 生成器，误差逐级传播
OVCD (I-M-C)	同样依赖 mask 生成器，分割误差影响后续
UCD-SCM	使用 OTSU 全局阈值，线性阈值难以区分变化像素
DynamicEarth	仍用预定义阈值判断变化

两种已有范式：

M-C-I: Mask → Compare → Identify（适合地表覆盖变化）
I-M-C: Identify → Mask → Compare（适合建筑变化）
问题：不同任务需切换配置，缺乏统一范式

本文方案 Seg2Change：

核心：类别无关变化图，直接从双时相分割掩码提取变化
摆脱 mask 生成器依赖，消除固定阈值
设计 CACH 模块：特征差异增强+校准
即插即用：任意 OVSS 模型可迁移

贡献三点：

新范式 Seg2Change，简单有效
构建 CA-CDD 数据集 + CACH 模块
六个数据集 SOTA，效率最优

2.1 视觉-语言模型（VLM）

CLIP、ALIGN：对比学习，奠定 VLM 基础
BLIP、Flamingo：探索图像_caption、VQA、对话生成
Grounding DINO：目标检测 + 自然语言理解，文本驱动目标定位
APE、SegEarth-OV：像素级语义分割，多任务（检测、分割、定位）
RemoteCLIP：首个遥感专用 VLM
SegEarth-OV3：结合 SAM3 的语义分割头和实例头，用置信度过滤，达到遥感开放词汇分割 SOTA

2.2 无监督 & 开放词汇变化检测

方法	描述
CVA	变化矢量分析，直接比较双时相光谱
DCVA	CNN 特征增强变化相关特征区分
I3PE	单时相图像 patch 交换生成伪双时相对
AnyChange	SAM 特征 latent matching + 手动标注点聚类
UCD-SCM	PSA 机制 + FastSAM 减少伪变化
Inst-CEG	变化事件生成 (CEG) 提取变化提议
DynamicEarth	M-C-I 和 I-M-C 两种范式

现有方法局限：

仍依赖实例级变化估计，难以确定可靠的阈值
仍依赖 mask 生成器提供变化提议，分割误差会传播

3. Methodology

3.1 Analysis of Previous OVCD Paradigms

核心问题：现有方法依赖实例级变化决策

流程：

Mask 生成器（如 SAM）生成变化提议
比较器（如 CVA、OTSU）判断变化
用预定义阈值 β 判断（公式1）：D(p) = -z1[p]·z2[p]/(|z1||z2|)，相似度 > β 判定为变化

问题：

Mask 生成器产生碎片化分割（大目标拆成多个碎片）
预定义阈值 β 泛化能力差，需手动调参
必须遍历所有提议，无法并行

3.2 A Category-Agnostic CD Dataset

现有数据集局限：

WHU-CD、LEVIR-CD：聚焦建筑变化
DSIFN、CLCD：聚焦土地覆盖变化
SECOND：6 类，类别有限

CA-CDD 构建：

来源：SECOND、JL1-CD、CNAM-CD 训练集
重新标注：将粗粒度类别受限标注扩展为类别无关变化图
扩展到开放、无约束的类别范围

3.3 Semantic Segmentation to Change Detection

整体架构

双时相图像 I1, I2 → DINOv2 特征提取 → [CACH 分支] → 类别无关变化图 Mca → [OVSS 分支] → 语义分割图 M1, M2

最终变化图：Mch = Mca · M1 + Mca · M2 (公式2)

3.3.1 BDFM (Bi-temporal Difference Fusion Module)

公式3：生成差异注意力图

Att_i = σ(Conv3×3 * |F̃1^i - F̃2^i|)

公式4：注入空间差异表征

X_t^i = γConv3×3 * (F̃t^i + Att_i · F̃t^i)

公式5：融合双时相差异特征

D_i = γConv3×3 * (γConv3×3 * (X_1^i || X_2^i) · Att_i)

3.3.2 EDQA (Effective Difference Query Attention)

背景问题：

双时相图像成像条件、季节差异引入噪声
变化区域通常只占小部分，前景背景不平衡
BDFM 增强差异时引入伪变化

公式6：滑动窗口注意力校准噪声

ṼD_t^i = φ_proj(Softmax((Q_i · K_i^T)/√d + b) · V_t^i)

Q/K 来自差异特征 D_i，V 来自引导特征 G̃_t^i

公式8-10：MoE MLP 处理异构数据源

weight_G = Softmax(W_g · D̃^i + b_g)
expert_j(D̃^i) = W_o,j · GELU(W_h,j · D̃^i + b_h,j) + b_o,j
X_d^i = Σ weight_j · expert_j(D̃^i)

3.4 Model Detail

损失函数

公式11：变化图损失

L_cd = L_bce(δ↑(X_d^2, X_d^5, X_d^8, X_d^11), y_l)

公式12：多尺度上采样损失

L_ups = Σ L_bce(δ↑(X_d^i), y_l), i ∈ {2,5,8,11}

公式13：不变区域相似度损失

L_sim = [1 - cos(δ↑(F̃_1), δ↑(F̃_2))] · ŷ_l

公式14：总损失

L_total = αL_cd + βL_ups + γL_sim

Seg2Change 整体框架

双时相图像 → [OVSS 分支] → 语义分割图
            → [CACH 分支] → 类别无关变化图 → 逐元素相乘 → 最终变化检测结果

核心思想：解耦为两条并行分支，最终融合得到特定类别变化。

类别无关变化头（CACH）

以 DINOv2-Base 作为共享权重的图像编码器，提取双时相图像的多尺度特征。

1. 特征调制模块（FMM）

1×1 卷积 + 多尺度缩放操作
将 DINOv2 特征对齐至遥感图像特性
构建金字塔调制特征

2. 双时相差异融合模块（BDFM）

Sigmoid 激活的卷积 → 差异注意力图（突出变化区域）
差异注意力反作用于双时相调制特征（增强差异区域）
拼接融合，抑制伪变化干扰

3. 有效差异查询注意力模块（EDQA）

融合差异特征 + 双时相调制特征 → 引导特征
滑动窗口注意力: 差异特征为 Q/K，引导特征为 V，跨时相校准噪声差异响应
MoE MLP: 自适应处理异构数据源的成像条件与季节差异

残差上采样器（ResUp）

各层校准差异特征逐层残差上采样聚合
输出卷积 + 插值 → 原图分辨率
argmax → 类别无关变化图（无阈值）

损失函数

损失类型	作用
变化图损失	预测变化图与标注的二元交叉熵
上采样损失	各层逐层预测多尺度监督
不变区域相似度损失	未变化区域余弦相似度约束，抑制伪变化

开放词汇语义分割分支

双时相图像 + 用户文本描述 → OVSS 模型（默认 SegEarth-OV3）→ 语义分割图
类别无关变化图索引语义图 → 最终变化检测结果

4. Experiments

4.1 数据集 & 基准

任务类型	数据集
建筑变化检测	WHU-CD, LEVIR-CD
土地覆盖变化检测	DSIFN, CLCD
语义变化检测	SC-SCD, SECOND

对比方法：

传统方法：PCA_KMeans, CVA, DCVA, UCD-SCM
VLM方法：AnyChange, Inst-CEG, DynamicEarth

4.2 数值结果

数据集	Seg2Change	Previous Best	提升
WHU-CD	75.72	66.20	+9.52
LEVIR-CD	73.69	67.24	+6.45
DSIFN	78.16	70.45	+7.71
CLCD	66.85	59.07	+7.78
SC-SCD	55.38	51.21	+4.17
SECOND	61.62	57.51	+4.11

4.3 效率

显存：降低 36%
推理速度：提升 53%
参数量：3.9M

4.4 消融实验

BDFM 贡献最大
EDQA 有效校准噪声
MoE MLP 对异构数据源有显著提升

5. Conclusion

总结：

分析了现有 OVCD 方法的局限性（依赖 mask 生成器 + 固定阈值）
构建了 CA-CDD 类别无关变化检测数据集
设计了 CACH 模块增强和校准特征差异
开发了简单高效的 Seg2Change 架构

三大贡献：

Seg2Change 新范式
CA-CDD 数据集 + CACH 模块
六个数据集 SOTA，效率最优

意义：

摆脱 SAM 等 mask 生成器依赖
消除固定阈值，用类别无关变化图决策
任意 OVSS 模型可迁移至变化检测

Seg2Change: Adapting Open-Vocabulary Semantic Segmentation Model for Remote Sensing Change Detection ​

推文解读 ​

摘要 ​

背景 ​

遥感变化检测任务 ​

现有问题 ​

已有范式 ​

数据集 ​

CA-CDD（类别无关变化检测数据集） ​

基准数据集 ​

论文解读 ​

Introduction ​

Related Work ​

2.1 视觉-语言模型（VLM） ​

2.2 无监督 & 开放词汇变化检测 ​

3. Methodology ​

3.1 Analysis of Previous OVCD Paradigms ​

3.2 A Category-Agnostic CD Dataset ​

3.3 Semantic Segmentation to Change Detection ​

整体架构 ​

3.3.1 BDFM (Bi-temporal Difference Fusion Module) ​

3.3.2 EDQA (Effective Difference Query Attention) ​

3.4 Model Detail ​

损失函数 ​

Seg2Change 整体框架 ​

类别无关变化头（CACH） ​

1. 特征调制模块（FMM） ​

2. 双时相差异融合模块（BDFM） ​

3. 有效差异查询注意力模块（EDQA） ​

残差上采样器（ResUp） ​

损失函数 ​

开放词汇语义分割分支 ​

4. Experiments ​

4.1 数据集 & 基准 ​

4.2 数值结果 ​

4.3 效率 ​

4.4 消融实验 ​

5. Conclusion ​

Seg2Change: Adapting Open-Vocabulary Semantic Segmentation Model for Remote Sensing Change Detection

推文解读

摘要

背景

遥感变化检测任务

现有问题

已有范式

数据集

CA-CDD（类别无关变化检测数据集）

基准数据集

论文解读

Introduction

Related Work

2.1 视觉-语言模型（VLM）

2.2 无监督 & 开放词汇变化检测

3. Methodology

3.1 Analysis of Previous OVCD Paradigms

3.2 A Category-Agnostic CD Dataset

3.3 Semantic Segmentation to Change Detection

整体架构

3.3.1 BDFM (Bi-temporal Difference Fusion Module)

3.3.2 EDQA (Effective Difference Query Attention)

3.4 Model Detail

损失函数

Seg2Change 整体框架

类别无关变化头（CACH）

1. 特征调制模块（FMM）

2. 双时相差异融合模块（BDFM）

3. 有效差异查询注意力模块（EDQA）

残差上采样器（ResUp）

损失函数

开放词汇语义分割分支

4. Experiments

4.1 数据集 & 基准

4.2 数值结果

4.3 效率

4.4 消融实验

5. Conclusion