DDLNet- Boosting Remote Sensing Change Detection with Dual-Domain Learning

论文地址:arxiv

摘要

背景

遥感变化检测(RSCD)旨在通过分析多时相的遥感图像来识别某一地区的关注变化,对于地方发展监测具有突出的价值。

现有的 RSCD 方法在空间域中进行上下文建模来增强关注的变化,但是在频域知识的缺乏限制了模型性能的进一步提升。

创新

作者设计了一个频域增强模块(Frequency-domain Enhancement Module, FEM),用于离散余弦变换(Discrete Cosine Transform, DCT)从输入的双时相图像中捕捉频率成分,从而增强关注的变化。

此外,作者还设计了一个空间域恢复模块(Spatial-domain Recovery Module, SRM),用于融合时空特征以重建变化表示的空间细节。

正文

背景

RSCD(遥感变化检测)是一项关键任务,通过分析在相同地理区域内拍摄的多时相遥感图像,识别由光谱变化表示的关注变化。因此,图像像素被分类为变化图,以确定区域的每个部分是否涉及关注的变化。

在该领域,已经有基于卷积神经网络的方法来处理,也有利用 Transformer 模型在时间序列中进行空间关系学习。但是这些方法主要集中在解决空间哉中的 RSCD 问题,仍有进一步提升的宰。

受到从频率域的角度来处理目标检测和语义分割领域的启发,作者提出了 DDLNet,这是一种基于双域学习的 RSCD 网络,涉及频率域增强模块(FEM)和空间域恢复模块(SRM)。

由 Siamese 神经网络从输入的双时相图像中提取的特征图,FEM 使用离散余弦变换(DCT)捕捉频率成分以增强关注的变化。同时,不同尺度的 SRM 通过粗细表示的融合以级联方式促进空间细节的恢复。此外,采用轻量级解码器在所有尺度上互连表示以生成变化图。

贡献

  • 引入了频率域增强,从双时图像特征图中提取频率成分并增强关注的变化
  • 实现了空间域恢复,采用跨时间与跨尺度机制进行特征融合,并重建变化表示中的空间细节
  • 提出了一种新颖的 RSCD 方法,在三个变化检测数据集上取得了最先进的性能,同时在准确性与效率之间达到了更满意的平衡。

模型架构

DDLNet 由四个关键组件组成:特征提取,频域增强,空间域恢复与解码。

给定输入的双时相图像 T 1 和 T 2,使用一个 Siamese 神经网络(即双流 ResNet-18)在四个不同的尺度上提取双时相特征图。在每个尺度上,来自相应残差块的双时相特征图在频域中通过 FEM(频域增强模块)增强,FEM 利用 DCT(离散余弦变换)有效捕捉频率成分。在第四尺度上的频率增强特征图经历初步特征融合,然后由 SRM(空间恢复模块)处理,SRM 专注于恢复变化细节,同时处理每个其他尺度的特征图。所有尺度的特征图在通道方向上进行上采样和拼接;通过卷积恢复通道数量。最后,上采样生成与 T 1 和 T 2 相同大小的变化地图。

频域增强模块(FEM)

该模块采用 DCT 高效捕捉特征中的频率成分,从而增强输入图像中的变化的辨识度。

二维 DCT 可以如下公式表示:

$$
B^{i,j}_{h,w} = \cos(\frac{\pi h}{H} (i + \frac{1}{2})) \cos(\frac{\pi w}{W} (j + \frac{1}{2}))
$$

$$
f_{h,w}^{2d} = \sum_{i=0}^{H-1} \sum_{j=0}^{W-1} x_{h,w}^{2d} B^{i,j}_{h,w}
$$
$f^{2d}$ 表示二维 DCT 频谱,$x^{2d}$ 表示输入,H 表示高度,W 表示宽度。

FEM 将输入图像 $X$ 沿通道维度分成若干部分 $[X^0, X^1, \cdots, X^{n-1}]$ 且 $C’=\frac{C}{n}$,假设 $C$ (表示图像的通道数)可以被 n 整除。为每个部分的 $X_i$ 分配相应的二维 DCT 来生成对应的频率成分,然后通过拼接这些分块的频率成分,获得频率向量:
$$
\text{Freq} = \text{cat}([\text{Freq}^0, \text{Freq}^1, \cdots, \text{Freq}^{n-1}])
$$
每个频率成分表示如下:
$$ \text{Freq}^i = \text{DCT}^{u_i, v_i}(X^i) = \sum_{h=0}^{H-1} \sum_{w=0}^{W-1} X^i_{h,w} B^{u_i, v_i}_{h,w}$$
$Freq^i$ 是一个 $C’$ 维度的向量,$[u_i,v_i]$ 表示 $X_i$ 的频率成分的二维索引。FEM 的输出计算如下:
$$
Z=Sigmoid(f_c(Freq))
$$
$f_c$ 表示一维卷积,$Z$ 表示频率增强特征图。

FEM 还通过在 Imagenet 上预训练确定频率成分的重要性,以选择适当的频率成分进行特征增强。

空间域恢复模块(SRM)

SRM 通过跨时间与跨尺度机制实现特征融合。在每个层级上的特征经过频率增强后,最深层的特征会进行逐元素减法,并与在时间点 T 1 捕获的图像进行拼接,从而生成深层变化的表示。随后,深层变化的表示会独立地与跨尺度的浅层特征融合。这使得高层变化表示能够指导低层表示的上下文建模,增强低层特征中的语义信息,并改进变化表示的空间细节恢复。

由于 FEM 在 T 1 与 T 2 时刻在前三个尺度上输出的频率增强特征图 Z 1 与 Z 2,SRM 首先进行特征融合,来获得关注变化的粗略表示 $Z_c$,其公式表示如下:
$$
Z_c = \psi((Z_1 \ominus Z_2) \oplus Z_1)
$$
其中,$\ominus$ 表示逐元素减法,$\phi$ 表示深度可分离卷积。

$Z_c$ 的权重图 $W_c$ 可如下表示:
$$
W_1 = \text{Sigmoid}(\phi (P_{mean}(Z_c) \oplus P_{max}(Z_c))
$$
$P_{mean}$ 与 $P_{max}$ 分别表示平均池化与最大池化。$\phi$ 表示 1*1 卷积。然后将权重图应用于第 4 尺度上粗略表示 $C_4$,可得到关注变化的精细表示 $C_i$:
$$
C_i = (W_1 \otimes C_4) \oplus C_{i+1}
$$
$C_{i+1}$ 表示前一个 SRM 的关注变化的精细表示。

损失函数

由于 RSCD 中已短发与未改变像素分布的不平衡的问题,他们设计了一种混合损失函数,结合了焦点损失与 Dice 损失,其公式如下:
$$
L = L_{\text{focal}} + L_{\text{dice}}
$$

其中,焦点损失的公式如下:

$$
L_{\text{focal}} = -\alpha (1 - \hat{p})^\gamma \log(\hat{p})
$$

$$
\hat{p} =
\begin{cases}
p, & \text{if } y = 1 \\
1 - p, & \text{otherwise}
\end{cases}
$$

$\alpha$ 与 $\gamma$ 是控制正负样本贡献和方法对困难样本关注度的两个超参数。

Dice 损失的公式如下:

$$
L_{\text{dice}} = 1 - \frac{2 \cdot E \cdot \text{Softmax}(E’)}{E + \text{Softmax}(E’)}
$$

$$
E’ = { e’_k \in \mathbb{R}^2 \mid k = 1, 2, \ldots, H \times W }
$$

模型评估

在三个 RSCD(遥感变化检测)数据集上,通过五个常用指标对提出的 DDLNet 进行比较:F 1 分数(F 1)、召回率(Recall, Rec)、精确率(Precision, Pre)、交并比(Intersection over Union, IoU)和总体准确率(Overall Accuracy, OA)。

数据集分别是:

  • WHU 建筑数据集
  • LEVIR-CD 数据集
  • CLCD 数据集

以下是在这三个数据集上的评测数据:

作者认为:这种性能优势可以归因于 FEM(特征增强模块)和 SRM(空间关系模块)模块的有效特征优化,利用多频率成分增强感兴趣的变化,改进像素空间的特征表示,并通过特征融合捕捉细粒度信息,从而促进变化表示中的空间细节恢复。

消融实验

FEM 与 SRM 的有效性

在 WHU-CD 数据集上进行了消融实验。

表明:引入 FEM 或 SRM 模块显著提高了性能。

不同频率的影响

作者使用 n 个频率验证了结果,如图所示,n 为 16 时,有最佳的性能。

不同参数量与效率的对比

可视化

对比图表明,DDLNet 通过有效利用 FEM 和 SRM 模块提取高质量的变化信息和增强变化对象边界,显著优于其他模型。