DDLNet- Boosting Remote Sensing Change Detection with Dual-Domain Learning

发表于 2024-07-08 更新于 2024-08-20 分类于论文阅读

论文地址：arxiv

摘要

背景

遥感变化检测（RSCD）旨在通过分析多时相的遥感图像来识别某一地区的关注变化，对于地方发展监测具有突出的价值。

现有的 RSCD 方法在空间域中进行上下文建模来增强关注的变化，但是在频域知识的缺乏限制了模型性能的进一步提升。

创新

作者设计了一个频域增强模块（Frequency-domain Enhancement Module, FEM），用于离散余弦变换（Discrete Cosine Transform, DCT）从输入的双时相图像中捕捉频率成分，从而增强关注的变化。

此外，作者还设计了一个空间域恢复模块（Spatial-domain Recovery Module, SRM），用于融合时空特征以重建变化表示的空间细节。

正文

背景

RSCD（遥感变化检测）是一项关键任务，通过分析在相同地理区域内拍摄的多时相遥感图像，识别由光谱变化表示的关注变化。因此，图像像素被分类为变化图，以确定区域的每个部分是否涉及关注的变化。

在该领域，已经有基于卷积神经网络的方法来处理，也有利用 Transformer 模型在时间序列中进行空间关系学习。但是这些方法主要集中在解决空间哉中的 RSCD 问题，仍有进一步提升的宰。

受到从频率域的角度来处理目标检测和语义分割领域的启发，作者提出了 DDLNet，这是一种基于双域学习的 RSCD 网络，涉及频率域增强模块（FEM）和空间域恢复模块（SRM）。

由 Siamese 神经网络从输入的双时相图像中提取的特征图，FEM 使用离散余弦变换（DCT）捕捉频率成分以增强关注的变化。同时，不同尺度的 SRM 通过粗细表示的融合以级联方式促进空间细节的恢复。此外，采用轻量级解码器在所有尺度上互连表示以生成变化图。

贡献

引入了频率域增强，从双时图像特征图中提取频率成分并增强关注的变化
实现了空间域恢复，采用跨时间与跨尺度机制进行特征融合，并重建变化表示中的空间细节
提出了一种新颖的 RSCD 方法，在三个变化检测数据集上取得了最先进的性能，同时在准确性与效率之间达到了更满意的平衡。

模型架构

DDLNet 由四个关键组件组成：特征提取，频域增强，空间域恢复与解码。

给定输入的双时相图像 T 1 和 T 2，使用一个 Siamese 神经网络（即双流 ResNet-18）在四个不同的尺度上提取双时相特征图。在每个尺度上，来自相应残差块的双时相特征图在频域中通过 FEM（频域增强模块）增强，FEM 利用 DCT（离散余弦变换）有效捕捉频率成分。在第四尺度上的频率增强特征图经历初步特征融合，然后由 SRM（空间恢复模块）处理，SRM 专注于恢复变化细节，同时处理每个其他尺度的特征图。所有尺度的特征图在通道方向上进行上采样和拼接；通过卷积恢复通道数量。最后，上采样生成与 T 1 和 T 2 相同大小的变化地图。

频域增强模块（FEM）

该模块采用 DCT 高效捕捉特征中的频率成分，从而增强输入图像中的变化的辨识度。

二维 DCT 可以如下公式表示：

$$
B^{i,j}_{h,w} = \cos(\frac{\pi h}{H} (i + \frac{1}{2})) \cos(\frac{\pi w}{W} (j + \frac{1}{2}))
$$

$$
f_{h,w}^{2d} = \sum_{i=0}^{H-1} \sum_{j=0}^{W-1} x_{h,w}^{2d} B^{i,j}_{h,w}
$$
$f^{2d}$ 表示二维 DCT 频谱，$x^{2d}$ 表示输入，H 表示高度，W 表示宽度。

FEM 将输入图像 $X$ 沿通道维度分成若干部分 $[X^0, X^1, \cdots, X^{n-1}]$ 且 $C’=\frac{C}{n}$，假设 $C$ （表示图像的通道数）可以被 n 整除。为每个部分的 $X_i$ 分配相应的二维 DCT 来生成对应的频率成分，然后通过拼接这些分块的频率成分，获得频率向量：
$$
\text{Freq} = \text{cat}([\text{Freq}^0, \text{Freq}^1, \cdots, \text{Freq}^{n-1}])
$$
每个频率成分表示如下：
$$ \text{Freq}^i = \text{DCT}^{u_i, v_i}(X^i) = \sum_{h=0}^{H-1} \sum_{w=0}^{W-1} X^i_{h,w} B^{u_i, v_i}_{h,w}$$
$Freq^i$ 是一个 $C’$ 维度的向量，$[u_i,v_i]$ 表示 $X_i$ 的频率成分的二维索引。FEM 的输出计算如下：
$$
Z=Sigmoid(f_c(Freq))
$$
$f_c$ 表示一维卷积，$Z$ 表示频率增强特征图。

FEM 还通过在 Imagenet 上预训练确定频率成分的重要性，以选择适当的频率成分进行特征增强。

空间域恢复模块（SRM）

SRM 通过跨时间与跨尺度机制实现特征融合。在每个层级上的特征经过频率增强后，最深层的特征会进行逐元素减法，并与在时间点 T 1 捕获的图像进行拼接，从而生成深层变化的表示。随后，深层变化的表示会独立地与跨尺度的浅层特征融合。这使得高层变化表示能够指导低层表示的上下文建模，增强低层特征中的语义信息，并改进变化表示的空间细节恢复。

由于 FEM 在 T 1 与 T 2 时刻在前三个尺度上输出的频率增强特征图 Z 1 与 Z 2，SRM 首先进行特征融合，来获得关注变化的粗略表示 $Z_c$，其公式表示如下：
$$
Z_c = \psi((Z_1 \ominus Z_2) \oplus Z_1)
$$
其中，$\ominus$ 表示逐元素减法，$\phi$ 表示深度可分离卷积。

$Z_c$ 的权重图 $W_c$ 可如下表示：
$$
W_1 = \text{Sigmoid}(\phi (P_{mean}(Z_c) \oplus P_{max}(Z_c))
$$
$P_{mean}$ 与 $P_{max}$ 分别表示平均池化与最大池化。$\phi$ 表示 1*1 卷积。然后将权重图应用于第 4 尺度上粗略表示 $C_4$，可得到关注变化的精细表示 $C_i$：
$$
C_i = (W_1 \otimes C_4) \oplus C_{i+1}
$$
$C_{i+1}$ 表示前一个 SRM 的关注变化的精细表示。

损失函数

由于 RSCD 中已短发与未改变像素分布的不平衡的问题，他们设计了一种混合损失函数，结合了焦点损失与 Dice 损失，其公式如下：
$$
L = L_{\text{focal}} + L_{\text{dice}}
$$

其中，焦点损失的公式如下：

$$
L_{\text{focal}} = -\alpha (1 - \hat{p})^\gamma \log(\hat{p})
$$

$$
\hat{p} =
\begin{cases}
p, & \text{if } y = 1 \\
1 - p, & \text{otherwise}
\end{cases}
$$

$\alpha$ 与 $\gamma$ 是控制正负样本贡献和方法对困难样本关注度的两个超参数。

Dice 损失的公式如下：

$$
L_{\text{dice}} = 1 - \frac{2 \cdot E \cdot \text{Softmax}(E’)}{E + \text{Softmax}(E’)}
$$

$$
E’ = { e’_k \in \mathbb{R}^2 \mid k = 1, 2, \ldots, H \times W }
$$

模型评估

在三个 RSCD（遥感变化检测）数据集上，通过五个常用指标对提出的 DDLNet 进行比较：F 1 分数（F 1）、召回率（Recall, Rec）、精确率（Precision, Pre）、交并比（Intersection over Union, IoU）和总体准确率（Overall Accuracy, OA）。

数据集分别是：