DDLNet- Boosting Remote Sensing Change Detection with Dual-Domain Learning
论文地址:arxiv
摘要
背景
遥感变化检测(RSCD)旨在通过分析多时相的遥感图像来识别某一地区的关注变化,对于地方发展监测具有突出的价值。
现有的 RSCD 方法在空间域中进行上下文建模来增强关注的变化,但是在频域知识的缺乏限制了模型性能的进一步提升。
创新
作者设计了一个频域增强模块(Frequency-domain Enhancement Module, FEM),用于离散余弦变换(Discrete Cosine Transform, DCT)从输入的双时相图像中捕捉频率成分,从而增强关注的变化。
此外,作者还设计了一个空间域恢复模块(Spatial-domain Recovery Module, SRM),用于融合时空特征以重建变化表示的空间细节。
正文
背景
RSCD(遥感变化检测)是一项关键任务,通过分析在相同地理区域内拍摄的多时相遥感图像,识别由光谱变化表示的关注变化。因此,图像像素被分类为变化图,以确定区域的每个部分是否涉及关注的变化。
在该领域,已经有基于卷积神经网络的方法来处理,也有利用 Transformer 模型在时间序列中进行空间关系学习。但是这些方法主要集中在解决空间哉中的 RSCD 问题,仍有进一步提升的宰。
受到从频率域的角度来处理目标检测和语义分割领域的启发,作者提出了 DDLNet,这是一种基于双域学习的 RSCD 网络,涉及频率域增强模块(FEM)和空间域恢复模块(SRM)。
由 Siamese 神经网络从输入的双时相图像中提取的特征图,FEM 使用离散余弦变换(DCT)捕捉频率成分以增强关注的变化。同时,不同尺度的 SRM 通过粗细表示的融合以级联方式促进空间细节的恢复。此外,采用轻量级解码器在所有尺度上互连表示以生成变化图。
贡献
- 引入了频率域增强,从双时图像特征图中提取频率成分并增强关注的变化
- 实现了空间域恢复,采用跨时间与跨尺度机制进行特征融合,并重建变化表示中的空间细节
- 提出了一种新颖的 RSCD 方法,在三个变化检测数据集上取得了最先进的性能,同时在准确性与效率之间达到了更满意的平衡。
模型架构
DDLNet 由四个关键组件组成:特征提取,频域增强,空间域恢复与解码。
给定输入的双时相图像 T 1 和 T 2,使用一个 Siamese 神经网络(即双流 ResNet-18)在四个不同的尺度上提取双时相特征图。在每个尺度上,来自相应残差块的双时相特征图在频域中通过 FEM(频域增强模块)增强,FEM 利用 DCT(离散余弦变换)有效捕捉频率成分。在第四尺度上的频率增强特征图经历初步特征融合,然后由 SRM(空间恢复模块)处理,SRM 专注于恢复变化细节,同时处理每个其他尺度的特征图。所有尺度的特征图在通道方向上进行上采样和拼接;通过卷积恢复通道数量。最后,上采样生成与 T 1 和 T 2 相同大小的变化地图。
频域增强模块(FEM)
该模块采用 DCT 高效捕捉特征中的频率成分,从而增强输入图像中的变化的辨识度。
二维 DCT 可以如下公式表示:
$$
B^{i,j}_{h,w} = \cos(\frac{\pi h}{H} (i + \frac{1}{2})) \cos(\frac{\pi w}{W} (j + \frac{1}{2}))
$$
$$
f_{h,w}^{2d} = \sum_{i=0}^{H-1} \sum_{j=0}^{W-1} x_{h,w}^{2d} B^{i,j}_{h,w}
$$
$f^{2d}$ 表示二维 DCT 频谱,$x^{2d}$ 表示输入,H 表示高度,W 表示宽度。
FEM 将输入图像 $X$ 沿通道维度分成若干部分 $[X^0, X^1, \cdots, X^{n-1}]$ 且 $C’=\frac{C}{n}$,假设 $C$ (表示图像的通道数)可以被 n 整除。为每个部分的 $X_i$ 分配相应的二维 DCT 来生成对应的频率成分,然后通过拼接这些分块的频率成分,获得频率向量:
$$
\text{Freq} = \text{cat}([\text{Freq}^0, \text{Freq}^1, \cdots, \text{Freq}^{n-1}])
$$
每个频率成分表示如下:
$$ \text{Freq}^i = \text{DCT}^{u_i, v_i}(X^i) = \sum_{h=0}^{H-1} \sum_{w=0}^{W-1} X^i_{h,w} B^{u_i, v_i}_{h,w}$$
$Freq^i$ 是一个 $C’$ 维度的向量,$[u_i,v_i]$ 表示 $X_i$ 的频率成分的二维索引。FEM 的输出计算如下:
$$
Z=Sigmoid(f_c(Freq))
$$
$f_c$ 表示一维卷积,$Z$ 表示频率增强特征图。
FEM 还通过在 Imagenet 上预训练确定频率成分的重要性,以选择适当的频率成分进行特征增强。
空间域恢复模块(SRM)
SRM 通过跨时间与跨尺度机制实现特征融合。在每个层级上的特征经过频率增强后,最深层的特征会进行逐元素减法,并与在时间点 T 1 捕获的图像进行拼接,从而生成深层变化的表示。随后,深层变化的表示会独立地与跨尺度的浅层特征融合。这使得高层变化表示能够指导低层表示的上下文建模,增强低层特征中的语义信息,并改进变化表示的空间细节恢复。
由于 FEM 在 T 1 与 T 2 时刻在前三个尺度上输出的频率增强特征图 Z 1 与 Z 2,SRM 首先进行特征融合,来获得关注变化的粗略表示 $Z_c$,其公式表示如下:
$$
Z_c = \psi((Z_1 \ominus Z_2) \oplus Z_1)
$$
其中,$\ominus$ 表示逐元素减法,$\phi$ 表示深度可分离卷积。
$Z_c$ 的权重图 $W_c$ 可如下表示:
$$
W_1 = \text{Sigmoid}(\phi (P_{mean}(Z_c) \oplus P_{max}(Z_c))
$$
$P_{mean}$ 与 $P_{max}$ 分别表示平均池化与最大池化。$\phi$ 表示 1*1
卷积。然后将权重图应用于第 4 尺度上粗略表示 $C_4$,可得到关注变化的精细表示 $C_i$:
$$
C_i = (W_1 \otimes C_4) \oplus C_{i+1}
$$
$C_{i+1}$ 表示前一个 SRM 的关注变化的精细表示。
损失函数
由于 RSCD 中已短发与未改变像素分布的不平衡的问题,他们设计了一种混合损失函数,结合了焦点损失与 Dice 损失,其公式如下:
$$
L = L_{\text{focal}} + L_{\text{dice}}
$$
其中,焦点损失的公式如下:
$$
L_{\text{focal}} = -\alpha (1 - \hat{p})^\gamma \log(\hat{p})
$$
$$
\hat{p} =
\begin{cases}
p, & \text{if } y = 1 \\
1 - p, & \text{otherwise}
\end{cases}
$$
$\alpha$ 与 $\gamma$ 是控制正负样本贡献和方法对困难样本关注度的两个超参数。
Dice 损失的公式如下:
$$
L_{\text{dice}} = 1 - \frac{2 \cdot E \cdot \text{Softmax}(E’)}{E + \text{Softmax}(E’)}
$$
$$
E’ = { e’_k \in \mathbb{R}^2 \mid k = 1, 2, \ldots, H \times W }
$$
模型评估
在三个 RSCD(遥感变化检测)数据集上,通过五个常用指标对提出的 DDLNet 进行比较:F 1 分数(F 1)、召回率(Recall, Rec)、精确率(Precision, Pre)、交并比(Intersection over Union, IoU)和总体准确率(Overall Accuracy, OA)。
数据集分别是:
- WHU 建筑数据集
- LEVIR-CD 数据集
- CLCD 数据集
以下是在这三个数据集上的评测数据:
作者认为:这种性能优势可以归因于 FEM(特征增强模块)和 SRM(空间关系模块)模块的有效特征优化,利用多频率成分增强感兴趣的变化,改进像素空间的特征表示,并通过特征融合捕捉细粒度信息,从而促进变化表示中的空间细节恢复。
消融实验
FEM 与 SRM 的有效性
在 WHU-CD 数据集上进行了消融实验。
表明:引入 FEM 或 SRM 模块显著提高了性能。
不同频率的影响
作者使用 n 个频率验证了结果,如图所示,n 为 16 时,有最佳的性能。
不同参数量与效率的对比
可视化
对比图表明,DDLNet 通过有效利用 FEM 和 SRM 模块提取高质量的变化信息和增强变化对象边界,显著优于其他模型。