Ultra-High-Definition Restoration- New Benchmarks and A Dual Interaction Prior-Driven Solution

论文地址:arxiv

摘要

背景

超高清图像修复很重要。

创新

作者构建了 UHD 雪和雨基准,分别命名为 UHD-Snow 和 UHD-Rain,以弥补该领域的不足。

UHD-Snow/UHD-Rain 通过模拟雨/雪的物理过程建立,每个基准包含 3200 对 4 K 分辨率的退化/清晰图像对。此外,提出了一种有效的 UHD 图像修复方案,通过在模型设计中考虑梯度和法线先验(normal priors),利用这些先验的空间和细节贡献。

作者的方法有两个分支:

  • 高分辨率空间中的特征融合和重建分支
  • 低分辨率空间中的先验特征交互分支
    前者学习高分辨率特征,并融合先验引导的低分辨率特征以重建清晰图像,而后者利用法线和梯度先验挖掘有用的空间特征和细节特征,以更好地引导高分辨率恢复。

为了更好地利用这些先验,引入了单一先验特征交互和双重先验特征交互,其中前者分别将法线和梯度先验与高分辨率特征融合以增强先验特征,而后者计算增强先验特征之间的相似性,并进一步利用双重引导滤波(dual guided filtering)来促进双重先验的特征交互。

正文

介绍

UHD 图像可以呈现出更多的细节与更广的色域。而当前基于学习的一般图像恢复算法都江堰有效处理 UHD 图像,所以开发了 UHD 恢复模型,而对于雪与雨的 UHD,其数据集少,所以阻碍了相关任务的进一步探索与研究,所以要构建 UHD 雪与雨的基准。

作者构建了两个新的基准,分别为:UHD-Snow 和 UHD-Rain。每个数据集包括 3200 对退化/清晰的 4 K 图像对,这些图像分别合成了不同密度、方向和位置的雪花和雨条纹。其中,3000 对用于训练,200 对用于测试。

以下是 UHD-Snow 和 UHD-Rain 基准中的一些示例。

此外,还提出了有效的双重交互先验驱动的 UHD 恢复解决方案(UHD-DIP)。其原理是:

  1. 法线图包含的形状区域或纹理边界可以提供更多的几何空间结构
  2. 梯度图揭示了每个局部区域的边缘和纹理方向,可以提供细节补偿。

UHD-DIP 有两个分支:

  1. 高分辨率空间的特征融合和重建分支
  2. 低分辨率空间的先验特征交互分支

前者学习高分辨率特征并融合先验引导的低分辨率特征以重建最终的潜在清晰图像,而后者探索先验特征交互以在高分辨率空间中呈现具有更精细结构和细节特征的改进特征。

为了更好地融合和交互先验特征,提出了先验特征交互:包含单一先验特征交互(SPFI)和双重先验特征交互(DPFI)。SPFI 分别融合法线先验梯度先验高分辨率特征以增强先验特征,而 DPFI 计算增强先验特征之间的相似性,并进一步利用双重引导滤波来促进双重先验特征交互,以捕捉更好的结构和细节。

贡献

  • 构建了 UHD-Snow 和 UHD-Rain 基准
  • 提出了UHD-DIP,将梯度与法线先驱整合到模型设计中,来实现具有更精细结构和细节的高质量的恢复

基准测试

作者构建了两个 UHD-Snow 和 UHD-Rain 数据集,这些数据集由分辨率为 3840×2160 的 4 K 图像组成,基于大规模图像数据集 UHDSR 4 K。

用于 UHD 图像超分辨率的 UHDSR 4 K 数据集中提取了 2300 张原始 UHD 图像,按照 Photoshop 的雨雪合成教程合成相应的雨雪图像。

为了确保合成图像的多样性和真实性,作者采用了不同的技术参数和处理方法,包括高斯模糊、运动模糊和结晶化等。其具体使用的参数如下:

UHD 数据集的统计信息如下:

UHD-DIP

高分辨率空间中的特征融合和重建分支

该分支为 (a) 所示。给定一个退化的超高清图像 $U$ 作为输入,UHDDIP 首先应用一个 3*3 卷积提取浅层特征 $F_0$,其中 $H \times W$ 表示空间维度,$C$ 为通道数。接下来 $F_0$ 被输入到第一组 NAFBlocks 以获得第一层高分辨率特征 $F_1$。然后 $F_1$ 通过 8 倍下采样进入低分辨率空间,生成与先驱特征交互的 $F^p_1$,然后 $F_1^p$ 被输入到 NFABlocks 进行进一步学习。输出特征被 8 倍上采样,并在通道维度上与第一层高分辨率特征 $F_1$ 连接,通过 1*1 卷积获得新的第一层特征 $F_1’$。然后融合特征 $F_1’$ 被输入到第二组 NAFBlocks,同时的操作继续进行,直到第三组 NAFBlocks 之后开始进行高分辨率特征重建。最后,通过三组 NAFBlocks 和一个 3*3 卷积层生成的输出被添加到输入图像中,以获得最终恢复的图像 $O$

低分辨率空间中的先验特征交互分支

为了提供更丰富的结构与细节,会对输入图像 $U$ 使用 Omnidata 和 Canny 滤波器生成正常先验 $P_n$ 与梯度先验 $P_g$。在低分辨率空间中,$P_n$ 与 $P_g$ 首先被输入到一个 3*3 卷积层与第一个 NAFBlock,造成第一层先验特征 $P_{n1}$ 与 $P_{g1}$,它们作为第一个先验特征交互(PFI)模块的输入。同时,PFI 还接收从高分辨率传下来的 $F_1$,并与 $P_{n1}$ 与 $P_{g1}$ 一起编码和交互,生成交互的低分辨率特征 $F_{1}^p1$,和增强的先验特征 $P_{n1}’$,$P_{g1}’$。这特征被输入到第二个 PFI 继续执行相同的操作,直到从第 i 个($i \in [1, L]$) PFI 输出的 $P_{ni}’$ 和 $P_{gi}’$ 以及 $F_i^p$ 被获得。这些特征被聚合到高分辨率分支中参与最终的图像重建。此外,通过两个 NAFBlocks 和一个 3*3 卷积层生成的结果 $H$ 进一步用于监督低分辨率分支。

先验特征交互(PFI)

PFI 有两个子模块:单一先验特征交互(SPFI)与双重先验特征交互(DPFI)。SPFI 分别将正常先验与梯度先验与高分辨率特征融合以增强先验特征,而 DPFI 计算增强先验特征之间的相似性,并进一步利用双重引导滤波提升双重先验特征交互。

SPFI

利用正常和梯度先验引导图像恢复的主要挑战在于如何使网络能够有效地感知像素级的图像细节和结构。所以作者使用 SPFI 来增强单一先验特征。

如下图所示:

图片在进入第一个 SPFI 之前提取正常与梯度先验的特征(图 a, e)。正常特征自然提供了更精细的任何结构,而梯度特征包含了更多的纹理细节,它们可以提供互补信息。这些特征分别通过 SPFI 模块与高分辨率特征集成,来进一步增加相应的结构与细节(图 b, f)

其实现细节如下:

在 SPFI 中,$P_{ni}$ 与 $P_{gi}$ 通过两组多 D 卷积头转换交叉注意力(MTCA)分别与 $F_{i}$ 融合,其定义如下(记 $P_{ni}, P_{gi}, F_{i}$ 为 $P_{n}, P_{g}, F$):
$$
\text{MTCA}(Q^n_p, K_f, V_f) = \text{Softmax}(\frac{Q^n_p K_f^T}{\sqrt{f_k}}) V_f
$$
$$
\text{MTCA}(Q^g_p, K_f, V_f) = \text{Softmax}(\frac{Q^g_p K_f^T}{\sqrt{f_k}}) V_f
$$
其中,查询 $Q^{n}{p}$ 来自正常先验特征 $P{n}$;查询 $Q_p^g$ 来自梯度先验特征 $P_g$;键 $K_f$ 与值 $V_f$ 来自图像特征 F。这些矩阵通过层归一化,1*1 卷积与 3*3 深度卷积生成。

然后使用门控 D 卷积前馈网络(GDFN)基于注意力图与原始先验特征生成单一先验特征 $P_n’$ 与 $P_g’$:
$$
P’_n = \text{GDFN}(P_n) + \text{MTCA}(Q^n_p, K_f, V_f)
$$
$$
P’_g = \text{GDFN}(P_g) + \text{MTCA}(Q^g_p, K_f, V_f)
$$
最后,作为当前阶段增强的先验特征,$P_n’$ 和 $P_g’$ 被输入到后续的 DPFI 以实现双重先验特征交互,并且也传递到下一个 SPFI 以进一步学习。

DPFI

该网络利用场景先验和相似性权重来减少纹理干扰,DPFI 旨在通过利用增强的单一先验的内在属性计算它们之间的相似性,以进一步捕捉图像结构和细节,从而为高分辨率空间提供有意义的指导。

先将特征 $P_n’$ 与 $P_g’$ 进行 4 倍下采样来减少后续的计算负担。然后它们分别通过一个 NAFBlock 后通过 k*k 核(k=3)展示,生成大小为 $(Ckk)*\frac{\hat{H}\hat{W}}{16}$,其中 $\hat{H}=H/8, \hat{W}=W/8$。使用归一化邮件管理员计算所有补丁的相似性嵯进一步获得性权重 W。之后将两个先验特征和相似性权重应用于提出了双重引导滤波器(DGF),来进一步过滤掉无关特征,同时平衡和细节。

DGF

接收两个先验特征 $F_n$ 与 $F_g$ 和相似性权重 $W$ 作为输入,然后生成正常先验滤波器内核和梯度先验滤波器内容,分别表示为 $K_n, K_g$:

$$
K_n = g({Conv_3}(F_n), W)
$$
$$
K_g = g({Conv_3}(F_g), W)
$$
$g$ 表示内核生成模块,包含一个 1*1 卷积和一个激活函数。然后,这两个内核分别过滤两个先验特征,以保留它们各自的先验属性并进一步过滤无关特征:
$$
F_{pn} = F_n \otimes K_n + F_n
$$
$$
F_{pg} = F_g \otimes K_g + F_g
$$
$\otimes$ 是过滤操作,注意这里的 $F_n$ 和 $F_g$ 是通过一个 3×3 卷积和一个 NAFBlock 获得的。最后,先验特征被添加到从高分辨率传下来的低分辨率特征中,以生成交互的先验特征 $F_g$ 。

上面可视化的图中,(g) 展示了第一个 PFI 的可视化特征。可以观察到,PFI 可以有效地进行结构与细节特征。

损失函数

使用最小化恢复结果 $O$ ,中间结果 $H$ 与真实值 $G$ 之间的 L 1 损失与频率损失来构成损失函数。

$$
L_{\text{total}} = |O - G|_1 + \lambda |F(O) - F(G)|_1 + \alpha |H - G|_1 + \lambda |F(H) - F(G)|_1
$$

模型评估

在三个超高清图像修复任务上,与最先进的方法进行了定性和定量的比较,包括:(a) 低光增强,(b) 去雪,和 (c) 去雨。

UHD 低光照图像增强

在 UHD-LL上评估了 UHD 低光照图像增强的效果

以下是视觉对比

UHD 图像去雪

可视化:

UHD 图像去雨

UHDDIP 显著提升了当前的最先进方法

可视化:

UHDDIP 有效地去除了雨条纹

消融研究

表 a 表明了移除 PFI 会导致所有指标的性能显著下降,同时仅使用 SPFI 模块会降低网络的性能,而 DPFI 可以提升性能。结合使用时表现最佳。

以下是可视化:

表 b 表示了先验(法线与梯度)的影响。可以发现,法线有助于 SSIM(结构相似性指数)与 LPIPS(感知图像质量评估指标)的提升。结合使用时,SSIM 与 LPIPS 方面达到最佳性能。

以下是可视化:

B 与 g 为法线与梯度先验生成的不同的结构与细节。