随机细化：基于条件扩散模型的盲去模糊方法

195 浏览量更新于2023-10-25 收藏 16.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

31.631.832.032.232.432.632.833.033.20.0020.0040.0060.0080.0100.012deblurring models [14,35,40,59,63,65,66,74]. Typically,these CNNs are trained with simulated sharp-blurry imagepairs through supervised learning. Minimizing L1 or L2pixel loss is perhaps the most widely adopted approach fortraining such models. These losses provide a straightfor-ward learning objective and optimize for the popular PSNR162930通过随机细化进行去模糊0Jay Whang†* Mauricio Delbracio‡ Hossein Talebi‡ Chitwan Saharia‡0Alexandros G. Dimakis† Peyman Milanfar‡0† 德克萨斯大学奥斯汀分校 ‡ Google Research0摘要0图像去模糊是一个存在多个可能解的逆问题。然而，大多数现有方法产生干净图像的确定性估计，并且训练以最小化像素级失真。这些度量与人类感知的相关性较差，并且经常导致不现实的重建。我们提出了一种基于条件扩散模型的盲去模糊的替代框架。与现有技术不同，我们训练了一个随机采样器，用于细化确定性预测器的输出，并能够为给定的输入产生多样的合理重建。这在多个标准基准测试中显著提高了感知质量，超过了现有最先进方法。我们的预测和细化方法还使得与典型的扩散模型相比，采样更加高效。结合精心调整的网络架构和推理过程，我们的方法在PSNR等失真度量方面具有竞争力。这些结果清楚地显示了我们基于扩散的去模糊方法的明显优势，并挑战了产生单一确定性重建的广泛使用策略。01. 引言0图像去模糊是计算机视觉中一个长期存在的问题。各种条件，如移动物体、相机抖动或失焦镜头可能导致模糊伪影。单幅图像去模糊是一个高度不适定的逆问题，其中多个可能的清晰图像可能导致相同的模糊观察结果。然而，大多数现有方法产生单一的确定性干净图像估计。传统方法将去模糊形式化为变分优化问题，并找到满足某些图像和/或模糊核先验的解[9, 18, 28, 38,58]。随着深度学习的出现，卷积神经网络（CNN）已成为去模糊的事实标准。0* 本工作是在Google Research实习期间完成的。0失真（PSNR）0感知质量（CKID）0HINet0MIMO-UNet+ MIMO-UNet0SAPHNet0MPRNet0提出的方法0输入0MPRNet0HINet0我们0Ours-SA0参考0图1.顶部：当前最先进去模糊方法的感知-失真（P-D）权衡[5]（顶部）。我们的方法在P-D图中设定了一个新的帕累托边界，并允许我们使用单个模型穿越P-D曲线，无需重新训练或微调。底部：我们方法生成的样本与其他竞争方法进行比较。我们包括来自我们模型的两个极端 -一个优化了感知质量的（“Ours”），一个使用样本平均优化了失真的（“Ours-SA”）。这些对应于P-D曲线的两个端点。为了便于解释，我们使用了负的核启动距离[4]（C-KID为常数C）Regressor L1/L2 lossLikeli162940（峰值信噪比）度量。不幸的是，PSNR和其他失真度量只能部分对应于人类感知[5, 17,19]，实际上可能导致重建图像质量明显降低的算法。为了缓解这个问题，最近的研究引入了额外的损失项[17, 21, 34,44,45]，旨在在更可靠地代表人类感知的度量下改善生成图像的质量。将网络从损坏的图像到已知的真实值的有监督方式训练属于端到端方法的范畴[50]。这些方法在分布内表现非常好，但对分布变化或损坏过程的改变非常脆弱[25,50]。第二类工作主要集中在使用深度生成模型来解决逆问题[6]。对于去模糊，生成对抗网络（GANs）[22]已经成功应用于具有竞争性性能的去模糊[3, 34,35]。基于GAN的恢复方法通过对抗性损失训练去模糊网络，使恢复的图像更具感知合理性。然而，迄今为止提出的方法都是确定性的，而对抗性损失往往会引入原始清晰图像中不存在的伪影，导致大幅度的失真（例如，超分辨率的[42]）。在这项工作中，我们采用了一种不同的视角，将去模糊视为一种条件生成建模任务，我们在其中寻求从后验分布中生成多样样本。具体而言，我们引入了一种“预测和细化”条件扩散模型，其中一个确定性的数据自适应预测器与一个细化所述预测器输出的随机采样器联合训练（见图2）。我们的预测和细化方法相比标准扩散模型能够更高效地进行采样。这种表述也自然地导致了一个能够产生逼真图像而不牺牲像素级失真的随机模型。据我们所知，这是第一个利用深度生成模型的盲去模糊技术，能够产生多样的样本。总体而言，我们的方法产生了各种合理和逼真的结果，同时在多个标准数据集上在失真和感知质量方面实现了最先进的性能。此外，通过聚合不同数量的生成去模糊样本，我们的框架允许我们方便地遍历感知-失真曲线[5,19]，如图1所示，而无需进行任何昂贵的重新训练或微调。这些结果清楚地显示了基于扩散的随机方法在去模糊中的优势，并挑战了目前主导的生成确定性重建策略。02. 相关工作0图像去模糊的目标是从给定的损失函数中生成一个合理的未观察到的清晰、干净图像x的重建0初始0预测器()0去噪器0邻域0去噪器0网络()0随机0确定性0噪声0模糊输入0残差0初始0预测0样本0图2.描述我们的双网络架构的图示。初始预测器产生去噪器网络的确定性候选，然后对残差进行建模。0模糊输入y。去模糊技术在所追求的目标上有所不同。例如，可以尝试直接从后验分布p(x|y)中进行采样。另一个可行的选择是计算条件均值E[x|y]或最大后验估计arg max xp(x|y)。通过点估计进行去模糊。传统的去模糊方法将问题形式化为盲反卷积问题[9, 10, 16, 18, 28, 36, 38, 58, 72,76]。在这种设置下，模糊通常被建模为作用于清晰图像上的噪声线性算子。虽然不假设模糊算子的确切值已知，但可以对模糊和清晰图像施加一些先验分布，并尝试找到最可能的解决方案。另外，许多最近的方法采用端到端的方法，其中深度神经网络被训练以直接产生点估计[8, 11, 14, 20, 34, 35, 48, 52, 53,62, 64, 65,71]。这些方法通常依赖于模糊-清晰图像对作为训练数据，并将去模糊问题视为监督回归任务。大部分的工作都致力于开发专门的网络架构和损失函数，以实现更好的像素级重建度量，如PSNR或SSIM[68]。例如，MIMO-UNet[14]提出了一种架构，可以在多尺度U-Net[55]中促进不同图像分辨率之间的信息流动。另一项工作HINet[11]引入了Half InstanceNormalization[67]，它可以作为图像恢复网络的构建块。MPRNet[73]提出了一种改进的多阶段架构，旨在融合高级全局特征和局部细节。回归到均值的问题。虽然前面提到的方法在PSNR方面处于领先地位，但它们共享一个限制，即它们只能产生确定性输出。这与盲图像去模糊的本质相矛盾，盲图像去模糊是一个本质上不适定的反问题，对于单个输入可能有多个有效解。事实上，直接最小化失真损失的点估计的当前趋势存在“回归到均值”的问题。如果有多个可能对应于模糊输入的清晰图像，则最优重建根据给定的损失函数将是它们的平均值。因此，结果的确定性重建通常缺乏细节，最多只能学习产生所有可能解的平均值。多样化的图像恢复。避免回归到均值现象的一种方法是避免点估计，直接学习从后验分布中生成样本[30-32,49]。虽然基于对抗训练的技术已经在盲去模糊中得到了探索[34,35]，但一般来说它们并不被训练用于产生多个样本。此外，基于非参考的对抗损失可能会引入显著的幻觉和失真[15]。基于似然的深度生成模型，如变分自编码器[51]、归一化流[42,43]和扩散概率模型(DPMs)[39,56]，已成功应用于其他图像增强任务，如超分辨率，其中可以从学习到的后验中生成多样的候选集[51]。与点估计相比，通过从后验中进行采样来解决图像逆问题具有额外的好处，如不确定性量化[31, 32,70]、近似最优的样本复杂度[27]和更好的公平性保证[26]。LBase(θ) = E�ϵ − fθ(√¯αx0 +√1 − ¯αϵ, ¯α, y)�1 ,(5)162950根据给定的损失函数，结果的确定性重建将是它们的平均值。因此，结果的确定性重建通常缺乏细节，最多只能学习产生所有可能解的平均值。多样化的图像恢复。避免回归到均值现象的一种方法是避免点估计，直接学习从后验分布中生成样本[30-32,49]。虽然基于对抗训练的技术已经在盲去模糊中得到了探索[34,35]，但一般来说它们并不被训练用于产生多个样本。此外，基于非参考的对抗损失可能会引入显著的幻觉和失真[15]。基于似然的深度生成模型，如变分自编码器[51]、归一化流[42, 43]和扩散概率模型(DPMs)[39,56]，已成功应用于其他图像增强任务，如超分辨率，其中可以从学习到的后验中生成多样的候选集[51]。与点估计相比，通过从后验中进行采样来解决图像逆问题具有额外的好处，如不确定性量化[31, 32,70]、近似最优的样本复杂度[27]和更好的公平性保证[26]。03. 扩散概率模型0扩散概率模型[24, 60]是一个由T步马尔可夫链(x0, x1, ...,xT)构成的潜变量模型，称为扩散过程。它从一个干净的数据样本x0 ∈ Rd开始，根据过渡核q(xt |xt−1)重复注入高斯噪声，如下所示：0q(xt | xt−1) � N(xt; √αt xt−1, (1 − αt)Id), (1)0其中αt ∈ (0, 1)对于所有t = 1, ..., T。噪声计划α1:T � (α1, ...,αT)是一个控制每个步骤添加的噪声方差的超参数。潜变量x1:T与原始数据样本x0具有相同的维度。虽然这种特定的扩散过程选择可能看起来是任意的，但它导致了以下分布的闭合形式表达式：边际分布q(xt | x0)和反向扩散步骤q(xt−1 | xt,x0)。写成¯αt � Πtj=1 αj，我们得到0q(xt | x0) = N(xt; √αt x0, (1 − αt)Id) (2)0q(xt−1 | xt, x0) = N(xt−1; µt(xt, x0), βtId), (3)0其中µt(xt,x0)和βt是依赖于xt、x0和α1:T的量。它们的完整表达式和推导在补充材料中包含。方程（2）中的边际分布允许我们在任意时间步骤上采样一个部分嘈杂的图像xt，以及0为了简洁起见，我们使用术语“边际”来包括对x0进行条件的分布。0方程（3）中的反向扩散步骤是一个随机去噪过程，告诉我们如何通过从xt中采样一个稍微不那么嘈杂的图像xt−1来反转单个扩散步骤。能够从任意边际分布中进行采样对于使DPM的训练变得实用非常重要，因为训练目标依赖于此（参见方程（5））。我们注意到，这里定义的扩散过程没有可学习的参数。它是一个固定的过程，逐渐破坏原始信号x0，并产生在足够大的T下看起来与纯高斯噪声无法区分的xT。因此，如果我们可以从纯高斯噪声开始应用T次反向扩散步骤，我们将得到一个干净的样本x0。然而，这是不可能的，因为反向扩散步骤本身需要访问x0，而这正是我们试图生成的东西。反向过程和去噪网络。DPM的一个关键组成部分是去噪网络fθ，它试图从部分嘈杂的图像xt中估计x0。有了它，我们可以通过使用估计值fθ(xt,t)代替x0来应用反向扩散步骤，而不需要知道x0：0pθ(xt−1 | xt) � q(xt−1 | xt, fθ(xt, t)) (4)0这定义了一个从 xT 反向运行到 x0的马尔可夫链，我们称之为反向过程。DPM的目标是训练fθ 使得 pθ(xt−1 | xt) 尽可能接近真实的反向扩散步骤q(xt−1 | xt, x0)。通过优化 fθ 来最大化边际似然的变分下界log pθ(x)。在实践中，我们使用了由[24]提出的 fθ的替代参数化方法，该方法预测了确定性地将 xt 和 x0关联起来的高斯噪声ϵ，具体地，我们将 xt = √αt x0 + (1 −αt)ϵ，其中 ϵ � N(0, Id)，并训练 fθ 来预测ϵ。连续噪声水平。Chen等人[12]提出了基于连续噪声水平α的修改公式，我们也采用了这个方法。这个公式的一个重要特性是它允许我们使用与训练过程中不同的噪声计划α1:T来从模型中进行采样。这种灵活性使我们能够在不重新训练模型的情况下控制生成样本的失真和感知质量之间的权衡，后面我们将展示这一点。条件DPM。到目前为止，我们定义了一个训练用于建模无条件数据分布的DPM。对于必须估计p(x | y)的条件模型，我们使fθ接受y作为条件输入，就像[13,56]中所做的那样。这样，迭代去噪过程就依赖于y。最终的训练目标是：0其中期望是关于y，x0，¯α和ϵ的。从DPM中采样。如前所述，从DPM中采样是通过运行逆过程来完成的。E��ϵ − fθ�√�+√1 − ¯αϵ, ¯α, y��1(6)4:ϵt(0, Id)162960图3.初始预测器的输出和由其生成的多个样本。我们可以看到，过度平滑的初始预测缺乏纹理，而随机采样器通过“修正”产生了清晰且多样化的最终重建。残差（右上角）显示了参考图像和初始预测之间的差异。0给定一些推理时间的噪声计划¯α1:T，我们从纯高斯噪声x T �N ( 0 , I d)开始，反复应用定义在公式（4）中的逆过程转换p θ ( x t− 1 | x t)。请注意，此过程需要对去噪网络进行T次调用。在此采样过程结束时，我们得到一个单独的样本x 0。04. 预测和细化扩散模型0DPM的主要缺点之一是生成样本的计算成本很高，可能需要对去噪网络进行数千次前向传递，因为需要进行迭代去噪过程。因此，许多最近的工作探索了减少采样步骤数量的替代采样策略[29, 33, 37, 57, 61,69]。我们引入了一种简单的技术，通过利用通常可以获得条件生成模型的廉价初始猜测来减少这种成本。具体而言，我们在条件扩散模型中增加了一个确定性的初始预测器（图2），它为干净图像提供了一个数据自适应的候选。然后，去噪网络只需要对残差进行建模。设gθ表示初始预测器，则新的目标变为：L Ours ( θ ) =0¯ α � x 0 − g θ ( x 0 ) � �� 残差0我们在算法1中提供了修改后的采样过程的伪代码。请注意，初始预测器gθ不需要额外的损失或预训练，因为损失的梯度通过fθ流向gθ。由于初始预测器只运行一次，通过将大部分计算转移到初始预测器上，保持去噪网络较小是有益的。这将大大减少计算成本。0算法1 预测和细化扩散采样。µ t，¯α t，βt的表达式可以在第3节中找到。0要求：f θ：去噪网络，gθ：初始预测器，y：模糊输入图像，α1:T：噪声计划。01: x init ← g θ ( y ) � 初始预测02: z T � N ( 0 , I d ) � 运行扩散采样05: z t − 1 ← µ t ( z t , f θ ( z t , ¯ α t , y )) + β t ϵ t �06: end for 7: return x init + z 0 � 返回最终恢复结果0更高效的采样，因为减少去噪网络的计算成本会被使用的采样步骤数量放大。我们在第6节中进一步探讨了这种效果。04.1. 感知-失真权衡0如第3节所述，将扩散模型的条件设置为连续噪声水平，可以在推理过程中使用不同的噪声计划。我们观察到使用小噪声水平的多个步骤通常会导致更好的感知质量，而使用大噪声水平的较少步骤会导致较低的失真。对于我们的实验，我们在噪声计划超参数上运行了一个小的网格搜索，并使用具有最佳LPIPS分数的模型（标记为“Ours”）。我们强调，这种推理时间的超参数调整是廉价的，因为它不涉及重新训练或微调模型本身。样本平均。我们的框架还提供了一种基于几何自集成的原则性替代方法[41]。由于我们的随机采样器被训练用于学习目标后验p(x|y)，我们可以对我们模型的多个样本进行平均，以近似条件均值E[x|y]，即最小均方误差估计器。因此，我们报告了第二个模型（标记为“Ours-SA”）的结果，该模型返回多个样本的平均值。遍历感知-失真曲线。通过适当设置上述推理时间超参数（采样步骤T，噪声计划¯α1:T和样本平均），我们可以平滑地遍历P-D曲线，如图1所示。例如，LPIPS优化模型（“Ours”）使用相对较大的步数T =500，不进行样本平均，以在稍微牺牲PSNR的情况下实现较高的感知质量。失真优化模型（“Ours-SA”）则相反，使用T =10进行样本平均，以牺牲感知质量换取更高的PSNR。因此，图1中P-D曲线上的每个点对应于这些超参数的特定选择。LPIPS↓ NIQE↓ FID↓ KID↓ PSNR↑ SSIM↑Ground Truth0.03.210.00.0∞1.000HINet [11]0.0884.0117.918.1532.770.960MPRNet [73]0.0894.0920.189.1032.660.959MIMO-UNet+ [14] 0.0914.0318.058.1732.450.957SAPHNet [63]0.1013.9919.068.4831.890.953SimpleNet [40]0.10831.520.950DeblurGANv2 [35] 0.1173.6813.404.4129.080.9181629704.2. 分辨率不可知架构0与通常用于评估DPM的图像基准不同，盲去模糊基准包含具有各种大小的图像。为了支持任意输入形状，我们对初始预测器和去噪网络都使用了全卷积架构。我们的架构基于SR3 [56 ]，它使用了来自 [ 24 ]的U-Net架构的变体，并用BigGAN [ 7]的残差块替换。为了使我们的模型对图像分辨率不可知，我们去除了自注意力、位置编码和分组归一化。我们架构的详细规格可以在补充材料中找到。我们注意到，据我们所知，这是第一次将条件扩散模型用于支持任意图像大小。我们的初步实验表明，全卷积架构在非本机分辨率下去模糊的样本质量几乎没有降低。由于去噪网络是一个相对简单的U-Net，DPMs是一种特别方便的选择，用于在任何输入大小上工作的条件图像生成。05. 实验05.1. 数据集0我们在两个广泛使用的图像去模糊数据集上训练和评估我们的模型。为了公平比较，我们遵循[ 11 , 14 , 35 , 48 , 63 ,74]使用的相同设置，并仅使用提供的训练数据来训练我们的模型。GoPro . GoPro数据集[ 48 ]包含3214对干净和模糊的1280 × 720图像，其中1111个用于评估。这些图像是通过以高快门速度录制视频剪辑，然后对连续帧进行平均来模拟由慢快门速度引起的模糊。HIDE . 我们还在HIDE [ 59]数据集上评估了我们在GoPro数据集上训练的模型，该数据集包含2025个大小为 1280 × 720的图像。通过在不同的数据集上训练和评估我们的模型，我们可以测试其在分布转移下的泛化能力。05.2. 模型训练0我们通过最小化公式（6）中的损失来联合训练初始预测器和去噪网络。由于我们的模型是完全卷积的，我们在训练过程中使用随机的 128 × 128裁剪，但在评估时对全尺寸图像应用模型。我们还进行训练时的数据增强，包括随机的水平/垂直翻转和 90 ◦ / 180 ◦ /270 ◦旋转。关于训练数据的说明。目前大多数领先的方法只报告基于失真的度量（PSNR和SSIM），并提供针对GoPro的预训练模型。由于我们的工作侧重于感知质量，我们需要使用其他方法的输出来计算感知度量。因此，为了确保公平比较，我们只能使用在GoPro数据集上训练的模型，因为它是唯一一个具有0广泛可用的预训练模型。尽管如此，我们在补充材料中提供了其他方法输出的附加结果和详细信息。0表1. GoPro [ 48]数据集上的图像去模糊结果。我们提出的方法在感知-失真权衡方面设定了新的帕累托前沿。每个度量的最佳值和次佳值用颜色编码。为了易读性，KID值缩放了1000倍。0感知失真0我们的方法 0.059 3.39 4.04 0.98 31.66 0.948 我们的方法-SA0.078 4.07 17.46 8.03 33.23 0.96305.3. 评估0评估指标。我们在四个不同的感知度量上评估我们的方法：LPIPS [75]、NIQE [47]、FID（Fréchet InceptionDistance）[23]和KID（Kernel InceptionDistance）[4]。由于我们的数据集没有足够的样本来可靠地计算FID和KID，我们从每个1280×720图像中提取了15个大小为256×240的非重叠补丁，并在补丁级别上计算基于Inception的度量，类似于[46]。为了完整起见，我们还包括了两个基于失真的度量：PSNR和SSIM[68]。我们注意到包括全参考度量对于条件图像生成非常重要。一个方法可以通过生成与输入完全无关的高度逼真的图像来在无参考度量（如NIQE）上达到接近完美的分数。这对于基于GAN的方法尤其重要，因为鉴别器可能不会惩罚生成器产生与输入不匹配的自然图像。这就是为什么我们包括了LPIPS（在某种程度上还有PSNR和SSIM），尽管它在技术上不是一种感知度量。为了进行定性比较，我们还进行了人类研究并提供了样本恢复图像。05.4. 定量结果05.4.1 GoPro结果0表1显示了在GoPro数据集上的定量结果。我们将我们的模型与当前最先进的方法HINet [11]、MPRNet[73]和DeblurGAN-v2 [35]进行了比较。162980输入0HINet0我们的方法0MPRNet0参考0图4.来自GoPro和HIDE数据集的样本去模糊图像。由于我们的方法没有训练来最小化基于失真的损失（例如L2），它避免了产生模糊输出，并实现了对细节纹理的更好重建。附录材料中提供了全尺寸图像。最好在电子设备上查看。0我们的模型在所有感知度量上实现了最先进的性能，同时保持与现有方法竞争的PSNR和SSIM。值得注意的是，我们的FID为4.04，与当前感知质量最先进的方法DeblurGAN-v2[35]相比，减少了近70%。此外，我们的方法的样本平均变体在仍然实现新的SOTA PSNR 33.23的同时0在LPIPS方面，我们的方法优于所有其他方法。总的来说，这些结果突出了我们的框架在感知和失真之间使用单一模型控制权衡的灵活性。如图1所示，我们的结果在感知-失真图上设定了新的帕累托前沿。11162990表2. 在HIDE [59]数据集上的图像去模糊结果，使用在GoPro[48]上训练的模型。我们的方法在所有感知度量上明显优于基准方法，同时保持竞争性的PSNR和SSIM。每个度量的最佳值和次佳值都用颜色编码。0感知失真0LPIPS ↓ NIQE ↓ FID ↓ KID ↓ PSNR ↑ SSIM ↑0真实图像 0.0 2.72 0.0 0.0 ∞ 1.0000HINet [11] 0.120 3.20 15.17 7.33 30.33 0.9320MIMO-UNet+ [14] 0.124 3.24 16.01 7.91 29.99 0.930MPRNet [73] 0.114 3.46 16.58 8.35 30.96 0.9390SAPHNet [63] 0.128 3.21 16.77 8.39 29.99 0.930DeblurGAN-v2 [35] 0.159 2.96 15.51 6.97 27.51 0.8850我们的方法 0.089 2.69 5.43 1.61 29.77 0.922 我们的方法-SA0.092 2.93 6.37 2.40 30.07 0.92805.4.2 HIDE结果0我们还在HIDE数据集[59]上评估了我们训练的GoPro模型，以测试其对于超出分布输入的泛化能力。如表2中的结果清楚地显示，感知质量的提升确实转化到了HIDE数据集上。特别是，我们的两个模型在所有感知度量上明显优于基准方法，同时保持竞争性的失真值。图4包括了来自GoPro和HIDE数据集的几个样本重建图像。尽管有时会包含一些更多的噪声（其中一些可能是从训练数据中学到的），但我们可以看到我们的模型在感知质量上有明显的改进。附录材料中提供了更多的全尺寸比较图像。05.5. 定性评估的人类研究0我们进行了一项感知研究，以进一步量化所提出的去模糊框架的性能。我们的结果在表3中呈现。我们使用亚马逊的MechanicalTurk获得了在GoPro数据集上应用不同去模糊方法的成对评级。在这项研究中，人类受试者的最低批准率为70％，并被要求从大小为512×512的并排裁剪中选择质量更好的图像。表3中的结果显示了从480个比较中计算得出的平均评分者偏好（20个评分者和24个唯一图像对）。正如突出显示的单元格所示，这些结果表明，我们的两种去模糊模型变体都优于竞争方法。我们还观察到，在相对平坦的内容裁剪中，评分者对样本平均变体显示出适度的偏好。另一方面，评分者更喜欢高纹理裁剪的单个样本。图5显示了我们的模型产生的细节水平适应输入中的模糊程度。如预期的那样，模糊图像通常会导致生成样本的方差增加。0表3.GoPro数据集[48]上去模糊结果的平均成对人类偏好。每个值表示亚马逊MechanicalTurk评分者选择行而不是列的百分比。每个偏好百分比是480个评级（20个评分者和24个唯一图像对）的平均值。0HINet MPRNet 我们我们-SA 参考0HINet [11] - 54.9 29.1 31.0 14.5 MPRNet [73] 45.1 -26.6 25.3 11.9 我们 70.9 73.4 - 58.8 37.1 我们-SA69.0 74.7 41.2 - 26.70参考 85.5 88.1 62.9 73.3 -0输入样本1 样本2 每像素0样本标准差0图像1图像20图5.两个不同图像的去模糊样本裁剪。恢复任务的不适定性（即模糊的强度）直接影响生成样本的多样性。这通过使用每个输入图像的多个恢复计算的每像素标准差来说明。如右侧最右列所示，模糊输入（第一行）对应于整体较高的每像素标准差。06. 讨论与分析0为了分析我们模型的各个方面，我们使用了一个自定义数据集，该数据集是通过在DIV2K数据集[1]的图像上应用合成相机抖动模糊和噪声（在补充材料中描述）创建的。这样做是为了在更受控制的环境中进行定性评估，因为现有配对数据集[48, 54]中的低质量真实图像使得定性评估变得困难。06.1. 残差建模的优势0更高效的采样。残差建模的主要优势是降低采样的计算成本。由于扩散采样的迭代性质，去噪网络必须对每个生成的样本运行多次 -有时需要进行数百到数千次的迭代。因此，减少运行去噪网络的成本对于我们来说尤为重要，而我们的初始预测器提供了一种简单的方法来卸载部分计算。一个关键问题是初始预测器是否能够弥补使用较小的去噪网络导致的样本质量下降。我们通过比较使用和不使用初始预测器时的采样延迟与样本质量来进行实证研究。在图6中，非残差7.007.258.508.750500010000163000样本质量（1 / LPIPS）0延迟（秒）0非残差残差0图6.采样成本与样本质量的绘图。即使在初始预测器添加了参数的情况下，残差模型在保持更高样本质量的同时实现了更低的延迟。0模型指的是具有大型去噪网络的常规条件扩散模型。残差模型遵循我们的架构，具有大型初始预测器和小型去噪器。总体而言，残差模型具有更多的参数（33M vs.28M）。我们发现，尽管残差模型比非残差模型更大，但它需要更少的时间来采样图像。重要的是，这种采样成本的降低并不会对样本质量产生负面影响-事实上，残差模型的采样速度比可比较的样本质量快7倍。初始预测器的输出。我们的实验中一个意外的发现是，初始预测器的输出通常是参考图像的一个相当合理的重建。我们可以在图3中看到这一点。虽然细节不足，但初始预测肯定比输入模糊。令人惊讶的是，即使没有对初始预测器的输出gθ(y)进行明确的损失匹配，这种情况仍然发生。我们还注意到，我们的方法不是具有明确的迭代部分（去噪网络）与单次传递部分（初始预测器）解耦的扩散模型的唯一可能参数化。例如，我们可以简单地将gθ(y)作为辅助输入馈送给去噪器fθ而不计算残差。我们将这些关于初始预测器的调查作为未来的工作。残差图像更容易建模。人们可能会想知道为什么添加一个确定性的初始预测器会有助于模型的性能。我们认为残差建模的好处可能是由于残差图像的分布比参考图像的分布更“简单”。虽然近似两个分布的真实熵是不切实际的，但我们可以查看可能作为代理的相关数量。具体而言，我们计算了所有像素位置上聚合的像素值的熵，用于残差和参考图像。如自然图像所预期的那样，参考像素分布相对分散，并且具有每维7.42比特的熵。另一方面，残差像素值遵循一个更为尖锐集中的分布，导致较低的每维3.91比特的熵。这表明残差图像可能确实更容易建模。06.2. 网络架构消融0为了更好地理解我们的方法的性能提升来自哪里，我们训练了一个仅使用初始预测器的基于回归的基准模型。令人惊讶的是，我们观察到仅使用初始预测器时，通过简单的L2损失训练，能够达到33.07的最先进PSNR。通过详细的消融研究，我们确定了三个关键超参数：权重的指数移动平均（EMA），大批量大小和网络大小。在表4中，我们从一个简单的U-Net架构[55]开始，逐步启用上述每个超参数。为了确保差异不是由于训练不足造成的，所有模型都进行了100万步的训练。结果显示，这三个超参数对模型的性能至关重要。0表4.对我们的U-Net架构在GoPro数据集上进行各种超参数影响的消融研究。0超参数指标0ch. 批次 EMA LPIPS PSNR MParam. BFLOPs0更多通道016 32 否 0.137 29.93 1.63 301 32 32 否 0.11331.05 6.52 1200 64 32 否 0.103 31.63 26.0747900+更大批次064 64 否 0.099 31.85 26.07 4790 64 128 否0.087 32.56 26.07 4790 64 256 否 0.086 32.6126.07 47900+ 使用EMA 64 256 是 0.0809 33.07 26.07 479007. 结论和未来方向0我们提出了一种新的随机盲图像去模糊框架，重点关注感知质量，使用条件扩散模型。我们引入了一种减少扩散采样计算负担的新技术。我们通过实验证明，与当前最先进的方法相比，我们的方法在感知质量和竞争失真度量方面取得了显著改进。我们相信我们的工作为关注感知质量的盲去模糊开辟了新的方向，并为未来的工作建立了一个强有力的基准。有许多途径可以进一步解决我们工作的局限性。由于采样缓慢和网络规模大，扩散模型在消费级设备中的计算成本太高。解决这个问题的一种方法是使用更高效的采样方案，如DDIM[61]或蒸馏[2]。另一个有前途的方向是用针对失真和运行时间进行优化的U-Net架构替换我们的初始预测器和去噪网络[11, 14, 73]。163010参考文献0[1] Eirikur Agustsson and Radu Timofte. Ntire2017单幅图像超分辨率挑战：数据集和研究.在IEEE计算机视觉和模式识别会议(CVPR)工作坊上，2017年7月。70[2] 匿名. 用于快速扩散模型采样的渐进蒸馏.提交给第十届国际学习表示会议，2022年。正在审查中。80[3] Muhammad Asim, Fahad Shamshad, and Ali Ahmed.使用深度生成先验的盲图像反卷积.IEEE计算成像交易，6:1493-1506，2020年。20[4] Mikołaj Bi´nkowski, Danica J Sutherland, Michael Arbel,and Arthur Gretton. 解密MMD GANs.在学习表示国际会议上，2018年。1, 50[5] Yochai Blau and Tomer Michaeli. 感知-失真权衡.在IEEE计算机视觉和模式识别会议上，第6228-6237页，2018年。1, 20[6] Ashish Bora, Ajil Jalal, Eric Price, and Alexandros GDimakis. 使用生成模型的压缩感知.在机器学习国际会议(ICML)上，第537-546页。PMLR，2017年。20[7] Andrew Brock, Jeff Donahue, and Karen Simonyan.大规模GAN训练用于高保真度自然图像合成.在学习表示国际会议上，2018年。50[8] Ayan Chakrabarti. 盲运动去模糊的神经方法.在欧洲计算机视觉会议上，第221-235页。Springer，2016年。20[9] Tony F Chan and Chiu-Kwong Wong. 全变差盲反卷积.IEEE图像处理交易，7(3):370-375，1998年。1, 20[10] Liang Chen, Faming Fang, Tingting Wang, and GuixuZhang. 具有局部最大梯度先验的盲图像去模糊.在IEEE计算机视觉和模式识别会议上，第1742-1750页，2019年。20[11] Liangyu Chen, Xin Lu, Jie Zhang, Xiaojie Chu, andChengpeng Chen. Hinet: 用于图像恢复的半实例归一化网络.在IEEE/CVF计算机视觉和模式识别会议(CVPR)工作坊上，第182-192页，2021年6月。2, 5, 7, 80[12] Nanxin Chen, Yu Zhang, Heiga Zen, Ron J Weiss,Mohammad Norouzi, and William Chan. Wavegrad:用于波形生成的梯度估计. 在学习表示国际会议上，2020年。30[13] Nanxin Chen, Yu Zhang, Heiga Zen, Ron J Weiss,Mohammad Norouzi, Najim Dehak, and William Chan.Wavegrad 2: 用于文本到语音合成的迭代改进.arXiv预印本arXiv:2106.09660，2021年。30[14] Sung-Jin Cho, Seo-Won Ji, Jun-Pyo Hong, Seung-WonJung, and Sung-Jea Ko. 重新思考单幅图像去模糊的粗到细方法.在IEEE/CVF国际计算机视觉会议(ICCV)上，第4641-4650页，2021年10月。1, 2, 5, 7, 80[15] Joseph Paul Cohen, Margaux Luck, and Sina Honari.分布匹配损失可以在医学图像中产生特征幻觉0图像翻译.在国际医学图像计算和计算机辅助干预会议上，第529-536页。Springer，2018年。30[16] Mauricio Delbracio, Ignacio Garcia-Dorado, SungjoonChoi, Damien Kelly, and Peyman Milanfar. Polyblur:通过多项式重模糊去除轻微模糊.IEEE计算成像交易，7

下载后可阅读完整内容，剩余1页未读，立即下载