单幅图像散焦去模糊的逆核共享并行Atrous卷积方法

51 浏览量更新于2023-10-13 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2642单幅图像散焦去模糊使用核共享并行Atrous卷积Hyeongseok Son Junyong Lee Sunghyun Cho Seungyong Lee POSTECH{sonhs，junyonglee，s.cho，leesy} @ postech.ac.kr摘要提出了一种新的基于逆核的单幅图像散焦去模糊深度学习方法在散焦图像中，模糊形状在像素之间是相似的，尽管模糊大小可以在空间上变化。为了利用逆核的特性，我们利用以下观察结果：当仅散焦模糊的大小改变同时保持形状时，对应的逆核的形状保持相同并且仅尺度改变。基于观察，我们提出了一个内核共享的并行atrous卷积（KPAC）块专门设计的逆内核的属性为单图像散焦去模糊。为了有效地模拟具有不同尺度的逆核的不变形状，KPAC在多个粗糙卷积层之间共享相同的卷积权重为了有效地模拟逆内核的不同尺度，KPAC仅由具有不同膨胀的几个atrous卷积层组成，并学习每像素尺度注意力以聚合层的输出KPAC还利用形状注意力来组合每个atrous卷积层中的多个卷积滤波器的输出，以处理具有略微变化的形状的散焦模糊。我们证明，我们的方法实现了国家的最先进的性能，比以前的方法的参数少得多。1. 介绍当来自场景中的点的光线在相机传感器上形成模糊圈（COC）时，发生图像的散焦模糊相机的光圈形状和镜头设计在散焦图像中，模糊尺寸的空间方差较大，而模糊形状的空间方差相对较小。单幅图像散焦去模糊仍然是一个具有挑战性的问题，因为难以准确地估计和去除在尺寸和形状两者上空间变化的散焦模糊。传统的两步方法[2，23，5，18，4，11，14]通过为模糊形状（诸如圆盘[2，5]或高斯[23，18，11，14]）假定各向同性核来降低散焦去模糊的复杂性基于该假设，该方法首先估计包含散焦图像的每像素模糊大小的散焦图，然后使用散焦图对图像执行非盲解卷积[8，15，12]。然而，现实世界的散焦图像可能具有比圆盘或高斯更复杂的核形状，并且这种差异经常阻碍准确的散焦图估计和成功的散焦去模糊。最近，Abuolaim和Brown [1]提出了DPDNet，这是第一个端到端散焦去模糊网络，它可以学习直接去模糊散焦图像，而不依赖于限制性模糊模型。他们还展示了一个散焦去模糊数据集，其中包括从双像素传感器相机获得的立体图像。由于端到端学习和双像素数据集提供的强大监督，DPDNet在对真实世界散焦图像进行去模糊方面优于两步方法。尽管如此，去模糊结果往往包括振铃伪影或剩余模糊，因为DPDNet的常规编码器-解码器架构限制了其处理空间变化模糊的能力[34]。在本文中，我们提出了一种新的深度学习方法，用于单图像散焦去模糊的基础上逆核。已经示出，具有给定模糊核的图像的去卷积可以通过将图像与逆核进行卷积来执行[30]，其中逆核可以使用傅里叶变换从给定模糊核计算 Xu等人 [29]通过将伪逆核的性质引入到网络中来训练深度网络以学习统一反卷积。类似地，我们训练我们的网络以通过利用去焦去模糊所需的逆内核的特定特性来然而，由于散焦模糊的空间变化性质，散焦去模糊所需的逆核训练深度网络以学习变化的逆核的反卷积运算将是具有挑战性的，即使在散焦2643和清晰图像对。为了降低复杂性，我们使用散焦模糊的属性，即模糊形状在散焦图像中是相似的，尽管模糊大小可以急剧变化。然而，我们利用我们对逆核的观察，而不是像两步方法那样假设任何特定的模糊形状;当仅模糊的大小改变同时保持形状时，对应的逆核的形状保持相同，并且大小以与模糊相同的方式改变（第12节）。第3.1节）。然后，我们可以将我们的网络约束为模拟具有单个形状但具有不同大小的逆核，以覆盖空间变化的散焦模糊。然而，在实践中很难直接模拟所有可能大小的逆核。相反，我们将网络设计为携带几个卷积层以覆盖具有离散大小集的逆内核，并聚合层的输出以处理具有任意大小的模糊。因此，与传统的两步方法和最近的深度学习方法[1]相比，我们的方法可以通过利用逆核形式的散焦模糊的特性来更准确地执行散焦去模糊。为了实现网络设计，我们提出了一种新的内核共享并行atrous卷积（KPAC）块。KPAC块由具有不同膨胀率的多个atrous卷积层[9，3]和用于尺度和形状注意的附加层组成。多个无环卷积层共享表示逆核的不变形状的相同卷积核，并且层的不同膨胀率对应于具有离散大小集的逆为了使用其他大小的逆内核来模拟反卷积，KPAC块配备了一个空间注意力机制[28]，我们称之为尺度注意力，以聚合atrous卷积层的输出通过将每像素尺度注意力与多个卷积层相结合，KPAC块可以处理散焦模糊的空间变化大小。此外，由于相机图像流水线的非线性，散焦模糊的形状可能在散焦图像中略微改变。为了处理方差，我们在KPAC块中包括通道注意机制[33]，我们称之为形状注意，以支持逆内核的轻微形状变化。我们的KPAC块的一个重要优点是它的参数数量少，这是通过多个atrous卷积层的内核共享实现的。因此，我们的去焦去模糊网络比传统的工作[1]权重更轻，表现出更好的性能（Sec. 5.2）。总之，我们的贡献包括：• 基于逆核的单幅图像散焦去模糊深度学习新方法• 新颖的核共享并行Atrous卷积（KPAC）块基于空间变化的逆核的性质而设计，用于散焦去模糊，• 轻量级的单幅图像散焦去模糊网络，表现出最先进的性能。2. 相关工作2.1. 散焦去模糊常规方法[2，23，5，18，4，11，14]在散焦图估计和非盲去卷积的两个步骤中执行散焦去模糊。由于他们使用现有的非盲去卷积方法[15，12]进行去模糊，因此他们专注于基于参数模糊模型（如圆盘和高斯模糊）提高散焦图估计的准确性。提出了使用手工制作的特征进行散焦图估计的各种方法，例如边缘梯度[11]，稀疏编码特征[23]，机器学习特征[5]，手工制作和深度学习特征的组合[18]以及端到端深度学习模型[14]。由于受限的模糊模型以及散焦图估计的误差，这些两步方法通常不能产生忠实的最近，Abuolaim和Brown [1]提出了第一个基于深度学习的散焦去模糊的端到端模型和一个用于监督训练的数据集。该模型优于传统的两步方法，并且示出了双像素图像输入显著地改善了散焦去模糊性能。然而，他们的网络结构并没有明确考虑散焦模糊的空间变化的性质与大的变化的大小，但小的变化的形状，和性能有改进的空间2.2. 反向核逆核的卷积可以用于对图像执行去模糊[27，31，30]。然而，可以从维纳反卷积[27]中获得的朴素逆核通常会引入不需要的伪影，例如振铃和放大的噪声。为了抑制伪影，以前的作品采用了渐进的方法，使用图像金字塔[31]，使用稀疏先验[15，30]进行正则化，用于后处理的神经网络[25]和特征空间处理[6]。Xu等人。 [29]和Ren等人。 [20]直接使用CNN通过适应大逆内核的可分离属性来执行非盲去卷积，并表明他们的方法对于抑制伪影是有效的。与模拟用于均匀去卷积的单个逆内核的[29，20]不同，我们的方法模拟散焦去模糊所需的空间变化的逆内核。3. 关键思想在本节中，我们首先介绍了我们对反卷积的逆核的观察，并提出了基于逆核的反卷积来处理空间变化的散焦模糊2644··∈{···}↑KS23 .第三章。53 .第三章。04.第一章03 .第三章。5525252我 si2↑si2↑s2↑s（a）通过（b）通过（c）通过（d）通过（e）12k↑3。512（k↑↑3. 0） 12（k↑4. 0个）0.5*（b）+0.5*（c）12（k↑3. 第五章）（a）模糊1k↑5（b）通过（1k↑5）†（c）通过1（k†↑5）去模糊图1.使用Eq.（四）、维纳反卷积用于计算逆核。（b）和（c）中的结果几乎相等。它们对原始清晰图像的PSNR分别为21.64dB和21.59dB，它们之间的PSNR为51.09dB。（第二节）第3.1节）。然后，我们提出实验来验证观察和命题（第二节）。3.2）。3.1. 基于逆核的空间变化散焦模糊反卷积基于逆核的反卷积方法本质上与卷积神经网络（CNN）密切相关，因为它们基于卷积神经网络中的卷积运算。空间域我们的目标是设计一个网络架构图2.对来自不同逆核的去模糊结果进行线性组合。基于该观察，为了处理具有不同大小但具有相同形状的散焦模糊，我们可以使用共享单个形状但具有不同大小的逆核。然而，由于我们的目标是利用CNN进行散焦去模糊，因此实现携带所有可能大小的逆内核的网络是不实际的为了降低复杂度，我们可以通过将具有离散尺寸集的逆核应用于图像的结果组合来近似图像的去卷积。类似于使用不同去模糊图像的线性组合来处理非均匀模糊的经典方法[2]，散焦模糊的空间变化去卷积可以近似为x≈Σ{α·（1k†*y）}，（5）利用CNN和逆内核两者的优点来进行去焦去模糊。为此，我们首先介绍伪逆核的概念和一般推导，如在以前的作品[29，20]中。我们考虑用卷积运算 * 定义的简单模糊模型为其中k是模糊核，y和x分别是模糊图像空间卷积可以被变换为频域中的逐元素乘法，如F（y）=F（k）·F（x），（2）其中F（）表示离散傅里叶变换。然后，潜在清晰图像可以通过卷积运算导出为x=F−1（1/F（k））*y=k† *y，（3）其中，F−1（）表示离散傅立叶逆变换，k†是空间伪逆核。我们观察到，当模糊核k的空间支持大小改变时，对应的逆核k t的形状保持相同，即、（1k）t=l（kt），⑷S s其中s表示在空间域中具有比例因子s的一般上采样操作由方程式（四）、其中，是上采样因子，并且αi是针对使用下式获得的结果图像的每像素权重图：具有上采样因子si的逆核。3.2. 关键思想在本节中，我们实验性地验证了用于散焦去模糊的逆核的所观察到的性质（等式10）。（4））和基于该性质的空间变化反卷积的方法（Eq.（5））。在验证中，我们使用Wiener反卷积[27]来计算空间逆核，并使用Lanczos上采样[7]来缩放逆核。我们使用维纳逆核，因为它具有类似于CNN的有限感受野的有限空间支持，这是由于信噪比（SNR）的参与作为正则化[29]。关于Eq。（4），Fig.图1示出了等式2的两侧上的两个核的示例（4）产生等效的去模糊结果。我们还包括Eq的证明。（4）在柔性材料中。关于Eq。图2示出了从具有离散尺寸集的逆核得到的图像的线性组合可以近似图图2b和图2c是通过卷积不同大小的逆核虽然这两个内核都不适合实际的模糊大小，但我们仍然可以获得视觉上不错的结果（图1）。2 d），近似精度为1/87。4%，通过简单地应用Eq.（5）α i= 0。五、当用非负最小二乘法优化α时，精度1S2 ↑s 是具有上采样分辨率的内核k′，其中1精度 y由1−MAE（1，x/x）计算，其中MAE为1用于归一化内核权重。然后，k’的逆核是具有相同比例因子s的上采样版本。S平均绝对误差f是逐像素除法，xs是使用目标尺度的逆核的反卷积结果（例如，G. ，Fig. 是使用等式2e）计算的近似解卷积结果（5）（例如，Fig.2d）。我2645--∈∈↑¨sk×csk×c×i2i¨k×ck×c×--∈¨(a) 通过k†（b）1（k†↑5）（c）k†↑/552↑/5图3.内核共享并行Atrous卷积（KPAC）块的体系结构GP和FC分别表示全局平均池化和全连接层。进一步增加到92。百分之五这些实验证实了扩展Eqs的有效性。将（4）和（5）中的每个错误映射到CNN架构，其中剩余的错误可以通过深度学习过程来补偿（第2节）。4）. 有关更多示例，请参阅图4.所有设置与图中相同1.一、（a）使用扩张的逆核的去模糊(a)几乎与图中的（b）和（c）相同。1之间的PSNR，以及（a）和图1之间的PSNR。1（c）为53.74dB。(b) &(c)缩放和扩张的逆核的形状相同逆核形状的约束然而，在实践中，由于Ksi的大小不同，权重共享并不直接。我们用一个简单但有效的方法解决了这个问题基于另一个重要的观察;对于空间平滑的模糊区域，对稀疏采样像素（具有扩张的核）和对密集采样像素（具有重新缩放的核）的滤波操作产生相似的结果。因此，针对1（k）的上采样操作可以是：4. 网络设计基于这一关键思想，我们设计了一个反映逆核性质的网络用于散焦去模糊。而不是直接采用方程中的线性组合（5）中，我们扩展了与卷积层组合的概念，该卷积层聚合多个逆核的结果s2↑s由方程式（4）可以用扩张运算代替，产生-将应用于稀疏采样的像素的逆核进行采样。膨胀操作不会更改过滤器权重的数量，而只是缩放内核在不进行重采样的情况下，使得能够针对卷积核{Ksi}进行直接权重共享。图图4示出了1（kt）和kt产生的示例。充分利用深度学习的非线性本质。s2↑s↑/s令h1Rh×w×c和h2Rh×w×c是对应于等式（1）中的图像y和x的输入和输出特征图（3）分别。我们修改Eq.（5）使用多个卷积层将散焦去模糊表示为n几乎等同的去模糊结果，其中，膨胀运算我们还实验验证了一个修改后的版本的方程。（5）使用k↑/s产生的结果几乎等同于图2。二、关于扩张逆核的实验，请参考补充h2=Kf*{αii=1·（Ksi）（6）根据观察，我们的KPAC块包括具有不同膨胀率的多个atrous卷积层，它们平行放置（图1）。（3）第三章。atrous卷积核其中Ksi∈R2是卷积核K/si由相同数量的核权重组成表示具有上采样因子的逆核，而不管尺度如何，并且共享相同的核权重sat。NC锡岛Kf ∈ R3×3××c是在共享逆核形状约束下的非线性聚集。的[001 pdf 1st-31 files]{ K s }的输出的三倍比例。αi∈Rh×w×1是一个函数，我们把标准卷积代入等式（1）中。（6）一个操作在此基础上，提出了一种核共享的并行无环卷积（KPAC）块.4.1. 核共享并行Atrous卷积（KPAC）块其中Kh2=Kf*i∈Rn{αi·（K/si*h1）}，（7）i=12表示具有膨胀的核我们的KPAC块由多个内核共享的atrous卷积层组成，以及用于规模和形状注意的模块（图1）。（3）第三章。多核共享无环卷积卷积核Ksi应当表示相同形状但具有不同大小的逆核，如在等式（6）中观察到的。（四）、我们可以共享{K si}的权重以强制执行在内核共享atrous卷积层中的速率si。我们的KPAC块通过聚合来自多个尺度的atrous卷积层的结果特征映射来为了动态地确定用于聚合的逐像素权重，我们使用基于空间注意力机制的尺度注意力αiRh×w×1[28]。由于散焦去模糊的尺度是由大气卷积的组合确定的�� 1��，11/1××2/2××尺度注意模块ℎ13××Cℎ24× ×GP FC FC形状注意模块5/5××c级联×元素乘法共享的∈1×1×��2/41/3尺度si的像素权重图，以及表示串联空气卷积层，获得26462×CCC+KPAC #1KPAC #2c0级1级2级编码器964848 3解码器图5.整体网络架构。有关我们网络的详细架构，请参阅补充资料在每个卷积层中，不同比例的注意力图应该应用于每个atrous卷积层的所得特征图虽然我们已经假设逆核共享相同的形状，但是由于相机成像流水线中的非线性，散焦模糊的形状以及逆核的对应形状可以在散焦图像中改变。由于卷积层由多个卷积滤波器组成，因此滤波器的不同组合可以表示不同的逆核。为了支持逆内核的形状变化，我们使用基于信道注意机制[ 33 ]的形状注意模块，该信道注意机制[33]确定所得到的特征图上的滤波器的组合权重作为大气卷积层应该共享逆核形状，它们共享来自训练为了训练散焦去模糊网络，我们使用网络输出和对应的地面真实清晰图像之间的平均绝对误差（MAE）我们还采用感知损失[10]来恢复更逼真的纹理。对于感知损失，我们使用在预训练的VGG-19网络中的“conv 4 4”层提取的特征图当使用感知损失时，其与MAE损失组合，其中对于感知损失，平衡因子为7 × 10−4。5. 实验我们使用Tensor-flow 1.10.0和NVIDIA Titan Xp GPU实现并评估了我们的模型我们的最终模型有两个KPAC块，内核大小k=5，卷积层的数量n=5，正如我们所经验的那样。形状注意模块。4.2.散焦去模糊网络为了在特征空间中进行有效的多尺度处理，我们采用编码器-解码器结构[21]用于我们的散焦去模糊网络（图12）。（五）。该网络由三部分组成：编码器、KPAC块和解码器。除了最终卷积之外，所有卷积层都包括用于非线性激活层的LeakyReLU [16由于我们的KPAC块是在线性空间中定义的逆核上设计的，因此自然会产生一个问题，即KPAC块在非线性特征空间中运行是否合适。我们发现KPAC块仍然适用于非线性特征，因为CNN是局部线性的[17，13]。在最近的工作[6]中还表明，由于CNN的特征空间的分段线性，作为一种逆滤波器的维纳反卷积可以成功地扩展到特征空间。所提出的KPAC块可能不与用于去模糊的常规的基于逆核的方法完全相同地操作，因为它不明确地采用逆核。然而，该架构仍然受到具有共享内核的atrous卷积层和所得到的特征的非线性聚集的约束，这些特征是根据逆内核的性质设计的因此，KPAC块将学习对于散焦去模糊更鲁棒和有效的恢复内核此外，虽然单个KPAC块被设计为对整个去模糊过程进行建模，但我们可以堆叠多个KPAC块以利用迭代性质来去除残留模糊。凯莉发现它在大多数情况下都能很好地工作我们使用负斜率系数λ = 0。2用于LeakyReLU层。我们使用Adam优化器[19]，其中β1=0。9和β2=0。99训练我们的模型。我们以1 10- 4的固定学习率训练我们的模型进行20万次迭代。我们测试了一个训练了更多迭代的模型，学习率下降，但其PSNR的改善是微不足道的。对于第二节中的评估5.2，我们用感知损失训练模型[10]。对于这些模型，我们使用预先训练的模型初始化它们，这些模型使用200k迭代的MAE损失进行训练。然后，我们用MAE和感知损失对网络进行微调，以进行额外的100k次迭代。固定学习率为5×10- 5。我们使用4的批量大小一批中的每张图像随机裁剪为512×512。数据集我们使用DPDD数据集[1]评估我们的模特该数据集提供由Canon EOS 5D Mark IV捕获的真实世界散焦图像和对应的全聚焦地面实况图像的500个图像对该数据集包括训练集、验证集和测试集，分别包含350、74和76对图像。在我们的实验中，我们分别使用训练集和测试集来训练和评估我们的模型虽然数据集还提供了双像素数据，但我们在实验中不使用它们。数据集提供PNG格式的16位图像。我们将它们转换为8位图像用于我们的实验。5.1. 分析我们的KPAC块学习空间变化的逆内核，其形状保持不变。2647×××(a) 模糊输入（b）膨胀率= 1（c）膨胀率= 3（d）膨胀率= 5（e）我们的结果图6.在我们的2块网络的第一个块中，不同atrous卷积层的尺度注意力图的可视化(a) 输入（b）基线（c）无注意（d）w/刻度（e）w/刻度形状（f）GT图7.消融研究的定性示例基线表示使用传统残差卷积块而没有我们的KPAC块的网络模型‘scale’ and ‘shape’ denote scale attentionand shape attention,PSNR（dB）参数（M）KPAC组件基线PSNR（dB）参数（M）w/o重量共享24.782.50ACS规模形状w/重量共享25.211.58✓24.592.26表1.重量分享的效果权重共享改善了去模糊质量，同时减少参数的数量。相同，但大小不同。为了有效地学习这种反向内核，我们的网络在多个atrous卷积层上共享卷积权重。在这个实验中，我们通过比较有和没有权重共享的模型的性能，验证了atrous卷积层这两种模型都有两个KPAC块5- 5内核。表1示出了每个模型的去模糊质量和参数的数量如表中所示，我们的具有权重共享的模型不仅减少了学习参数的数量，而且还提高了去模糊质量，因为其权重共享结构适当地约束和引导了学习过程。我们的KPAC块中的atrous卷积层模拟不同大小的逆内核，以有效地处理散焦模糊的空间变化特性。为了分析它们是如何被激活的散焦模糊与不同的大小，我们可视化不同atrous卷积层的规模注意力图（图10）。（六）。由于隐式学习不同层的使用的学习过程的性质，不同注意力图的角色可能不被严格区分。然而，我们可以观察到一个明显的趋势，即不同膨胀率的注意图被激活不同的模糊大小。例如，对于具有几乎任何大小的模糊的像素，激活扩张率为1的注意力图。另一方面，仅对于具有大模糊的像素激活扩大率5的注意力地图。这表明，我们的计划妥善处理空间变化大小的散焦模糊。消融研究为了定量分析我们的KPAC块中每个组件的效果，我们进行了消融研究。✓24.74 1.33✓ ✓ 24.98 1.33✓ ✓ 25.03 1.58✓ 25.21 1.58表2.消融研究。AC：多孔卷积层。规模：规模注意。形状：形状注意。Lation研究（表2）。我们首先准备一个基线模型，它使用朴素的卷积块而不是我们的KPAC块。对于基线模型，我们使用一个传统的残差块，由两个卷积层与过滤器的大小为3 -3。为了进行公平的比较，基线模型包括多个卷积块，因此其模型大小与我们的模型相似，但没有权重共享。我们还准备了四个变体的基线模型，使用两个KPAC块的内核大小为5 - 5，然后测量模型的去模糊性能。表2总结了消融研究结果。如表中所示，我们提出的方法的每个图7给出了一个定性比较，它表明尺度注意力和形状注意力都有助于我们的网络更好地处理空间变化的模糊并恢复精细结构，而没有注意力的模型则会遭受空间变化的模糊。不同膨胀率的空洞卷积我们分析了空洞卷积层的膨胀率在处理具有不同尺度的散焦模糊中的效果。在测试中，我们手动调整了注意力权重图[α1 5]，使我们的预训练网络只使用指定尺度的atrous卷积层产生的特征与图的趋势相似6，我们观察到扩张率为1，3和5的atrous卷积分别有助于消除任何，中等和大尺寸的模糊（图6）。（八）。2648(a) 输入（b）2电平（c）3电平（d）GT图9。我们的2级和3级模型之间的视觉比较(a)输入（b） =[1，0，0，0，0]（c）=[1，0，1，0，0]（d） =[1，0，0，0，1]图8.使用调制比例注意力图的[α 1，α 2，α 3，α 4，α 5]。模糊输入KPAC块数1 2 3 4峰值信噪比（dB）23.92 24.82 25.21 25.25 25.14SSIM（dB）0.812 0.836 0.842 0.842 0.841参数（M）-1.05 1.58 2.11 2.64表4.定量比较。JNB和EBDB的参数数量不可用，因为它们不是基于深度学习的方法。请注意，DPDNet（dual）使用双像素图像。表3.不同KPAC5×5核的块。KPAC块的数量我们的KPAC块可以堆叠在一起，这样网络就可以迭代地去除散焦模糊，以实现更高质量的去模糊结果。我们研究了不同数量的KPAC块的性能。表3示出了即使单个KPAC块也可以有效地去除散焦模糊并且使PNSR增加0.90dB。随着我们采用更多的KPAC块，PSNR增加，虽然改善变得更小。在三个KPAC块之后，PSNR开始可能由于训练复杂性的增加而降低。基于该实验，我们将我们的最终模型设计为具有两个KPAC块，因为两个块以小的模型尺寸提供相对高的去模糊质量。5.2. 评价我们将我们的方法与最先进的散焦去模糊方法进行比较，包括传统的两步方法[23，11，14]和最近的端到端基于深度学习的方法[1]。对于所有的方法，我们都使用作者提供的源代码生成了结果图像。对于JNB[23]、EBDB [11]和DMENet [14]，我们使用非盲去卷积方法[12]来使用估计的散焦图生成去模糊图像。对于DPDNet [1]，我们使用了作者提供的源代码和预训练DPDNet提供了两个版本的模型，每个版本分别采用单个输入图像和双像素数据，即一对子孔径图像。我们把这两个都包括在我们的比较中。为了评估，我们测量PSNR和SSIM [26]。我们还测量了LPIPS [32]，用于评估[1]中所做的感知质量。我们包括我们的模型的两个变体，每个变体具有不同数量的编码级别，或者编码器中不同数量的下采样层通过增加型号FLOP（B）运行时间参数（M）DPDNet（单）[1]19800.1732.25DPDNet（双）[1]19830.1732.25我们的（2级）3580.091.58我们的（3级）1970.072.06表 5. 计算成本比较。平均 FLOP 和运行时间在尺寸为1280×720的图像上测量。编码水平，我们可以更容易地处理大模糊与小过滤器和少量的计算。另一方面，使用较少的编码级别，更容易恢复精细尺度细节。为了检查具有不同数量的编码级别的模型之间的差异，我们包括我们的模型的两个变体，它们分别具有两个和三个级别。两个模型都使用MAE和感知损失函数进行训练表4报告了定量比较。如表中所示，经典的两步方法[23，11，14]比最近的基于深度学习的方法[1]表现得更差。虽然具有单个输入图像的DPDNet模型比经典方法表现得更好，但我们的模型在很大程度上优于经典方法和具有单个输入图像的DPDNet模型。此外，我们的模型优于基于双像素的DPDNet模型，即使没有双像素数据提供的散焦模糊的强烈提示，并且具有少得多的参数。这一结果清楚地证明了我们的方法的有效性。在补充材料中，我们报告了我们的模型的基于双像素的变体的性能，它优于基于双像素的DPDNet模型。表4还显示了我们的2级和3级模型的性能相似。然而，我们发现3级模型倾向于更好地处理极大的模糊，如图所示9、由于它有较大的接受域。图10示出了定性比较。我们的结果是由三层模型产生的。如图所示，我们的方法产生了更清晰的结果，具有更多的细节。即使与基于双像素的DPDNet [1]的结果大中小模糊模型[第23话]PSNR↑23.70SSIM↑0.799LPIPS↓0.442参数（M）-欧洲广播局[11]23.960.8190.402-DMENet [14]23.920.8080.41026.94DPDNet（单）[1]24.420.8270.27732.25DPDNet（双）[1]25.120.8500.22332.25我们的（2级）25.240.8450.2291.58我们的（3级）25.240.8420.2252.062649×(a) 输入（b）JNB [23]（c）EBDB [11]（d）DMeNet [14](e)DPDNet（单）[1]（f）DPDNet（双）[1]（g）我们的（h）GT图10.对DPDD数据集的测试集进行定性比较[1]。请注意，DPDNet（dual）使用双像素立体图像。与DPDNet [1]的基于单个图像的模型相比，具有更少视觉伪影的精细细节。其他结果见补充材料。6. 结论提出了一种基于逆核函数的单幅图像散焦去模糊算法。为了有效地模拟(a)输入（b）DPDNet [1]（c）我们的图11.在CUHK模糊检测数据集中的散焦图像上的散焦去模糊结果[22]。我们的结果具有相对清晰的细节。计算成本我们比较了我们的模型和DPDNet的计算成本[1]。经典的两步approaches依赖于计算量大的非盲反卷积算法，所以我们不包括他们在这个比较。为了比较，我们测量FLOPs和大小为1280 - 720的图像的平均运行时间。表5显示，我们的3级模型需要以FLOP为单位的小计算成本，比[1]小10倍。该表还显示，我们的3级模型比2级模型稍快，因为特征被更多地下采样，即使它具有更多的参数。推广到其他图像我们的模型使用DPDD数据集[1]进行训练，该数据集是使用一台相机生成因此，最后，我们检查如何以及我们的模型gener- alizes从其他相机的图像。为此，我们使用了CUHK模糊检测数据集[22]，该数据集提供了704张散焦图像，而没有地面实况全聚焦图像。数据集中的散焦图像是从互联网上的各种来源收集的由于没有地面实况图像，我们定性地检查泛化能力。图11表明我们的方法可以成功地恢复空间变化的逆核，我们提出了核共享并行Atrous卷积（KPAC）块。KPAC提供了一种有效的方法来处理空间变化的离焦模糊，使用少量的atrous卷积层，这些卷积层共享相同的卷积核权重，但具有不同的膨胀率。KPAC还配备了每像素尺度的注意力，以进一步方便处理空间变化的模糊。由于KPAC的有效和轻量级结构，我们可以简单地堆叠多个KPAC块，并实现最先进的去模糊性能。我们通过实验验证了KPAC的有效性，并表明我们的方法明显优于以前的方法，用更少的参数。局限性和未来的工作虽然我们的方法优于以前的最先进的方法，但它仍然可能在具有挑战性的情况下失败，例如大规模模糊，不规则形状的模糊，以及具有尖锐边界的散景（请参阅我们对包含此类情况的图像的去模糊结果的补充材料处理这些具有挑战性的案件将是一个有趣的未来方向。致谢这项工作得到了韩国科学和信息通信技术部的支持，通过IITP资助（SW Star Lab，2015-0-00174;人工智能研究生院计划（POSTECH），2019-0-01906）和NRF 资助（ 2018 R1 A5 A1060031; 2020 R1 C1C1014863）。2650引用[1] A. Abuolaim和M.S.布朗使用双像素数据的散焦去模糊。Proc. ECCV，2020。一、二、五、七、八[2] Y. Bando 和 T. 西下从一张照片到数码对焦。在Proc.Pacific Graphics，2007中。一、二、三[3] L. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。DeepLab：使用深度卷积网络，atrous卷积和全连接crfs进行语义图像分割。IEEE Trans. 模式分析和机器智能（TPAMI），40（4）：834-848，2018。2[4] S. Cho和S.李你基于MAP的模糊核估计的收敛性分析在Proc. ICCV，第4818-4826页，2017年。一、二[5] L. D'And r e ` s，J. Sal vado r，A. Kochale和S. 暂停用于景深扩展的非参数模糊图回归。 IEEE Trans. ImageProcessing（TIP），25（4）：1660- 1673，2016。一、二[6] J. Dong，S.罗斯和B。席勒深度维纳反卷积：Wiener与深度学习结合用于图像去模糊。在Proc. NeurIPS，2020中。二、五[7] 克劳德 ·E.杜雄一维和二维 Lanczos滤波。Journal ofApplied Meteorology and Climatology，18（8）：1016-1022，1979. 3[8] D. A. Fish，A. M. Brinicombe，E. R. Pike和J. G. 沃克用richardson-lucy 算法实现盲解卷积。 Journal of theOptical Society of America A（JOSA A），12（1）：58-65，1995. 1[9] M.霍尔施奈德河Kronland-Martinet，J. Morlet和Ph.查米奇安一种利用小波变换进行信号分析的实时算法在proc Wavelets，1990. 2[10] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在Proc. ECCV，2016中。5[11] A. Karaali和C.俊作。具有自适应尺度选择的基于边缘的散焦模糊估计。 IEEE Trans. 图像处理（TIP），27（3）：1126-1137，2018。一、二、七、八[12] D. Krishnan和R.费格斯。使用超拉普拉斯先验的快速图像去卷积。NIPS，2009年。一、二、七[13] Guang-He Lee，David Alvarez-Melis，and Tommi S.贾科拉走向健壮的局部线性深度网络。InProc. ICLR，2019. 5[14] J.李，S.李，S。Cho和S.李你使用域自适应的深散焦图估计。在Proc. CVPR，2019中。一、二、七、八[15] A.莱文河Fergus，F. Durand和W.弗里曼。图像和深度从一个传统的相机与编码光圈。ACM Trans.Graphics（TOG），26：70，2007。一、二[16] 安德鲁湖，加-地Awni Y. MaasHannun和Andrew Y.Ng.整流器的非线性改善了神经网络声学模型。在Proc.ICML，2013中。5[17] GuidoMontu'f ar ， Razv anPascanu ， Kyungh yunCho 和Yoshua Bengio。关于深度神经网络线性区域的数量。在Proc.NeurIPS，2014中。5[18] J. 帕克湾，澳-地Tai，D.周和我S. 奎恩多尺度深度和手工制作的散焦估计功能的统一方法在Proc. CVPR，2017中。一、二[19] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito，Z. Lin，L.德迈松湖Antiga和A. Lerer Pytorch中的自动微分。在Proc. NIPSW，2017中。 5[20] Wenqi Ren ， Jiawei Zhang ， Lin Ma ， Jinshan Pan ，Cushun Cao ， Wangmeng Zuo ， Wei Liu ， and Ming-Hsuan Yang.通过广义低秩近似的深度非盲反卷积。InProc. NeurIPS，2018. 二、三[21] O.龙内贝格山口Fischer和T.布洛克斯U-Net：用于生物医学图像分割的卷积网络在procMICCAI，2015. 5[22] J. Shi，L. Xu和J. Jia.判别模糊检测功能。在Proc.CVPR，2014。8[23] J. Shi，L. Xu和J. Jia.只是明显的散焦模糊检测和估计。在Proc.CVPR，2015中。一、二、七、八[24] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络在procICLR，2015年。5[25] H. 儿子和S.李你通过具有长/短跳跃连接的正则化残差网络的快速非盲反卷积InProc. ICCP，2017. 2[26] Z. Wang，中国山核桃A. C. Bovik，H. R. Sheikh和E.西蒙切利图像质量评估：从错误可见性到结构相似性。IEEE Trans. Image Processing（TIP），13（4）：6007[27] 诺伯特·维纳。平稳时间序列的外推、内插和平滑。麻省理工学院出版社，1964年。二、三[28] Kelvin Xu ， Jimmy Lei Ba ， Ryan Kiros ， KyunhyunCho，Aaron Courville，Ruslan Salakhutdinov，Richard S.Zemel和Yoshua Bengio。展示、参与和讲述：具有视觉注意的神经图像字幕生成。在Proc.ICML，2015中。二、四[29] Li Xu，Jimmy SJ Ren，Ce Liu，and Jiaya Jia.用于图像反卷积的深度卷积神经网络。在procNeurIPS，2014. 一、二、三[30] L. Xu，X. Tao和J. Jia.快速空间反卷积的逆核函数。在Proc.ECCV，2014中。一、二[31] 陆远、孙健、龙泉、沈向阳。渐进式尺度间和尺度内非盲图像去卷积。 ACM Transactions on Graphics ， 27（3）：1-10，2008. 2[32] R. Zhang，P.Isola，A.A. Efros、E.Shechtman和O.王. 深度特征作为感知度量的不合理有效性在Proc. CVPR，2018中。7[33] Yulun Zhang ， Kunpeng Li

下载后可阅读完整内容，剩余1页未读，立即下载