光场生成和真实散焦图像的深度散焦去模糊学习方法

156 浏览量更新于2023-10-25 收藏 20.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

163040使用光场生成和真实散焦图像进行去模糊学习0阮凌燕 1 � 陈斌 2 � 李继洲 3 林妙玲 1 †01 香港城市大学 2 德国马普计算机科学研究所 3 斯坦福大学0http://lyruan.com/Projects/DRBNet0摘要0由于散焦模糊的空间变化特性，散焦去模糊是一项具有挑战性的任务。虽然深度学习方法在解决图像恢复问题方面显示出巨大的潜力，但散焦去模糊需要准确的训练数据，包括全焦点和散焦图像对，这很难收集到。简单的两次拍摄无法实现散焦和全焦点图像对之间的像素级对应关系。建议使用光场的合成光圈来生成准确的图像对，这是一种更可靠的方法。然而，从光场数据生成的散焦模糊与使用传统数码相机拍摄的图像的散焦模糊不同。在本文中，我们提出了一种新颖的深度散焦去模糊网络，充分利用光场的优势并克服其缺点。我们首先在光场生成的数据集上训练网络，以获得高度准确的图像对应关系。然后，我们使用特征损失在另一个通过两次拍摄方法收集的数据集上对网络进行微调，以减轻两个域中存在的散焦模糊的差异。这种策略被证明非常有效，并能在多个测试集上在定量和定性上实现最先进的性能。我们进行了大量的消融研究，以分析每个网络模块对最终性能的影响。01. 引言0使用大光圈可以增加光通量，使图像可以在较短的曝光时间内捕捉到。然而，这也会减小景深 -只有靠近焦平面的点才能被清晰地捕捉到，而远离焦平面的点将投射到相机传感器上，而不是单个图像点，形成一个称为焦平面外的圆形混淆（COC）[25]，导致散焦模糊。浅景深有时是摄影师追求的一种审美效果[7, 30]，但它也可能0�表示相等的贡献，†表示通讯作者。0散焦图像全焦点图像交叉相关0LFDOFDPDD0图1. DPDD[2]（顶部）和LFDOF数据集[29]（底部）中散焦和全焦点图像对之间的交叉相关。0降级重要的视觉信息。因此，从模糊的图像中恢复出一个全焦点的图像对于揭示潜在的信息并有利于人工智能应用，如目标检测[26]和文本识别[19]非常需要。尽管具有巨大的潜力，但由于其空间变化的特性，模糊去模糊仍然是一个具有挑战性的问题 -每个点都有其自己的COC直径，取决于相应场景点的深度。此外，COC的形状随相对位置与光轴变化。为了解决焦点模糊，最直观的方法是首先估计每个像素的模糊核，然后应用非盲解卷积[5, 12, 15, 17, 24,32]。然而，这两个步骤都有局限性。首先，模糊核估计不准确，通常基于简单的高斯[12, 15,24]或圆盘核[5]假设。其次，即使给出准确的模糊核，解卷积也会在边缘上引入环状伪影，这是由于吉布斯现象[41]导致的。最近，研究人员采用端到端的深度神经网络直接从焦点模糊中恢复清晰图像[2, 16,36]，在性能和效率方面大大优于传统的两步方法。这些网络都是在一个称为Dual-Pixel Defocus Deblurring(DPDD)的数据集上训练的，该数据集是使用不同光圈大小连续拍摄的，以获得模糊和全焦点图像对。然而，由于移动物体（例如植物、汽车）和光照变化，几乎不可能在两张照片中准确地捕捉到具有对应关系的模糊和全焦点对，尤其是对于户外场景。为此，另一个数据集LFDOF[29]利用光场重聚焦和合成光圈的优势进行构建。163050为了检查图像对之间的一致性，我们从两个数据集中选择相似的场景，并计算散焦和全焦对之间的互相关。如图1所示，LFDOF在清晰区域具有很强的互相关性，而DPDD即使在清晰区域也不具备一致性（树干在散焦和全焦图像中都是清晰的）。然而，尽管LFDOF在像素级上具有良好的一致性，但光场数据生成的散焦模糊与使用传统数码相机捕获的不同（见第3节）。在本文中，我们打算充分利用LFDOF和DPDD数据集的优势来训练一个用于散焦去模糊的深度网络。总之，本文的贡献如下：0•我们分析了两个散焦模糊数据集LFDOF和DPDD的特点，并为单图散焦去模糊开发了一种新的训练策略。我们还估计并比较了光场生成的散焦模糊的点扩散函数（PSF）与使用传统数码相机捕获的PSF。0•我们提出了一种配备新型动态残差块的端到端网络架构，以粗到细的方式重建清晰图像。0•我们进行了大量实验，评估了每个网络模块的效果，并在多个测试集上定量和定性地展示了最先进的性能。02. 相关工作0传统方法传统的散焦去模糊方法通常采用两步方法，首先是散焦图（每个像素的模糊级别）的估计[12, 37,46]，然后是非盲解卷积[6, 14,17]。为了提高散焦图的准确性，已经做出了很多努力，因为它对去模糊性能有重要影响[12, 24, 32,32]。然而，这种方法通常需要大量计算，而且由于中间散焦图的缺陷，性能有限。散焦模糊数据集目前有几个公开可用的与散焦模糊相关问题的数据集。Shi等人[32]和Zhao等人[43]构建了包含真实散焦RGB图像和二值掩模的散焦模糊数据集，但由于缺少全焦图像，只能用于模糊检测。Abuolaim和Brown[2]使用双像素相机构建了DPDD数据集，通过在两次拍摄中捕获散焦和全焦对来生成数据。Ruan等人[29]提出了基于光场的散焦去模糊数据集LFDOF，利用光场技术的合成孔径和重聚焦特性[22]，从单个光场样本生成大量具有不同焦距和焦点距离的散焦图像。0单个图像对是在单次拍摄中获取的。Lee等人[16]提供了一个由双摄像头系统和分光器组成的基准测试集，其中包含50个场景。Lee等人[15]采用现有的RGBD数据集[28,33]根据深度图生成散焦图像，Abuolaim等人[3]和Pan等人[23]生成了双散焦对。然而，这些数据集中的图像是合成的，缺乏真实性。在本文中，我们使用了在真实场景中捕获的DPDD和LFDOF数据集。0基于CNN的方法 Abuolaim和Brown[2]采用了类似U-Net的架构以端到端的方式恢复清晰图像，他们的后续工作[1]采用了单编码器多解码器架构进一步提高了性能。Lee等人[16]提出了一种配备迭代滤波自适应模块的网络，用于处理空间变化的散焦模糊和辅助重模糊模块以增强恢复性能。Son等人[36]提出了一种通过核共享并行空洞卷积块来模拟逆核的有效方法。上述网络都是在DPDD数据集[2]上训练的。Ruan等人[29]基于传统的两步策略解决了单图散焦去模糊问题，将中间散焦图作为去模糊步骤的指导。其他一些工作使用双视图来解决散焦去模糊问题[23,38]。然而，本文关注的是单图散焦去模糊问题。0动态滤波动态滤波，也称为滤波自适应卷积，已成功应用于各种低级视觉任务，例如去噪[21]、视频去模糊[44]、超分辨率[10,13,40]和散焦去模糊[16]等，自Jia等人首次提出以来[9]。它旨在学习每个像素的卷积核，而不是整个图像上的单个卷积核，因此能够处理非均匀或空间变化的退化。我们提出的动态残差块部分受到动态滤波的启发，但我们不直接应用学习到的每个像素卷积核进行输出，而是将它们作为学习到的动态残差与直接残差一起用于提高性能。此外，与Lee等人的方法[16]不同，他们通过使用学习到的卷积核转换特征来消除特征空间中的空间变化模糊，我们以粗到精的方式在图像域中学习动态残差以恢复清晰图像。第5.3节展示了我们提出的方法在解决单张图像散焦去模糊方面的卓越性能。03. 传统数码相机 vs. 光场相机0Main LensSensorFocal planeCOCMainLensSensorMicroLensLarge apertureSmall aperture�()�()CapturedPSFRefocusing�()FocusFrontFocusBackInfocusCapturedPSFFocusFrontFocusBackInfocus()4. Methodologywhere ˆx↓n represents one of the input of R, which is alsothe2 up-sampled version of the output from the previous163060传统数码相机光场相机0a b0图2.（a）传统数码相机（Canon EOS R5）和（b）光场相机（LytroIllum）的散焦模糊形成过程。显示了捕获的圆盘图案、估计的PSF以及PSF图像的中心线剖面，以及成像光学路径图中的光场合成光圈和重新聚焦过程的图表。0相机（Canon EOS R5）和光场相机（LytroIllum）分别如图2所示。对于传统数码相机（图2a），从焦平面上的场景点发出的光线通过主镜头汇聚到图像传感器的单个像素上，而离焦平面的点则投射到传感器上的像素块上，呈圆形（COC），导致散焦模糊。对于光场相机，微透镜阵列放置在传感器前面，因此来自主镜头的光线被重新分配到微透镜下的像素上，这意味着每个像素不仅记录集成照度，还记录光线的方向信息。光场的每个子光圈视图只记录了一个小部分（10完整光圈的14×14（适用于LytroIllum）。拍摄后，可以通过从多个子光圈视图中集成适当的样本子集来进一步合成光圈大小。类似地，通过在极线平面图像（EPI）[4]上沿不同方向积分像素，可以实现对不同深度的重新聚焦，如图2b所示。为了了解这两种类型相机产生的散焦模糊之间的差异，我们使用Mannan和Langer提出的算法估计和可视化它们的PSF[20]。图2中显示了三种典型情况的PSF：前焦点、焦点和后焦点，以及成像光学路径图。通常，数字相机产生的PSF遵循单个Airy盘的衍射模式，而光场相机产生的PSF则类似于多个Airy盘的模式，这可以通过光场生成的散焦模糊的合成性质来解释。更多的PSF估计可以在补充材料中找到。0单张图像的散焦去模糊旨在从被散焦模糊扭曲的观察输入 x中恢复潜在的清晰图像y。可以训练一个深度网络作为由参数 θ 参数化的映射函数F：0ˆy = Fθ(x) (1)0损失函数应该根据优化θ来最小化ˆy和y之间的距离：0ˆθ = arg minθ0�0i L(Fθ(xi), yi), (2)0其中(xi,yi)是散焦和全焦图像对。如图3所示，我们设计了一个编码器-解码器[27]结构的网络F。编码器(E)提取多尺度金字塔特征，然后通过跳跃连接添加到相应尺度的解码器(D)中，以稳定网络训练。每个尺度的解码器中添加了两个残差块[8]。我们将在第5.3节中展示，简单的编码器-解码器结构不能很好地处理散焦去模糊。动态残差块(DRB)受动态滤波方法[9,10, 16, 34,40]的启发，我们设计了一个残差版本的动态滤波块R，以更好地处理空间变化的散焦模糊。我们以级联的方式将动态残差块连接到解码器的每个尺度，逐步恢复潜在的清晰图像。每个动态残差块可以表示为：0ˆy↓n = R(ˆx↓n, d↓n; θr), (3)02)。注意，第一个动态残差块的输入为x↓8，它是从输入图像x直接下采样得到的。具体来说，如图3中的绿色插图所示，输入ˆx↓n经过三个卷积层，并与来自解码器D的等效尺寸特征图d↓n进行拼接，然后发送到两个路径：一个用于估计动态核体积K，另一个用于估计残差∆r↓n。估计的动态核体积K然后与输入ˆx↓n卷积，得到动态残差∆ˆx↓n：0∆ˆx↓n = ˆx↓n � K (4)0动态滤波过程在图3的灰色插图中描述。最后，每个动态残差的输出为：ˆy↓nx↓8DP DDxLFˆx↓nˆx↓nˆx↓nˆx↓n↑2ConcatenateSumDynamic ﬁlteringDot productConvolu�onal layerResidual blockDynamic residual blockDynamic kernel↓nR↓nR↓8d↓8d↓4d↓2d↓n↓n↓nˆx↓nˆx↓nˆy↓n↓n↓nR↓8R↓4R↓2ˆx↓4ˆy↓4ˆx↓4↓4ˆx↓2ˆy↓2ˆx↓2↓2ˆxˆyˆxˆy↓8x↓8ˆx↓8↓8163070主要训练0微调0LFDOF0DPDD0ˆy0K0↑2↑2ˆx↓4ˆx↓2ˆx0d0图3.我们的网络架构主要由编码器E、解码器D和四个动态残差模块R组成。主要训练使用LFDOF数据集，网络微调使用DPDD数据集。0块可以通过以下方式计算：0ˆy↓n = ˆx↓n + ∆r↓n + ∆ˆx↓n, (5)0我们在图4中可视化了我们四个动态残差块中的每个步骤中的一个小区域，清楚地显示了如何逐步从其散焦版本重建潜在的清晰图像。具体来说，动态残差∆ˆx↓n提取了高频特征，如边缘和角点，这些特征在散焦模糊形成过程中丢失，而残差∆r↓n则关注代表被散焦模糊覆盖的基本内容的低频特征。动态残差∆ˆx↓n、残差∆r↓n和输入图像ˆx↓n共同贡献于恢复潜在的清晰图像。第5.3节展示了所提出的DRB的有效性。0R0图4.DRB在所有尺度上的每个步骤的可视化。从左到右：原始输入x和真实值y，DRB的输入ˆx↓n，两个像素的动态核k↓n，动态残差∆ˆx↓n，残差∆r↓n，DRB的输出ˆy↓n。0训练策略和损失如第3节所示，传统数码相机和光场相机产生的散焦模糊是不同的。为了弥补这个差距，我们提出了一种训练策略，利用了0并克服了光场数据的缺点。具体来说，我们在主要训练阶段应用了光场生成的数据集LFDOF，以获得高度准确的图像对应关系。然后，我们使用DPDD数据集对网络进行微调，以减轻两个域之间的差异。每个阶段使用不同的损失函数。在主要训练阶段，使用ℓ1范数：0L0LF 1 = ∥ ˆ y LF − y LF ∥ 1 (6)0在微调阶段，由于DPDD数据集中的非对齐（由两次拍摄引起）问题，应避免使用逐像素损失。我们在这一步中应用基于VGG的特征损失[11]，以在特征空间中将学习到的知识转移到目标域，从而避免在图像空间中进行精确匹配。我们从预训练的VGG-19网络[35]的第2、第7和第14层提取特征图，表示为ϕ。0L0DPDD VGG = ∥ ϕ (ˆ y DPDD ) − ϕ ( y DPDD )∥ 1 (7)0请注意，这些损失适用于所有尺度。我们将在第5.3节中介绍我们的训练策略对最终恢复性能的重要贡献。05. 实验05.1. 数据集和实现0数据集我们在五个公开可用的数据集上进行了散焦去模糊评估实验，包括CUHK[31]、DPDD [2]、LFDOF [29]、PixelDP [2]和RealDOF[16]，如表1所示。与连续拍摄中使用不同光圈的DPDD不同，RealDOF是由一个定制的双摄像头系统捕获的，该系统由两个索尼α 7RIV相机组成，连接到一个垂直支架上，配备有多相机触发器以进行同时捕获。然后对图像进行几何和光度对齐的后处理。请注意，CUHK和PixelDP没有全焦点的真实图像，前者是从互联网上收集的，而后者是由于智能手机的固定光圈。我们使用LFDOF和DPDD进行训练，其余数据集用于评估。实现我们使用TeslaV100-32GB的PyTorch实现和评估我们的模型。我们使用修正的Adam优化器[18]，其中β1 = 0.9，β2 =0.99。当在LFDOF上训练200个时期和在DPDD上训练100个时期时，初始学习率设置为10-4和10-5。学习率的更新策略与Zhu等人的策略类似[45]，在前100个时期使用相同的学习率，然后在其余100个时期线性衰减为零。我们将批量大小设置为8，补丁大小设置为320×320，使用高斯噪声、灰度图像转换和缩放进行增强。CUHK [31]704∼ 470 × 610InternetDPDD [2]5001120 × 1680Canon EOS 5D Mark IVLFDOF [29]12k688 × 1008Lytro IllumPixelDP [2]13∼ 1680 × 1120Google Pixel 4 SmartphoneRealDOF [16]50∼ 1536 × 2320Sony α7R IVelDP have no all-in-focus ground truth, as the former one iscollected from the Internet while the latter is due to the fixedaperture of smartphone. We utilize LFDOF and DPDD fortraining and the remaining datasets for evaluation.ImplementationWe implement and evaluate our mod-els using PyTorch with Tesla V100-32GB. We use theRectified-Adam optimizer [18] with β1 = 0.9 and β2 =0.99. The initial learning rate is set to 10−4 when trainedon LFDOF for 200 epochs and 10−5 trained on DPDD for100 epochs. The updating strategy of learning rate is sim-ilar to that of Zhu et al. [45], where the same learning rateis used for the first 100 epochs and then decayed linearlyto zero over the rest 100. We set the batch size to 8 andpatch size to 320 × 320 augmented with Gaussian noise,gray-scale image conversion and scaling.163080数据集 # 图像分辨率收集方法0表1. 用于训练和测试的数据集。05.2. 与现有方法的比较0评估我们将我们提出的方法与最新的四种基于学习的单图像散焦去模糊方法进行比较：DPDNet S [2]、AIFNet[29]、IFANet [16]和KPAC[36]。所有这些网络都是在DPDD数据集[2]上训练的，除了AIFNet是在LFDOF上训练的。具体而言，IFANet需要在其网络训练中合并双视图以估计视差图，而其他方法则不需要。我们使用作者发布的代码和预训练权重进行比较，然后使用RealDOF数据集[16]进一步评估它们的性能。在表2中，我们使用三个标准评估指标，包括峰值信噪比（PSNR）、结构相似性（SSIM）[39]和学习感知图像块相似性（LPIPS）[42]，报告了定量结果。我们还列出了参数数量供读者参考。我们提出的方法在所有方法中表现最好，尤其是在RealDOF测试集上。例如，我们的网络在PSNR方面相对于DPDNetS、AIFNet、IFANet和KPAC分别提高了12.6%（2.88dB）、11.5%（2.65dB）、4.2%（1.04dB）和7.3%（1.76dB）。请注意，RealDOF未用于训练，因此它是一个更公平的用于比较网络性能的基准测试集。图5显示了相应的定性比较。尽管DPDNetS可以在一定程度上减少散焦模糊，但它会产生如图5b中第二行所示的伪影。AIFNet在某些情况下可以提供清晰的细节，例如图5c中的树叶和第四行中的字符，但它无法消除散焦模糊。0其他情况。这可以通过它们的两步网络架构来解释，其中最终性能部分取决于中间的散焦图。因此，当估计的散焦图不准确时，AIFNet无法恢复高质量的细节。KPAC的性能略优于DPDNetS，但总体上由于其较小的模型容量而给出有限的性能。尽管IFAN显示出竞争性的恢复性能，但我们提出的方法在恢复文本（图5f中的第二行和第四行）、纹理（图5f中的第一行）和物体边界（图5f中的第三行）方面表现更好。值得注意的是，IFAN需要双视图进行网络训练，而我们只需要单视图。有关视觉比较、模型复杂度、计算成本等的更多结果在补充材料中提供。泛化能力为了检查我们网络的泛化能力，我们进一步比较了使用CUHK [ 31 ]和PixelDP [ 2]数据集的网络的视觉性能。CUHK针对具有相对较小空间分辨率的模糊检测，所有图像都是从互联网收集的，因此没有提供全焦点的真实图像。PixelDP是使用Google Pixel4智能手机收集的，该手机具有固定的光圈大小，图像数据限制为射线-贝尔帧中的一个绿色通道。图6报告了五个网络之间的视觉比较，可以得出类似的结论：我们的方法具有最佳的泛化能力，可以成功恢复细节，无论相机类型如何。更多结果在补充材料中提供。05.3. 分析与讨论0在本节中，我们进行了全面的消融研究和分析。为什么使用LFDOF？为了了解LFDOF在散焦去模糊中的必要性，我们仅在LFDOF、DPDD和两者上训练我们的网络。在这里，我们使用“LFDOF和DPDD”来表示在LFDOF上训练，然后在DPDD上微调的网络，以方便起见。表3和图7展示了使用RealDOF测试集评估的定量和定性结果。观察到，我们在DPDD上训练的网络在所有指标上得分更高。这可以通过光场生成和真实散焦图像之间的域差异来解释。然而，视觉性能与定量性能不一致。在LFDOF上训练的网络产生比在DPDD上训练的网络更清晰的内容和细节，这是由于LFDOF的准确像素对应关系。然而，与此同时，它也引入了伪影（见图7中的墙壁），这是由于光场生成和真实数据之间的散焦模糊差异。我们的策略在LFDOF上训练网络，然后在DPDD上微调，在性能上大大优于仅训练单个数据集的网络，并生成最佳的定量结果（增加了11.57%和DPDNetS [2]24.3880.7490.27722.8700.6700.42531.03AIFNet [29]24.2130.7420.30923.0930.6800.41341.55IFANet [16]25.3660.7890.21724.7090.7490.30610.48KPAC [36]25.2210.7740.22623.9840.7160.3362.06163090方法 DPDD 数据集 RealDOF 数据集参数（M）0输入 23.890 0.725 0.349 22.333 0.633 0.524 -0我们的方法 25.725 0.791 0.183 25.745 0.771 0.257 11.690表2. 我们的网络与现有的基于学习的方法在单张图像散焦去模糊上的定量比较。使用作者提供的代码和训练权重评估两个数据集。0a. 输入 b. DPDNet c. AIFNet d. IFANet e. KPAC f. 我们的方法 g. GT0真实DOFDPDD0图5. 在DPDD和RealDOF数据集上对DPDNet S [ 2 ]、AIFNet [ 29 ]、IFANet [ 16 ]、KPAC [ 36 ]和我们的方法进行定性评估。0在PSNR方面提高了4.23%）和定性结果。0训练数据集 PSNR ↑ SSIM ↑ LPIPS ↓0LFDOF [29] 23.076 0.698 0.378 DPDD [2] 24.700 0.7440.3370LFDOF & DPDD（我们的方法）25.745 0.771 0.2570表3.在仅LFDOF、仅DPDD和两个数据集上训练的提出的网络的定量比较。结果在RealDOF测试集上进行测试。0性能提升为了进一步验证所提出的训练策略，我们重新训练了两个最先进的网络，DPDNet S [2]和KPAC[36]，以查看我们的训练方案是否能提高这两个网络的性能。由于AIFNet和IFANet需要以清晰度图作为地面真实值，因此它们在此处未列出。0后者需要双视图进行训练。对于KPAC，我们选择了3级模型，其中包含2个KPAC块进行比较。除了两个训练阶段的损失和学习率设置与我们的设置相同外，DPDNetS和KPAC的其他参数设置与它们的原始配置相同。网络性能在DPDD数据集的76个测试样本上进行评估。表4显示，当网络在LFDOF和DPDD上进行训练时，DPDNetS、KPAC和我们提出的架构在PSNR方面分别提高了0.511dB、0.249dB和0.253dB。如图8所示，视觉质量也得到了大幅改善。0损失我们提出的方法首先使用L1损失在LFDOF上训练网络，然后使用特征损失在DPDD上进行微调。有人可能会想知道是否可能（1）直接混合数据集进行训练，而不是使用两阶段的训练策略，以及（2）在微调阶段采用相同的L1损失。为了回答这些问题，我们去除了损失的使用，然后在DPDD和RealDOF数据集上评估它们的性能，如表5和图9所示。为了平衡两个数据集的比例，我们对DPDD数据集（350张图像）进行了增强。DPDNetKPACOursInputGTDPDDLFDOF & DPDDDPDDLFDOF & DPDDDPDDLFDOF & DPDD12LPIPS↓163100b. DPDNet e. KPAC a. 输入0CUHKPixelDP0图6. DPDNet S [2]、AIFNet [29]、IFAN [16]、KPAC [36]和我们的定性比较。第一行的图像来自CUHK [31]，第二行的图像来自PixelDP[2]。这两个数据集中都没有提供全焦点的地面真实值。0输入 LFDOF DPDD LFDOF & DPDD GT0图7.我们的网络仅在LFDOF、仅在DPDD和两者上进行训练的视觉比较。0方法 DPDD LFDOF & DPDD0PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓0DPDNet S [2] 24.388 0.749 0.277 24.899 0.761 0.278 KPAC [36] 25.2210.774 0.226 25.470 0.780 0.220 我们的方法 25.472 0.787 0.246 25.725 0.7910.1830表4. 当在LFDOF & DPDD上进行训练时，DPDNet S [2]、KPAC[36]和我们的性能提升。网络在DPDD数据集的76个测试样本上进行测试。0图8.使用仅DPDD（左列）和LFDOF和DPDD数据集（右列）进行训练的网络性能的定性比较。所有网络的性能都得到了改善。0为了回答这些问题，我们去除了损失，然后在DPDD和RealDOF数据集上评估它们的性能，如表5和图9所示。为了平衡两个数据集的比例，我们对DPDD数据集（350张图像）进行了增强。032次，然后与LFDOF（11261张图像）混合。当仅使用L1损失或将L1与LVGG损失结合在混合数据集上训练时，网络的表现与仅在DPDD上训练的版本相似，但稍微比后者差一些（见表3和表4）。当在两个阶段中采用相同的L1损失时，以PSNR和SSIM为指标的定量结果与我们最终的结果相当，但在DPDD数据集上，感知分数LPIPS相对较差。这是因为在DPDD上的像素级损失可能不会导致最佳性能，即使对于人类感知来说，对齐不明显（例如，图1），但对网络来说却很敏感。此外，以PSNR为指标，其在RealDOF上的性能较差，比我们最终的结果低0.62dB。在图9中，红色框内的结果是我们最终模型产生的，其产生了最逼真和细节最好的效果。定量和定性的性能进一步验证和支持了所提出的训练策略。0策略编号损失 DPDD RealDOF0混合 a L 1 - 25.439 0.793 0.237 24.634 0.751 0.330 b L 1 + λ L VGG - 25.469 0.7930.236 24.684 0.751 0.3290微调 c L 1 L 1 25.755 0.797 0.232 25.130 0.768 0.310 d L 1 L VGG 25.725 0.7910.183 25.745 0.771 0.2570表5. 根据数据集和损失函数的训练策略的定量比较。S 1 和 S 2分别表示在LFDOF上的主要训练和在DPDD上的微调。当在混合数据集上训练时，只有一个阶段，λ 设置为 10 − 5 。0DRB配置为了验证DRB中每个组件的效果，我们进行了消融研究，并在表6和图10中报告了结果。我们将我们的最终模型与四个变体网络进行比较：每次去除一个组件，得到的块分别为（ˆ x ↓ n , ∆ˆ x ↓ n , - ），（ - , ∆ˆ x ↓ n , ∆ r ↓ n ），（ ˆx ↓ n , - , ∆ r ↓ n ）和只有基线的块。ababcdcdGTLPIPS↓525.6600.7890.18525.5640.7650.271725.7250.7910.18325.7450.7710.257925.7520.7900.18225.5520.7640.2651125.7160.7930.18325.6250.7680.265IPS↓163110输入 GT 输入 GT0图9.根据数据集和损失函数的训练策略的视觉比较。这里的a、b、c和d表示表5中相应的训练策略。0将没有DRB的恢复结果放在基线。这些变体都具有多尺度架构。还添加了另一种变体，只有一个完整的DRB（去除 R ↓{ 8 , 4 , 2 } ，只保留 R）。定量和定性结果表明，最终模型能够恢复最细节，如表6和图10所示。对于视觉质量，图10表明，只有具有所有组件的DRB能够恢复逼真的细节（见第二行中的最后两个）。0ˆ x ↓ n ∆ˆ x ↓ n ∆ r ↓ n 多尺度 PSNR ↑ SSIM ↑ LPIPS ↓0基线 25.327 0.749 0.285 � � � 25.539 0.763 0.271 � � � 25.576 0.763 0.267 � � � 25.50.765 0.274 � � � 25.532 0.757 0.272 � � � � 25.745 0.771 0.2570表6.DRB中每个组件和多尺度恢复策略的消融研究。性能在RealDOF上评估。0输入0基线0图10. DRB配置的消融研究在RealDOF上的定性结果。0动态核大小我们分析了动态核大小对恢复性能的影响。如表7所示，我们通过实验确定了DPDD数据集的最佳核大小为9，而RealDOF数据集的最佳核大小为7。考虑到整体性能和参数数量，选择了核大小7。0核大小 DPDD RealDOF0表7.DRB块中与核大小相关的DPDD和RealDOF数据集的定量评估。0AIFNet vs . 我们的AIFNet和我们的网络都是在LFDOF数据集上训练的。然而，AIFNet采用了先进行焦散图估计网络，然后进行去模糊网络的方法，而我们的网络是一种端到端的架构，没有明确的焦散图估计。为了比较这两个网络，我们只在LFDOF上训练和测试它们的性能。表8显示，我们的网络架构在PSNR方面比AIFNet高出0.726dB，而没有焦散图的帮助。准确的焦散图可能无法提升恢复性能，而不准确的焦散图将限制或阻碍性能。这进一步验证了我们提出的网络架构的有效性。0在LFDOF上的方法评估0AIFNet 29.677 0.884 0.202 我们的 30.403 0.8910.1450表8.在LFDOF测试集的725张图像上评估AIFNet和我们的网络的定量比较。这两个网络都是在LFDOF训练集上训练的。06. 结论0我们提出了一种新颖的方法，利用光场的合成孔径和重焦特性以及真实捕获的散焦模糊数据集来解决单幅图像散焦去模糊问题。我们的端到端神经网络配备动态残差块，被证明对于去除空间变化的散焦模糊是有效的。我们使用MAE损失在光场生成的数据集上训练我们的网络，以获得更好的像素对应关系，然后使用特征损失在真实散焦数据集上训练，充分利用两种类型数据的优势。我们已经证明这种训练策略可以应用于改进几种现有的学习方法的性能。广泛的比较和消融研究已经证明了我们方法的有效性，在多个测试集上的性能明显优于其他方法。局限性尽管表现出竞争性能，我们提出的方法与Lee等人[16]和Son等人[36]在处理具有不规则形状和混合物体运动的模糊方面存在一些相似的局限性。我们在补充材料中包括了这些失败案例。我们的未来工作将考虑这些具有挑战性的情况。163120参考文献0[1] Abdullah Abuolaim, Mahmoud Afifi和Michael S Brown.改进单幅图像散焦去模糊：通过多任务学习利用双像素图像的帮助. 在IEEE冬季计算机视觉应用会议论文集中, pages 1231–1239,2022. 20[2] Abdullah Abuolaim和Michael S Brown.使用双像素数据进行散焦去模糊. 在欧洲计算机视觉会议中, pages111–126. Springer, 2020. 1 , 2 , 4 , 5 , 6 , 70[3] Abdullah Abuolaim, Mauricio Delbracio, Damien Kelly,Michael S Brown和Peyman Milanfar.通过真实建模双像素数据学习减少散焦模糊.在IEEE国际计算机视觉会议论文集中, pages 2289–2298, 2021.20[4] Robert C Bolles, H Harlyn Baker和David H Marimont.空间平面图像分析：一种从运动中确定结构的方法.国际计算机视觉期刊, 1(1):7–55, 1987. 30[5] Laurent D'Andr`es, Jordi Salvador, Axel Kochale和SabineS¨usstrunk. 无参数模糊图回归用于景深扩展. IEEE图像处理期刊,25(4):1660–1673, 2016. 10[6] DA Fish, AM Brinicombe, ER Pike和JG Walker.通过Richardson-Lucy算法进行盲反卷积. 美国光学学会A杂志,12(1):58–65, 1995. 20[7] Thomas Hach, Johannes Steurer, Arvind Amruth和ArturPappenheim. 用于真实场景的电影般的背景虚化渲染.在第12届欧洲视觉媒体制作会议论文集中, pages 1–10, 2015. 10[8] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度残差学习用于图像识别.在IEEE计算机视觉和模式识别会议论文集中, pages 770–778,2016. 30[9] Xu Jia, Bert De Brabandere, Tinne Tuytelaars和Luc V Gool.动态滤波网络. 神经信息处理系统进展, 29:667–675, 2016. 2 , 30[10] Younghyun Jo, Seoung Wug Oh, Jaeyeon Kang和SeonJoo Kim.使用动态上采样滤波器的深度视频超分辨率网络，无需显式运动补偿. 在IEEE计算机视觉和模式识别会议论文集中, pages 3224–3232,2018. 2 , 30[11] Justin Johnson, Alexandre Alahi和Li Fei-Fei.用于实时风格转换和超分辨率的感知损失.在欧洲计算机视觉会议中, pages 694–711. Springer, 2016. 40[12] Ali Karaali和Claudio Rosito Jung.基于边缘的自适应尺度选择的散焦模糊估计. IEEE图像处理期刊,27(3):1126–1137, 2017. 1 , 20[13] Soo Ye Kim, Hyeonjun Sim, and Munchurl Kim. Koalanet:Blind super-resolution using kernel-oriented adaptive localadjustment. In Proceedings of the IEEE Conference onComputer Vi

下载后可阅读完整内容，剩余1页未读，立即下载