自监督学习：从单个图像学习去噪

117 浏览量更新于2023-10-25 收藏 1.55MB PDF 举报

深度学习

训练模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1890ΣSelf2Self With Dropout：从单个图像学习自监督去噪权玉辉1、陈明琴1、庞同耀2、辉吉21华南理工大学计算机科学与工程学院，广州5100062新加坡国立大学数学系，119076，新加坡csyhquan@scut.edu.cn、csmingqinchen@mail.scut.edu.cn、matpt@nus.edu.sg和matjh@nus.edu.sg摘要在过去的几年中，监督式深度学习已经成为图像去噪的一种强大工具，它在噪声/干净图像对的外部数据集上训练去噪网络。然而，对高质量训练数据集的要求限制了去噪网络的广泛适用性最近，已经有一些工作，允许训练一个去噪网络的外部噪声图像集仅。进一步，本文提出了一种只利用输入噪声图像本身进行训练的自监督学习方法。在所提出的方法中，对输入图像的伯努利采样实例的配对上的网络进行训练与dropout，并且通过平均从具有dropout的训练模型的多个实例生成的预测来估计结果。实验结果表明，该方法不仅显著优于现有的单图像学习或非学习方法，而且与外部数据集训练的去噪网络相比也具有竞争力1. 介绍图像去噪是从含噪图像中去除测量噪声的过程。它不仅具有很大的实用价值，而且在许多图像再加工任务中都充当着核心模块的角色。噪声图像y通常被建模为y=x+n，（1）其中，x表示干净图像（地面实况），n表示通常假设为随机的测量噪声。近年来，深度学习已成为图像去噪的一种重要方法，它使用一组训练样本来训练深度神经网络（NN），由Fθ（·）表示，参数为向量θ，将噪声图像映射到其干净的对应物。大多数现有的深度学习-基于去噪方法（例如，[26，31，32]）使用许多对干净/有噪声的图像，由{x（i），y（i）}i表示，作为训练。ing样本，训练是通过解决minL（Fθ（x（i）），y（i）），（2）θ我其中L（·，·）测量两个图像之间的距离。大量训练样本的可用性是影响这些方法性能的一个关键因素耗氧物质有时，收集有用的干净/嘈杂图像对的大型数据集可能是昂贵且困难的。最近，有一些研究训练去噪神经网络只有外部噪声图像。Noise2Noise（N2N）方法[19]表明，可以使用同一场景的多对两个噪声图像来训练去噪NN模型使用自预测损失，以及所谓的盲点策略来避免学习身份映射， Noise2Void （ N2V ）方法 [15] 和 Noise2Self（N2S）方法[3]显示了在一组无组织的外部噪声图像上学习具有良好性能的降噪NN的可能性。然而，为了实现良好的性能，用于训练的外部图像应该在图像内容和噪声统计方面与正在处理的噪声图像高度相关收集这种外部图像在实践中可能是昂贵的或具有挑战性的。因此，研究一种不需要训练样本的强去噪神经网络具有重要的意义。也就是说，去噪NN仅在输入图像本身上学习。到目前为止，这方面的工作很少基于深度图像先验（DIP），Ulyanov等。[25]提出了一种用于图像恢复的单图像深度学习模型。上述基于数据集的N2V和N2S方法也可以仅使用噪声图像来训练然而，这些方法的性能与现有的非局部方法，例如，没有竞争力。BM3D [10]。总而言之，在仅给定输入噪声图像的情况下，关于如何训练具有良好性能的去噪NN没有令人满意的解决方案。1.1. 目标和基本思想基于其实用价值和缺乏好的解决方案，本文旨在开发一种基于神经网络的去噪器，它具有良好的性能，但可以训练1891^˜˜˜˜^.Σ^^^只在给定的噪声图像上。换句话说，本文考虑两个集合{ym}m，{yn}n独立伯努利研究如何训练去噪神经网络Fθ （· ）：y→x ，（3）仅使用输入噪声图像y本身。与有监督的深度学习相比，基于单图像的自监督学习更具挑战性。当在单个图像上训练NN时，过拟合要严重得多。去噪NN可以被解释为贝叶斯估计器，其预测精度通过以下方式测量：y的采样实例。 Pro的两个主要组成部分提出的方案概述如下。• 训练通过使用Bernoulli dropout最小化以下损失函数来训练NN：minL（Fθ（y m），y− y m）.θM• Test.将每个yn馈送到具有Bernoulli dropout的训练模型以生成预测xn。然后输出均方误差（MSE）：所有预测的平均值{xn}n结果MSE =偏倚2+方差，（4）当训练样本的数量从多个减少到一个时，方差将急剧增加。盲点技术[15，3]可以克服一种过拟合现象，即.该模型收敛到恒等映射。然而，它是不是有效地减少由单一的训练样本造成的大的方差。因此，现有的基于盲点的神经网络，例如。N2V和N2S在单个图像上训练时表现不佳。简而言之，方差减小是在单个图像上进行自监督学习的关键为了减少基于NN的贝叶斯估计的方差，我们的解决方案是基于丢弃的Dropout[24]是一种广泛用于深度NN的正则化技术。它指的是在训练NN时随机丢弃节点，这可以被视为使用单个NN来近似大量不同的NN。换句话说，dropout提供了一种计算效率高的方法来训练和维护多个NN模型进行预测。由于dropout [12]引入的模型不确定性，这些模型的预测可能具有一定程度的统计独立性，因此这些预测的平均值将降低结果的方差。实际上，dropout与N2V中用于避免收敛到恒等映射的盲点策略密切相关。请注意，盲点策略通过替换随机采样y来合成噪声图像y的多个噪声版本，因此，它可以被视为具有特定连接性的NN的第一层和最后一层中的某种形式的丢弃。基于上述讨论，我们提出了一种基于丢弃的单图像自监督去噪神经网络学习方案。我们的计划使用的自预测损失定义的伯努利采样的输入图像的实例对。具有概率p的图像y的伯努利采样实例y定义为：y[k]=y[k]，概率为p;0，概率为1-p。注1. 在训练分类神经网络时，经常会出现辍学现象。大多数用于图像恢复的神经网络都是在无辍学的情况下训练的。此外，在图像恢复测试期间很少看到dropout的使用本文表明，在训练和测试中使用dropout是非常有效的提高性能时，训练去噪神经网络只有一个输入噪声图像。其主要原因是它能有效地减小预测的方差。1.2. 贡献与意义在本文中，我们提出了一种自监督的dropout NN，称为Self2Self（S2S），用于图像去噪，它允许在单个噪声图像上进行训练我们的技术贡献总结见下文• 使用Bernoulli采样样本训练去噪NN，并采用基于部分卷积的实现。只给出一个没有地面实况的噪声图像，我们建议使用其Bernoulli采样实例，用数学证明训练NN。同时，用部分卷积代替标准卷积对采样像素进行重新归一化，进一步提高了性能。• 在训练和测试中使用Bernoulli dropout来减少方差。将去噪NN解释为贝叶斯估计器，方差减小是单图像自我监督训练。基于dropout引入的模型不确定性，我们建议在训练和测试阶段使用Bernoullidropout来减少预测的方差。• 与现有解决方案相比，性能得到了可靠的改进。在不同场景下的盲去噪实验表明，比现有的单图像方法有很大的优势。更重要的是，它的性能甚至可以与在外部图像数据集上训练的去噪神经网络竞争，例如。N2N。本文的工作具有一定的研究和应用价值。深度去噪神经网络在最近的图像恢复方法的发展中已经是一个非常基本的工具。然而，大多数现有的基于NN的方法具有1892Σprerequisite on a large amount of training data relevant tothe target images, which limits their broader applicability.数据收集的问题仍然存在，即使一些方法只需要噪声/噪声图像对（例如，N2N）或无组织的噪声图像（例如，N2V、N2S）。一种不需要训练数据的图像去噪神经网络由于其方便性而在实践中受到欢迎。尽管单图像自监督学习对于图像去噪NN的重要性，但是很少有解决方案，并且它们的性能与那些基于数据集的学习方法没有竞争力。本文表明，它是可能的，训练一个去噪神经网络具有竞争力的性能，使用单一的噪声图像本身。本文提出的单幅图像自监督学习的结果不仅提供了一种具有实际应用价值的基于神经网络的图像去噪方法，而且对自监督学习在其他图像复原问题中的进一步研究具有启发意义。2. 相关工作关于图像去噪有大量的文献。下面的回顾更侧重于与我们的工作密切相关的学习型基于非学习的图像去噪器。大量的图像去噪器是非学习的，它们将一些预定义的图像先验信息施加到地面真实图像上来指导去噪。图像梯度的稀疏性先验是图像去噪中一个广泛使用的先验，它导致了各种各样的与正则化相关的正则化方法，例如：总变分去噪[6]。另一个突出的问题是非局部方法所采用的补丁递归先验。其中，BM3D [10]是表现最好的一个，它将协同过滤应用于类似的补丁。图像去噪器在干净/嘈杂的图像对上学习。近年来，许多监督学习方法被发展用于图像去噪，这些方法在一组干净/有噪图像对上学习去噪器。其中一些学习展开去噪过程的参数; e.G. [23、9、30]。更突出的训练深层神经网络作为降噪器;参见例如。[26、31、32、8、18、13、14]。其中，使用残差学习进行盲去噪的DnCNN[31]是基于NN的图像去噪器的常见基准。使用多个噪声图像训练的深度图像去噪器。上述N2 N方法[19]没有使用干净/嘈杂图像对进行训练，而是使用同一场景的两个嘈杂图像对成功地训练了去噪NN。它的性能接近于使用干净/嘈杂对训练的NN。实际上，只要有噪声/有噪声对的噪声是独立的，这样的对的MSE的期望值就与清晰/有噪声对的MSE的期望值相同。然而，收集许多图像对仍然是困难的。Cha等人[5]通过使用GAN合成噪声图像对来缓解这个问题。代替使用有组织的噪声图像对，一些方法[15，16，3，17]仅使用无组织的噪声图像进行NN训练，这通过定义有效的自预测损失来完成给定一组噪声图像{yi}i，训练使用标准损失函数的NNiL（Fθ（yi），yi），可以导致严重的过拟合，使得Fθ收敛到恒等映射。避免趋同于同一个-拓扑映射是图像去噪中自监督学习的一个主要关注点。基于自动编码器的去噪NN [27]使用排除识别映射的架构解决了这种问题，但其性能不令人满意。N2V [15]中提出的盲点机制通过仅允许NN通过其相邻像素预测每个像素来避免学习身份映射该实现是通过随机选择噪声图像的图像像素并将每个所选像素的值替换为随机选择的相邻像素的值来类似的方案用于并行工作N2S [3]和N2VLaine等人[17]通过排除其感受野中的中心像素，将图像去噪器仅从单个噪声图像中学习。基于学习的图像去噪方法对训练样本没有任何要求，在实际应用中是最灵活的。基于稀疏编码的去噪器从噪声图像中学习字典[11，1，2，22]或小波紧框架[4]，并且去噪结果被定义为对学习系统的输入的稀疏近似。很少有研究训练去噪神经网络只使用一个单一的噪声图像。一种是DIP方法[25]。它假设，当学习一个神经网络来近似一个降级的图像，有意义的图像模式学习优先于随机模式，如噪声。因此，它训练一个生成NN，将随机输入映射到给定的DIP算法虽然简单，但其性能并不令人满意，且对迭代次数敏感，其最佳值难以确定。通过将训练数据定义为仅单个噪声图像，上述N2V和N2S可以扩展到单图像学习的情况。然而，他们的表现也没有竞争力。3. 主体本节首先介绍我们的Self2Self NN的架构，然后详细讨论自监督训练和去噪的方案。3.1. NN体系结构所提出的Sefl2Self NN的图如图所示。1.一、简而言之，它是一个编码器-解码器NN。给定输入1893^^Σ^^^F（y）−x<$θm联系我们^^BM48484896964814496+C96⋯⋯EB6：（>2H）x（>2 W）输入EB1：高x宽EB2：（½H）x（½W）EB5：（16H）x（16W）DB1：（16H）x（16W）DB4：（½H）x（½W）DB5：高x宽输出伯努利下降PConv + LReLU最大池化 Concate上采样丢弃+Conv + LReLU图1.建议的Self2Self NN的架构。对于大小为H×W×C的噪声图像，编码器首先将图像映射到具有部分卷积（PConv）层的H×W×48特征立方体[20]，然后对其进行处理通过以下六个编码器每个其中，k表示逐元素乘法，b表示二进制伯努利向量的一个实例，其条目以概率p∈（0，1）从伯努利分布独立采样。然后，一组图像对前五个EB依次连接PConv层、泄漏层、整流线性单元（LReLU），以及具有{（ym，ymMm=1 定义为：对于每个m，2×2感受野，步幅为2。最后一个EB包含PConv层和LReLU。所有EB的通道数量固定为48编码器的输出是一个大小为H/32×W/32×48的特征立方体。解码器包含五个解码器的块（DB）。每个y m：=b my;ym：=（1−b m）y。（六）在这样一组图像对中，通过最小化以下损失函数来训练NNFθ（·）M的前四个DB顺序地连接具有缩放因子2的上采样层，级联（Concate）minθ<$Fθ（ym）−ymm=1第二条第七款操作和两个标准卷积（Conv）层式中，·2=（1−b）·2。可以看出，与LReLU。DB中的所有Conv层都配置为b2dropout的。DB中的Concate操作将来自上采样层的特征立方体和对应EB中的LReLU输出的特征立方体进行堆叠。前四个DB中的所有Conv层都有96个输出通道。最后一个DB包含三个具有LReLU的dropout Conv层，用于将特征立方体映射回大小为H×W×C的图像，这些Conv层的输出通道数分别为64，32，C我们的NN的架构与在一些现有的方法中使用，例如N2N [19]。主要区别如下。首先，我们在解码器中的Conv层中引入在dropout Conv层中，每个权重条目都以一定的概率设置为零，并且那些未触及的条目将被缩放以保持能量。其次，我们使用部分卷积代替标准卷积，每一对仅在被掩蔽在BM。由于使用伯努利过程随机选择掩蔽像素，因此所有对上的损失的总和测量所有图像像素上的差异。显然，我们采用的Bernoulli采样可以避免NN收敛到单位映射。此外，使用Bernoulli采样实例对进行训练{ym，ym}与使用伯努利采样实例ym和地面实况x，es的对进行训练非常相关。特别是当许多这样的对用于训练时。见以下命题。1.提案假设噪声分量是独立的和零均值的损失函数的期望（7）关于噪音，在编码器中加入了dard类，进一步提高了神经网络训练的有效性和效率。有关部分卷积的更多详细信息，请参见M2BMm=1M2BMm=1、（8）3.2. 培训计划由于NN仅在单个噪声图像y上训练，因此我们需要从y生成多个图像对，这些图像对与y不同，但覆盖了y的大部分信息。有了这个目标，我们生成一组伯努利采样实例其中σ（i）表示n（i）的标准差。证据详见补充资料。由于伯努利采样可以被视为输入层，，表示为{ymMm=1.回想一下，对于y，它的伯努利对于dropout，使用Bernoulli采样实例，噪声图像也可以被视为具有dropout的学习采样实例可以表示为y：=by，）}ǁ}1894（5）单个图像。在计算过程中，我们不需要事先创建整个Bernoulli样本数据集1895ΣΣ但是只在输入层上启用dropout而不进行能量缩放，并且在每次迭代时将输入噪声图像的副本传递到NN。为了进一步改进，数据扩增也用于通过水平地、垂直地和对角地翻转输入图像来实现因此，我们总共有四个版本的y用于训练。3.3. 去噪方案用dropout训练的NN提供了一组NN，其某些权重遵循独立的伯努利分布。测试具有dropout的NN的常见方案是使用其权重由其相关的伯努利概率缩放的NN。在我们的情况下，dropout用于减少预测的方差，我们建议从训练的NN中生成多个NN，以便具有可能具有一定独立程度的多个估计量。为了去噪，通过在训练的NN F θ 1的配置层上运行dropout来形成多个NN Fθ1，···，FθN。然后，通过将y的伯努利采样实例馈送到每个新形成的NN。然后对恢复的图像进行平均以获得最终结果x：4.2.盲高斯去噪在加性高斯白噪声（AWGN）的情况下，使用两个数据集进行性能评估，包括[25]中使用的9个彩色图像的Set9和[15]中使用的68个灰度图像的BSD 68。我们的实验遵循[25，15]，在高噪声水平上进行更多试验。图像被具有噪声电平的AWGN破坏：对于Set 9，σ=25、50、75、100;对于BSD 68，σ =25、50。与基于单个图像的方法的比较。选择几种具有代表性的具有已发布代码的基于单图像的去噪方法进行比较：KSVD [11]、PALM-DL [2]、（C）BM3D [10]和DIP [25]。（C）BM3D是众所周知的非局部方法，KSVD和PALM-DL是两种基于字典学习的方法，DIP是一种基于无监督深度学习的方法。（C）BM 3D、KSVD和PALM-DL对噪声水平是非盲的，而DIP如果以通用最大迭代数停止则是盲的。然而，我们发现，DIP的性能是敏感的迭代次数为不同的噪声水平，它变得更好，如果迭代停止，一旦残差匹配给定的噪声水平。因此，我们使用这样的DIP的非盲版本，由DIP* 表示，用于比较。x=1NN1x=Nn=1NFθnn=1（bM+n）（见图1）。（九）儿子此外，我们的方法与N2V和N2S的单图像扩展进行了比较，表示为N2V（1）和N2S（1），使用论文GitHub网站上的代码。注意在实现中，上述过程可以通过简单地收集通过训练模型Fθn的随机前向传递的结果。此外，这样的向前传递可以同时进行[12]，从而导致与标准dropout相同的恒定4. 实验该方法在几个去噪任务上进行了评估：包括盲高斯去噪，真实世界的噪声图像去噪和椒盐噪声去除。由于篇幅所限，本节只给出部分结果更多的结果可以在我们的补充材料中找到。4.1. 实现细节在整个实验中，所有PConv层和Conv层的内核大小为3×3，步长为1，零填充长度为2。每个LReLU的超参数设置为0。1.一、所有的退出都是逐元素进行的，退出概率设置为0。3 .第三章。伯努利抽样的概率也被设置为0。3 .第三章。Adam优化器用于训练。学习率初始化为10−5，其中4。5×105训练步骤。在测试过程中，我们使用dropout50次来生成最终结果。随着并行计算同时处理多个图像，我们的实现需要大约1。使用RTX2080Ti GPU处理平均大小为256×256的图像需要2我们的代码将在GitHub上发布N2V（1）、N2S（1）和我们的产品对噪音水平视而不见。对比见表1和图2。(a)毫不奇怪，我们的方法比KSVD和PALM-DL有很大的优势，这归因于深度学习优于字典学习。（b）与基于单图像学习的去噪神经网络（包括DIP*、N2V（1）和N2S（1））相比这表明了在测试中使用我们的基于辍学的合奏的有效性。(c)与非学习方法中的一个顶级执行者（C）BM 3D相比，我们的方法在所有其他噪声水平上都表现得更好。与基于以太网的深度学习的比较方法.我们的方法还与最近几种基于神经网络的深度学习方法进行了比较，其中包括N2V [15]，N2S [3]，N2N [19]和（C）DnCNN [31]。回想一下，N2 V和N2 S是在无组织的噪声图像上训练的，N2 N 是在成对的噪声图像上训练的，（C）DnCNN是在干净/噪声图像对上训练的。遵循N2 V关于N2N，我们使用其已发布的在彩色图像上训练的模型，其中噪声水平范围L=[0，50]，用于在Set9上进行测试，其中σ=25，50。对于其他设置，我们使用CBSD 300和N2N的噪声图像对生成方案来训练N2N的模型。对于（C）DnCNN，我们使用L=[0，55]上的预训练模型进行测试，1896表1.Set 9和BSD 68上AWGN去除结果的平均PSNR（dB）/SSIM（1.00E-1）所有方法中的最佳结果用粗体标记，基于单图像的方法或基于小块的深度方法中的最佳结果用下划线标记。数据集σ单图像学习或非学习方法基于数据集的深度学习方法KSVDPALM-DL（C）BM3DN2V（1）N2S（1）DIP*我们N2VN2sN2n（C）DnCNN2530.00/9.35 29.84/9.32 31.67/9.55 28.12/9.12 29.30/9.40 30.77/9.42 31.74/9.5630.66/9.47 30.05/9.44 31.33/9.57 31.42/9.56Set9507526.50/8.7024.29/8.1026.64/8.7024.55/8.1228.95/9.2227.36/8.9526.01/8.7524.18/8.2727.25/9.0425.85/8.6128.23/9.1026.64/8.8329.25/9.2827.61/9.0127.81/9.1225.99/8.7527.51/9.0526.49/8.8228.94/9.2927.42/9.0528.84/9.2527.36/9.0110023.12/7.70 23.18/7.67 26.04/8.68 23.55/7.80 24.67/8.48 25.41/8.58 26.27/8.7725.37/8.58 25.46/8.57 26.45/8.86 26.30/8.78BSD68255028.42/7.9625.08/6.5328.24/7.9025.09/6.4928.56/8.0125.62/6.8725.34/6.8123.85/6.1827.19/7.6924.53/6.4227.96/7.7425.04/6.4528.70/8.0325.92/6.9927.72/7.9425.12/6.8428.12/7.9225.62/6.7828.86/8.2325.77/7.0029.14/8.2226.20/7.1530.第30章. 78 dB）PALM-DL（30. 77分贝） CBM3D（32. 73 dB）DIP*（32. 57 dB）N2V（1）（28. 19 dB）N2S（1）（29. 51分贝）N2V（30. 73 dB）N2S（30. 25 dB）N2N（31. 56 dB）DnCNN（32. 82分贝）我们的（33. 29 dB）真实值（PSNR）图2.在具有噪声水平σ = 25的Set9的图像“F16”上的盲AWGN去噪的视觉结果σ=25，50，并使用CBSD 500 [21]在L=[55，110]上重新训练其模型，其中σ=75，100。对比见表1。(a)正如预期的那样，深度学习从足够的高质量训练数据中受益匪浅，这些数据具有噪声/干净的图像对，并且（C）DnCNN是BSD 68中表现最好的。(b)令人惊讶的是，我们的方法比使用无组织训练样本训练的N2V和N2S表现得更好。一个原因可能是无组织的训练样本不能为正在处理的噪声图像提供准确的真实信息。但是，由于训练数据随不同的模式和不同的噪声水平而变化，这可能会将误导性的无关特征引入神经网络。相比之下，我们的方法避免了这样的问题，因为训练是在正在处理的噪声图像上进行的。(c)非常令人惊讶的是，我们的方法在许多情况下甚至优于N2N和DnCNN，尽管它们是在具有配对样本的数据集上训练的，而我们的方法仅使用单个噪声图像进行训练4.3. 消除真实世界图像噪声在PolyU数据集[28]上进行了真实世界噪声图像去噪的性能评估，其中100真正干净/嘈杂的彩色图像对。我们的方法与CBM3D，TWSC [29]，DIP，N2V，N2S和CDnCNN进行了我们随机选择 70 张图像用于训练 N2V ， N2S 和DnCNN，其余图像用于测试。这些神经网络的训练，使用他们公布的代码与我们的努力参数调整。噪音水平是由方法[7]用于CBM3D。表2.理大的平均PSNR（dB）/SSIM结果度量PSNRSSIMCBM3D TWSC烫N2VN2S CDnCNN36.980.97736.100.96336.95 34.08 35.460.975 0.954 0.96537.550.983我们37.520.980定量评价见表2。Our method performs better than thenon-learning methods including BM3D and TWSC, whichshows the power of deep learn- ing.此外，除了CDnCNN之外，我们的方法明显优于其他基于深度学习的方法，无论是基于单图像还是基于图像集的方法。我们取得优异结果的原因可能是训练样本的内容非常多样化，因此训练样本和目标图像之间的相关性并不强。1897如此脆弱的心-189833 .第三十三章55）DIP（34. 20）N2V（32. 92）输入（50%下降）DIP（32. 22分贝）我们的（36. 32分贝）N2S（32. 87）CBM3D（34. 34.第三十四章：一个女人26）输入（70%下降）DIP（27. 72分贝）我们的（30. 47分贝）TWSC（33. 34.第34章我的女人69）真值（PSNR（dB））输入（90%下降）DIP（25. 92分贝）我们的（27. 57分贝）图3.去噪结果对现实世界的噪声图像。图4.去除（修复）胡椒噪声的可视化。表3.Set 11上修复结果的平均PSNR（dB）/SSIM4.4. 去除椒盐噪声及其他从图像中去除椒盐噪声（脉冲噪声）可以被视为修复随机丢失的图像像素。在DIP之后，我们使用Set11数据集[25]进行修复的性能评估（即，非盲地去除椒盐噪声）。由于像素值被椒盐噪声完全擦除，我们只使用未损坏的像素来训练NN。也就是说，仅在未损坏的像素上运行为了生成用于评估的损坏图像，我们分别以50%，70%和90%的比例随机丢弃每个图像的像素除了DIP，我们还使用CSC [22]，一种基于字典学习的修复方法进行比较。定量比较见表3。我们的方法是远远优于DIP和CSC。关于三个图像的视觉比较，也参见图4图像修复。我们的方法还测试了修复丢失的图像区域。两个演示见图5。可以看出，我们的结果的图像质量优于DIP。例如，DIP在鼻子周围产生了微弱的文字印记，而我们的结果并非如此。输入（17. 09分贝）38. DIP 81分贝）43.第四十三章22分贝）输入（13. 56分贝）32. DIP 95分贝）34.第三十四章00dB）图5.文字/涂鸦修复的视觉效果。4.5. 消融研究为了评价其单个组件的有效性，在σ=25的Set9数据集上对我们的方法进行了以下消融研究。(a)无脱落：训练数据和测试图像之间的关系可能会出错，跌落率CSC烫我们领导NN。请注意，我们的定量结果非常百分之五十32.97/0.91233.48/0.93035.14/0.954接近于CDnCNN，在一些图像上，我们的结果百分之七十28.44/0.85528.50/0.84831.06/0.897甚至更好一些视觉比较见图3百分之九十24.34/0.71224.24/0.72725.91/0.7921899在训练和测试期间，禁止所有层的dropout;（b）不包括全体：在测试中直接使用训练好的dropout神经网络，而不使用基于dropout的集成;（c）不取样：使用原始输入图像而不进行伯努利采样;（d）w/o PConv：将所有PConv层替换为Conv层。对比见表4，得出以下结论。(a)“我们的”与“我们的”的比较“w/o dropout”显示了dropout在我们的方法中的重要作用，因为它会导致PSNR显著下降，约为7。3dB，如果在训练或测试中均未涉及脱落。（b）第（1）款当训练具有单个图像的NN时，使用丢弃本身的训练是至关重要的，因为“w/o集合”与“w/o集合”的比较。“w/o dropout”，表明在训练中仅使用dropout也会导致显著的改进。这证明了辍学大大有助于克服我们设置中的过拟合问题(c)“我们的”与““w/o ensem-ble”，表明在测试中运行dropout是很重要的，因为它带来了大约1。PSNR增益为7dB这证明了基于丢弃的集成在方差缩减方面的(d)“w/o采样”的结果(e)“w/o PConv”的结果表4.组9的消融研究结果，σ= 25。消融（w/o）辍学合奏采样PConv我们峰值信噪比（dB）23.8829.9223.1231.2631.74SSIM0.6580.9320.7440.9380.9564.6. 更多的分析辍学群体的行为。在图6中，我们展示了预测时间，（9）中的N值如何影响两个样本图像的去噪性能。我们可以看到，PSNR值随着测试期间用于平均的预测的增加而增加。当使用足够的预测时，性能增益饱和。因此，我们训练的神经网络在测试中可以产生相当独立的结果，使得它们的平均值能够有效地减少预测的方差图6. PSNR与预测时间。蓝色条表示单个推断的PSNR结果，红色曲线表示累积平均PSNR。迭代的稳定性。如前所述，DIP的性能对迭代次数很敏感。从图中可以看出。7. DIP对于不同的图像在不同的步长（灰度点）处具有其最佳性能，并且在通过最佳步长之后其性能可能有明显的下降。相比之下，图7表明，在足够的训练步骤后，我们的方法的性能不受影响。这样的特征对于实际使用是有吸引力的，因为它需要很少的手动干预。图7. PSNR与训练迭代次数。5. 结论我们提出了Self2Self，这是一种用于图像去噪的自监督深度学习方法，它只使用输入噪声图像本身进行训练，因此对训练数据收集没有先决条件。当在单个噪声图像上训练去噪NN时，我们用于减少预测方差的方法是基于丢弃的方案。在训练和测试过程中使用丢弃，这带来了地面实况图像的不同估计，其被平均以产生具有减小的预测方差的最终输出。大量的实验表明，我们的去噪神经网络训练建议的Self2Self计划的性能是远远优于其他非基于学习的去噪和单图像学习去噪。它甚至接近那些基于数据集的深度学习方法。本文提出的结果可以启发进一步研究自监督学习技术在图像恢复。确认全昱辉感谢国家自然科学基金（ 61872151 ，U1611461 ）、广东省自然科学基金（ 2017A030313376 ）和中央高校基础研究基金（ x2 js-D2181690）的资助Pang Tongyao和Hui Ji感谢新加坡MoE学术研究基金（AcRF）Tier 2研究项目（MOE2017-T2-2-156）的支持。1900引用[1] 包成龙，蔡剑锋，姬慧。基于稀疏性的快速正交字典学习图像复原。在Proc. ICCV，第3384-3391页，2013中。3[2] 包成龙、姬慧、权玉慧、沈作伟。用于稀疏编码的字典学习：算法和收敛性分析。Trans.模式分析马赫内特尔，38（7）：1356-1369，2015. 三、五[3] 乔舒亚·巴特森和罗伊克·罗耶Noise2self：通过自我监督进行盲去噪。ICML，2019年。一、二、三、五[4] 蔡建峰，季辉，沈佐伟，叶贵波。数据驱动的紧帧构造和图像去噪。Appl.Comput. Harmonic肛门，37（1）：89-105，2014. 3[5] Cha Sungmin，Taeeon Park和Taesup Moon。Gan2gan：生成式噪声学习，用于单噪声图像的盲图像arXiv预印本arXiv：1803.04189，2019。3[6] 安东宁·钱博尔一种全变差最小化算法及其应用。J.Math. Imaging Vision，20（1- 2）：89-97，2004。3[7] 陈光永、朱凤源、彭安恒。图像噪声水平估计的一种有效统计方法。在Proc. ICCV，第477-485页，2015中。6[8] 陈静雯，陈嘉伟，赵宏阳，杨明。基于生成对抗网络噪声建模的图像盲去噪在Proc. CVPR，第3155- 3164页，2018年。3[9] Yunjin Chen和Thomas Pock。可训练的非线性反应扩散：一个灵活的框架，快速有效的图像恢复。Trans.模式分析马赫内特尔，39（6）：1256- 1272，2016. 3[10] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE传输图像处理。，16（8）：2080-2095，2007.一、三、五[11] Michael Elad和Michal Aharon通过学习字典上的稀疏和冗余表示进行图像去噪。IEEE传输图像处理。，15（12）：3736-3745，2006. 三、五[12] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型的不确定性。在 Proc.ICML，第1050-1059页，2016年。二、五[13] 史国，严子飞，张凯，左王梦，张磊。真实照片的卷积盲去噪。在Proc. CVPR，2019年6月。3[14] Xixi Jia，Sanyang Liu，Xiangchu Feng，and Lei Zhang.Foc-net：一种用于图像去噪的分数最优控制网络.在Proc. CVPR，第6054-6063页，2019年。3[15] Alexander Krull，Tim-Oliver Buchholz，and Florian Jug.Noise 2 void-learning 从单个噪声图像去噪。在Proc.CVPR，第2129-2137页，2019年。一、二、三、五[16] 亚历山大·克鲁尔托马斯·维卡和弗洛里安·贾格概率噪声2void：无监督内容感知去噪。arXiv预印本arXiv：1906.00651，2019。3[17] Samuli Laine，Tero Karras，Jaakko Lehtinen，and TimoAila.高质量的自监督深度图像去噪。在Proc. NIPS，第6968-6978页3[18] Stamatios Lefkimmiatis.通用去噪网络：一种新的用于图像去噪的CNN结构。在Proc. CVPR，第3204-3213页，2018年。3[19] Jaakko Lehtinen 、 Jacob Munkberg 、 Jon Hasselgren 、Samuli Laine、Tero Karras、Miika Aittala和Timo Aila。Noise2noise：没有干净数据的学习图像恢复。ICML，2018年。一二三四五[20] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复。Proc. ECCV，第85-100页，2018年。4[21] David Martin，Charless Fowlkes ，Doron Tal，JitendraMalik，et al.人类分割的自然图像数据库及其在评价分割算法和测量生态统计中的应用。ICCV Vancouver：，2001. 6[22] Vardan Papyan，Yaniv Romano，Jeremiah Sulam，andMichael Elad.通过局部处理的卷积字典学习。在Proc.ICCV，第5296-5304页，2017年。三、七[23] Uwe Schmidt和Stefan Roth有效图像恢复的收缩场在Proc. CVPR，第2774-2781页，2014年。3[24] Nitish Srivastava，Geoffrey Hinton，Alex Krizhevsky，Ilya Sutskever，and Ruslan Salakhutdinov. Dropout：防止神经网络过拟合的简单方法。J. 马赫Learning Research，15（1）：1929-1958，2014. 2[25] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。深度图像先

下载后可阅读完整内容，剩余1页未读，立即下载