利用未对齐的数据和网络增强消除图像反射

132 浏览量更新于2023-10-18 收藏 4.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8178利用未对齐的训练数据和网络增强来消除单幅图像反射魏凯旋1杨娇龙2傅颖1魏大卫2 黄华11北京理工大学2微软研究院摘要从通过玻璃窗捕获的单个图像中去除不期望的反射对于视觉计算系统具有实际重要性。尽管最先进的方法在某些情况下可以获得不错的结果，但在处理更一般的现实世界情况时，性能会显著下降这些失败源于单个图像反射去除的内在困难-问题的基本病态，以及解决基于学习的神经网络管道内的这种模糊性所需的在本文中，我们通过利用有针对性的网络增强和新的使用错位数据来解决这些问题。对于前者，我们通过嵌入上下文编码模块来增强基线网络架构，这些模块能够利用高级上下文线索来减少包含强反射的区域内的不确定性对于后者，我们引入了一个不变量损失函数，便于利用更容易收集的未对齐的真实世界训练数据实验结果共同表明，我们的方法优于国家的最先进的对齐的数据，并显着改善时，使用额外的未对齐的数据是可能的。1. 介绍反射是一个经常遇到的来源，图像腐败时，可能会出现通过玻璃表面拍摄这种损坏可以通过单个图像反射去除（SIRR）过程来解决，这是一个具有挑战性的问题，已经引起了计算机视觉界的极大关注[22，25，39，2，5，47，44，38]。基于事务优化的方法通常利用人工干预或强先验假设来使问题更易于处理[22，25]。最近，替代的基于学习的方法依赖于深度对流神经网络（CNN）来代替昂贵的优化和手工制作的先验[5，47，44，38]。但有希望的结果不是-*通讯作者：fuying@bit.edu.cn然而，SIRR在不同的成像条件和变化的场景内容上仍然是一个很大程度上未解决的问题。对于基于CNN的反射去除，我们在本文中的重点，挑战来自至少两个来源：（i）没有反射伪影的背景图像层的提取基本上是不适定的，以及（ii）来自真实世界场景的训练数据由于难以获得地面实况标签而极其稀缺。从数学上讲，通常假设捕获的图像I形成为背景或透射层T和反射层R的线性组合，即，I=T+R。显然，当只允许访问I时，存在无穷多个可行的分解。进一步使问题复杂化的是T和R两者涉及来自可能具有重叠外观分布的真实场景的内容在某些情况下，这可能使它们难以区分，甚至对于人类观察者也是如此，并且除非在特殊条件下，否则可能减轻这种模糊性的简单先验另一方面，虽然CNN可以执行各种各样的视觉任务，有时超过人类的能力，但它们通常需要大量的标记训练数据。不幸的是，真正的反射图像伴随着密集标记，地面实况透射层强度是稀缺的。因此，以前的基于学习的方法采用合成图像[5，38，47]和/或从特定设备捕获的小的真实世界数据[47]进行训练。然而，现有的图像合成过程是启发式的，并且域间隙可能危及真实图像的准确性。另一方面，用精确的地面实况标签收集足够的额外真实数据是非常劳动密集型的。本文致力于解决上述两个挑战。首先，为了更好地解决固有的不适定性并减少歧义，我们建议杠杆化对上下文信息敏感的网络架构，这已被证明对其他视觉任务（如语义分割）请注意，在高层次上，我们的目标是有效地将从标记的训练数据中挖掘的先验信息转换为能够解决这种模糊性的网络结构。在一个跨-8179CNN模型，特别是在有效感受野较小的早期层中，所有通道上提取的特征本质上都是局部的。然而，更广泛的非局部上下文是必要的，以区分那些描述所需的传输图像的特征，以及那些可以被丢弃的反射为基础。例如，在包含特别强的反射分量的图像邻域中，通过任何可能的方法（即使是用任意丰富的训练数据训练的方法）进行的精确分离将可能需要来自没有反射的区域的上下文信息为了解决这个问题，我们利用两种互补形式的上下文，即通道上下文和多尺度空间上下文。关于former，我们将信道注意力机制应用于来自卷积层的特征图，使得根据激活的全局统计对不同的对于后者，我们在每个通道内的特征图尺度的金字塔上聚合信息，以达到空间域中的全局上下文一致性。我们的实验表明，显着的改进，可以通过这些增强，导致国家的最先进的性能在两个真实图像数据集。其次，正交架构的考虑，我们寻求扩大可行的训练数据的来源，促进使用错位的训练对，这是considerably容易收集。输入图像I和地面实况无反射版本T之间的未对准可能由获取过程期间的相机和/或对象移动引起。在以前的作品中[37，46]，通过拍摄玻璃平面的初始照片获得数据对（I，T）此过程要求摄影机、场景甚至照明条件保持静态。在广泛的采集活动中坚持这些要求可以显著减少收集数据的数量和此外，后处理也可能是必要的，以准确对齐I和T，以补偿折射效应引起的空间偏移[37]。相比之下，捕获未对齐的数据的负担要小得多，如图所示。1.例如，不需要三脚架、桌子或其他特殊硬件;摄像机可以手持，姿态可以自由调整;在车辆、人等存在的情况下的动态场景。可以合并;并且最终不需要任何类型的后处理。为了处理这种未对齐的训练数据，我们需要一个损失函数，该函数在可能的范围内对对齐不变，即，网络预测和其未对准参考之间的测量的图像内容差异参考文献实际上是对齐的。在图像风格转移[17]和其他方面，某些感知损失函数已被证明对变量相对不变[46]我们图1：[46]和本文中反射图像数据采集方法的各种转变。我们的研究表明，仅使用深度网络中的最高级别特征（在我们的情况下为VGG-19）可以为我们的反射移除任务带来令人满意的结果。在使用新收集的数据集进行的模拟测试和实验中，我们首次证明，使用未对齐的数据训练/微调CNN可以大幅提高反射去除结果2. 相关工作本文主要研究反射波的消除问题，一个单一的形象。先前的方法利用多个输入图像，闪光/非闪光对[1]、不同偏振[20]、多视图或视频序列[6，35，30，7，24，34，9，43，45]将不会被考虑在这里。传统方法。从单个图像中去除反射是一个严重不适定的问题。在传统的基于优化的方法中，需要额外的先验来解决难以解决的问题[22，25，39，2，36]。在[22]中，用户注释用于与梯度稀疏先验[23]联合引导层分离。[25]引入了相对平滑度先验，其中假设反射是模糊的，因此它们的大梯度被惩罚。[39]探索了平滑先验的变体，其中多尺度景深（DoF）置信图被用于执行边缘分类。[31]利用重影线索进行分层。[2]提出了一种简单的优化公式，在图像平滑算法的启发下，在传输层上具有l0梯度惩罚[42]。尽管这些方法在其假设成立的情况下可以获得不错的结果，但现实世界中巨大不同的成像条件和复杂的场景内容使得它们的推广存在问题。基于深度学习的方法。最近，人们对将深度卷积神经网络应用于单个图像反射去除产生了新的兴趣第一个基于CNN的方法是由于到[5]，其中提出网络结构以首先预测边缘域中的背景层，然后8180n=1θGnn重建颜色域。后来，[38]提出通过两个协作子网络同时预测边缘和图像强度。最近的工作[44]提出了一种级联网络结构，它以交错的方式预测背景层和反射层早期的基于CNN的方法通常使用原始图像强度差异，如均方误差（MSE）来训练网络。最近的几项工作[47 ， 16 ， 3] 采用了感知损失 [17] ，它使用了在ImageNet [29]上预训练的深度网络的多阶段特征。[47]第47段。在[47，21]中研究了对抗性损失，以提高预测背景层的真实性。3. 方法给定被反射污染的输入图像I，我们的目标是估计无反射的透射图像T。为了实现这一点，我们训练了一个由θG参数化的前馈CNNGθG，以最小化反射去除损失函数L.给定训练图像对{（In，Tn）}，n=1，...，N，这涉及求解：θˆ=arg min1<$Nl（G （I），T）.（1）我们首先介绍网络架构的细节GθG之后是损失函数l，适用于对齐数据（常见情况）和新提出的未对齐数据扩展。整个系统如图所示。二、3.1. 基本图像重建网络我们的出发点可以被视为来自[5]的基本图像重建神经网络组件，但在三个方面进行了修改：（1）我们通过移除批归一化（BN）层[14]来简化基本残差块[12];（2）我们通过将网络从64个特征图扩展到256个特征图来增加容量;以及（3）对于每个输入图像I，我们从预训练的VGG-19网络[32]中提取超列特征[10]，并将这些特征与I连接起来作为增强的网络输入。如[47]中所解释的，这种增强策略可以帮助网络从输入图像中学习语义线索。请注意，从我们的网络中移除BN层对于优化当前环境下的性能至关重要。如[41]所示，如果批量太小，预测误差会急剧增加，稳定性也会出现问题。此外，对于诸如SIRR之类的密集预测任务，大批量在存储器需求方面可能变得过于在我们的情况下，我们发现在可用于反射去除的合理批量大小内，BN导致相当差的性能，包括有时在图像到图像转换任务中观察到的颜色衰减/偏移问题[5，15，49]。BN层已经类似地从其他密集预测任务中移除，例如图像超分辨率[26]或去模糊[28]。在这一点上，我们已经构建了一个有用的基础架构，其他更有针对性的改造将很快应用。这个基线，我们将在下文中称为BaseNet，在合成数据上进行训练和测试时表现非常好。然而，当部署在真实世界的反射图像上时，我们发现其性能下降了相当大的程度，特别是在[47]的20个真实图像上。因此，为了更好地缓解从合成图像的虚构世界到真实照片的转变，我们描述了两种修改，用于将更广泛的上下文信息引入到局部卷积滤波器中3.2. 上下文编码模块如前所述，我们考虑通道之间的上下文和通道内的多尺度上下文。明智的上下文。基本设计原则- 这里的目的是在不显著增加参数计数的情况下，引入跨通道的全局上下文信息以及剩余块内的更丰富的总体结构。实现这一点的一种方法是通过合并最初在[13]中开发的通道注意模块，以使用全局汇总统计重新校准特征图。设U=[u1，. . .，uc，. . .，uC]表示由网络块产生的原始的、未校准的激活，具有大小为H × W的C个特征图。这些激活一般只反映了驻留在相应区域内的本地信息响应每个过滤器的感受野然后，我们通过将全局平均池化算子fgp应用于每个特征图uc∈RH×W来形成标量的通道特定描述符zc=fgp（uc）。向量z=[z1，. . .，zC]∈RC表示全局、每通道激活的简单统计汇总，并且当通过小网络结构时，可以用于自适应地预测各频道[13]更具体地，信道注意模块首先计算s=σ（WU δ（WDz）），其中WD是将z下采样到维度R C的可训练权重矩阵，δ是ReLU非线性，WU表示可训练上采样权重矩阵，并且σ是S形激活。所得输出向量s∈RC的元素服务于作为通道专用门，用于通过u_c=s_c·u_c校准特征图。因此，尽管每个卷积滤波器具有局部感受域，确定哪些通道在预测传输层和抑制反射中实际上是重要的是基于全局统计量的处理（意味着在推理过程中，当激活通过网络时计算的通道描述符）。此外，由该过程引入的参数开销是非常适度的，因为WD和WU只是与每个块相关联的小的附加权重矩阵8181Adv2ΣAdvVGG 19-功能联系我们1/321/161/8……13阻挡^电子邮件：info@pixel.com.cnF一根绳子。Linv简体中文Ladv对齐数据未对齐数据上采样卷积ReLU残余乙状金字塔全球频道关注1/4块池化池化图2：我们的方法概述单图像反射消除。多尺度空间背景。虽然我们已经发现，跨通道编码上下文信息已经导致对真实世界图像的显著经验增益，但是利用每个通道内的互补多尺度空间信息提供了进一步的益处。为了实现这一点，我们应用了金字塔池化模块[11]，该模块已被证明是语义分割中有效的全局场景级表示[48]。如图2，我们构造这样一个模块，使用大小为4，8，16和32的池操作，位于我们的网络的尾部，然后最终构造T_∞。这种方式中的池化融合了四种不同金字塔尺度下的特征。在收获所得到的子区域表示之后，我们执行非线性变换（即，Conv-ReLU对）以减小通道维度。然后通过双线性插值对细化的特征进行最后，不同层次的特征被连接在一起，作为反映每个通道内的多尺度空间上下文的最终表示;增加的参数开销是可以忽略的。3.3. 对齐数据的训练损失在本节中，我们提出了对齐训练对（I，T）的损失函数，它由三个类似于以前方法的项组成[47，44]。像素丢失。在[5] 之后，我们通过lpixel=αT−T2+β（xT−xT1+yT−yT1）惩罚T和T的逐像素强度差，其中x和y分别是沿x和y方向的梯度算子，活泼地我们设置α = 0。2，β = 0。4在所有的实验中特征丢失。我们基于在ImageNet [29]上预训练的19层VGG网络[33]的激活来定义特征丢失。设φ l是来自VGG-19的第l层的特征，我们将特征损失定义为lλl<$φl（T）−φl（T<$）<$1其中{λl}是平衡权重与[47]类似，我们使用层‘conv3 2’, ‘conv4 2’, and ‘conv5 2’ of VGG-19对抗性损失。我们进一步增加了一个对抗性损失，提高了所产生的背景图像的真实性。我们定义一个对手对抗网络DθD，并最小化相对论性对抗损失[18]，定义为：ladv=lG=−lo g（DθD（T ，T））−lo g（1−DθD（T，T））对于GθG和lD=−lo g（1−DθD（T ，T））−lo g（DθD（T， T））对于DθD 其中DθD（T ，T<$）=σ（C（T）−C（T<$）），其中σ（·）是sigmoid函数，C（·）是未变换的sigmoid函数（详细信息请参见[18]）。总而言之，我们对对齐数据的损失定义为：laligned=ω1lpixel+ω 2lfeat+ω 3ladv（2）其中我们根据经验将权重设置为ω1= 1，ω2= 0。1，ω3= 0。01在我们的实验中。3.4. 未对齐数据的训练损失为了使用未对齐的数据对（I，T）进行训练，我们需要一个对对齐不变量的损失函数，以便可以合理地测量T和预测T在这方面，我们注意到，人类观察者可以很容易地评估两个图像的相似性，即使它们没有对齐。因此，设计一个损失测量图像相似性的感知水平上可以服务于我们的目标。这促使我们直接将深度特征丢失用于未对齐的数据。直觉上，特征越深，就越有可能对未对准不敏感。为了通过实验验证这一点并找到适合我们目的的特征层，我们使用预先训练的VGG-19网络进行了测试，如下给定一个未对齐的图像对（I，T），我们使用梯度下降来微调我们的网络GθG的权重，以最小化T和TθG的特征差异，在VGG-19的不同层提取图3显示，使用从“conv2 2”到“conv4 2”的低级或中级特征相比之下，使用'conv5 2'中的最高级别功能会产生一个惊人的结果：预测的背景图像是清晰的并且几乎没有反射。8182表1：不同设置的比较。我们的完整模型（即ERRNet）在所有比较中导致最佳性能。(a) 输入（b）未对齐参考（c）预先培训（d）l像素（e）conv2 2（f）conv3 2（g）conv4 2（h）conv5 2（一）损失[27]图3：使用不同的损失来处理未对齐的真实数据的效果。(a)和（b）是未对准图像对（I，T）。(c)显示了我们的网络在合成数据和少量对齐的真实数据上训练的反射消除结果（详细信息请参见第4节）。在预测的背景图像中仍然可以观察到反射(d)是在（I，T）上微调的结果，具有逐像素强度损失。（e）-（h）是用VGG-19的不同层只有来自'conv5 2'的最高级别的特征才能产生令人满意的（i）显示了与[27]的损失微调的结果（最佳观看屏幕与缩放）最近，[27]引入了一种“上下文丢失”，它也被设计用于使用未对齐的数据训练深度网络，用于图像到图像的翻译任务，如图像风格转换。在图3中，我们还提出了微调的结果，使用这种损失，我们的反射消除任务。在目视检查时，结果与我们的最高级别VGG特征丢失相似（定量比较可以在实验部分中找到）。然而，我们采用的损失（下面正式定义）比[27]中的损失更简单，计算效率更高。对齐不变损失。基于上述研究，我们现在将为未对齐数据设计的不变损失分量正式定义为linv=φh（T）−φh（T）1，其中φ h表示预训练VGG-19的“conv52”特征。网络对于未对齐的数据，我们还应用不受未对齐影响的对抗性损失。因此，未对齐数据的总体损失可以写为其中我们将权重设置为ω4= 0。1且ω5= 0。01.4. 实验4.1. 实现细节合成Real20模型PSNRSSIMPSNRSSIMCEILNet-F [5]24.700.88420.320.739仅BaseNet25.710.92621.510.780BaseNet + CSC27.640.94022.610.796BaseNet + MSC26.030.92821.750.783ERRNet27.880.94122.890.803数据，即，来自PASCAL VOC数据集的7，643张裁剪图像，尺寸为224×224[4]。90个真实世界的训练图像[47]中的数据作为真实数据。对于图像合成，我们使用与[5]相同的数据生成模型来创建合成数据。在下文中，我们总是使用相同的数据集进行训练，除非特别说明。培训详情。我们的实现1是基于Py-Torch的.我们使用Adam优化器训练模型60 epoch [19]。基本学习率设置为10−4，在第30个时期减半，然后在第50个时期降低到10−5如[26]中那样初始化权重。4.2. 消融研究在本节中，我们对来自[5]的100张合成测试图像和来自[47]的20张真实测试图像（用“Real20”表示）进行了消融研究成分分析为了验证我们的网络设计的重要性，我们比较了第3节中描述的四种模型架构，包括（1）我们的基本图像重建网络BaseNet;（2）具有通道上下文模块的BaseNet（BaseNet+ CWC）;（3）具有多尺度空间上下文模块的BaseNet（BaseNet+MSC）;以及(4)我们的增强反射消除网络，表示为ER-RNet，即，BaseNet+ CWC + MSC。CEILNet [5]对我们的训练数据进行微调的结果（由CEILNet-F表示）也作为额外的参考提供。如表1所示，我们的BaseNet已经取得了比CEILNet-F好得多的结果。通过使用通道上下文和多尺度空间上下文模块，特别是将它们结合起来使用，可以明显提高BaseNet的性能。ERRNet。图4直观地显示了BaseNet和ERRNet的结果可以观察到，BaseNet努力区分反射区域并产生一些明显的残差，而ERRNet去除反射并产生更清晰的透射图像。这些结果表明了我们的网络设计的有效性，特别是针对编码上下文线索的组件。未对齐数据的训练损失的有效性。在这训练数据。我们采用合成数据和真实数据的融合作为我们的训练数据集来自[5]的图像用作合成1代码，发布于https://github.com/Vandermode/ERRNet8183输入BaseNet ERRNet图4：使用（ERRNet）和不使用（BaseNet）上下文编码模块的结果比较。表2：验证我们的重复不变损失培训计划PSNRSSIM仅合成19.790.741+ 50对齐22.000.785+ 90对齐22.890.803+ 50个对齐，+ 40个未对齐，接受以下培训：l像素21.850.766linv22.380.797lcx22.470.796linv+ lcx22.430.796在实验中，我们首先只使用“合成数据”、“合成+ 50对齐的真实数据”和“合成+ 90对齐的真实数据”来训练ERRNet。方程中的损失函数。(2)用于对齐数据。我们可以看到，随着表2中真实数据的增加，测试结果变得更好。然后，我们通过在真实数据2上执行[-10，10]像素内的随机平移来合成未对齐，并使用“合成+ 50个对齐的真实数据+ 40个未对齐的数据”来训练ERRNet逐像素损失lpixel和对准不变损失linv用于40个未对准图像。Ta-表2示出了采用具有L个像素损失的40个未对准数据使性能降级，甚至比来自没有附加未对准数据的50个对准图像的此外，我们还研究了[27]的语境损失lcx。结果从上下文损失lcx和我们的不变性损失linv（或它们的组合linv+lcx）超过了类似的结果，只有对齐的图像由可观的利润率，表明这些损失提供了有用的监督网络授予未对齐的数据。注意，尽管linv和lcx表现同样好，但我们的linv比lcx简单得多，计算效率也高得多，这表明linv在我们的反射去除任务方面是lcx4.3. 基准方法比较在本节中，我们将ERRNet与最先进的方法进行比较，包括基于优化的方法，[25] （ LB14 ）和基于学习的方法（ CEILNet [5] ，Zhanget al. [47][44]《明史》：为了公平比较，我们在训练数据集上对这些模型进行微调，并报告原始预训练模型和微调版本（用后缀'-F'表示）的结果在四个真实世界的数据集上进行了比较，即。[47]中的20张测试图像和SIR2 [37]中的3 这三个子数据集是在不同条件下捕获的：（1）20个由实体组成的受控室内场景;（2）明信片上20种不同的受控场景;和（3）55个野生场景3，提供了地面实况。在下文中，我们分别用“Real20”、“Objects”、“Postcard”和“Wild”表示这些数据集表3总结了四个真实世界数据集上质量指标包括PSNR，SSIM [40]，NCC [43，37]和LMSE [8]。较大PSNR、SSIM和NCC的值表示更好的性能，而LMSE的值越小意味着结果越好。我们的ERRNet在'Real20'和'Objects'数据集上实现了最先进的同时，我们的结果与“明信片”数据上表现最好的BDN-F相当在“Wild”数据集上的定量结果图5显示了真实世界图像上的视觉结果。可以看出，所有比较的方法都无法处理一些强反射，但我们的网络更准确地去除了许多不希望的伪影，例如。图5的第四张照片中，树枝反射在建筑物窗户4.4. 使用未对齐的数据进行训练为了测试我们对真实世界的未对齐数据的不变性损失，我们首先用相机和便携式眼镜收集未对齐图像对的数据集，如图1B所示。1.一、数码单反相机和智能手机都被用来捕捉图像。我们总共收集了450个图像对，一些样本如图6所示。这些图像对被随机分成400个样本的训练集和50个样本的测试集。我们在BDN-F和ERRNet模型上进行了实验，每个模型首先在对齐的数据集上进行训练（ w/ounaligned），如第4.3节所述，然后用我们的不变量损失和未对齐的训练数据进行微调。由于没有现有的数值度量可用于评估未对齐的数据，因此在微调之前和之后得到的对被组装用于人类我们请了30位人类观察者提供一个偏好2我们的平移不变损失linv可以处理多达20个像素的移位。更多详情见补充材料3索引为1、2、74的图像由于未对准而被移除。8184[25]第五届中国国际纺织品展览会Zhang等人[44]第四十七话：一个人的世界图5：真实世界图像的视觉比较这些图像来自更多的结果可以在Suppl. 材料表3：不同方法在四个真实世界基准数据集上的定量结果。最好的结果用红色表示，第二好的结果用蓝色表示。“平均”的结果数据集指数方法输入LB14[25日]CEILNet[五]《中国日报》CEILNetF张等人[47个]BDN[第四十四届]BDNFERRNet真实20PSNR19号。05十八岁29十八岁4520块3221岁89十八岁4120块06二十二岁89SSIM0的情况。7330的情况。6830的情况。6900的情况。7390的情况。7870的情况。7260的情况。7380的情况。803NCC0的情况。8120的情况。7890的情况。8130的情况。8340的情况。9030的情况。7920的情况。8250的情况。877LMSE0的情况。0270的情况。0330的情况。0310的情况。0280的情况。0220的情况。0320的情况。0270的情况。022对象PSNR23岁7419号。3923岁6223岁36二十二岁72二十二岁73二十四岁00二十四岁87SSIM0的情况。8780的情况。7860的情况。8670的情况。8730的情况。8790的情况。8560的情况。8930的情况。896NCC0的情况。9810的情况。9710的情况。9720的情况。9740的情况。9640的情况。9780的情况。9780的情况。982LMSE0的情况。0040的情况。0070的情况。0050的情况。0050的情况。0050的情况。0050的情况。0040的情况。003明信片PSNR21岁30十四岁8821岁2419号。17十六岁8520块71二十二岁19二十二岁04SSIM0的情况。8780的情况。7950的情况。8340的情况。7930的情况。7990的情况。8590的情况。8810的情况。876NCC0的情况。9470的情况。9290的情况。9450的情况。9260的情况。8860的情况。9430的情况。9410的情况。946LMSE0的情况。0050的情况。0080的情况。0080的情况。0130的情况。0070的情况。0050的情况。0040的情况。004野生PSNR二十六岁2419号。05二十二岁36二十二岁0521岁56二十二岁36二十二岁74二十四岁25SSIM0的情况。8970的情况。7550的情况。8210的情况。8440的情况。8360的情况。8300的情况。8720的情况。853NCC0的情况。9410的情况。8940的情况。9180的情况。9240的情况。9190的情况。9320的情况。9220的情况。917LMSE0的情况。0050的情况。0270的情况。0130的情况。0090的情况。0100的情况。0090的情况。0080的情况。011平均PSNR二十二岁85十七岁51二十二岁3021岁4120块2221岁70二十二岁9623岁59SSIM0的情况。8740的情况。7810的情况。8410的情况。8320的情况。8380的情况。8480的情况。8790的情况。8798185NCC0的情况。9550的情况。9370的情况。9480的情况。9430的情况。9250的情况。9510的情况。9500的情况。956LMSE0的情况。0060的情况。0110的情况。0090的情况。0100的情况。0070的情况。0070的情况。0060的情况。005在{-2，-1，0，1，2}中得分，2表示微调效果明显更好，而-2则相反。为了避免偏差，我们随机切换每对图像的位置。总共收集了3000个人类判断（2种方法，30个用户，50个图像对）。有关此评估过程的更多详细信息，请参见补充资料。材料8186脑源性神经营养因子ERRNet输入参考不对齐W. 未对齐不对齐W. 未对齐图6：未对齐图像数据集中的图像样本。我们的数据集涵盖了各种各样的室内和室外环境，包括车辆，人类等的动态场景。评分范围比BDN-F ERRNet2（0。25，2]78% 54%1[-0。25，0。25]18% 36%[-2，-0。25）4% 10%0平均分0.62 0.51-110 20210-130 40 5010 2030 40 50表4：自我比较实验的人类偏好评分。左：BDN-F的结果;右：ERRNet的结果。每个子图的X轴代表测试图像的图像编号（共50个）。图7：有和没有未对齐数据的训练结果参见附录材料更多的例子。（最佳视图在屏幕上与缩放）表4显示了每种方法的结果对的人类偏好得分的平均值。可以看出，人类观察者显然倾向于更喜欢由微调模型产生的结果而不是原始模型，这证明了利用未对齐数据进行独立于网络架构的训练的好处。图7示出了两种方法的一些典型结果;通过对未对准数据进行训练，结果得到显著改善。5. 结论我们提出了一种增强的反射去除网络和一个不变性损失函数，以帮助解决单图像反射去除的困难。我们研究了直接利用未对齐的训练数据的可能性，这可以显着减轻捕获真实世界训练数据的负担为了-为了从实际训练数据中准确地提取出潜在的知识，我们引入了上下文编码模块，这些模块可以无缝地嵌入到我们的网络中，以帮助识别和抑制反射分量。大量的实验表明，我们的方法设置了一个新的国家的最先进的现实世界的基准单图像反射去除，定量和视觉。致谢我们感谢邹云浩对收集反射图像数据集的帮助。本工作得到国家自然科学基金项目“自然科学基金项目”的资助。61425013号61672096。8187引用[1] A.阿格拉瓦尔河Raskar，S. K. Nayar和Y.李使用梯度投影和闪光曝光采样消除摄影伪影ACM Transactions onGraphics（TOG），24（3）：828[2] N. 阿尔瓦尼托普洛斯河Achanta和S.暂停单一图像反射抑制。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月[3] Z. Chi，X. Wu，X. Shu和J. Gu。使用深度编码器-解码器网络消除单图像反射 arXiv 预印本 arXiv ：1802.00094，2018。[4] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。International Journal of Computer Vision（IJCV），88（2）：303[5] Q. Fan，J. Yang，G.华湾，澳-地Chen和D. Wipf一个通用的深层架构，用于消除单个图像反射和图像平滑。2017年10月在IEEE计算机视觉国际会议（ICCV）上发表[6] H. Farid和E.H. 阿德尔森使用独立分量分析分离反射和照明在IEEE计算机视觉和模式识别会议（CVPR）上，1999年7月。[7] K. Gai，Z. Shi和C.张某基于图像统计的叠加运动图像盲分离。 IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI），34（1）：19[8] R.格罗斯湾K. Johnson，E. H. Adelson和W. T.自由人。地面实况数据集和基线评价的内在图像算法。IEEEInternationalConferenceonComputerVision（ICCV）IEEE，2009年10月。[9] X. Guo，X. Cao和Y. MA.从多个图像中稳健地分离反射。IEEE计算机视觉与模式识别会议（CVPR），2014年7月。[10] B.哈里哈兰山口阿贝拉埃斯河Girshick和J.马利克用于对象分割和细粒度局部化的Hy- percolumns。IEEE计算机视觉与模式识别会议（CVPR），2015年6月。[11] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔IEEE Transactions on PatternAnalysis and Machine Intelligence （ TPAMI ）， 37（9）：1904[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年6月。[13] 胡杰湖，澳-地Shen和G.太阳挤压-激发网络。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[14] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。[15] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议（CVPR）中，2017年7月。[16] M. Jin，S. Ssstrunk和P.法瓦罗学会透过反射看东西。IEEEInternationalConferenceonComputa-tionalPhotography（ICCP），2018年5月。[17] J. Johnson，A. Alahi和L.菲菲.实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议（ECCV），第694[18] A.乔利库-马蒂诺相对论鉴别器：标准GAN中缺少的关键元素。在2019年国际学习表征会议（ICLR）[19] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[20] N.孔，Y.- W. Tai和J.S.信基于物理的反射分离方法：从物理建模到约束优化。IEEE Transactions on PatternAnalysis and Machine Intelligence （ TPAMI ）， 36（2）：209[21] D.李，M.- H. Yang和S.哦生成式单图像反射分离。arXiv预印本arXiv：1801.04102，2018。[22] A. Levin和Y.韦斯使用稀疏先验从单个图像中分离反射的用户辅助IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI），29（9）：1647[23] A. Levin，A. Zomet和Y.韦斯学习从自然场景的统计数据中感知透明度。神经信息处理系统（NIPS）的进展。2002年12月[24] Y. Li和M. S.布朗利用反射率变化来消除非线性反射.在IEEE计算机视觉国际会议（ICCV）上，2013年12月。[25] Y. Li和M. S.布朗单图像层分离使用相对平滑。在IEEE计算机视觉和模式识别会议（CVPR），第2752-2759页，2014年。[26] B.林，S。儿子，H。Kim，S.不还有K M.李你用于单图像超分辨率的增强深度残差网络。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2017年7月。[27] R.梅赫雷斯岛Talmi和L.泽尔尼克庄园非对齐数据图像变换的上下文损失。在欧洲计算机视觉会议（ECCV）上，2018年9月[28] S.不T Hyun Kim和K.李慕深度多尺度卷积神经网络动态场景去模糊。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。[29] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein等人图像网大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211[30] B. Sarel和M.伊拉尼通过层信息交换分离透明层。欧洲计算机视觉会议（ECCV），2004年9月。[31] Y. Shih、黄腹叶蝉D.Krishnan，F.Durand和W.T. 弗里曼。使用重影提示消除反射。IEEE计算机视觉与模式识别会议（CVPR），2015年6月。8188[32] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年国际学习表征会议（InternationalConference on Learning Representations，ICLR）[33] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年国际机器学习会议（ICLR）[34] S. N. 辛哈 J·科普夫， M. 格泽尔， D. Scharstein和R.塞利斯基具有反射的场景的基于图像的渲染。ACMTransactions on Graphics（TOG），31（4）：100-1，2012.[35] R. Szeliski，S. Avidan和P.阿南丹层提取，从多个图像包含反射和transparency。在IEEE计算机视觉和模式识别会议（CVPR）上，2000年7月。[36] R.万湾，澳-地什湖，加-地Duan，中国茶条A.谭，W。Gao和A. C.科特具有统一内容和梯度先验的区域感知反射消除。 IEEE Transactions on Imag

下载后可阅读完整内容，剩余1页未读，立即下载