没有合适的资源?快使用搜索试试~ 我知道了~
深度学习方法分离光反射和透射,提高计算机视觉算法的性能
输入--R--R--R--R--不--不--不--不我们[1]第一章[二]《中国日报》[3]第一章在野外Patrick Wieschollek1, 2,Orazio Gallo1,Jinwei Gu1和Jan Kautz11个NVIDI A,2个UiverityofTu¨bingn抽象。 由诸如玻璃窗的常见半反射器引起的反射会影响计算机视觉算法的性能。最先进的方法可以消除合成数据和受控场景中的反射。然而,它们基于强假设,并且不能很好地推广到现实世界的图像。与常见的误解相反,即使在使用极化信息时,真实世界图像也是具有挑战性的 我们提出了一种深度学习方法来分离记录的irradiance的反射和透射分量,该方法显式地使用光的偏振特性。 为了训练它,我们引入了一个精确的合成数据生成管道,该管道模拟真实的反射,包括由弯曲和非理想表面、非静态场景和高动态范围场景生成的反射。图1:在现实世界的图片中,玻璃表面几乎是不可避免的。我们分离反射层和透射层的方法甚至适用于一般的弯曲表面,这打破了现有技术方法的假设。^在该示例中,只有我们的方法可以正确地估计反射R(反射率R)和反射率R(反射率R)两者。^T(字符串输入)和T(字符串输入)。1介绍计算机视觉算法一般依赖于假设值是场景中单个区域的辐射率的函数。半反射器,如典型的窗户或玻璃门,打破了这一假设,通过创建两个不同物体的辐射叠加:一个在表面后面,一个被反射。在人造环境中几乎不可能避免半反射器,如图2(a)所示,其示出了2维肖莱克,加洛,古,和考茨。31542(一)(b)第(1)款45图2:根据透射和反射辐射率之间的比率,半反射器可以不产生反射1,纯反射2,或两者的混合,其可以平滑地3或突然地5变化。表面的局部曲率也可以影响反射4的外观。最后两个,4 和5,但都是罕见的,如(b)所示。典型的市中心。任何多视图立体或SLAM算法将难以在这种类型的图像上产生准确的重建。存在尝试分离反射层和透射层的若干方法。在半反射表面处,观察到的图像可以被建模为反射图像和透射图像的线性组合:Io=αrIr+αt It。逆问题是不适定的,因为它需要从单个观察估计多个未知数因此,解决方案需要额外的先验或数据。实际上,以前的工作依赖于关于反射外观的假设(例如,它是模糊的),关于表面的形状和取向(例如,它是完全平坦的并且精确地垂直于照相机的主轴)等。然而,在野外拍摄的图像经常打破这些假设中最基本的假设,见图2(b),导致最先进的方法[2,3,4]的结果恶化,即使在看似简单的情况下,如图1所示,它描绘了一个相当典型的现实世界场景。一个特别强大的工具是极化:通过以不同角度取向的偏振器捕获的图像提供了额外的观察。然而,也许令人惊讶的是,我们对最先进方法的分析表明当从合成数据移动到真实数据时,即使当使用偏振结果的质量也显著降低。 这是由于通常进行的简化说明,而且还由于经常被忽略的固有问题:偏振器在视角上的放大反射能力[ 5 ]。在称为布鲁斯特角θB的角度处衰减最大。然而,即使当半反射器的一部分在θB处成像时,其他区域的入射角与θB相差很大,从而基本上消除了偏振器的影响,如图3所示。换句话说,由于有限的信噪比,对于场景中的某些区域,附加观测可能不是独立的。在野外分离反射和透射图像3我们提出了一种深度学习方法,能够分离在野外捕获的图像的反射和透射分量。该方法的成功源于我们的两个主要贡献。首先,不是要求为了直接从观察中学习反射和透射图像,我们利用光偏振的特性并使用残差表示,其中输入图像被投影到规范偏振角上(第3.1和3.2节)。其次,我们设计了一个基于图像的数据生成器,忠实地再现图像形成模型(第3.3节)。我们表明,我们的方法可以成功地分离的反射和透射层,即使在具有挑战性的情况下,以前的作品失败。为了进一步验证我们的发现,我们捕获了城市反射数据集,这是一个基于偏振的城市环境中反射的数据集,可用于在真实图像上测试反射去除算法。此外,为了对最先进的方法进行彻底的评估,我们重新实现了几个有代表性的方法。作为我们贡献的一部分,我们发布了这些实现,以便其他人能够与他们自己的方法进行比较[1]。2相关工作有丰富的文献处理半反射表面的方法,可以根据它们所做的假设分为三个主要类别。单图像方法可以利用梯度信息来解决问题。例如,Levin和Weiss需要手动输入来分离反射和透射的梯度[6]。完全自动化的方法可以通过利用散焦模糊[7]:反射可能是模糊的,因为半反射器后面的物体比反射图像更近[4],或者因为照相机聚焦在无限远处并且反射的物体靠近表面[8]。此外,对于双窗格或厚窗的情况,反射可以“耦合”[ 9 ],并且可以使用该反射来从经分割的图像[ 10 ]中分离。虽然这些方法显示出令人印象深刻的结果,但它们的假设是严格的,并且不能很好地推广到现实世界的情况,导致它们失败。普通案件。从不同视点捕获的多个图像也可以用于移除反射。几种方法提出了不同的方法来估计反射和透射图像的相对运动,这些方法可以用于分离它们[11,12,13,14,15]。重要的是要注意,这些方法假设静态场景-运动是反射层相对于透射层的明显运动,而不是场景运动。除此之外,这些方法作出的假设不如单图像方法作出的假设严格。尽管如此,当反射和透射的场景在深度方面较浅时,这些算法工作良好,使得它们的速度可以被假设为均匀的。对于空间和时间变化混合的情况,Kaftory和Zeevi提出使用稀疏分量分析代替[16]。4维肖莱克,加洛,古,和考茨。在不同偏振角度下捕获的多个图像提供了解决这个问题的第三个场所。假设在不同极化角度拍摄的图像提供相同场景的独立测量,则可以使用独立分量分析[17,18,19]来分离反射和透射。当半反射表面产生双反射时,可以利用的附加先验由双反射给出[9]。在理想条件下,并且利用极化信息,也可以以封闭形式找到解[2,3]。在我们的实验中,我们发现,在不受约束的设置中捕获的大多数图片甚至打破了这些论文所使用的有充分依据的假设,如图所示在图2中3方法我们解决的问题,层分解的能力,利用半反射器偏振的反射和透射层不同。捕获同一场景的多个偏振图像,然后,提供两个层的部分为了使用这些信息,我们采用了深度学习方法。由于这个问题的基本事实实际上是不可能捕捉到的,我们综合它。对于任何数据驱动的方法,训练数据的真实性对结果的质量至关重要。在本节中,在回顾了图像形成模型之后,我们概述了我们的方法,我们讨论了通常假设的局限性,以及我们如何最后,我们描述了我们的实施细节。3.1极化、反射和透射′考虑两点PR和PT,使得PR,即PR的反射,位于视线的PT,并假设都发射非偏振光,见图3。在被反射或透射之后,非偏振光变为偏振,偏振量取决于θ,即入射角(AOI)。在点PS处,即视线与表面的交点处,总辐射率L是反射辐射率LR和透射辐射率LT的组合。假设我们将具有偏振角Φ的线性偏振器放置在相机前面如果我们对曝光时间进行积分,则每个像素x处的强度为Iφ(x)=α(θ,φ,φ)·IR(x)+(1−α(θ,φ2⊥·IT(X),⑴2当半反射镜的反射系数α(·)∈ [ 0,1]时,入射角θ(x)∈[0,π/2],p-偏振方向[2] φθ(x)∈[-π/4,π/4],以及半反射镜的反射和透射像IR(x)和IT(x)都是未知的。在布儒斯特角θB处,反射光沿θ B方向完全偏振。φ,即在垂直于入射平面1的方向上,以及在垂直于入射平面1的方向上,1入射平面由光传播的方向和微反射的平均值来定义。在野外分离反射和透射图像5L沿平行于入射平面的方向发射光。角φ1和φ2被称为正则偏振角。在θ(x)=θB的唯一条件下,用偏振器在规范偏振角下捕获的两个图像提供了足以消除IR和IT之间的差异的独立观察。然而,除非相机或半反射器在无穷远处,否则θ(x)=θB仅适用于场景中的少数点(如果有的话),如图3所示。更复杂的是,对于曲面,θ(x)随X. 最 后,即使对于在不同偏振角φj处的任意多个采集,该概率也是病态的,因为在Iφj上的a个采样是有效的。 addsnewpixel-wiseunknownsα(θ,φj,φj).PT LT′R半反射镜M2Sφ≈ φ⊥ φ≈ φǁθθPRRM1偏振器φ相机C图3:当以布鲁斯特角θ=θB观察反射时,偏振器衰减反射。 对于左侧所示的场景,我们手动选择了两个偏振方向,分别最大化和最小化反射。事实上,植物的反射几乎完全被消除了。然而,离布鲁斯特角只有几度的距离,偏振片几乎没有影响,就像右边的书的反射一样。3.2恢复R和T当通过沿着方向Φ取向的偏振器观察时,IR和IT,是在半反射器处的反射和透射图像,产生图像传感器处的Iφ。由于动态范围和噪声的差异,在某些区域,反射可能主导Iφ,反之亦然,见3.3节。如果没有幻觉内容,人们只能将目标放在分离R和T上,我们定义R和T图4:我们的具有ResNet块的编码器-解码器网络架构包括规范投影层,其将输入图像投影到规范投影层上。^ ^您的位置:偏振方向,并且使用针对T和R的残差参数化。IIφ0Iφ0T~ξǁT=ξT+(1−ξ)I^~Iφ1Iφ1ξ⊥R^=ξR~+(1−ξ)ICCC cCCCCCCC⊥⊥ ⊥Iφ2Iφ2编码器解码器R˜我是典型投影层PP6维肖莱克,加洛,古,和考茨。是可观察到的反射和透射分量。例如,在R占主导的区域中,T可以是零,即使在那些区域中IT可以大于为了将它们与地面实况区分开来,我们参考我们的^ ^您的位置:估计为R和T。^ ^您的位置:为了恢复R和T,我们使用编码器-解码器架构,该架构已经被显示对于许多任务特别有效,例如图像到图像^[20],去噪[21]或去模糊[22]。学习估计R和^T直接从在任意偏振角拍摄的图像中产生结果令人满意一个主要原因是图像的一部分可能是纯反射,因此不产生关于透射的信息,反之亦然。为了解决这个问题,我们转向反射和透射图像的偏振特性。回想一下,R和T分别在φ和φ处被最大程度地衰减,尽管通常没有被正则偏振角取决于场景的几何形状,因此难以直接捕获。然而,我们注意到图像Iφ(x)可以表示为[3]:I φ(x)= I(x)cos2(φ − φ(x))+I(x)sin2(φ − φ(x))。(二)由于方程2有三个未知数I、φ和I,我们可以使用同一场景的三个不同观测值{I φi(x)}i={0,1,2}来获得一个线性系统,该系统允许计算I(x)和I(x)。 为了进一步简化数学,我们捕获图像,使得φ i= φ0+ i·π/4。为了提高效率,我们在TensorFlow中将投影作为网络层实现到规范视图上。经典观点和实际观察然后堆叠在15通道张量中,并用作我们网络的输入。然后,^ ^您的位置:我们不是训练网络学习预测R和T,而是训练它了解剩余反射和透射层。更具体地说,我们训练网络学习8通道输出,其包括残差图像˜ ˜T(x)、R(x)以及两个单信道权重ξ(x)和ξ(x)。放弃为了清楚起见,我们可以计算:^~^~R= ξR+(1 − ξ)I和T = ξT+(1 − ξ)I。(三)虽然ξ和ξ每像素引入两个额外的未知数,但它们显著地简化在典型投影为al-的区域中的预测任务^ ^您的位置:很好的预测了R和T我们用一个编码解码器和skip con-连接[23],由三个下采样阶段组成,每个阶段有两个ResNet块[24]。对应的解码器使用反式映射来镜像编码层。^ ^您的位置:使用两个ResNet块进行的卷积。我们在R和T上使用2损失。我们还测试了1001以及1001和1002的组合,其没有产生显著的改进。规范投影层的使用以及参数化的残差图像是我们的方法的成功的关键我们在补充,其中我们将网络的输出与^ ^您的位置:完全相同的架构训练直接从三个预测R和T偏振图像Iφi(x)。在野外分离反射和透射图像7动态范围操作处理动态场景反射物理学图5:我们的基于图像的数据生成程序。我们将几个步骤应用于在大多数真实世界场景中模拟反射的图像IR和IT(第3.3节)。3.3基于图像的数据生成^ ^您的位置:用于估计R和T的地面实况数据实际上是不可能捕获的在野外最近,Wan等人发布了一个用于单图像反射去除的数据集[25],但它不提供偏振信息。原则上,等式1可以直接用于从任何两个图像生成我们需要的数据。然而,方程中的α项隐藏了一些微妙之处和非理想性。例如,先前的基于偏振的工作通过假设均匀的AOI、完全平坦的表面、反射和透射辐照度的可比功率或其他来使用它来合成数据。这通常会导致在野外拍摄的图像效果不佳:图1和图2显示了违反所有这些假设的常见场景。我们提出了一个更准确的合成数据生成管道,见图5。我们的流水线从来自PLACE2数据集[26]的两个随机拾取的图像IR和IT开始,我们将其视为表面处的反射和透射场景的图像。根据这些,我们对在现实世界数据中观察到的行为进行建模,其中将描述为从场景到摄像机的“向下滚动”照片的页面为了模拟真实的反射,表面上透射和反射图像的动态范围(DR)必须显著不同。这是因为现实世界场景通常是高动态范围(HDR)的。另外,表面处的光强度随着距发射物体的距离而下降,进一步扩展了组合DR。然而,我们的输入是低动态范围图像,因为HDR图像的大数据集不可用。我们建议人工操纵输入的DR,以便匹配我们在真实世界场景中观察到的反射的外观。回到图3(右),我们注意到,对于LT≈LR的区域,在没有偏振器的情况下拍摄的照片将捕获PR和PT的图像的平滑变化的叠加(图2-3)。然而,对于LR<$LT的表面区域,总辐射率是L<$LR,半反射器本质上起着镜子的作用(图2 -2)。相反的情况也很常见(图2φ0U[−π/4,π/4]3φ0RIR1/γβIR不极化引擎I(φ1)I(φ2)I(φ3)非刚性变形边缘感知反射曲率生成器ITβ−1I1/γ不8维肖莱克,加洛,古,和考茨。NR①的人。为了允许这些不同的行为,我们操纵具有随机因子βU[1,K]的输入图像:I~=βI1/γ和I~=1I1/γ,⑷RRTβ其中1/γ线性化伽马压缩输入2。我们施加K >1以补偿典型玻璃表面透射比其反射3大得多的入射光部分的事实。I~R和I~T可以通过所描述的恢复类型来实现,但仅限于LR−LT随PS平滑变化的情况。然而,如图2- 5所示,反射可以在对象的边界之后突然下降。当对象比场景的其余部分更接近时,或者当其辐射大于周围对象时,可能发生这种情况。为了正确地对这种行为建模,我们将其视为一种反射类型本身,我们将其应用于图像的随机子集,其范围我们有已经扩大了。具体地说,我们将反射或透射的区域设置为零,其中,所述反射或透射的区域为零,其中,所述反射或透射的区域为低T=m_an(I_R+I_T),类似于Fan等人提出的方法。[4]的文件。处理动态场景我们的方法需要在三个不同的偏振角度下捕获的图像。虽然存在可以同时捕获多个偏振图像的相机[27,28,29],但它们并不普遍。迄今为止,捕获不同偏振图像的标准方式是顺序的;这导致非静态场景的复杂性。如第2节中所提及,如果从不同位置捕获多个图片,那么所发射层与所反射层之间的相对运动可帮助消除所述图片的歧义。在此,“非持续性”是如何被传递到场景中的,例如当中间分支在镜头之间移动时。提出了几种方法,可以在基于堆栈的摄影[30]的上下文中处理动态场景然而,我们建议合成模拟它们的训练数据,例如局部非刚性变形,而不是需要一些预处理来修复由于在推断时间的小场景变化而导致的伪影 我们首先在一个面片上定义一个规则的网格,然后把这个规则的网格作为一个由(dx,dy)和(dx,dy)组成的混合网格,然后把它放大。从方差为σ2,也是随机抽取的补丁.然后,我们插入补丁中其余像素的位置。对于每个输入补丁,我们生成三个不同的图像,每个偏振角一个。我们只将此处理应用于合成图像的一个子集-场景并不总是动态的图6(a)和(b)分别示出了原始补丁和失真补丁的示例。2用伽马函数近似相机响应函数不会影响我们结果的准确性,因为我们并不试图产生相对于原始场景在无线电测量上准确的数据。3例如,在π/4的入射角下,玻璃表面反射小于16%的入射光。在野外分离反射和透射图像9不R(一)Iφ0CℓIφ1Iφ2TR(b)(c)(d)图图6:我们的非刚性运动变形(a,b)和给定相机位置C、表面点Ps、长度P的弯曲表面生成器的示例,以及凸性±1(c)。随机采样的训练数据(d)与合成的观测数据(d)vationsIφ,Iφ,Iφ^^0 12,并且估计T、R。半反射表面的几何形状到目前为止合成的图像可以被认为是半反射器处的非偏振光的辐照度。 在从表面反弹或穿过表面之后,光如第3.1节所述变得偏振。放置在相机前面并以给定偏振角取向的线性偏振器的效果取决于特定光线的入射角(AOI)一些以前的作品假设这个角度在图像上是均匀的,这仅在相机位于无穷远处或表面平坦时才成立我们观察到,现实世界的表面几乎从来没有完全平坦。许多常见的玻璃表面实际上被设计成弯曲的,如车窗的情况,参见图1。即使表面是平坦的,玻璃制造工艺的缺陷也会引入局部曲率,见图2- 4。在训练时,我们可以生成不受约束的表面曲率来考虑该观察。然而,将难以对真实表面进行采样。此外,从表面曲率计算AOI可能是不平凡的。作为正则化器,我们建议使用抛物线。 当补丁被合成时,我们只需采样四个参数:摄像机位置C、表面上的点PS、段长度和凸度±1,图6(c)。由于段总是被映射到相同的输出大小,因此该参数化允许生成多个不同的、真实的曲率。此外,因为我们使用抛物线,所以我们可以从样本参数快速计算封闭形式的AOI,参见补充。3.4实现细节根据到目前为止描述的流水线的输出、模拟的AOI和随机偏振角φ0,偏振引擎生成三个观测值f′|Xp−1+1个+1个+1个PSθ10维肖莱克,加洛,古,和考茨。其中偏振角分开π/4,参见图5。在实践中,由于偏振器旋转的手动调整,偏振器角度Φ i对于真实数据将是不准确的。我们通过向每个偏振器角度φ i添加±4 ◦内的噪声来解释这一点。此外,我们设置βU[1,2。[8]。当在128× 128个补丁上训练时,我们的神经网络的输入是RB×128 × 128×9,其中B=32是批量大小。我们使用ADAM从头开始训练模型,学习率为5· 10−3。有关架构的更多详细信息,请参见补充资料。网络预测的颜色可能会稍微去饱和[31,32,4]。我们使用一个无参数的颜色直方图匹配的观察之一,以获得最终的结果。4实验在本节中,我们评估我们的方法和数据建模管道的合成和真实数据。对于后者,我们介绍了城市反射数据集(URD),一个新的数据集的图像包含半反射器捕获的偏振信息。公平的评估只能针对使用多个图像的其他基于偏振的方法然而,我们也比较对单图像的方法的完整性。Urban Reflections Dataset(URD) 为了实际相关性,我们编译了一个由28张高分辨率RAW图像(24 MP)组成的数据集,这些图像是在城市环境中使用两种不同的消费相机(Alpha 6000和Canon EOS 7 D,均为ASP-C传感器)拍摄的,并且我们公开提供。Supple-显示数据集中的所有图片。该数据集包括用宽孔径拍摄的示例,并且同时聚焦在半反射器的平面上,从而满足Fan等人的假设。[4]的文件。4.1数值性能评价由于需要地面实况,大规模数值评估可以仅在合成数据上执行对于此任务,我们采用两个数据集表1:合成数据的交叉验证。最佳结果以粗体显示。[26]第33话:我的世界数据集。与现有技术方法的比较表明,我们的方法在PSNR方面明显优于第二好的方法:2 dB,见表1。为了对真实数据进行数值评估,我们设置了一个带有玻璃的引起反射的表面和对象。在捕获场景的偏振图像之后,我们移除玻璃并捕获地面真实传输,Tgt。图7显示了如何通过不同的方法解决传输丢失信息的问题。我们的方法实现了最高的PSRN,和最少量的文物。PascalVOC 2012位置2方法RMSEPSNR均方根峰值信噪比Farid等人[17个]0.4017.930.380 8.38Kong等人[3]第一章 0.16015.880.156 16.12Schechner等人[二]《中国日报》0.08521.340.086 21.27Fan等人[4]美国0.08021.890.08421.48在野外分离反射和透射图像11TgtTgt+R gtT^我们T^T^T^[1]第一章[3]第一章[七]《中国日报》PSNR:26.7dB峰值信噪比(PSNR):20.0 dB峰值信噪比:25.1 dBPSNR:25.9dB设置图7:通过去除半反射器,我们可以选择性地捕获地面真实的trans-mission,Tgt。4.2数据建模我们还彻底验证了我们的数据生成管道。利用合成数据和实际数据,我 们证 明 了 所提 出 的非 刚 性变 形 (NRD) 过 程和 局 部曲 率 生成(LCG)是有效和必要的。为此,我们训练我们的网络,直到在三种类型的数据上收敛:仅利用所提出的动态范围操纵(简称DR)生成的数据、利用DR+NRD生成的数据以及利用DR+NRD+LCG生成的数据。我们在一个保留了图5中所有转换的合成验证集上评估这三个模型。图8中的表格显示,当仅使用部分管道来训练网络时,PSNR显著下降。不幸的是,只有当地面实况可用时,才可能进行数值评估然而,图8示出了图1的真实图像上的三个模型的输出。使用完整管道的好处是显而易见的。通过对图1的视觉检查可以看出,由于我们能够处理曲面和动态场景,我们实现了比最先进的方法更好的模型PSNRDR 28.17 dBDR+NRD 30.44 dBDR+NRD+LCG 31.18 dB图8:我们在真实世界曲面上的反射估计(左)和合成数据(右表),使用在我们的数据管道的不同组件仅当使用完整管线(DR+NRD+LCG)时,才正确地估计反射层注意输入中反射的微弱程度(底行)。4.3对真实世界示例我们广泛评估我们的方法对以前的工作建议URD。为了公平对待竞争的方法,这些方法会产生更强的约束或期望不同的输入数据,我们稍微调整它们,或多个运行它们输入博士DR+NRDDR+NRD+LCG12维肖莱克,加洛,古,和考茨。充分输入透射反射[17][34][35] [36][17][34][35][36]图9:将不同的算法应用于整个图像和裁剪区域(“full1”)等于将所述算法应用于裁剪区域方向(“croop”)。使用不同的参数,只保留最佳结果。由于空间限制,图10仅示出了七个结果。我们建议读者参考补充资料,以获得其余的结果,并详细解释我们如何调整以前的方法。有一点很重要。虽然我们使用的图像包括不透明的物体,即半反射器不能覆盖整个图像,我们比较的方法是局部的:将不同的算法应用于整个图像并裁剪区域等同于将相同的算法直接应用于裁剪区域,图9。图10,弯曲窗口显示了一个具有挑战性的情况,其中AOI在整个图像上与θB显著不同,因此限制了效果在所有的输入偏振器。此外,玻璃表面是倾斜的,局部弯曲,这打破了以前作品的几个假设作为结果,其他方法在估计反射层时完全失败,^ ^您的位置:传输层或两者。相反,我们的方法分离了T和R^正确地,在T中只有轻微的反射晕。特别是,请注意与其他方法相比,白色绘画与星星的对比。虽然具有挑战性,但这种场景并不罕见。图10中的条形图显示了另一个结果,我们的方法在该结果上的表现明显优于大多数相关作品。在该示例中,Schechner等人的方法。[2]产生的结果与我们的结果相当。然而,回想一下,为了公平对待他们的方法,我们穷尽地搜索参数空间并手动搜索。选择最好的结果。另一件要注意的事情是,我们的方法可能会在区域中引入伪影,对于该区域,在任何输入中关于反射或透射层的信息很少或没有,例如在标记的区域中的情况。^T恤上有红色方块我们还展示了一个额外的比较,显示了我们的方法的优越性(图10,绘画)和一些更具挑战性的情况。 我们注意到,在一些示例中,我们的方法可能无法移动部分“已删除的”对象^从R,如图10中的情况,椅子。作物在野外分离反射和透射图像13用户研究由于我们没有真实数据的基础事实,我们通过彻底的用户研究来评估我们的方法对以前的结果。我们询问了43名未参与该项目的人员,将我们的结果与最先进的结果进行排名[17,4,7,2,3]。表2:用户研究结果。我们报 告 每 种 方 法 的 平 均 召 回率。透射反射法R@1 R@2R@1 R@2^ ^您的位置:在我们的研究中,我们将R和T评估为两个独立的因为不同的方法可能在一个或另一个上执行得更好。对于每项任务,受试者被显示三个输入偏振图像,并在同一屏幕上的每种方法的结果,以随机顺序。他们被要求对结果进行1-6级的排序我们测量回忆率我们的0.46 0.65 0.34 0.54[2] 0.14 0.38 0.23 0.40[3]第一章0.11 0.270.09 0.20[4]美国0.06 0.170.08 0.20[七]《中国日报》0.08 0.210.10 0.29[17个]0.06 0.130.15 0.37在排序中,R@k,即,方法在前k个结果中排名的次数的分数。表2报告了召回率。分析该表得出两个结论首先,并且可能是预期的,基于偏振的方法优于其他方法。其次,我们的方法排名高于相关作品的显着保证金。5结论从野外捕获的图像中分离反射层和透射层仍然是一个悬而未决的问题,因为最先进的方法在许多真实世界的图像上失败了。我们提出了一种利用偏振光特性的深度学习解决方案,而不是学习直接从观察中估计反射和透射:它使用规范投影层,并且它学习相对于规范图像的反射和透射的残差。我们方法成功的另一个关键因素是定义该图像合成流水线可以精确地再现在日常图片中观察到的典型非理想性。我们还注意到,我们提出的非刚性变形过程可以用于其他基于堆栈的方法,其中非静态场景可能是一个问题。为了评估我们的方法,我们还提出了城市反射数据集,我们将在出版时提供。使用这个数据集,我们广泛地比较我们的方法对一些相关的作品,无论是视觉上和通过用户研究,这证实了我们的方法是优于国家的最先进的方法。最后,大多数分离反射和透射的现有方法是不可用的:为了进行准确的比较,我们重新实现了具有代表性的、最先进的作品,并将这些算法的实现提供给社区,以实现更多的比较。14维肖莱克,加洛,古,和考茨。曲线窗栏画^^^T R T R我们[二]《中国日报》[3]第一章[4]美国[八]《中国日报》[七]《中国日报》[17个]^I1T^^^R I1T R图10:典型真实世界场景的结果。顶部窗格:与最先进方法的比较,底部窗格:其他结果。更多结果见补充资料。致谢我 们 感 谢 审 稿 人 的 反 馈 , 特 别 是 在 图 中 建 议 实 验 7 , HendrikP.A.Lensch为富有成效的讨论,以及谁捐赠了半小时的生命来参加我们的调查的人。输入侧街穹丘椅子健身房在野外分离反射和透射图像15引用1. 项目网站。http://research.nvidia.com/publication/2018-09_分离-反射-和(2018)2. Schechner,Y. Y.,Shamir,J.,Kiryati,N.:含半反射体场景的偏振与统计分析。美国光学学会杂志(2000)3. Kong,N.,Tai Y.W. Shin,J.S.:基于物理的反射分离方法:从物理建模到约束优化。IEEE模式分析与机器智能4. 范,Q.,杨杰,Hua,G.,陈伯,Wipf,D.:用于单个图像反射去除和图像平滑的通用深度架构。IEEE International Conference on Computer Vision(ICCV)(2017年)5. Collett,E.:极化的现场指导02 The Dog(2005)6. Levin,A.,Weiss,Y.:使用稀疏先验从单个图像中分离反射的用户辅助 IEEETransactionsonPatternAnalysisandMachineIntel-ligence(TPAMI)(2007)7. 李,Y.,Brown,M.S.:使用相对平滑度的单个图像层分离。IEEE计算机视觉和模式识别会议(CVPR)。(2014年)8. Ar vanitopoulosDarginis,N., Achanta,R. 别跑了,S。:信号反射抑制。IEEE计算机视觉和模式识别会议(CVPR)。(2017年)9. Diamant,Y.,Schechner,Y.Y.:克服视觉上的回响。IEEE计算机视觉和模式识别会议(CVPR)。(2008年)10. Shih,Y.,Krishnan,D.,Durand,F.,弗里曼,W.T.:使用重影提示消除反射。IEEE计算机视觉和模式识别会议(CVPR)。(2015年)11. 李,Y.,Brown,M.S.:利用反射变化自动消除反射。IEEE InternationalConference on Computer Vision(ICCV)(二零一三年)12. Xue,T.,Rubinstein,M.,刘,C.,弗里曼,W.T.: 无障碍摄影的计算方法。ACM Transactions on Graphics(SIGGRAPH)(2015)13. 塞利斯基河Avidan,S.,Anandan,P.:从包含反射和透明度的多个图像中提取层IEEE计算机视觉和模式识别会议(CVPR)。(2000年)14. 郭,X.,曹,X.,Ma,Y.:从多个图像中稳健地分离反射。IEEE计算机视觉和模式识别会议(CVPR)。(2014年)15. Han,B.J.,Sim,J.Y.:使用低秩矩阵完成消除反射。IEEE计算机视觉和模式识别会议(CVPR)。(2017年)16. 卡夫托里河Zeevi,Y.Y.:时/位置变化混合物的盲分离IEEE Transactionson Image Processing(TIP)(2013)17. Farid,H.,Adelson,E.H.:使用独立组件分析分离反射和照明。IEEE计算机视觉和模式识别会议(1999年)18. Barros,A.K.,Yamamura,T.,Ohnishi,N.,等:使用独立分量分析分离虚拟和真实IEICE Transactions on Information and Systems(2001)16维肖莱克,加洛,古,和考茨。19. 布朗斯坦,上午,Bronstein,M.M.,Zibulevsky,M.,Zeevi,Y.Y.:稀疏独立分量分析在透射和反射图像盲分离中的应用。国际成像系统与技术杂志(2005)20. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:使用条件对抗网络的图像到图像翻译。IEEE计算机视觉和模式识别会议(CVPR)。(2017年)21. 毛泽东,Shen,C.,Yang,Y.:使用具有对称跳跃连接的非常深的卷积编码器-解码器网络的神经信息处理系统进展(Advances in(2016年)22. 当 我 看 到 霍 尔 克时, S cho? lkopf , M. H. B 、 Lensch , H. P. A. :Learningingbl i ngmotondeblu r-环。IEEE International Conference on ComputerVision(ICCV)(2017年)23. Ronneberger,O.,Fischer,P.,Brox,T.:U-Net:用于生物医学图像分割的卷积网络arXiv预印本arXiv:1505.04597(2015)24. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习IEEE计算机视觉和模式识别会议(CVPR)。(2016年)25. 万河,巴西-地施,B.,Duan,L.Y.,Tan,A.H.,科特,A.C.:单图像反射 去 除 算 法 的 基 准 测 试 IEEE International Conference on Computer Vision(ICCV)(2017年)26. Zhou,B.,(1991年),中国地质大学,Lapedriza,A. Khosla,A. Oliva,A.,Torralba,A.:地点:一个用于场景识别的1000万图像数据库。IEEETransactions on Pattern Analysis and Machine Intelligence(TPAMI)(2017)27. 通量数据http://www.fluxdata.com/products/fd-1665 p-imaging-polarimeter(2018年7月10日访问)28. 理光https://www.ricoh.com/technology/tech/051_polarization.html(于2018年7月10日生效)29. 偏光相机https://www.4dtechnology.com/products/polarimeters/polarcam/(2018年)30. 加洛岛Sen,P.:基于堆栈的HDR捕获和重建算法。在:高动态范围视频。爱思唯尔(2016)31. 当我看到霍尔克时, S chüolkopf,B., Lensch,H. P. 一、 Hirsch,M. :用于图像突发去模糊的End-to-Endlearninging。亚洲计算机视觉会议(ACCV)论文集。(2016年)32. 金,J.,Kwon Lee,J.,Mu Lee,K.:使用非常深的卷积网络实现精确的图像超分辨率。IEEE计算机视觉和模式识别会议(CVPR)。(2016年)33. Everingham,M.凡古尔湖威廉姆斯,C.K.I.,Winn,J.,齐瑟曼,A.:PASCALVisualObjectClassesChallenge2012(VOC2012)http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html34. Schechner,Y. Y.,Kiryati,N.,Shamir,J.:通过极化分析分离透明层。斯堪的纳维亚图像分析会议论文集。(1999年)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功