没有合适的资源?快使用搜索试试~ 我知道了~
CGIntrinsics:通过基于物理的绘制实现更好的固有图像分解李正奇[0000−0003−2929−8149] 诺亚·斯内夫利(Noah Snavely)康奈尔大学计算机科学系抽象。固有图像分解是一个具有挑战性的,长期存在的计算机视觉问题,其中地面真实数据是非常难以获取的。我们探索使用合成数据来训练基于CNN的固有图像分解模型,然后将这些学习到的模型应用于真实世界的图像。为此,我们提出了CGINTRINSICS,一个新的,大规模的数据集的基于物理的渲染图像的场景与充分的地面真相分解。我们使用的渲染过程是经过精心设计的,以产生高质量,逼真的图像,我们发现这是至关重要的这个问题域。我们还提出了一种新的端到端训练方法,该方法通过利用CGINTRINSICS以及可选的IIW和SAW(现实世界图像上的两个最近的稀疏注释数据集)来学习更好的分解。令人惊讶的是,我们发现仅在我们的合成数据上训练的分解网络在IIW和SAW上的表现优于最先进的技术,并且当在训练期间添加IIW和SAW数据时,性能甚至进一步提高。我们的工作证明了精心渲染的合成数据对于内在图像任务的惊人有效性1介绍固有图像是一个经典的视觉问题,涉及将输入图像I分解为反射率(反照率)和阴影图像R·S的乘积。近年来,在这个问题上取得了显着的进展,但它仍然具有挑战性,由于其不适定性。一个有吸引力的提议是用基于CNN的学习模型取代传统的手工先验对于这种学习方法,数据是关键,但收集地面事实用于本征图像的数据是极其困难的,尤其是对于真实世界场景的图像生成用于内在图像的大量训练数据的一种方式是渲染合成场景。然而,现有的合成数据集限于单个对象的图像[1,2](例如,通过ShapeNet [3])或利用简化的、不真实的照明的CG动画的图像via Sintel [4])。另一种方法是使用众包收集真实图像的地面实况,如在野外固有图像(IIW)和野外阴影注释(SAW)数据集中[5,6]。中的注释这样的数据集是稀疏的并且难以大规模地精确收集受最近使用场景合成图像作为室内和室外场景理解训练数据的启发[7-10],我们提出了第一个基于高质量物理渲染的大规模场景级固有图像数据集,我们称之为CGI由超过20,000张室内场景图像组成,基于SUCG数据集[11]。我们使用CGI的目的是帮助推动在解决现实世界场景的互联网照片的内在图像问题方面取得重大进展我们发现2李正奇和诺亚·斯内弗利合成图像IIW注释SAW注释火车R输入图像分解网络SFig. 1.概述和网络架构。我们的工作集成了来自CGINTRINSICS数据集的基于物理的渲染图像以及来自IIW和SAW的反射/阴影注释,以训练更好的内在分解网络。高质量的基于物理的渲染对我们的任务至关重要。虽然SUNC提供了基于物理的场景渲染[12],但我们的实验表明,图像渲染的细节至关重要,某些选择可以大大提高CNN在合成数据上对固有图像进行训练的程度。我们还提出了一种新的部分监督学习方法来训练CNN直接预测反射率和阴影,通过结合地面真相从CGI和稀疏注释从IIW/SAW。通过对IIW和SAW的评估,我们发现,令人惊讶的是,仅在CGI上训练的分解网络可以在两个数据集上实现最使用CGI和IIW/SAW的组合训练导致更好的性能。最后,我们发现CGI的概括比现有的数据集,通过评估麻省理工学院的内在图像,一个非常不同的,以对象为中心的,数据集。2相关工作基于优化的方法经典的内在图像的方法是整合各种先验(平滑度、反射稀疏度等)最优化框架[13-17,5]。然而,对于真实世界场景的图像,这种手工制作的先验假设很难制作并且经常被违反。最近的几种方法试图通过将来自RGB-D相机的表面法线或深度[18-20]集成到优化过程中来提高分解质量然而,这些方法假设深度图在优化期间可用,从而防止它们用于广泛的消费者照片。学习方法。最近已经探索了用于内在图像的学习方法,作为具有手工制作的先验的模型的替代方案,或者是自动设置这种模型Barron和Malik [21]学习参数CGIntrinsics3该模型利用反射率、形状和照明的复杂先验。这种方法适用于对象的图像(例如在MIT数据集中),但不能推广到现实世界的场景。最近,已经部署了基于CNN的方法,包括基于各种训练数据集直接回归到输出分解的工作,例如Sintel[22,23],MIT intrinsic和ShapeNet [2,1]。Shu等人[24]还提出了一种基于CNN的方法,专门用于面部图像的域,其中可以通过模型拟合获得地面真实几何。然而,正如我们在评估部分所示,在这些先验数据集上训练的网络在现实世界场景的图像上表现不佳。最近的两个数据集是基于真实世界场景的图像Intrinsic Images in the Wild(IIW)[5]和Shading Annotations in the Wild(SAW)[6]由真实室内图像上的稀疏、众包反射和阴影注释组成随后,几篇论文在这些稀疏注释上训练基于CNN的分类器,并使用分类器输出作为先验来指导分解[6,25然而,我们发现这些注释本身不足以训练直接回归方法,可能是因为它们是稀疏的,并且仅来自几千张图像。最后,最近的工作已经探索了使用延时图像作为内在图像的训练数据[28],尽管这提供了一个非常间接的监督来源。真实场景的合成数据集。合成数据最近已被用于改善对一系列问题的真实世界图像的预测。例如,[7,10]基于自动驾驶的视频游戏创建了一个大规模的数据集和基准,[29,30]使用合成图像来形成内部图像的小基准。SUNG [12]是一个最近的,用于室内场景理解的大规模合成数据集然而,从SUCG导出的基于物理的渲染的PBRS数据库中的许多图像具有低信噪比(SNR)和非现实的传感器属性。我们表明,更高质量的渲染产生更好的训练数据的内在图像。3CGINTRINSICS数据集为了创建我们的CGINTRINSICS(CGI)数据集,我们从SUNC数据集开始[11],该数据集包含超过45,000个室内场景的3D模型我们首先考虑了来自SUNC [12]的基于物理的场景渲染的PBRS数据集。对于每个场景,PBRS从良好的视点对相机进行采样,并使用基于物理的Mitsuba渲染器[31]在合理逼真的照明(包括室内和室外照明源的混合)下生成具有全局照明的逼真图像使用这种方法,我们还可以通过渲染标准RGB图像I,然后要求渲染器从相同的视点产生反射图R,并且最后分割以得到着色图像S=I/R,来生成本征图像的地面实况数据。图2中示出了这样的地面实况分解的示例请注意,在创建分解时,我们会自动屏蔽光源(包括从窗户向外看的照明),并且在训练网络时不考虑这些像素然而,我们发现PBRS渲染并不理想,用于训练真实世界的内在图像分解网络。事实上,图像中的某些细节对学习表现有显著的影响:4李正奇和诺亚·斯内弗利图二.我们的CGI NTRINSICS数据集的地面实况可视化。顶行:渲染的RGB图像。中间:地面真实反射率。底部:地面实况阴影。请注意,在创建地面实况分解时,光源被掩蔽渲染质量。Mitsuba和其他高质量渲染器支持一系列渲染算法,包括各种风格的路径跟踪方法,这些方法对每个输出像素的许多光路进行采样。在PBRS中,作者注意到双向路径跟踪工作良好,但非常慢,并选择采样率为每像素512个样本的Metropolis Light Transport(MLT)[12]。相比之下,对于我们的目的,我们发现,双向路径跟踪(BDPT)与非常大数量的样本每像素是唯一的算法,提供了一贯良好的结果渲染SUNC图像。从PBRS和我们的新CGI图像中选择的渲染之间的比较如图3所示。请注意,我们的渲染中的噪音显着减少。这种额外的质量是有代价的。我们发现,使用BDPT与8,192个样本每像素产生可接受的质量为大多数图像。这会显著增加每个图像的渲染时间,从报告的31秒[12]增加到大约30分钟。1需要大量样本的一个原因然而,渲染是高度并行化的,在大约六个月的时间里,我们在大约10台机器的集群上渲染了一万多张图像。从HDR到LDR的色调映射。我们发现图像生成中的另一个关键因素是渲染图像的色调映射方式。像Mitsuba这样的渲染器通常产生高动态范围(HDR)输出,其对每个像素的原始线性辐射率估计进行编码。相比之下,真实照片通常是低动态范围的。采用HDR输入并产生LDR输出的过程被称为色调映射,并且实际上是色调映射。1虽然很高,但这仍然是动画电影报告的渲染时间的一个公平的方式例如,皮克斯的怪兽大学的每一帧都需要29个CGIntrinsics5HDR二、2图三.我们的CGI和原始SUCG数据集之间的视觉比较。顶行:来自SUNC/PBRS的图像。下一行:来自CGI数据集的图像。我们数据集中的图像具有更高的SNR,更真实。数据集大小设置渲染/真实 照明 GT型MPI Sintel [34] 890 Animation non-PB spatial-varying full MIT Intrinsics [35]110 Object Real single global full ShapeNet [2] 2M+ Object PB single globalfull IIW [5] 5230 Scene Real spatial-varying sparse SAW [6] 6677 Scene Realspatial-varying sparseCGI NTRINSICS20,000 + Scene PB spatial-varying full表1.现有的内在图像数据集与我们的CGI NTRINSICS数据集的比较。PB指示基于物理的渲染,并且非PB指示非基于物理的渲染。照相机的类似操作是自动曝光、伽马校正等,从而产生曝光良好的高对比度照片。PBRS使用Reinhard等人的色调映射方法。[33],它的灵感来自于安塞尔·亚当斯等摄影师,但它可以产生与消费类相机在性格上截然不同的图像。我们发现,一个更简单的色调映射方法产生更自然的结果。同样,图3显示了PBRS渲染和我们自己的渲染之间的比较。请注意颜色和照明功能,如阴影,如何在我们的渲染中更好地捕获(我们注意到阴影经常使用Reinhard色调映射器消失)。特别地,为了对线性HDR辐射图像IHDR进行色调映射,我们找到第90个百分位强度值r90,然后计算图像ILDR=αIγ,其中γ=1是标准伽马校正因子,并且计算α,使得r90映射到值0.8. 然后将最终图像裁剪到范围[0,1]。该映射确保在色调映射之后至多10%的图像像素(并且通常更少)是饱和的,并且倾向于产生看起来自然的LDR图像。使用上述渲染方法,我们重新渲染了来自PBRS的约我们还将[30]中的152个真实渲染整合到我们的数据集中。表1比较我们的CGI数据集到先前的固有图像数据集。Sintel是为动画电影创建的数据集,不使用基于物理的渲染。其他数据集,如ShapeNet和MIT,是以对象为中心的,而CGI则专注于室内的图像6李正奇和诺亚·斯内弗利R+S场景,其具有更复杂的结构和照明(投射阴影、空间变化的照明等)。与包括真实场景图像的IIW和SAW相比,CGI具有完整的地面真实性,并且更容易大规模收集。4学习跨数据集内在函数在本节中,我们将描述如何使用CGINTRINSICS端到端联合训练内在分解网络,并结合IIW和SAW的额外稀疏注释。我们的完整训练损失考虑来自每个数据集的训练数据L= L CGI + λ IIW L IIW + λ SAW L SAW。(一)其中LCGI、LIIW和LSAW分别是我们用于从CGI、IIW和SAW数据集最直接的训练方法是简单地合并每个数据集的在CGI的情况下,这种监督包括完整的地面真相对于IIW和SAW,这种监督采用每个图像的稀疏注释的形式,如图1所示然而,除了监督,我们发现,将平滑先验纳入损失也提高了性能。因此,我们的完整损失函数包含了一些项:LCGI=Lsup+λordLord+λrecLreconstruct ( 2 ) LIIW=λordLord+λrsLrsmooth+λssLssmooth+Lreconstruct(3)我们现在详细描述每个术语。4.1监督损失CGIntrinsics监督损失。 由于我们的CGI数据集中的图像配备了完整的地面真值分解,因此该数据集的学习问题可以表示为从输入图像I到输出图像R和S的直接回归问题。然而,因为分解仅达到未知的比例因子,所以我们使用比例不变的监督损失LsiMSE(用于“比例不变的均方误差”)。此外,我们还添加了一个梯度域多尺度匹配项Lgrad。对于CGI中的每个训练图像,我们的监督损失被定义为Lsup=LsiMSE+Lgrad,其中1ΣNLsiMSE=(R*−cr Ri)2+(S*−cs Si)2(5)ΣL1NΣNl ¨我我i=1¨ ¨ ¨L梯度=Nll=1i=1¨∗l我 — cr Rl,i¨¨∗l我 — csSl,i? .(六)Rl,i(R*)和Sl,i(S*)表示反射率预测(分别地面实况)和阴影l,i l,i预测(resp.地面实况)分别在图像金字塔的像素i和尺度LNl是尺度l处的有效像素的数量,并且N=Nl是原始图像尺度处的有效像素的数量比例因子cr和cs通过最小二乘法计算11CGIntrinsics7图像CGI(R)CGI(S)CGI+IIW(R)CGI+IIW(S)见图4。使用和不使用IIW训练数据的预测示例。 添加真实IIW数据可以定性地改善反射率和阴影预测。例如,注意第一行中突出显示的面组在合并IIW数据后如何具有更均匀的反射率,并且第二行中突出显示的地板也是如此。除了LsiMSE的尺度不变性之外,另一个重要方面是我们在线性强度域中计算MSE,而不是在[22]中使用的对数域中的在对数域中,具有以下特征的像素对:大的绝对对数差往往主导损失。正如我们在评估中所示,在线性域中计算LsiMSE最后,多尺度梯度匹配项Lgrad鼓励分解为具有尖锐的不连续性的分段平滑。有序反射损失。 IIW提供点对之间的稀疏有序反射率判断(例如, 我们介绍了这个有序的监督的基础上的损失对于给定的IIW训练图像和预测的反射率RΣ,我们为该图像中的每对注释的像素el(i,j)累积损失Lord(R)=(i,j)ei,j(R),其中wi,j(logRi−logRj)2,ri,j=0ei,j(R)=wi,j(max(0,m-logRi+logRj))2,ri,j=+1(七)wi、j(max(0,m-logRj+ logRi))2,ri、j=−1并且ri,j是来自IIW的顺序关系,指示点i是否较暗(-1),j是否较暗(+1),或者它们是否具有相等的反射率(0)。 wi,j是由IIW提供的注释的置信度。有和没有IIW数据的示例预测如图所示4.第一章我们还发现,添加一个类似的序数项来自CGI数据可以提高反射率的预测。对于CGI中的每个图像,我们使用超像素分割对其进行过度分割[36]。然后,在每次训练迭代中,我们从每个分割区域中随机选择一个像素,并且对于每对所选择的像素,我们评估类似于当量7,其中wi,j=1,并且从地面真实反射率推导出顺序关系。声表面波阴影损耗 SAW数据集提供包含平滑的注释的图像。(S)阴影区域和非平滑(NS)阴影点,如图1所示这些注释可以进一步分为三种类型:恒定阴影区域、阴影边界和深度/法线不连续性。我们将所有三种类型的注释集成到我们的监督SAW损耗LS/NS中。对于每个恒定阴影区域(具有Nc个像素),我们计算损失L常数-阴影8李正奇和诺亚·斯内弗利CN图像CGI(R)CGI(S)CGI+SAW(R)CGI+SAW(S)图五.使用和不使用SAW训练数据的预测示例。 添加SAW训练数据可以定性地改善反射率和阴影预测。注意在第一行中的分解中突出显示的图片/TV,以及在第二行中的针对绘画和沙发的纹理到反射通道的改进的分配。促使所述区域中的所述预测阴影的所述方差为零:Lconstant−shading=1ΣNc (logS)2−1.ΣNc logSΣ2.(八)Nii=12我ci=1SAW还在投射阴影边界处提供单独的点注释。如[6]中所述,这些点并没有精确地定位在阴影边界上,因此我们在训练中使用它们之前对标记点集应用半径为5像素的形态膨胀。这导致阴影边界区域。我们发现,大多数阴影边界注释位于恒定反射率的区域中,这意味着对于一个小邻域内的所有阴影像素对,它们的对数差应该是在一些实施例中,图像强度的对数差近似等于图像强度的这相当于鼓励logSi−logIi在这个小区域内的方差为0[37]。因此,我们将每个阴影边界区域(具有Nsd)像素的损失定义为:1ΣNsdL=(logS— logI)2−1.越南sd(logSΣ2— logI)(九)阴影Nsd我i=1i2i isdi=1最后,SAW提供深度/法线不连续性,其通常也是阴影不连续性。然而,由于我们不能导出这种不连续性的实际着色改变,所以我们简单地在我们的着色平滑度项Lssmooth(等式10)中掩蔽掉这种区域。11),即,我们不惩罚这种区域中的阴影变化。如上所述,我们首先在用于训练之前扩张这些注释区域实例预测在将SAW数据添加到我们的训练中之前/之后,如图所示五、4.2平滑度损失为了进一步限制IIW/SAW中真实图像的分解,在经典的本征图像算法之后,我们添加反射平滑Lrsmooth和阴影NCGIntrinsics92l我l我Bsmoothness光滑项对于反射率,我们使用多尺度1平滑项来鼓励反射率预测为分段常数:ΣLLr平滑=1ΣNlN lΣvl,i,jlogRl,i−logRl,jl(10)l=1li=1j∈N(l,i)其中N(l,i)表示8-连通。d在位置i和尺度l处的像素的邻域。反射权重vl,i,j=exp−1(fl,i−fl,j)TΣ−1(fl,i−fl,j),以及特征向量fl,i被定义为[pl,i,ll,i,cl,c2],其中pl,i和ll,i是空间位置,并且l,i l,i图像强度分别是色度的前两个元素,c1和c2是色度的前两个Σ是定义两个特征向量之间的距离的协方差矩阵我们还包括一个密集连接的2着色平滑项,它可以使用双边嵌入在像素数量N的线性时间内进行评估[38,28]:1ΣNΣNLs平滑=2NI jWi,j(logSi−logSj)2≈s(I−NbSB<$bSbNb)s(11)N.Σ其中,W是由W和W *导出的双随机权重矩阵。=exp−1||pi−pj||二、i、j2σp2我们建议读者参考[38,28]以获得详细的推导。如我们的实验所示,添加这种对真实数据的平滑项可以产生更好的泛化。4.3重构损失最后,对于每个数据集中的每个训练图像,我们添加一个损失,表示反射率和阴影应该重建原始图像的约束:1ΣNL重建=N i=1(I i− R i S i)2.(十二)4.4网络架构我们的网络架构如图1所示。我们使用的是“U-Net”架构的变体[28,39]。我们的网络有一个编码器和两个解码器与跳过连接。这两个解码器分别输出对数反射率和对数阴影编码器的每一层主要由4×4步幅-2卷积层组成,然后是批量归一化[40]和泄漏ReLu [41]。对于两个解码器,每一层由4×4解卷积层、随后的批归一化和ReLu组成。并且将1×1卷积层附加到每个解码器的最后一层5评价我们在现实世界场景的两个数据集IIW [5]和SAW [6]上进行实验(使用训练期间未见过的测试数据),并将我们的方法与几种最先进的固有图像算法进行比较。此外,我们还通过在MIT Intrinsic Images基准上评估CGI数据集的泛化[35]。110李正奇和诺亚·斯内弗利方法训练集WHDR方法训练集WHDR[35]第三十五话-百分之二十六点九我们的(log,LsiMSE)CGI22.7%Garces等人[17个]-百分之二十四点八我们的(不含L级)CGI百分之十九点七Zhao等人[14个]-23.8%我们的(不含订单) CGI百分之十九点九Bell等[五]《中国日报》-百分之二十点六我们的(不含Lrsmooth)所有16.1%我们SUNG百分之二十六点一Zhou等[25日]IIW百分之十九点九我们CGI百分之十七点八Bi等人[第四十四届]-17.7%我们的CGI百分之十七点一Nestmeyer等人[45个]Nestmeyer等人[45]IIWIIW百分之十九点五17.7%我们的我们的CGI+IIW(O)CGI+IIW(A)百分之十七点五百分之十六点二DI [22]Sintel百分之三十七点三我们所有15.5%Shi等人[二]《中国日报》ShapeNet59.4%我们的所有百分之十四点八表2.IIW测试集上的数值结果WHDR越低越好。该表分为空间的两个子表(先前的方法显示在左边的子表中,我们的结果显示在右边)。“训练集”列指定每个基于学习的方法使用的训练数据:指示基于优化的方法。IIW(O)表示原始IIW注释,IIW(A)表示增强的IIW比较。*表示CNN预测是用引导滤波器进行后处理的[45]。网络培训详情。我们在PyTorch中实现了我们的方法[42]。对于所有三个数据集,我们通过随机翻转,调整大小和裁剪来执行数据增强。对于所有评估,我们使用Adam [43]优化器从头开始训练我们的网络,初始学习率为0。0005和小批量16。我们建议读者参考补充材料以获得详细的超参数设置。5.1IIW评价我们遵循[27]提供的IIW的训练/测试划分,也用于[25]。我们还进行了几个消融研究使用不同的损失配置。我们的方法与其他基于优化和学习的方法之间的加权人类不一致率(WHDR)的定量比较如表2所示。比较直接的CNN预测,我们的CGI训练模型明显优于最好的基于学习的方法[45],并且与[44]相似,即使[45]直接在IIW上训练。此外,在CGI训练模型的结果上运行[45]的后处理实现了进一步的性能提升。表2还示出了在SUNC上训练CGIntrinsics11的模型(即,PBRS)、Sintel、MIT Intrinsics或ShapeNet对IIW的泛化能力较差,这可能是由于训练数据(SUNC/PBRS)的质量较低,或者与CGI相比,相对于真实世界场景的图像存在较大的域差距与SUCG的比较表明了我们的渲染决策的关键重要性。我们还评估了使用CGI和IIW的真实图像联合训练的网络与[25]一样,我们通过全局利用其传递性和对称性来增强成对IIW判断表2的右侧部分表明,包括IIW训练数据导致性能的进一步改进,还包括SAW训练数据也是如此。表2还示出了对我们的方法的变体的各种消融,例如评估12李正奇和诺亚·斯内弗利CGICGI+IIWCGI+IIW+SAWShapeNet [Shi等人2017]Sintel+MIT [Narihira et al. 2015][Bell等人2014年]Retinex-Color [Grosse等人2009][Garces等人2012年][Zhao等人2012][Zhou等人二〇一精度方法训练集AP%(未加权)AP%(激发)[35]第三十五话-91.9385.26Garces等人[17个]-96.8992.39Zhao等人[14个]-97.1189.72Bell等[五]《中国日报》-97.3792.18Zhou等[25日]IIW96.2486.34Nestmeyer等人[45个] IIW97.2689.94Nestmeyer等人[45]IIW96.8588.64DI [22]Sintel+MIT95.0486.08Shi等人[二]《中国日报》ShapeNet86.6281.30我们的(log,LsiMSE)CGI97.7393.03我们的(不含L级)CGI98.1593.74我们的(不含Lssmooth)CGI+IIW(A)+SAW98.6094.87我们SUNG96.5687.09我们CGI98.4394.08我们CGI+IIW(A)98.5694.69我们CGI+IIW(A)+SAW98.7896.57表3. SAW测试装置的定量结果。AP%越高越好。第二列 如表2所示第三和第四列分别显示了未加权SAW基准测试和更具挑战性的梯度加权基准测试的性能1 10.9 0.90.8 0.80.7 0.70.6 0.60.50 0.2 0.4 0.6 0.81召回0.50 0.2 0.4 0.6 0.81召回见图6。SAW测试集上阴影图像的精确度-召回(PR)曲线。左:使用[28]的未加权SAW误差度量生成的右:使用更具挑战性的梯度加权度量生成的曲线。在对数域中的损失和从损失函数中去除项。最后,我们测试了一个只训练IIW/SAW数据(而不是CGI)的网络,或者在CGI上训练并在IIW/SAW上进行微调。虽然这样的网络实现了19%的WHDR,但我们发现分解在质量上是不令人满意的。训练数据的稀疏性导致这些网络产生退化分解,特别是对于阴影图像。5.2声表面波的评价为了评估我们的阴影预测,我们在SAW [6]测试集上测试我们的模型,利用[28]中引入的误差度量。我们还提出了一个新的更具挑战性的CGICGI+IIWCGI+IIW+SAWShapeNet [Shi等人2017]Sintel+MIT [Narihira et al.2015] [Bell等人2014年]Retinex-Color [Grosse等人2009][Garces等人2012年][Zhao等人2012][Zhou等人二〇一精度CGIntrinsics13SAW评估的误差度量。特别地,我们发现在SAW中注释的许多恒定阴影区域也具有平滑的图像强度(例如,无纹理墙),使其阴影易于预测。我们提出的度量如下所示对这些区域进行降权。对于恒定阴影的每个注释区域,我们计算该区域上的平均图像梯度幅度。在评估期间,当我们将属于恒定阴影区域的像素添加到混淆矩阵中时,我们将像素的数量乘以该平均梯度。该建议的度量导致方法之间更可区分的性能差异,因为与未加权度量相比,具有丰富纹理的区域将对误差贡献更多。图6和表3显示了SAW测试集上的精确度-召回率(PR)曲线和平均精确度(AP),其中包含未加权[28]和我们提出的挑战错误度量。与IIW一样,仅使用我们的CGI数据训练的网络可以实现最先进的性能,即使不使用SAW训练数据。添加真实IIW数据在两个误差度量方面改进了AP最后,表3的最后一列显示,整合SAW训练数据可以显著提高阴影预测的性能,表明我们提出的SAW稀疏注释损失的有效性。注意,IIW上的先前最先进的算法(例如,Zhou等[25]和Nestmeyeret al. [45])倾向于过拟合反射率,从而损害着色预测的准确性。这在我们提出的挑战误差度量方面尤其明显。相比之下,我们的方法在反射率和阴影预测方面实现了最先进的结果请注意,在原始SUNC、Sintel、MIT intrinsic或ShapeNet数据集上训练的模型在SAW测试集上表现不佳,这表明我们的CGI数据集对真实场景的泛化能力大大提高。IIW/SAW的定性结果。图7显示了我们在所有三个数据集上训练的网络与其他两种最先进的内在图像算法(Bell等人)之间的定性比较。[5] Zhouet al.[25]),在IIW/SAW测试集的图像在一般情况下,我们的分解显示出显着的改善。特别是,我们的网络更好地避免将表面纹理归因于阴影通道(例如,前两行中明显的棋盘图案,以及最后四行中的复杂纹理),同时仍然预测准确的反射率(例如第三行图像中的迷你沙发)。相比之下,其他两种方法通常无法处理这样困难的设置。特别是,[25]倾向于过拟合反射率预测,并且它们的阴影估计与原始图像强度非常相似。然而,我们的方法仍然会出现错误,例如第五排椅子的非均匀反射预测,以及阴影和反射通道中的残留纹理和阴影5.3MIT本征图像的评价为了完整起见,我们还测试了CGI训练的网络推广到MIT Intrinsic Images数据集的能力与IIW/SAW相比,MIT数据集包含20个真实对象,具有11种不同的照明条件。我们遵循与Barron等人相同的训练/测试划分。[21],和,在工作中的施等人。[2],我们直接将CGI训练的网络应用于MIT测试集,并在MIT训练集上对它们进行我们使用与[2]相同的错误度量将我们的模型与几种最先进的基于学习的方法进行表4示出了定量比较,并且图8示出了定量比较。14李正奇和诺亚·斯内弗利Image Bellet al.(R)Bell等人(S)Zhou等(R)Zhou等(S)我们的(R)我们的(S)见图7。IIW/SAW测试集的定性比较。我们的预测显示出显着的改进相比,国家的最先进的算法(贝尔等人。[5]和Zhouet al. [25])。特别是,我们预测的着色通道在几个具有挑战性的设置中包括明显较少的表面纹理。定性结果。两者都表明,与ShapeNet训练的网络相比,我们的CGI训练模型在定性和定量方面都具有更好的性能,即使像MIT一样,ShapeNet由渲染对象的图像组成,而我们的数据集包含场景的图像。此外,我们的CGI预训练模型也比在ShapeNet和Sintel上预训练的网络这些结果进一步证明了我们的CGI数据集的泛化能力相比,现有的数据集。请注意,SIRFS仍然达到了最佳结果,但如[22,2]中所述,他们的方法是专门为单个对象设计的,并且对真实场景的推广效果很差。6结论我们提出了一种新的用于学习内在图像的合成数据集,以及一种端到端学习方法,该方法通过利用具有不同类型标签的数据集来学习更好的内在图像分解我们的评估说明了令人惊讶的效果CGIntrinsics15MSELMSEDSSIM方法训练集反射阴影反射阴影反射阴影SIRFS [21]MIT0.0147 0.00830.04160.01680.1238 0.0985DI [22]Sintel+MIT0.0277 0.01540.0585 0.02950.1526 0.1328Shi等人[二]《中国日报》ShapeNet0.0468 0.01940.0752 0.03180.1825 0.1667Shi等人[2]ShapeNet+MIT 0.0278 0.01260.0503 0.02400.1465 0.1200我们CGI0.0221 0.01860.0349 0.02590.1739 0.1652我们的CGI +MIT0.0167 0.01270.03190.02110.1287 0.1376表4. MIT intrinsic测试集的定量结果。对于所有误差度量,越低越好。第二列显示用于训练的数据集表示在MIT上微调的模型[21]第二十一届中国国际汽车工业展览会[2]Shi等人[2]我们的我们的见图8。MIT内部测试集的定性比较。奇数行:反射率预测。偶数行:着色预测。这些预测都是在麻省理工学院微调过的我们的合成数据集上的互联网照片的真实世界的场景。我们发现渲染的细节很重要,并假设改进的基于物理的渲染可能有利于其他视觉任务,例如正常预测和语义分割[12]。致谢。我们感谢Jingguang Zhou在数据生成方面的帮助。这项工作是由美国国家科学基金会通过拨款IIS-1149393资助,并由施密特科学公司资助。16李正奇和诺亚·斯内弗利引用1. Janner,M.,吴,J.,Kulkarni,T.,耶尔德勒姆岛Tenenbaum,J.B.:自监督本征图像分解。在:神经信息处理系统。(2017年)2. 施,J.,Dong,Y.,Su,H.,Yu,S.X.:学习ShapeNet类别中的非朗伯对象内部函数计算机视觉和模式识别(CVPR)。(2017)58443. Chang,A.X.,Funkhouser,T.,吉巴斯湖Hanrahan,P.黄,Q,Li,Z.,Savarese,S.,Savva,M.,Song,S.,Su,H.,等:ShapeNet:信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012(2015)4. 巴特勒DJWulff,J.,Stanley,G.B.,布莱克,M.J.:一个用于光流评估的自然主义开源电影在:欧洲会议程序计算机视觉(ECCV)(2012)6115. Bell,S.,Bala,K.,Snavely,N.:在野外的内在图像。ACM Trans. Graphics33(4)(2014)1596. 科瓦奇湾Bell,S.,Snavely,N.Bala,K.:野外阴影注释In:Proc.计算机视觉与模式识别(CVPR)(2017)8507. Richter,S.R.,Vineet,V.,Roth,S.,Koltun,V.:玩数据:来自电脑游戏的地面真相在:欧洲会议程序计算机视觉(ECCV)(2016)1028. Ros,G.,塞拉特湖Materzynska,J.,Vazquez,D.,洛佩兹:SYNTHIA数据集:一个大的合成图像集,用于城市场景的语义分割。计算机视觉和模式识别(CVPR)。(2016)32349. Gaidon,A.王建奎,Cabon,Y.Vig,E.:虚拟世界作为多目标跟踪分析的代理计算机视觉和模式识别(CVPR)。(2016)434010. Richter,S.R.,Hayder,Z.,Koltun,V.:为基准而战。输入:程序输入计算机视觉会议(ICCV)。(2017)223211. Song,S.,余,F.,Zeng,A.,Chang,A.X.,Savva,M.,Funkhouser,T.:从单个深度图像的语义场景计算机视觉和模式识别(CVPR)。(2017)19012. 张玉,Song,S.,Yumer,E.,Savva,M.,Lee J.Y.Jin,H.,Funkhouser,T.:使用卷积神经网络进行室内场景理解的基于物理的渲染。计算机视觉和模式识别(CVPR)。(2017)505713. 兰德E.H. McCann,J.J.:亮度和视网膜理论。乔萨61(1)(1971)114. 赵,Q.,Tan,P.,Dai,Q.,Shen,L.,Wu,E.,Lin,S.:具有非局部纹理约束的retinex问题的封闭解。译关于模式分析和机器智能34(7)(2012)143715. Rothe r,C.,Kiefel,M.,张,L., Scho ¨l k opf,B., 盖勒河,山口五.:在反射率上具有全局稀疏性先验的本征图像在:神经信息处理系统。(2011年)765-77316. Shen,L.,Yeo,C.:使用局部和全局稀疏表示反射率的内在图像分解。计算机视觉和模式识别(CVPR)。(2011)697-70417. Garces,E.,Munoz,A.,Lopez-Moreno,J.,Gutierrez,D.:通过聚类的内在图像。计算机图形学论坛(Proc. EGSR 2012)31(4)(2012)18. 陈昆,Koltun,V.:一个简单的模型,用于具有深度线索的内在图像分解于:Proc. 计算机视觉与模式识别(CVPR)(2013)24119. 巴伦J.T. Malik,J.:来自单个RGB-D图像的固有场景属性。计算机视觉和模式识别(CVPR)。(2013)1720. Jeon,J.,Cho,S.唐,X.,Lee,S.:使用结构纹理分离和表面法线的内在图像分解。在:欧洲会议程序计算机视觉(ECCV)(2014年)CGIntrinsics1721. 巴伦J.T. Malik,J.:形状、照明和着色的反射率。模式分析与机器智能学报37(8)(2015)167022. Narihira,T.,Maire,M.,Yu,S.X.:直接内函数:通过以下方法学习反照率阴影分解卷积回归In:Proc.Int. Conf. 计算机视觉(ICCV)(2015)299223. Kim,S.,Park,K.,Sohn,K.,Lin,S.:通过联合卷积神经场从单个图像进行统一的深度预测和固有图像在:欧洲会议程序计算机视觉(ECCV)(2016)14324. Shu,Z.,Yumer,E.,Hadap,S.,Sunkavalli,K.,Shechtman,E.,萨马拉斯,D.:具有内在图像解缠的神经人脸编辑In:Proc.计算机视觉与模式识别(CVPR)(2017)54
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功