无单个本征图像的单图像本征分解

147 浏览量更新于2023-10-13 收藏 1.6MB PDF 举报

无监督学习

自监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

无单个本征图像的单图像本征分解Wei-Chiu Ma1， 2，Hang Chu3，Bolei Zhou1，Raquel Urtasun2， 3，and AntonioTorralba11麻省理工2优步先进技术集团多伦多大学University of Toronto抽象。本征图像分解是将一幅自然图像分解为一组对应于不同物理原因的图像，是计算机视觉的关键和基本问题之一。以前的内在分解方法要么以完全监督的方式解决问题，要么需要相同场景的多个图像作为输入。这些方法在实践中是不太理想的，因为地面实况固有图像是非常难以获取的，并且多个图像的要求对适用的场景造成严重限制在本文中，我们提出了两全其美。我们提出了一个双流卷积神经网络框架，该框架能够在没有任何地面真实内在图像的情况下有效地学习decomposition，并且可以很容易地扩展到（半）监督设置。在推理时，我们的模型可以很容易地减少到一个单一的流模块，执行一个单一的输入图像的我们通过对合成和真实世界数据集的广泛实验研究证明了我们的框架的有效性，在单图像和多图像设置中表现出优于以前的方法的性能值得注意的是，我们的方法优于以前最先进的单图像方法，同时只使用50%的地面实况监督。关键词：内在分解，无监督学习，自监督学习1介绍炎炎午后，你一路走在阳光下，最后进入阴凉处。你注意到地面上有一个锋利的边缘，人行道的外观发生了巨大的变化。不用多想，您就会意识到砖块实际上是相同的，颜色差异是由于场景照明的变化尽管只是匆匆一瞥，但人类有非凡的能力将我们的视觉世界中错综复杂的混乱分解为简单的潜在因素。即使大多数人在他们的一生中从未见过一个单一的内在图像，他们仍然可以估计材料的内在属性，并有效地推理它们的这是因为人类的视觉系统已经积累了数千小时的隐含观察，这些观察可以作为他们在判断时的先验。这种能力不仅在解释真实世界的图像中起着基础性的作用，而且也是真正理解复杂视觉世界的关键。这项工作的目标是2W.C. Ma，H.楚湾，澳-地周河，巴西-地Urtasun和A.Torralba通过模拟人类的学习过程，使计算视觉机器具有类似的能力我们相信，通过使感知系统能够解开内在属性（例如：反射率）从外部因素（例如，阴影），他们将更好地理解世界的物理相互作用。在计算机视觉中，将图像分解为一组图像的任务通常被称为固有分解[4]，其中每个图像对应于不同的物理原因。尽管反问题是不适定的[1]，但由于其在计算机视觉中的算法和应用的潜在效用，它引起了广泛的关注例如，许多低级视觉任务，如阴影消除[14]和光流估计[27]从可靠的反照率图像估计中获益。高级图像处理应用程序，如外观编辑[48]，对象插入[24]和图像重新照明[49]也变得更加容易，如果图像被正确分解为材质属性和阴影效果。受到这种巨大潜力的激励，已经提出了各种方法用于本征分解[6，28，17，62]。他们中的大多数人专注于单眼情况，因为它经常出现在实践中[13]。他们要么利用手动设计的先验[31，41，2，3]，要么利用数据驱动的统计[39，61，48]来解决模糊性。这些模型功能强大，但有一个严重的缺点- 需要用于学习的基本事实。然而，内在图像的基本事实是非常困难和昂贵的收集[16]。目前公开可用的数据集要么是小的[16]，合成的[9，48]，要么是稀疏注释的[6]，这大大限制了这项任务的可扩展性和可推广性。为了克服这些限制，已经引入了基于多图像的方法[28，17，55，18，29]。它们消除了对地面事实的需要，并采用多个观察来消除问题的歧义。虽然无监督的内在分解范式很有吸引力，但它们在训练和推理过程中都需要多图像作为输入，这在很大程度上限制了它们在现实世界中的应用。在这项工作中，我们提出了一种新的方法来学习内在的分解，既不需要地面真理，也不需要先验的场景几何形状或照明模型。我们绘制基于单个图像的方法和基于多个图像的方法之间的连接，并明确显示如何从其他受益。根据推导的公式，我们设计了一个统一的模型，其训练阶段可以被看作是一种方法，多图像的内在分解。而在测试时，它能够分解任意单个图像。更具体地说，我们设计了一个两个流深度架构，观察一对图像，旨在通过预测正确的内在分解来解释场景的变化。学习不需要基础事实。该模型在推理过程中简化为一个单流网络，实现单幅图像的本征分解.由于问题是欠约束的，我们推导出多个目标函数的基础上形成的图像模型来约束的解决方案空间，并协助学习过程。我们表明，通过正则化模型仔细，内在的图像自动出现。学习的表示不仅与在完全监督下学习的表示相当，而且还可以作为（半）监督训练的更好的初始化。作为副产品，我们的模型还学会预测梯度是否属于反照率或阴影，而无需任何标签。这为模型的行为提供了直观的解释无监督单幅图像本征分解3(a)现有技术训练信号推理（c）第（1）款我们无GTfsng需要GT分解F（b）第（1）款需要多个图像作为输入在一个图像上进行测试F独立fmul共享参数图1：我们的方法的新颖性和优点：先前关于内在图像分解的工作可以分为两类，（a）基于单图像的和（b）基于多图像的。虽然基于单个图像的模型在实践中是有用的，但是它们需要用于训练的地面实况（GT）。基于多图像的方法去除了GT的需要，但以灵活性为代价（即总是需要多个图像作为输入）。(c)我们的模式是两全其美。我们在训练期间不需要GT（即，训练信号来自输入图像），但可以在测试时应用于任意单个图像。我们在一个大规模的合成数据集和一个真实世界的数据集上证明了我们的模型的有效性我们的方法在多图像本征分解上实现了最先进的性能据我们所知，我们是第一次尝试弥合这两个任务之间的差距，并学习一个没有任何真实内在图像的内在网络2相关工作内在分解内在分解的工作可以大致分为两组：仅采用单个图像作为输入的方法[31，50，3，39，61，62，48，37]，以及需要额外输入源的算法[55，30，11，7，23，38]。对于基于单个图像的方法，由于任务完全受到约束，因此它们通常依赖于各种先验来帮助消除问题的歧义。[31，5，14，50]提出将图像边缘分类为反照率或阴影，并使用[19]来重建本征图像。[41，34]利用纹理统计来处理平滑变化的虽然[3]明确建模照明条件以更好地解开阴影效应，[46，42]假设反照率图像中的稀疏性。尽管许多努力已经投入到设计先验，他们都没有成功地包括所有的内在现象。为了避免费力地构建先验，[48，62，39，61，21]建议利用深度神经网络的特征学习能力直接从数据中学习统计先验。然而，他们的方法需要大量的标记数据，这是昂贵的收集。相比之下，我们基于深度学习的方法不需要监督。内在分解的另一条研究路线利用额外的输入源来解决问题，例如使用图像序列[55，30，28，29，20]，多模态输入[11，2]或用户注释[8，47，7]。类似于我们4W.C. Ma，H.楚湾，澳-地周河，巴西-地Urtasun和A.Torralba工作，[55，29]利用从固定视点拍摄的图像序列，其中唯一的变化是照明，以学习分解。关键的区别在于，这些框架需要多个图像进行训练和测试，而我们的方法只在训练期间依赖于多个图像在测试时，我们的网络可以对任意单个图像执行固有分解。利用视频或图像序列以及物理约束来训练神经网络最近已经成为一个新兴的研究课题[15，32，44，51，52，56Zhou等人。 [60]提出了一种自监督的方法来从图像序列中学习单目深度估计。Vijayanarasimhan等人 [53]扩展了这一想法，并从运动框架中引入了一个更灵活的结构，可以纳入监督。我们的工作在概念上类似于[60，53]，但专注于完全不同的任务。最近，Janner等人。 [21]引入了一个用于传输intrinsic的自监督框架。他们首先用地面实况训练他们的网络，然后用重建损失进行微调。在这项工作中，我们更进一步，试图以完全无监督的方式学习内在分解。同时和独立地，Li和Snavely [33]还开发了一种在没有任何监督的情况下学习内在分解的方法。更一般地说，我们的工作在精神上类似于视觉表征学习，其目标是通过解决某些借口任务来学习通用特征[54，22，43]。3背景和问题表述在这一节中，我们首先简要回顾了当前单图像和多图像内在分解的工作。然后，我们展示了这两个任务之间的联系，并证明它们可以用一个单一的，统一的模型在一定的参数下解决3.1单图像本征分解单个图像固有分解问题通常被公式化为：A，S=f sng（I;Θsng），（1）其中目标是学习函数f，该函数将自然图像I作为输入，并输出反照率图像A和阴影图像S。帽子符号表示它是函数的输出，而不是基础真值。理想地，输出图像的Hadamard乘积应与输入图像i相同。e. I=A⊙S. 参数Θ和函数f可以采取不同的形式。例如，在传统的Retinex算法中[31]，Θ简单地是用于对原始图像I的梯度进行分类的阈值，并且是泊松方程的求解器在最近的基于深度学习的方法[39，48]中，fsng是指神经网络，Θ表示权重。由于这些模型只需要单个图像作为输入，因此它们可能适用于各种场景，并具有许多用例[13]。然而，这个问题本质上是模棱两可的无监督单幅图像本征分解5i=1i=1i=1并且在单眼设置下技术上不适定。需要地面事实来训练手动设计的先验[6]或数据驱动的统计[21]的权重它们通过最小化GT内在图像和预测之间的差异来3.2多图像本征分解解决内在分解中的模糊性的另一种方式是利用多个图像作为输入。任务定义为：A，S=f mul（I;Θmul），（2）其中I={Ii}N是相同场景的输入图像的集合，并且={Ai}N，S≡{S≡i}N是相应的内在预测集。输入图像I可以用移动摄像机收集[27]，但为了简单起见，通常假设在变化的光照条件下用静态相机姿势捕获[36，29]。额外的约束不仅产生了一些有用的先验[55]，而且还为以无监督的方式解决问题打开了大门[18]。例如，基于阴影倾向于移动并且静态场景中的像素不太可能在多个图像中包含阴影边缘的观察，Weiss [55]假设所有图像的中值梯度属于反照率并求解泊松方程。简单的算法在阴影去除方面效果良好，并且[36]进一步扩展为与Retinex算法（W+Ret）结合以产生更好的结果。最近，拉丰和巴赞[29]在图像形成模型的基础上推导了几个能量函数，并将任务转化为一个优化问题，目标就是找到最小化预定能量的固有图像。在许多情况下不需要地面实况数据这解决了学习内在分解的主要困难之一。不幸的是，作为一个权衡，这些模型依赖于多图像作为输入的所有时间，这在很大程度上限制了它们在实践中的适用性。3.3连接基于单个和多个图像的方法关键见解是针对单个图像和多图像固有分解两者使用相同的参数集合Θ多图像方法已经取得了令人印象深刻的结果，而不需要地面实况。如果我们能将学习到的参数从多图像模型转化为单图像模型，那么我们就可以在没有任何监督的情况下分解任意的单图像不幸的是，以前的作品无法做到这一点。多图像参数Θmul或能量函数通常取决于所有输入图像I，这使得它们不可能在单个图像设置下被重用。考虑到这种动机，我们将模型设计为具有以下形式：f mu1（I;Θ）=g（f sng（I1;Θ），f sng（I2;Θ），…（3）其中g表示应用于单个图像模型的输出的一些无参数的预定义约束。通过将多图像模型fmul公式化为多个单图像模型fsng的合成函数，我们能够共享相同的参数6W.C. Ma，H.楚湾，澳-地周河，巴西-地Urtasun和A.Torralba并且通过多图像训练进一步学习单个图像模型，而无需任何基础事实。共享参数的高级思想已经在W+Ret [36]中引入;然而，我们的工作存在三个关键的不同点：首先也是最重要的是，他们的方法需要学习的基本事实，而我们的方法不需要。其次，他们通过一些启发式方法在输入级对几个观察结果的信息进行编码。相比之下，我们的聚合函数g基于图像形成模型，并且直接对内在预测进行操作。最后，不是采用相对简单的Retinex模型，而是将fsng参数化为神经网络，其中Θ是其权重，并且g是一系列精心设计的、无参数的且可微分的运算。我们的模型的细节将在第二节中讨论4和我们的方法和以前的几种方法之间的差异1.一、方法监督训练输入推断输入可学习参数ΘRetinex [31]C单个图像单个图像梯度阈值CNN [39，48，21]C单个图像单个图像网络权值通用报告格式[6、61]C单个图像单个图像能量权重维斯[55]✕多图像多图像没有一W+RET [36]C多图像多图像梯度阈值Hauagge等人[18个国家]✕多图像多图像没有一Laffont等人[29日]✕多图像多图像没有一我们的方法✕多图像单个图像网络权值表1：不同固有分解方法的总结。4无监督内在学习我们的模型由两个主要部分组成：内在网络fsng和聚集函数g。本征网络fsng在给定输入图像的情况下产生一组本征表示可微分的无参数聚合函数g约束fsng的输出，使得它们是合理的并且符合图像形成模型。由于所有操作都是可微的，因此在训练期间，错误可以通过fsng我们的模型可以训练，即使不存在地面事实。因此，训练阶段等同于执行多图像固有分解。在测试时，经过训练的本征网络f sng充当独立模块，这使得能够分解任意单个图像。在这项工作中，我们假设输入图像在训练过程中成对出现。这在实践中工作得很好，并且扩展到更多图像是微不足道的。我们探讨了聚合函数的三种不同设置我们的模型的概述如图2所示4.1内在网络fsng内在网络的目标是从输入图像中产生一组可靠的内在表示，然后将它们传递给聚合函数以进行进一步的组合。定位与评价。更正式地说，给定单个图像I1，我们试图学习一个神经网络工作f sng，使得（A1，S1，M1）=f sng（I1;Θ），其中A表示反照率，S表示阴影，M表示软赋值掩码（详见4.2节在[45，12，48]之后，我们采用具有用于fsng的跳过链接的编码器-解码器架构。自下而上自上而下的结构使网络能够有效地处理无监督单幅图像本征分解7A1ˆfsngS1幼稚（b）重建Ⓢ解缠结rec（一）L重建L显示I1共享权重ⓈA2I2rI2M2S2rI2（1−M2）M2（梯度）ⓈLretinexfsng图2：用于训练的网络架构：我们的模型由内在网络和聚集函数组成。(a)连体本征网络将具有变化的照明的一对图像作为输入，并生成一组本征估计。(b)聚合函数将预测组合成图像，其地面实况经由预定义的操作（即，基于图像的预测）可用。橙色、绿色和蓝色线）。然后将目标应用于最终输出，并且将误差一直反向传播到固有网络以细化估计。通过这种设计，我们的模型能够在没有单个地面真实图像的情况下学习内在分解。请注意，该模型是对称的，为了清楚起见，我们省略了类似的线。完整模型仅在训练期间使用。在测试时，我们的模型减少到一个单一的流网络fsng（粉红色），并执行单一的图像内在分解。并合并各种尺度的特征[35]，而从编码器到解码器的跳过链接有助于保留每个分辨率的空间信息[40]。由于固有分量（例如反照率、阴影）是相互依赖的，因此它们共享相同的编码器。一般来说，我们的网络架构类似于双链路网络[47]。然而，我们注意到这不是唯一可行的选择。其他以不同方式分散和聚合信息的设计也可能很好地完成我们的任务。只要输出与输入具有相同的分辨率，就可以用任意的网络来代替当前的结构。我们建议读者阅读supp。详细的建筑材料4.2聚合函数g和目标假设现在我们有了内在网络预测的内在表征。为了评估这些估计的性能，其基础事实是不可用的，并相应地学习，我们利用几个可微聚合函数。通过一系列固定的、预定义的操作，聚合函数将估计的固有图像重新组合成我们具有其基础事实的图像。然后，我们可以计算目标并使用它来指导网络学习。保持这样8W.C. Ma，H.楚湾，澳-地周河，巴西-地Urtasun和A.Torralba111考虑到动机，我们设计了以下三个聚合函数以及相应的目标。第一个聚合函数简单地遵循内在分解的定义：giv en估计的内在张量A1和S1，Hadamard乘积Irec=A1⊙S1应无意识地重建原始输入图像I1。基于这个想法，我们采用了一个按像素的区域损耗Lrec=Irec−I121 1并约束网络仅学习表示满足这个规则。尽管这样的目标大大减少了固有的解空间尽管有许多表示，但问题仍然是高度欠约束的-存在满足I1=A1⊙S1的无限图像。因此，我们采用另一个聚合操作来重建输入图像并进一步约束解流形。根据本征图像的定义，反照率分量应该对光照变化保持不变因此，给定同一场景的一对图像I1、I2，理想地，我们应该能够完美地重建I1even与A？2和S？1。基于这一思想，我们定义第二个聚集函数为I？dis=A？2⊙S？1。从另一张照片上得到反照率估计值-为了完美的重建，我们迫使网络提取光照不变性。自动生成组件。由于我们的目标是通过该重建过程解开照明分量，因此我们将输出命名为解开重建。类似于朴素重建，我们对I？dis采用逐像素回归损失L d is。1 1网络可能采用的一个明显的捷径是将输入图像中的所有信息折叠到S1中，并让反照率解码器始终输出白色图像不管输入。在这种情况下，光照仍然是不变的，但网络失败.为了避免这种退化的情况下，我们遵循贾亚拉曼和格劳曼[22]并结合用于正则化的附加嵌入损失Lebd。具体地说，我们强制两个反照率预测A？1和A？2尽可能相似，而与随机采样的反照率预测A？n不同。梯度由于自然图像和固有图像在梯度域中表现出更强的相关性[25]，第三个操作是将固有估计转换到梯度域，即。e. A然而，不像前两个聚集函数的输出，我们没有基础事实来直接监督梯度图像。我们因此提出了一种自我监督方法来解决这个问题。我们的方法受到传统Retinex算法[31]的启发，其中图像中的每个导数都被假设是由反照率或阴影的变化引起的直观地说，如果我们能够准确地分类所有的衍生物，我们就可以获得地面真理对于A1和S1。因此，我们利用深度神经网络进行边缘分类。是的更具体地说，我们让本征网络预测软分配掩码M1，以确定每条边属于哪个本征分量。与[31]中的图像导数只能属于反照率或阴影不同，赋值掩码输出图像导数由反照率变化引起的概率人们可以将其视为Retinex算法的软版本，但完全是数据驱动的，无需手动调整。无监督单幅图像本征分解91211111输入Janner ShiOurs-U Ours-F GT输入Janner ShiOurs-U Ours-F GT图3：单个图像固有分解：我们的模型（Ours-U）在没有任何监督的情况下学习内在表示，并在微调（Ours-F）后产生最佳结果。在软赋值掩码的帮助下，我们可以生成“伪”真值I ⊙ M 1和I ⊙（1 − M 1）来监督梯度内在估计。Retinex损失4定义如下：Lretinex=A1−I⊙M12+S1−I⊙（1−M1）2（4）因此最终目标变为：L_final=L_rec+λdL_dis+λrL_retinex+λeL_ebd，（5）其中λ实际上，我们设置λ d= 1，λ r= 0。1，且λ e= 0。01. 我们根据训练损失的稳定性来选择它们Lfinal与我们使用连体网络结构。4.3训练和测试由于我们仅监督聚合函数的输出，因此我们不强制内在网络中的每个解码器解决其各自的子问题（即，阴影、阴影和遮罩）。相反，我们期望所提出的网络结构鼓励这些角色自动出现从零开始训练网络4在实践中，我们需要在计算梯度和应用Retinex损失之前将所有图像转换到对数域。为了简单起见，我们在这里省略了log运算符。10W.C. Ma，H.楚湾，澳-地周河，巴西-地Urtasun和A.Torralba2然而，方向监督是一个具有挑战性的问题。它经常导致语义上无意义的中间表示[49]。因此，我们引入了额外的约束，以仔细正则化的内在估计在训练过程中。具体来说，我们惩罚的L1范数的梯度的反照率和最小化的L1范数的二阶梯度的阴影。虽然A鼓励反照率分段恒定，但2S则平滑地改变照明。为了进一步鼓励年龄的软分配掩码的出现，我们计算输入图像的梯度，并使用它来监督前四个时期的掩码。早期监督推动掩码解码器学习梯度感知表示。掩码表示稍后在联合自监督训练过程期间被释放和微调我们使用ADAM [26]训练我们的网络，并将学习率设置为10- 5。我们通过水平翻转和随机裁剪来增强训练数据。扩展到（半）监督学习我们的模型可以很容易地扩展到（半）监督学习。）监督设置，只要地面实况可用。在原始模型中，目标仅应用于聚合函数的最终输出，而本征网络的输出没有明确的指导。因此，一个简单的方法来纳入监督是直接监督的中间表示和指导学习过程。具体地，我们可以采用逐像素的回归损失来估计图像的分辨率。反照率和阴影，即。e. LA=A−A2且LS=S−S2。5实验5.1设置为了有效地评估我们的模型，我们考虑两个数据集：一个较大规模的合成数据集[48，21]和一个真实世界数据集[16]。对于合成数据集，我们使用ShapeNet[10]中的3D对象，并在Blender5中执行渲染。具体来说，我们从以下10个类别中随机抽取100个对象：飞机，船，瓶子，汽车，花盆，吉他，摩托车，钢琴，塔，火车。对于每个对象，我们随机选择10个姿势，对于每个姿势，我们使用10种不同的照明。这导致总共100×10×10×C10=450K对图像。我们将数据按对象进行拆分，其中90%属于训练和验证，10%属于测试拆分。MIT Intrinsics数据集[16]是一个真实世界的图像数据集该数据集由20个对象组成每个物体在11种不同的照明条件下被捕获我们使用与[39，48]中相同的数据分割，其中图像被对象分割成两个折叠（每个分割10个）。我们采用两种标准误差度量来定量评估模型的性能：标准均方误差（MSE）和局部均方误差（LMSE）[16]。与MSE相比，LMSE提供了更细粒度的度量。它允许每个局部区域具有不同的缩放因子。我们将LSME中滑动窗口的大小设置为12。每个维度上的图像的5%5我们遵循与[21]相同的渲染过程请参阅他们的论文了解更多详情。无监督单幅图像本征分解11监督MSE LMSE方法量反照率平均值反照率平均值Barron等人[3]第一章百分百0.0203 0.02320.0217 0.0066 0.00430.0055Janner等人[21日]百分百0.0119 0.01450.0132 0.0028 0.00370.0032Shi等人[48个]百分百0.0076 0.01220.0099 0.0018 0.00320.0024我们的方法（U）0%的百分比0.0174 0.03100.0242 0.0050 0.00700.0060我们的方法（F）百分百0.0064 0.01000.0082 0.0016 0.00250.0020表3：与ShapeNet上基于单个图像的方法的比较：我们的无监督内在模型与[3]相当。经过微调，它达到了最先进的性能。5.2多图像本征分解由于在训练过程中没有使用地面真实数据，因此我们的训练过程可以被视为多图像内在分解的方法。基线公平的分析，我们比较的方法，也作为输入的一系列照片的同一场景不同的照明条件。特别地，我们考虑三种公开可用的基于多图像的方法：Weiss[55]，W+Ret [36]，and Hauagge et al. [17]第10段。结果在[16，29]之后，我们使用LMSE作为主要度量来评估我们的基于多图像的模型。结果见表。2.由于我们的模型能够有效地利用深度神经网络的优化能力，因此我们的表现优于所有依赖于手工制作的pri-or或显式照明建模的方法5.3单幅图像本征分解平均LMSE方法MIT ShapeNetWeiss [55] 0.0215 0.0632W+Ret [36] 0.0170 0.0525Hauagge等人[18] 0.0155-Hauagge等人 [17] 0.0115 0.0240Laffont等人[29] 0.0138-我们的方法0.0097 0.0049表2：与基于多图像的方法的比较。我们将我们的方法与三种最先进的方法进行比较：Barron等人[3]、Shi等人[48]和Janner等人[21]。而Barron等人手工处理形状，阴影，反照率的先验，并将任务视为优化问题。 Shi等人[48]和Janner et al. [21]利用深度神经网络从数据中学习自然图像统计并预测分解。所有这三种方法都需要用于学习的基本事实。结果如表1所示。3和Tab。4，我们的无监督内在网络f sng，被称为Ours-U，在MIT数据集上实现了与其他基于深度学习的方法相当的性能，并且与Barron等人相当。在ShapeNet上。为了进一步评估学习的无监督表示，我们将其用作初始化并使用地面真实数据微调网络表示为Ours-F的微调表示显著优于ShapeNet上的所有基线，并且与Barron等人相当。在MIT数据集上我们注意到，由于其规模，MIT数据集对于基于深度学习的方法来说非常困难此外，Barron et al. 利用几个前科12W.C. Ma，H.楚湾，澳-地周河，巴西-地Urtasun和A.Torralba监督MSE LMSE方法量反照率平均值反照率平均值Barron等人[3]第一章百分百0.0147 0.00830.0115 0.0061 0.00390.0050Janner等人[39]第三十九届百分百0.0336 0.01950.0265 0.0210 0.01030.0156Shi等人[48个]百分百0.0323 0.01560.0239 0.0132 0.00640.0098我们的方法（U）0%的百分比0.0313 0.02070.0260 0.0116 0.00950.0105我们的方法（F）百分百0.0168 0.00930.0130 0.0074 0.00520.0063表4：与MIT数据集上的基于单个图像的方法的比较：我们的无监督内在模型实现了与完全监督深度模型相当的性能。经过微调后，它与利用专门先验的最佳执行方法不相上下。图4：ShapeNet上的性能与监督：我们的模型的性能随着监督的量而提高。（a）（b）我们的结果表明，只需50%的地面真实数据，我们就可以超越使用所有标记数据的其他完全监督模型的性能（c）在标记数据较少的情况下，相对改善更大，这表明我们的无监督目标在低数据状态下的有效性。专为数据集设计。然而，通过我们的无监督训练方案，我们能够克服数据问题并缩小与Barron等人的差距。3.我们的无监督内在网络，一般来说，产生合理的分解。通过进一步的微调，它达到了最佳效果。例如，我们的完整模型更好地恢复了汽车轮罩的反照率对于摩托车，它能够预测车轮的正确反照率和座椅的阴影。（半）监督的内在学习如第4.3节所述，我们的网络可以很容易地扩展到（半）监督设置，通过利用地面实况图像直接监督内在表示。为了更好地了解我们的无监督表示有多好，以及我们需要多少真实数据才能实现与以前的方法相当的性能，我们在训练期间逐渐增加监督程度并研究性能变化。ShapeNet上的结果我们的模型能够实现最先进的性能，只有50%的地面真相数据。这表明，我们的聚合函数能够有效地约束解决方案空间，并捕获未直接编码在单个图像中的特征。此外，我们观察到，我们的模型具有更大的性能增益，具有更少的地面实况数据。随着监督量的增加，相对改善逐渐收敛，表明我们在低数据制度中的效用无监督单幅图像本征分解135.4分析消融研究为了更好地理解模型中每个组件的贡献，我们可视化了固有网络的输出（即。e. 图5中不同网络配置下的A和S。我们从简单的自动编码器结构（即仅使用L_rec），并顺序地将其它分量加回。首先，模型将IM-年龄分为任意两个组成部分。这是预期的，因为只要y满足I=A⊙S，表示就完全无约束。在添加disent角度学习目标Ldis之后，反照率图像变得更加开始学习反照率分量应该是光照不变的最后，在Retinex loss Lretinex的帮助下，网络自我监督梯度图像，并在没有任何监督的情况下产生合理的内在表示。由于信息位于梯度域中，颜色得到显著改善。定量评价示于表5中。就业目标MSE LMSELrecLdisLretinex 反照率阴影方法MPBarron等人[3]第一章RE（×10−4）2.62330.0362 0.0240 0.0158 0.0108Janner等人[39]第三十九届4.83720.0346 0.0224 0.0141 0.0098Shi等人[48个]5.1589C C C0.0313 0.0207 0.0116 0.0095我们的方法（U）3.2341我们的方法（F）2.4151表5：消融研究：性能表6：当采用不同的ob时，我们的模型的光照度形容词反照率图像的角度越低越好。输入L记录+Ldis+LretinexGTL记录+Ldis+LretinexGT图5：每个目标的贡献最初，模型将图像分成两个任意分量。在添加解纠缠损失Ldis之后，网络学习从干扰中排除照明变化最后，在Retinex损失Lretinex的帮助下，反照率颜色变得更加饱和。为了证明我们模型的普遍性，我们也可以在野外的自然图像上进行评估具体来说，我们使用麻省理工学院数据集上的完整模型和Barron等人提供的图像。[3]的文件。这些图像是由iPhone拍摄的尽管我们的模型纯粹是在实验室图像上训练的，并且以前从未见过其他对象/场景，但它仍然产生了良好的质量结果（见图6）。例如，我们的模型成功地推断出香蕉和植物的内在我们的模型的一个局限性是，它不能处理图像中的镜面反射。由于我们在制定任务时忽略了镜面反射分量，因此镜面反射部分被视为急剧的材料变化并被分类为反照率。我们计划在将来将[48]的想法纳入解决这个问题。对光照变化的鲁棒性评估我们方法的有效性的另一种方式是测量我们的反照率模型的光照不变性的程度。14W.C. Ma，H.楚湾，澳-地周河，巴西-地Urtasun和A.Torralba1输入掩码M叠加输入掩码M叠加输入掩码M叠加我一S我一S我一S我一S图6：分解看不见的自然图像：尽管在实验室图像上进行了训练，但我们的模型可以很好地推广到以前从未见过的真实图像。图图7：网络解释：为了理解我们的模型如何看到输入图像中的边缘，我们可视化了由内在网络预测的软分配掩码M当存在剧烈的颜色变化时，边缘具有更高的概率被分配给反照率继Zhou et al. [61]中，我们计算输入图像I1与解纠缠重建图像I1之间的MSE，以评估照明变化。由于我们的模型明确考虑到解纠缠的目标LDIS，我们实现了最佳性能。MIT数据集的结果如表6所示解释软分配遮罩软分配遮罩预测某个边缘属于反照率的概率。它不仅可以实现自监督Retinex损失，还可以作为我们模型的探针，帮助我们解释结果。通过可视化预测的软分配掩码M，我们可以理解网络如何看到边缘-由反照率变化或阴影变化引起的边缘我们的无监督内在网络的一些可视化结果如图7所示。该网络认为，剧烈的颜色变化大部分时间是由于反照率边缘。有时它会错误地对边缘进行分类，例如，太阳上蓝色油漆的变化应该是由于阴影。这个错误与图3中的sun-dego结果一致，但它提供了另一种直觉，解释了为什么会发生这种错误由于没有直接评估预测分配图性能的地面实况，我们改为测量地面实况梯度图像A，S和我们用于自我监督的结果表明，我们的数据驱动分配掩码（1。7×10−4）比传统的Retinex算法（2. 6×10−4）。6结论对固有性质的准确估计不仅提供了对真实世界的更好理解，而且还实现了各种应用。在本文中，我们提出了一种新的方法来解开图像中的变化的因素通过精心设计的架构和目标，我们的模型自动学习合理的内在表示，而无需任何监督。我们相信这是内在学习的一个有趣的方向，我们希望我们的模型可以促进这条道路上的进一步研究。无监督单幅图像本征分解15引用1. 阿德尔森E.H. Pentland，A.P.：对阴影和反射的感知。02 The Dog of the Dog（1996）2. 巴伦J.T.Malik，J.：从单个rgb-d图像的内在场景属性在：CVPR（2013）3. 巴伦J.T.Malik，J.：形状、照明和着色的反射率PAMI（2015）4. 巴罗，H.，Tenenbaum，J.：从图像中恢复固有场景特征。计算机视觉系统（1978）5. Bell，M.，Freeman，E.：学习阴影和反射的局部证据In：ICCV（2001）6. Bell，S.，Bala，K.，Snavely，N.：在野外的内在图像03 The Dog（2014）7. Bonneel，N.，Sunkavalli，K.，Tompkin，J.，孙，D.，巴黎，S.，Pfister，H.：交互式内置视频编辑。03 The Dog（2014）8. Bousseau，A.，巴黎，S.，Durand，F.：用户辅助的内部映像。03 The Dark（2009）9. 巴特勒DJWulff，J.，Stanley，G.B.，布莱克，M.J.：一个用于光流评估的自然主义开源电影In：ECCV（2012）10. Chang，A.X.，Funkhouser，T.，吉巴斯湖Hanrahan，P.黄，Q，Li，Z.，Savarese，S.，Savva，M.，Song，S.，Su，H.，等：Shapenet：一个信息丰富的3D模型存储库。05 The Fall（2015）11. 陈昆，Koltun，V.：一个简单的模型，用于具有深度线索的内在图像分解In：ICCV（2013）12. 陈伟，傅志杨，D.，Deng，J.：在野外的单一图像深度感知。在：NIPS（2016）13. Eigen，D.Puhrsch，C.Fergus，R.：使用多尺度深度网络从单个图像进行深度图预测在：NIPS（2014）14. Finlayson，G. D.，南达科他州霍德利Drew，M.S.：使用retinex去除图像中的阴影在：颜色和成像会议（2002年）15. 戈达尔角Mac Aodha，O.，Brostow，G.J.：具有左右一致性的无监督单目深度估计。见：CVPR（2016）16. 格罗斯河约翰逊M.K.阿德尔森E.H.弗里曼，W.T.：固有图像算法的地面实况数据集和In：ICCV（2009）17. Hauagge，D.，Wehrwein，S.，Bala，K.，Snavely，N.：光度学环境光遮挡。在：CVPR（2013）18. Hauagge，D.C. Wehrwein，S.，Upchurch，P. Bala，K.，Snavely，N.：使用户外照明模型对照片集合进行推理。电影BMVC（2014）19. Horn，B.：02 The Dog of the Dog（1986）20. 许志，Sankaranarayanan，A.C.，Sunkavalli，K.，Hadap，S.：使用闪光摄影在混合照明下的白平衡。在：ICCP（2016）21. Janner，M.，吴，J.，Kulkarni，T. D.，耶尔德勒姆岛Tenenbaum，J.：自我监督的内在图像分解。In：NIPS（2017）22. Jayaraman，D. Grauman，K.：学习与自我运动相关的图像表示。In：ICCV（2015）23. Jeon，J.，Cho，S.唐，X.，Lee，S.：使用结构纹理分离和表面法线的内在图像分解。In：ECCV（2014）24. Karsch，K.，Hedau，V.Forsyth，D.，Hoiem，D.：将合成对象渲染到遗留的照片中。03 The Dark（2011）25. Kim，S.，Park，K.，Sohn，K.，Lin，S.：通过联合卷积神经场从单个图像进行统一的深度预测和固有图像In：ECCV（2016）26. Kingma，D.Ba，J.：Adam：随机最佳化的方法02 The Dog（2014）27. Kong，N.，布莱克，M.J.：固有深度：利用固有图像改进深度转移。In：ICCV（2015）16W.C. Ma，H.楚湾，澳-地周河，巴西-地Urtasun和A.Torralba28. Kong，N.，盖勒，P.V.，布莱克，M.J.：内在

下载后可阅读完整内容，剩余1页未读，立即下载