从单个物体图像中恢复非兰伯特物体内在特性的CNN

95 浏览量更新于2023-10-15 收藏 15.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16850跨ShapeNet类别学习非兰伯特物体内在0中国科学院软件研究所中国科学院大学0shij@ios.ac.cn0微软亚洲研究院0yuedong@microsoft.com0斯坦福大学0haosu@cs.stanford.edu0UC Berkeley / ICSI0stellayu@berkeley.edu0摘要0我们专注于从单个物体图像中恢复漫反射反照率、阴影和镜面高光的非兰伯特物体级内在问题。基于ShapeNet数据库中的现有3D模型，我们渲染了一个大规模的物体内在数据库，并使用HDR环境贴图。我们使用数百万个物体的合成图像及其对应的反照率、阴影和镜面真实图像来训练一个编码器-解码器CNN，该CNN可以将图像分解为反照率和阴影分量的乘积以及一个附加的镜面分量。我们的CNN在这个经典的计算机视觉反问题中提供了准确和清晰的结果。在我们的真实合成数据集上进行评估，我们的方法始终大幅优于现有技术。我们在不同的物体类别上训练和测试我们的CNN。令人惊讶的是，尤其是从CNN分类的角度来看，我们的内在CNN在不同类别之间具有很好的泛化能力。我们的分析表明，编码器阶段的特征学习对于开发跨类别的通用表示更为关键。我们将我们的模型应用于来自互联网的真实图像和视频，并观察到稳健和逼真的内在结果。高质量的非兰伯特内在特性可以开启许多有趣的应用，例如基于材料属性的逼真产品搜索和基于图像的反照率/镜面编辑。01. 引言0镜面反射是我们日常生活中常见的物体特征。然而，现有的内在图像分解算法，如SIRFS [4]和DirectIntrinsics（DI）[22]，只处理兰伯特或漫反射。图像的现实性与模型假设之间的不匹配经常导致内在图像分解中的大误差。0图1：镜面光无处不在，对我们的材料感知至关重要。我们的任务是将单个物体的图像分解为其非兰伯特内在组成部分，包括反照率、阴影和镜面高光。我们基于ShapeNet数据集构建了一个大规模的非兰伯特内在物体数据库，并使用具有镜面材料和环境贴图的数百万个合成图像。我们训练了一个编码器-解码器CNN，其提供比直接内在特性（DI）的先前技术更清晰、更准确的结果。我们的工作使内在特性能够应用于基于图像的反照率和镜面编辑。0真实图像的图像分解（图1）。0在本文中，我们的目标是处理镜面反射并从单个图像中解决非兰伯特物体内在问题。根据光学成像物理学，我们将旧的兰伯特模型扩展为具有镜面分量的非兰伯特模型，镜面分量作为附加残差项：16860旧：图像I = 反照率A × 阴影S（1）新：图像I = 反照率A× 阴影S + 镜面光R（2）0受DI[22]的启发，我们采用数据驱动的深度学习方法来捕捉图像与其反照率、阴影和镜面分量之间的关联。我们非兰伯特物体内在任务的直接挑战是缺乏地面真实数据，尤其是对于我们的非兰伯特情况，人工注释似乎是不可行的。现有的内在特性数据集不仅是兰伯特性质的，只有反照率和阴影分量，而且还有它们自己的个别限制。广泛使用的MIT内在图像数据集[13]在今天的标准下非常小，只有11种照明条件下的20个物体实例。MPI Sintel [9]内在特性数据集，由DirectIntrinsics使用，过于人工，每个场景有18个卡通样式的镜头，每个镜头有50帧。Intrinsics in theWild（IIW）[6]是第一个大规模的真实世界图像内在特性数据集，但它只提供关于反照率的稀疏成对人工排名判断，不足以用于基准测试完整的图像内在图像分解。另一个主要挑战是如何在像素和强度准确级别上学习多个图像回归任务。深度学习在图像分类方面取得了巨大成功，并在语义分割和深度回归方面取得了一定的成功。主要区别在于输出所需的空间和色调分辨率。最先进的DICNN模型[22]是从深度回归CNN调整而来的，具有粗糙的本地空间分辨率。他们的结果不仅模糊，而且带有错误的结构-在输入图像的完全平坦区域可能存在预测的内在特性的变化。尽管许多CNN内在特性模型[23、37、38、22、24]的基准分数正在提高，但与基于手工特征和大量先验知识[7]的传统方法相比，这些结果的视觉质量仍然较差。我们的工作解决了这些挑战，并做出了以下贡献。01.一个新的非Lambertian物体内在特性数据集。我们基于ShapeNet，一个大规模的3D形状数据集，开发了一个新的基于渲染的物体中心内在特性数据集，其中包含镜面反射。02.一个具有准确和清晰结果的新CNN模型。我们的方法不仅在多个误差度量上明显优于现有技术，而且产生了更清晰和更详细的视觉结果。03. 跨类别泛化分析。从深度学习的角度来看，分类方面的结果令人惊讶。0以及分割，我们的内在特性CNN在不同类别之间表现出了显著的泛化能力：仅在椅子上训练的网络在其他类别（如汽车）上也能获得合理的性能。我们对跨类别训练和测试结果的分析揭示了编码器阶段学习到的特征是开发跨类别通用表示的关键。0我们的模型在真实图像和视频上提供了可靠的非Lambertian内在特性结果，弥合了内在图像算法开发与实际应用之间的差距。02. 相关工作0内在图像分解。人们已经付出了很多努力来解决这个长期存在的不适定问题[5]，即将图像分解为反射层和阴影层。Land和McCann[20]观察到图像中的大梯度通常对应于反射变化，而小梯度对应于平滑的阴影变化。为了解决这个不适定问题，需要从单个输入中寻找两个输出，已经探索了许多约束解空间的先验知识，例如反射稀疏性[30,32]，非局部纹理[31]，形状和照明[4]等。另一种方法探索了额外的输入信息，例如图像序列[35]，深度[3,11]和用户笔画[8]。内在图像研究的一个主要挑战是缺乏具有地面真实内在特性的数据集。Grosse等人[13]在实验室环境中捕获了第一个真实图像数据集，但变化有限。Bell等人[6]使用众包来获取对采样像素对的稀疏人类判断。深度学习。Narihira等人[23]首次使用深度学习从IIW的稀疏人类判断数据中学习反照率。Zhou等人[37]和Zoran等人[38]通过CNN学习组件扩展了IIW-CRF模型。直接内在特性[22]是第一个完全基于深度学习的模型，它根据深度回归CNN模型[12]在合成的Sintel内在特性数据集上进行训练并输出内在特性预测。他们的结果由于下采样和卷积后的反卷积而模糊，并且由于在人工场景上进行训练而质量较差。为了提高预测准确性并保留清晰的细节，我们在CNN的成功跳过层连接的基础上构建了我们的模型，用于分类[15]，分割[29]和插值[27]。反射率估计。通常需要多个图像才能准确估计表面反照率。Ait-tala等人[2]提出了一种基于学习的方法，用于单个图像输入，假设表面仅包含随机纹理，并且由已知照明方向照亮。大多数方法适用于由远程光源照亮的均匀物体，通过盲解卷积[28]或训练的回归网络[27]估计表面反射率和环境照明。我们的工作旨在进行一般的内在图像分解，不限制材料或照明分布。我们的模型预测具有空间变化的反照率图，并支持一般的照明条件。从渲染图像中学习。从3D模型渲染的图像广泛应用于深度学习，例如用于训练物体检测器和视角分类器[33, 21, 14,25]。Su等人[34]通过将从合成图像训练的CNN适应到真实图像中，获得了视角估计的最新结果。ShapeNet[10]提供了来自4000多个类别的330,000个带注释的模型，具有来自艺术家的丰富纹理信息。我们基于ShapeNet构建了我们的非Lambertian内在特性数据集和算法，通过在许多常见物体的多样性上进行逼真图像的渲染和学习。I =�Ω+ρ(ωi, ωo)(N · ωi)L(ωi) dωi.(3)ρ = αd · ρd(ωi, ωo) + αs · ρs(ωi, ωo)(4)I = αd�Ω+ρd(ωi, ωo)L(ωi) dωi+ αs�Ω+ρs(ωi, ωo)L(ωi) dωi = αdsd + αsss,(5)16870从单个图像进行分解，不限制材料或照明分布。我们的模型预测具有空间变化的反照率图，并支持一般的照明条件。从渲染图像中学习。从3D模型渲染的图像广泛应用于深度学习，例如用于训练物体检测器和视角分类器[33, 21, 14,25]。Su等人[34]通过将从合成图像训练的CNN适应到真实图像中，获得了视角估计的最新结果。ShapeNet[10]提供了来自4000多个类别的330,000个带注释的模型，具有来自艺术家的丰富纹理信息。我们基于ShapeNet构建了我们的非Lambertian内在特性数据集和算法，通过在许多常见物体的多样性上进行逼真图像的渲染和学习。03. 具有镜面反射的内在图像0我们基于基于物理的渲染推导出非朗伯内在分解方程。给定输入图像，每个像素的观察到的出射辐射度 I可以通过这个渲染方程[17]在入射光照 L 和表面反射率 ρ之间进行积分：0这里， ω o 是视角方向， ω i 是来自上半球域 Ω +的光照方向， N 是物体的表面法线方向。表面反射率 ρ是一个通常定义为双向反射分布函数（BRDF）的4D函数。已经提出了各种BRDF模型，它们都具有类似的结构，包括漫反射项 ρ d 和镜面项 ρ s ，以及相应的系数 α d ， α s：0对于漫反射成分，光线散射并产生视角无关和低频平滑的外观。相比之下，对于镜面成分，光线只会在表面点上反射一次并产生光泽的外观。反射范围由漫反射反照率 α d和镜面反照率 α s建模。结合反射方程（4）和渲染方程（3），我们得到以下图像形成模型：0其中 s d 和 s s分别是漫反射和镜面阴影。传统的内在特征模型只考虑漫反射阴影，通过将输入图像 I 分解为0图2：我们的镜像链接CNN架构具有一个共享的编码器和三个分别用于反照率、阴影和镜面成分的解码器。镜像链接连接了相同空间分辨率的编码器和解码器层，提供了视觉细节。本图中的层高表示空间分辨率。0漫反射反照率 A 和阴影 S。然而，由于它们的反照率具有不同的值和空间分布，单独建模漫反射和镜面成分才是合适的。通常的分解 I = A ×S 只是一个粗略的近似。镜面反射率 α s s s与漫反射反射率 α d s d的特性非常不同：镜面反照率和镜面阴影都具有高频空间分布和颜色变化，使得分解更加模糊。因此，我们选择将镜面反射率建模为单个残差项 R ，从而得到非朗伯扩展： I =A × S + R ，其中输入图像 I 被分解为漫反射反照率 A，漫反射阴影 S 和镜面残差 R。虽然我们的图像形成模型是基于基于物理的渲染和漫反射、镜面反射的物理特性开发的，但它不假设任何特定的BRDF模型。可以使用简单的BRDF模型（例如Phong）以提高渲染效率，而复杂的模型（例如Cook-Torrance）可以实现更高的照片逼真度。04. 学习内在特征0我们为非朗伯内在特征开发了CNN模型和训练过程。镜像链接CNN。图2展示了我们的编码器-解码器CNN架构。编码器逐步提取和下采样特征，而解码器上采样并将它们组合起来构建输出的内在成分。特征图的大小（包括输入/输出）在我们的网络中完全镜像。我们将早期编码器特征与相应的解码器层在相同的空间分辨率上连接起来，以获得在早期编码器层中保留的像素精确的锐利细节。由于输出成分彼此密切相关，我们共享相同的编码器并为A、S、R使用单独的解码器。16880图3：我们在渲染中使用环境贴图以获得逼真的外观，包括室内和室外场景。环境贴图不仅代表场景中的主要光源（例如太阳、灯和窗户），还包括有关周围环境的正确信息（例如天空、墙壁和建筑物）。尽管一个主要光源可能足以为朗伯表面着色，但详细的环境提供了镜面反射的细节。0类似的结构已经在Deep Re�ectance Map (DRM)[27]和U-Net[29]中使用。DRM解决了从高分辨率稀疏输入到低分辨率密集映射输出的插值问题，忽略了反射率的空间不均匀性。U-Net处理图像分割。我们使用多个解码器和共享编码器进行多图像回归输出。尺度不变损失。反照率和阴影之间存在固有的尺度模糊，因为它们的乘积在内部图像分解中起作用。DI[22]在训练其内部网络时采用了MSE损失和尺度不变MSE损失的加权组合。与他们的工作类似，我们对反照率和阴影应用相同的损失函数，而对于镜面反射则采用MSE损失。由于我们专注于对象级别的内部特性，只有对象掩码中的像素被用于计算损失函数及其梯度。ShapeNet-Intrinsics数据集。我们从ShapeNet，一个大规模的丰富注释的3D形状库[10]中获取3D形状的几何和反照率纹理。我们从几个常见类别中选择了31,072个模型，包括汽车、椅子、公共汽车、沙发、飞机、长椅、容器、船只等。这些对象通常具有镜面反射。环境贴图。为了生成逼真的图像，我们从在线公共资源[1]中收集了98个HDR环境贴图。包括各种照明条件的室内和室外场景，如图3所示。渲染。我们使用开源渲染器Mitsuba[16]对对象模型进行渲染，使用来自上半球的随机视点和各种环境贴图。为对象分配了一个修改过的Phong反射模型[26,19]，以生成逼真的阴影和镜面效果。由于ShapeNet中的原始模型0对于每个对象，我们只提供可靠的漫反射反照率，我们随机选择了一个具有均匀分布的Phong材质，其中镜面系数ks∈(0, 0.3)和光泽度Ns∈(0,300)，涵盖了从纯漫反射到高镜面外观的范围（图1）。我们渲染反照率、阴影和镜面图层，然后根据公式5合成图像。训练。为了避免同一对象的图像同时出现在训练和测试集中，我们按对象级别划分了我们的数据集。我们使用80/20的划分，结果是训练集有24,932个模型，测试集有6,240个模型。所有的98个环境贴图都用于渲染2,443,336个训练集图像。对于测试集，我们随机选择了每个测试模型的1个图像。更多的实现细节可以在补充材料中找到。05.评估0我们的方法与SIRFS [4]，IIW [6]和Direct Intrinsics (DI)[22]进行了评估和比较。我们还使用我们的ShapeNet内部数据集训练了DI，并将模型标记为DI*。我们采用了通常的度量标准，即MSE，LMSE和DSSIM，进行定量评估。我们还为阴影提供了一个简单的基线，即一个常数，以及为反照率提供了另一个基线，即输入图像本身。05.1. ShapeNet内部数据集0表1显示了我们在ShapeNet内部测试集上的基准分数。我们的算法始终优于现有方法。根据DSSIM误差，与现成的解决方案相比，我们的方法提供了40-50％的性能增益。还要注意，DI*，即使用我们的数据集训练的DI，在几乎所有误差指标上都产生了第二好的结果，证明了我们ShapeNet内部数据集的优势。数值误差指标可能不能完全反映视觉质量，例如，对于某些情况，简单的基线也会产生较低的误差。图4提供了与真实值的视觉比较。对于具有强烈镜面反射的物体，例如汽车，镜面反射违反了传统内部算法所假设的朗伯条件。这些算法0ShapeNet MSE LMSE DSSIM 内在色调阴影色调阴影色调阴影0基准 0.0232 0.0153 0.0789 0.0231 0.2273 0.2341 SIRFS 0.0211 0.0227 0.06930.0324 0.2038 0.1356 IIW 0.0147 0.0149 0.0481 0.0228 0.1649 0.1367 DI0.0252 0.0245 0.0711 0.0275 0.1984 0.1454 DI* 0.0115 0.0066 0.0470 0.01150.1655 0.0996 Ours 0.0083 0.0055 0.0353 0.0097 0.0939 0.06220镜面 0.0042 0.0578 0.08310表1：在我们的合成数据集上的评估。对于基准，我们将其反照率设置为输入图像，将其阴影设置为1.0。最后一行列出了我们的镜面误差。16890输入 SIRFS IIW DI DI* Ours GT 镜面0图4：ShapeNet内在数据集上的结果。我们的基准包括SIRFS、IIW、作者发布的Direct-Intrinsics模型（DI）以及我们在合成数据集上训练的模型（DI*）。每组的顶部是反照率，底部是阴影。镜面列显示了真实值（顶部）和我们的结果（底部）。我们观察到，镜面反射基本上已经从反照率/阴影中去除，尤其是对于汽车。即使对于沙发（最后一行）的镜面反射很少，我们的方法仍然产生了良好的视觉结果。在我们的补充材料中可以看到更多的结果。0例如，SIRFS和IIW等算法根本无法处理这种镜面成分。基于学习的方法，如DI、DI*或我们的方法，仍然可以从数据中学习并在这些情况下表现更好。对于DI，我们在我们的数据集上训练的网络也具有明显更好的视觉质量，与他们在Sintel数据集上训练的发布模型相比。然而，他们的结果模糊不清，这是由于他们的深度卷积和反卷积网络架构没有我们的镜像跳跃连接所导致的。我们的模型产生了保留许多视觉细节的更清晰的图像，如反照率和镜面图中的边界。0MIT MSE LMSE DSSIM 内在色调阴影色调阴影色调阴影0SIRFS 0.0147 0.0083 0.0416 0.0168 0.1238 0.0985 DI 0.0277 0.0154 0.05850.0295 0.1526 0.1328 Ours 0.0468 0.0194 0.0752 0.0318 0.1825 0.1667Ours* 0.0278 0.0126 0.0503 0.0240 0.1465 0.12000表2：MIT内在数据集上的评估。0输入 SIRFS DI Ours Ours* GT0图5：MIT数据集上的结果。Ours*是我们在MIT上进行了ShapeNet训练的模型，使用了DI[22]中的GenMIT方法生成的数据。0大车身上的大面积镜面区域也在镜面残留组件中很好地提取出来，揭示了环境照明。这样的镜面区域会使早期的算法混淆，并给反照率/阴影预测带来严重的伪影。05.2. MIT内在数据集0我们还在MIT内在数据集[13]上运行了我们的网络。虽然我们的环境光模型是为常见的真实世界图像设计的，但MIT内在数据集在实验室拍摄环境中使用了单一的灰度定向光模型，这是我们的ShapeNet内在数据集中没有包含的场景。光照模型的差异导致了明显的视觉差异，并对基于学习的方法[22]造成了领域转移问题。我们还按照[22]的方法在MIT数据集上进行了精细调整。表2列出了基准误差，图5提供了用于视觉比较的样本结果。SIRFS产生了最好的数值结果，因为纯朗伯表面反射16900灰度光照设置最适合这种基于先验的内在算法的假设。直接内在[22]需要进行精细调整才能达到类似的性能。我们在MIT数据集上对模型进行了精细调整，产生了与SIRFS相当的结果，比在MIT上进行精细调整的DI更好；此外，与DI相比，我们的结果保留了更多的细节。05.3.真实世界图像0图6展示了我们在真实世界图像上的结果，其中大部分是产品图像。尽管我们的模型完全是在合成数据上训练的，但由于逼真的渲染模拟了漫反射和镜面反射的物理效果，并且由于我们模型的泛化特性，它提供了比其他算法更逼真的结果。我们的模型在从未包含在数据集中的对象上也产生了令人惊讶的好结果，例如鼠标、玩具和番茄。在这些结果中，如汽车、鼠标和土豆，镜面高光被正确估计，并且相应的反照率图像恢复了正确的颜色。请注意，高光像素特别具有挑战性，因为它们可能非常亮，导致输入像素中没有剩余的漫反射颜色，从而使许多基于色度的内在解决方案失效。最后，我们逐帧将我们的模型应用于视频，并获得了连贯的结果，而不需要对时间一致性施加任何约束。请参阅我们的补充材料。06. 跨类别泛化0ShapeNet为每个对象提供语义类别信息，允许对我们基于学习的内在图像分解任务进行跨类别性能分析的深入分析。我们在4个单独的类别上进行类别特定的网络训练，每个类别都有超过3000个对象：汽车、椅子、飞机和沙发。我们在整个数据集以及这4个类别上评估网络。所有这些网络都是使用相同的迭代次数进行训练，而不考虑训练数据的数量。表3列出了跨类别测试误差。对于几乎所有的类别，针对特定数据集的训练在该类别上产生了最好的分解结果。这个结果并不令人惊讶，因为网络总是在它训练的内容上表现最好。使用所有数据集进行训练会导致预测误差略微增加，DSSIM误差小于0.02。令人惊讶的是，在训练过程中从未见过的对象类别的图像（例如汽车）上，我们的网络仍然能够产生合理的结果，其DSSIM误差与为通用内在任务设计的现有方法相当或更好（表1）。图7显示了跨类别训练和测试结果的示例：我们所有的模型都产生了合理的结果，证明了跨类别的泛化能力。0泛化分析。我们的图像到图像回归网络始终产生相同的物理组件：反照率、遮蔽和镜面图，而不像具有语义标签的分类网络。尽管不同类别的对象具有截然不同的形状、纹理和外观，但这些组件具有相同的物理定义并且共享类似的结构。许多这些共同点在先前的内在算法中被广泛使用，例如遮蔽通常是平滑且灰度的；反照率包含更多的颜色变化，而镜面则稀疏且对比度较高。当两个类别共享某些属性时，它们各自学习的网络对另一个类别也适用。例如，椅子和沙发类别共享相似的纹理（纺织品和木材）、反照率和形状，因此它们对所有三个输出通道的预测结果都能很好地转移到另一个类别。我们还观察到表3中的非对称性：例如，在汽车上训练的网络在飞机上产生了良好的结果，而在飞机上训练的网络在汽车上的误差相对较大。这种差异可以通过类别内变化的数量来解释：汽车类别在形状和纹理上有更多的变化，而更丰富的变化会导致更好的泛化。这个结果也可以在ALL数据集的基准测试中观察到，汽车类别的网络除了0反照率0ALL汽车椅子飞机沙发0所有 0.0939 0.1014 0.0988 0.0893 0.0716 汽车 0.1134 0.08080.1379 0.1057 0.1002 椅子 0.1181 0.1578 0.0911 0.1166 0.0835飞机 0.1201 0.1410 0.1338 0.0757 0.0954 沙发 0.1131 0.13480.1101 0.1067 0.06630阴影0所有汽车椅子飞机沙发0所有 0.0622 0.0685 0.0549 0.0596 0.0491 汽车 0.0687 0.05790.0692 0.0683 0.0592 椅子 0.0772 0.1008 0.0561 0.0740 0.0548飞机 0.0776 0.0936 0.0738 0.0481 0.0629 沙发 0.0721 0.08770.0594 0.0697 0.04600镜面0所有汽车椅子飞机沙发0所有 0.0831 0.0866 0.0714 0.1021 0.0730 汽车 0.0953 0.07450.0962 0.1214 0.0854 椅子 0.0982 0.1162 0.0719 0.1205 0.0800飞机 0.1019 0.1115 0.0980 0.0871 0.0939 沙发 0.0984 0.11150.0800 0.1238 0.06730表3：跨类别DSSIM分数。每一行对应于在特定类别上训练的模型，每一列对应于在特定类别上评估的结果。毫不奇怪，当训练集和测试集相同时，最低的错误大多数在对角线上，除了椅子的阴影。虽然类别特定的训练在自己的类别上产生更好的结果，但在其他类别上的结果仅略差，表明具有良好的泛化能力。16910输入我们的 DI* DI SIRFS0输入我们的 DI* DI SIRFS0图6：对真实世界图像的评估。第一列包含输入图像（顶部）和我们的镜面预测（底部）。对于一张图像的结果组，顶部行给出了预测的反照率，底部行给出了阴影。我们观察到：1）在我们的数据集上训练的DI*产生的结果比公开发布的DI模型更好，但仍然模糊且没有细节。2）SIRFS对于强镜面情况下的反照率预测产生错误，因为它不假设镜面反射。0反照率阴影镜面0汽车椅子飞机沙发汽车椅子飞机沙发汽车椅子飞机沙发0汽车 0.0808 0.1379 0.1057 0.1002 0.0579 0.0692 0.0683 0.0592 0.0745 0.0962 0.1214 0.0854 汽车-椅子 0.1157 0.1303 0.1182 0.0954 0.0769 0.06780.0743 0.0598 0.0833 0.0907 0.1215 0.0882 椅子-汽车 0.1311 0.1111 0.1125 0.0929 0.0873 0.0582 0.0711 0.0573 0.1089 0.0736 0.1235 0.0810 椅子0.1578 0.0911 0.1166 0.0835 0.1008 0.0561 0.0740 0.0548 0.1162 0.0719 0.1205 0.08000飞机 0.1410 0.1338 0.0757 0.0954 0.0936 0.0738 0.0481 0.0629 0.1115 0.0980 0.0871 0.0939 飞机-沙发 0.1502 0.1324 0.0855 0.0938 0.0940 0.07190.0546 0.0609 0.1104 0.0932 0.0916 0.0894 沙发-飞机 0.1349 0.1149 0.1032 0.0723 0.0954 0.0628 0.0703 0.0510 0.1129 0.0829 0.1151 0.0763 沙发0.1348 0.1101 0.1067 0.0663 0.0877 0.0594 0.0697 0.0460 0.1115 0.0800 0.1238 0.06730表4：跨类别解码器微调结果。我们冻结编码器组件，并在跨类别设置中微调解码器组件。Car-Chair表示首先在汽车上进行训练，然后在椅子上进行微调。我们的结果表明，如果编码器已经偏向于另一类别，微调解码器不会带来太大的性能改进。我们还观察到，当模型在第三个类别上进行评估时，跨类别微调几乎没有什么区别，例如在沙发上进行汽车-椅子的评估与在沙发上进行汽车的评估结果相似。这些结果共同表明编码器比解码器的重要性更大。16920输入汽车椅子飞机沙发所有参考0图7：跨类别比较。在相同类别的对象上进行训练产生最佳结果。外观相似的类别也会产生类似的结果，例如在椅子上训练的模型上测试的沙发。不相似的类别可能会产生带有伪影的结果，例如在飞机上训练的模型上测试的椅子。0我们在我们的图像到图像回归任务中测试了编码器/解码器的作用，并验证了对于跨类别泛化来说哪个更关键。在对特定类别进行训练后，我们固定编码器并在另一个类别上微调解码器，例如，我们在汽车上进行微调，固定编码器。编码器特征无法更改，我们只能修改解码器的组合方式。表 4显示了微调模型的结果。我们观察到，在微调的数据集上微调解码器带来的改进非常有限。0（a）反射率重新着色。0（b）镜面编辑。0图 8:通过内在层进行基于图像的外观编辑。对于镜面编辑，第一行显示了将镜面反射强度按1.0、0.5和0缩放；第二行显示了通过用户交互进行的镜面编辑。第一列显示了原始图像。0表明编码器特征对于学习分解是至关重要的。我们训练的模型在所有类别上产生的错误与特定类别的模型相似，这很可能是因为我们的模型的编码器捕捉到了既与类别相关又与类别无关的特征。07. 应用0将图像分解为其内在成分将有助于许多应用。图 8显示了基于我们的内在结果的基于图像的材料编辑[18,36]示例。我们可以重新着色漫反射反射率图，以模拟汽车上的不同颜色油漆，同时保留阴影和镜面高光。使用我们的方法，镜面高光也可以通过简单的处理（例如缩放）或复杂的用户交互进行编辑。08. 结论0我们通过引入镜面项扩展内在图像问题，并使用深度学习方法解决这个非Lambertian内在问题。我们使用基于物理的渲染在ShapeNet对象库上生成了一个大规模的训练数据集。我们的CNN方法在视觉和数值上一致优于最先进的方法。非Lambertian内在图像极大地扩展了Lambertian内在图像的适用范围，适用于更广泛的真实图像和真实应用，如反射率和镜面编辑。16930参考文献0[1] sIBL Archive. http://www.hdrlabs.com/sibl/archive.html. [2]M. Aittala, T. Aila, and J. Lehtinen.通过神经纹理合成进行反射模型建模. ACM图形学交易 ,35(4):65:1–65:13, 2016年7月. [3] J. Barron and J. Malik.从单个RGB-D图像中提取内在场景属性. 在IEEE计算机视觉与模式识别会议上, 页码17–24, 2013年. [4] J. T.Barron and J. Malik. 通过阴影进行形状、照明和反射建模.IEEE模式分析与机器智能交易 , 37(8):1670–1687, 2015年. [5] H.G. Barrow and J. M. Tenenbaum. 从图像中恢复内在场景特征.计算机视觉系统 , 页码3–26, 1978年. [6] S. Bell, K. Bala, and N.Snavely. 野外的内在图像. ACM图形学交易 , 33(4):159, 2014年.[7] S. Bell, P. Upchurch, N. Snavely, and K. Bala.在上下文数据库中的材料识别. 在 IEEE计算机视觉与模式识别会议上, 2015年. [8] A. Bousseau, S. Paris, and F. Durand.用户辅助的内在图像. 在 ACM图形学交易 , 卷28, 页码130. ACM,2009年. [9] D. J. Butler, J. Wulff, G. B. Stanley, and M. J. Black.用于光流评估的自然开源电影. 在 A. Fitzgibbon et al. (Eds.) 编辑,欧洲计算机视觉会议 , 第四部分, LNCS 7577, 页码611–625.Springer-Verlag, 2012年10月. [10] A. X. Chang, T. Funkhouser,L. Guibas, P. Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva,S. Song, H. Su, J. Xiao, L. Yi, and F. Yu. ShapeNet:一个信息丰富的3D模型库. 技术报告 arXiv:1512.03012 [cs.GR],斯坦福大学 - 普林斯顿大学 - 芝加哥丰田技术研究所, 2015年. [11]Q. Chen and V. Koltun.一种带有深度线索的内在图像分解简单模型. 在国际计算机视觉会议上, 页码241–248, 2013年. [12] D. Eigen andR. Fergus.用于深度、表面法线和语义标签预测的通用多尺度卷积架构. 在国际计算机视觉会议上, 页码2650–2658, 2015年. [13] R. Grosse,M. K. Johnson, E. H. Adelson, and W. T. Free- man.用于内在图像算法的基准真实数据集和评估. 在国际计算机视觉会议上, 页码2335–2342. IEEE, 2009年. [14] S.Gupta, P. Arbel´aez, R. Girshick, and J. Malik.在RGB-D图像中推断3D物体姿态. arXiv预印本 arXiv:1502.04652 ,2015年. [15] K. He, X. Zhang, S. Ren, and J. Sun.深度残差学习用于图像识别. IEEE计算机视觉与模式识别会议 ,abs/1512.03385, 2016年. [16] W. Jakob. Mitsuba渲染器,2010年. http://www.mitsuba- renderer.org. [17] J. T. Kajiya.渲染方程. 在 ACM Siggraph计算机图形学 , 卷20, 页码143–150.ACM, 1986年.0[18] E. A. Khan，E. Reinhard，R. W. Fleming和H. H.B¨ulthoff。基于图像的材料编辑。在ACM图形学交易中，SIGGRAPH'06，第654-663页，纽约，纽约，美国，2006年。ACM。[19]E. P. Lafortune和Y. D.Willems。使用修改的Phong反射模型进行基于物理的渲染。Citeseer，1994年。[20] E. H. Land和J. J.McCann。亮度和Retinex理论。美国光学学会杂志，61（1）：1-11，1971年。[21] J. Liebelt和C.Schmid。使用3D几何模型的多视图对象类检测。在IEEE计算机视觉和模式识别会议上，第1688-1695页。IEEE，2010年。[22] T.Narihira，M. Maire和S. X.Yu。直接内在：通过卷积回归学习反照率-阴影分解。在国际计算机视觉会议上，第2992页，2015年。[23] T. Narihira，M.Maire和S. X.Yu。通过人类对相对反射率的判断学习亮度。在IEEE计算机视觉和模式识别会议上，波士顿，马萨诸塞州，2015年6月8-10日。[24]D. Pathak，P. Kraehenbuehl，S. X. Yu和T.Darrell。带有卷积神经网络的约束结构回归。在http://arxiv.org/abs/1511.07497，2016年。[25] X. Peng，B. Sun，K. Ali和K.Saenko。使用合成图像探索深度卷积神经网络中的不变性。arXiv预印本arXiv:1412.7122，2014年。[26] B. T.Phong。计算机生成图片的照明。ACM通信，18（6）：311-317，1975年。[27] K. Rematas，T. Ritschel，M. Fritz，E.Gavves和T. Tuyte-laars。深度反射图。在IEEE计算机视觉和模式识别会议上，2016年6月。[28] F. Romeiro和T.Zickler。盲反射计量。在欧洲计算机视觉会议上，ECCV'10，第45-58页，柏林，海德堡，2010年。Springer-Verlag。[29] O.Ronneberger，P. Fischer和T.Brox。U-Net：用于生物医学图像分割的卷积网络，第234-241页。Springer International Publishing，Cham，2015年。[30] C.Rother，M. Kiefel，L. Zhang，B. Sch¨olkopf和P. V.Gehler。在全局稀疏性先验上恢复内在图像。在神经信息处理系统的进展中，第765-773页，2011年。[31] L. Shen，P. Tan和S.Lin。使用非局部纹理线索的内在图像分解。在IEEE计算机视觉和模式识别会议上，第1-7页。IEEE，2008年。[32] L. Shen和C.Yeo。使用局部和全局稀疏表示的反射率的内在图像分解。在IEEE计算机视觉和模式识别会议上，第697-704页。IEEE，2011年。[33] M. Stark，M. Goesele和B. Schiele。回到未来：从3DCAD数据中学习形状模型。在BMVC上，第2卷，第5页，2010年。[34] H. Su，C. R. Qi，Y. Li和L. J.Guibas。使用用渲染的3D模型视图训练的CNN进行图像中的视点估计。在国际计算机视觉会议上，第2686-2694页，2015年。16940[35] Y. Wei

下载后可阅读完整内容，剩余1页未读，立即下载