镜面反射到漫反射的多视点重建

55 浏览量更新于2023-10-13 收藏 2.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

镜面反射到漫反射的多视点重建Shihao Wu1[0000−0003−4778−8520]，Hui Huang2[0000−0003−3212−0544]，Tiziano Portenier1[0000−0003−1766−1705]，MatanSela3[0000−0002−0808−9041]，Daniel Cohen-Or2，4[0000 - 0001 - 6777 - 7445]，Ron Kimmel3[0000 - 0002 - 3180 - 7961]，和马蒂亚斯·兹威克5[0000−0001−8630−5515]1伯尔尼大学2深圳大学3以色列理工4特拉维夫大学5马里兰大学抽象。大多数多视图3D重建算法，特别是当使用从阴影恢复形状线索时，假设对象外观主要是困难的。为了缓解这一限制，我们引入了S2Dnet，这是一种生成对抗网络，用于将具有镜面反射的对象的多个视图转换为漫反射视图，从而可以更有效地应用多视图重建方法。我们的网络将无监督的图像到图像转换扩展到多视图为了在多视图中保持对象的外观此外，我们精心设计和生成一个大的合成训练数据集，使用基于物理的渲染。在测试过程中，我们的网络只接受原始光泽图像作为输入，而不需要额外的信息，如分割蒙版或照明估计。结果表明，多视图重建可以显着改善使用我们的网络过滤的图像。关键词：生成对抗网络，多视图重建，多视图相干性，镜面反射到漫射，图像翻译1介绍多视点图像的三维重建是计算机视觉中一个长期存在的问题。最先进的从阴影恢复形状技术取得了令人印象深刻的结果[1，2]。然而，这些技术对数据做出相当强的假设，主要是目标对象主要是漫射的，几乎没有镜面反射。光滑表面的多视图重建是一个具有挑战性的问题，其已经通过添加专用硬件（例如，编码图案投影[3]和双层LCD [4]），施加表面约束[5，6]，或利用诸如轮廓和环境地图[7]或Blinn-Phong模型[8]的附加信息在本文中，我们提出了一种生成对抗神经网络（GAN），它将镜面反射对象的多视图图像转换为漫反射图像。网络目标通讯作者：Hui Huang（hhzhiyan@gmail.com）2S. Wu，H.Huang，T.波特尼耶湾Sela，D.科恩奥尔河Kimmel和M.Zwicker图1：多视图图像的镜面反射到漫射转换。我们展示了一个光滑物体的11个视图（顶部），以及我们的网络生成的无镜面反射图像（底部）。以生成无镜面反射的表面，然后可以通过如图1所示的标准多视图重建技术来重建该表面我们将我们的翻译网络命名为S2 Dnet，即Specular-to-Diffuse。我们的方法受到最近基于GAN的图像翻译方法的启发，如pix2pix [9]或cycleGAN[10]，可以将图像从一个域转换到另一个域。然而，此类技术并非针对多视图图像平移而设计直接将这些转换技术应用于各个视图容易由于变换的图像之间缺乏一致性而产生重建伪影。因此，我们的网络不使用单个视图，而是将附近视图的三元组作为输入。这些三元组允许学习相邻视图的互信息。更具体地说，我们引入了一个全局-局部鉴别器和一个感知的对应损失，评估多视图的一致性，当地相应的图像补丁。实验表明，我们的方法优于基线图像平移方法。将图像平移技术应用于镜面反射去除的另一个障碍是缺乏良好的训练数据。拍摄足够多的配对甚至未配对的照片来成功训练深度网络是相当不切实际的。受最近通过基于物理的渲染[11-我们没有使用Shapenet [19]，而是开发了一个新的训练数据集，其中包括具有更丰富几何细节的模型，这使我们能够将我们的方法应用于复杂的现实世界数据。定量和定性的评价表明，多视图重建的性能可以显着提高使用我们的网络过滤我们还展示了在现实世界的训练和测试数据上调整我们的网络的性能，并取得了一些有希望的结果。镜面反射到漫反射的多视点重建方法32相关工作镜面反射对象重建。近年来，基于图像的三维重建技术在AR/VR应用中得到了广泛的应用，重建速度和质量都有了很大的提高。但是，大多数光度学立体方法都基于对象曲面是漫反射的假设，即对象的外观与视图无关。然而，这样的假设对于不受控制的环境中的光泽或镜面反射对象众所周知，建模的specularity是困难的，因为镜面效果主要是由复杂的全局照明，通常是未知的。例如，Godard et al.[7]首先通过轮廓重建一个粗略的模型，然后使用指定的环境地图进行细化。他们的方法可以从HDR图像中重建高质量的镜面，并提供额外的信息，如轮廓和环境地图。相比之下，我们的方法只需要多视图图像作为输入。研究人员已经提出了复杂的设备，例如具有双层LCD的设置来编码发射光场的方向[4]，利用IR图像记录-通过RGB-D扫描仪[20，21]或将编码图案投射到镜面物体上[3]。虽然这样的技术可以有效地处理具有挑战性的非漫射效果，但是它们需要额外的硬件和用户专业知识。解决这个问题的另一种方法是引入额外的假设，例如表面约束[5，6]，Blinn-Phong模型[8]和镜面反射形状[22]。这些方法还可以受益于我们的输出漫射图像的网络，其中从不受控制的照明中去除了强镜面反射。有关镜面反射物体反射的调查，请参考[23]。基于GAN的图像到图像翻译。我们受到基于学习的图像到图像翻译方法的最新成功的启发，例如 ConditionalGAN [9] ， cycleGAN [10] ， [24] dualGAN 和discoGAN [17]。生成对抗网络（GANs）[25]在建模数据分布方面的显着能力允许这些方法使用相对少量的训练数据将图像从一个域转换到另一个域通过改进的多尺度训练技术，例如Progressive GAN [26]和pix2pixHD [27]，可以以百万像素分辨率执行图像到图像的转换，并实现令人惊叹的视觉质量。最近，修改的图像到图像转换架构已成功应用于不适定或欠约束的视觉任务，包括面部正面视图合成[28]、面部几何重建[29这些应用促使我们开发一种基于GANs的光泽度去除方法，以促进非漫射对象的多视图3D重建。基于学习的多视点三维重建。从多视图图像端到端学习表面重建最近一直是一个活跃的研究方向[35-38]。Wu等人[39]和Gwak等人[40]使用GANs来学习形状的潜在空间，并将其应用于单幅图像的3D重建。3D-R2 N2 [36]设计了一个用于统一的单视图和多视图重建的递归网络。Image2Mesh [41]学习参数4S. Wu，H.Huang，T.波特尼耶湾Sela，D.科恩奥尔河Kimmel和M.Zwicker光泽真实漫射假循环一致性损失匹配匹配多视点相干损失对抗性损失多视点相干损失匹配匹配循环一致性损失光泽假漫射真实图2：S2Dnet概述同时训练两个生成器和两个鉴别器在每次训练迭代中，该模型随机挑选并转发一个真实的有光泽和有差异的图像序列，计算损失函数并更新模型参数。基础模型的自由变形。尽管如此，一般来说，这些方法的重建质量不能真正超过利用多视图几何形状和大量工程化的光度立体管线的传统方法的重建质量。为了考虑到局部图像特征的一致性，我们专注于去除图像水平上的镜面效应，并求助于多视图重建的力量作为后处理，也是一个生产步骤。另一方面，有一些更接近我们的作品，专注于在立体重建管道的子部分上应用深度学习，例如深度和姿态估计[42]，特征点检测和描述[43，44]，语义分割[45]和捆绑调整[46，47]。这些方法仍然对对象或场景施加朗伯假设，其中我们的方法可以作为处理光泽度的预处理步骤基于学习的本征图像分解我们的方法也是松散的关系到最近的一些工作学习内在的图像分解。这些方法包括训练CNN以重建渲染参数，例如，材质[48，49]、反射贴图[50]、照明[51]或这些组件的某种组合[13，48，52]。这些方法通常在合成数据上训练，并且通常应用于单个图像的重新渲染。我们的方法与这些方法有一定的相似性。然而，我们的目标不是恢复具有反照率的固有图像不考虑反照率，我们的目标是在整个训练集上具有一致外观的输出图像，该训练集反映了对象的结构。3多视图镜面反射-漫反射GAN在本节中，我们介绍S2Dnet，这是一种条件GAN，它将高度镜面反射场景的多视图我们的模型的输入是一个光滑的场景，没有任何额外的输入，如分割蒙版，相机参数，或光探头的多视图序列。这使得我们的模型镜面反射到漫反射的多视点重建方法5图3：我们的合成渲染镜面反射到漫射训练数据的图库以处理真实世界的数据，其中这样的附加信息不容易获得。我们模型的输出直接作为最先进的光度立体管道的输入，从而无需额外的努力就可以改进3D重建。图2显示了所提出的模型的可视化。我们在3.1节讨论了训练数据，这是我们的主要贡献之一。在第3.2节中，我们介绍了视图间相干性的概念，其使得我们的模型能够以一致的方式处理场景的多个视图，这在多视图重建的背景下是重要的然后，我们在第3.3节中概述了整个端到端培训过程。实施细节在第3.4节中讨论。出版后，我们将发布我们的数据（合成和真实）和拟议的模型，以促进进一步的工作。3.1训练数据为了训练我们的模型将多视图光泽图像转换为漫射对应物，我们需要两个域的适当数据，即，光泽源域图像作为输入，漫射图像作为目标域。Yi等人。[24]提出了一个MATERIAL数据集，由未标记的数据组成，这些数据分组在不同的材料类别中，如塑料，织物，金属和皮革，他们训练GAN来执行材料传输。然而，MATERIAL数据集不包含多视图图像，因此不适合我们的应用程序。此外，数据集相当小，我们预计我们的深度模型需要大量的训练数据。因此，我们提出了一种由多视图图像组成的新型合成数据集，该数据集既足够大以训练深度网络，又很复杂以推广到现实世界的对象。为此，我们从SketchFab中收集并对齐了91个具有丰富几何细节的防水和无噪声几何模型（图3）。我们排除了三个模型进行测试，并使用剩余的88个模型进行训练。为了获得一个能够很好地推广到真实世界图像的数据集，我们使用PBRT，一个基于物理的渲染器[53]来在各种环境中渲染这些几何模型，其中应用了各种各样的光泽材料来形成我们的源域。接下来，我们通过将Lambertian材质应用于我们的几何模型来渲染目标域图像。我们的实验表明，渲染参数的选择有很大的影响翻译性能。一方面，通过为两个领域选择相似的材料来使两个领域更加相似，从而提高了合成数据的翻译质量此外，简单的环境，如恒定的地平面，也提高了合成数据的质量另一方面，这种简化导致模型6S. Wu，H.Huang，T.波特尼耶湾Sela，D.科恩奥尔河Kimmel和M.Zwicker过拟合并防止泛化到真实世界的数据。因此，我们数据集的主要目标是提供足够的复杂性，以允许对真实数据进行泛化为了实现逼真的照明，我们随机采样20个不同的HDR室内环境地图之一，并为每个场景随机旋转它。此外，我们将定向光源从相机指向大约场景的中心，并将两个额外的光源放置在场景上方。这些附加光源的强度、位置和方向随机抖动。该设置保证了相当均匀但仍然随机的照明。为了渲染源域图像，我们应用了PBRT中定义的各种金属材料，包括铜、银和金。材料粗糙度和折射率是随机抽样，以涵盖各种各样的光泽材料。我们在场景周围的上半球上随机采样指向场景中心的相机位置。为了获得多视图数据，我们总是以顺时针顺序对5个附近的连续相机位置进行采样，同时保持场景参数固定，以模仿拍摄用于立体重建的照片的常见过程。由于我们收集了同一场景的5个图像，并且输入到我们的网络由3个视图组成，每个场景我们获得3个训练样本。所有渲染的图像都是512×512分辨率，这是我们GPU内存的限制。然而，更高的分辨率可能会进一步提高重建质量。最后，我们再次使用白色朗伯材质渲染完全相同的图像，即，从源域到目标域的映射是双射的。所提出的过程导致多于647k个图像的训练数据集，即，超过320k图像每个域。为了测试，我们渲染了2k个图像序列，每个序列由50个图像组成本文所示的所有合成数据的定性结果都属于这个测试集。3.2视图间相干性多视图重建算法利用不同视图中的对应特征因此，如果使用标准图像平移方法独立地平移多视图序列中的光泽图像，则我们不能期望良好的重建质量，例如，[9，10]。这将沿着不同视图引入不一致性，并且因此在随后的重建中引起伪影因此，我们提出了一种新的模型，通过同时处理多个视图来执行视图间的一致性。我们的方法包括一个全球和本地的一致性约束：全球约束的实施使用适当的网络architec-图，和本地的一致性强制执行使用一种新的损失函数。全局视图间一致性。合并多个视图的一个简单的想法是在将它们馈送到网络之前逐像素地堆叠它们。我们发现，这并没有导致足够强的约束，因为网络仍然可以为不同的视图学习这导致模糊的平移，尤其是如果不同视图中的对应像素未对准，这通常是这种情况。相反，我们沿着空间轴连接不同的视图，然后将它们馈送到网络。这种解决方案虽然简单，但强制网络对所有视图使用相同的过滤器权重，从而有效地避免了全局范围内的不一致镜面反射到漫反射的多视点重建方法7图图4：为我们的训练预先计算的SIFT对应的两个示例局部视图间相干性。基于局部图像块的损失函数已成功应用于生成对抗模型，例如图像完成[54]或纹理合成[55]。然而，在用于立体重建的多视图设置中，比较随机位置处的图像块没有意义。相反，我们鼓励网络保持输入序列中的特征点对应关系视图间对应性应该对于平移是不变的。由于随后的重建流水线依赖于这样的对应关系，因此在转换期间保持它们应当提高重建质量。为了实现这一点，我们首先提取所有训练图像的SIFT特征对应关系。对于每个由三个视图组成的训练序列，我们计算源域中不同视图之间对应的特征点;两个例子见图4。在训练期间，我们鼓励SIFT特征位置处的网络输出沿着视图使用VGG特征空间中的感知损失[27，56其关键思想是通过考虑两幅图像在深度CNN（如VGG）中的特征激活来测量它们的高级别和低级别相似性我们采用这种思想来保持翻译输出中相应SIFT特征周围的局部图像块在感知上相似VGG特征空间中的感知损失被定义为：LVGG（x，x）=ΣNi=1F（i）（x）−F（i）（xMi其中F（i）表示VGG网络中的第i层，其由Mi个元件组成现在考虑由三个图像X1、X2、X3组成的光泽输入序列，以及由我们的模型产生的相应的差异序列X~1、X~2、X~3。该序列的SIFT对应由三个图像坐标p1、p2、p3组成，每个光泽图像中有一个年龄，并且对应坐标处的所有三个像素表示相同特征。然后，我们从X〜i中提取以pi为中心的局部图像块X〜i，并将感知对应性损失定义为：Lcorr（X1，X2，X3）=LVG G（x1，x2）+LVG G（x2，x3）+LVG G（x1，x3）.（二）3.3训练过程给定来自两个域（源域A和目标域B）的两组数据样本，图像转换的目标是找到变换数据点的映射TXi∈A到B使得T（Xi）=X~i∈B，而Xi的内在结构应该是18S. Wu，H.Huang，T.波特尼耶湾Sela，D.科恩奥尔河Kimmel和M.Zwicker保存在T.训练GAN已被证明在这项任务中产生了惊人的结果，无论是在两个域的数据配对的监督设置中[9]，还是在使用未配对数据的无监督情况下[10]。在我们的实验中，我们观察到这两种方法（ConditionalGAN [9]和cycleGAN [10]）在我们的数据集上表现相似然而，虽然成对的训练数据可能容易用于合成数据，但成对的真实世界数据难以获得。因此，我们提出了一种无监督学习的设计，可以很容易地在未配对的真实世界数据上进行微调。周期一致性丢失。与CycleGAN [10]类似，我们使用同时训练的两个翻译器GB：A→B和GA：B→A来学习域A和B关键思想是训练循环一致性损失，即，G_A（G_B（X））≈X，G_B（G_A（Y））≈Y，其中X∈A，Y∈B.这种周期一致性损失保证了数据点在学习映射。形式上，周期一致性损失定义为：Lcyc（X，Y）=GA（GB（X））−X1+GB（GA（Y））−Y1。（三）对抗性损失。为了强制翻译网络产生与真实图像不可区分的数据，我们还包括对抗性损失来训练我们的模型。对于这两个翻译器，在GAN上下文中通常称为生成器，我们训练两个附加的鉴别器网络DA和DB，它们被训练以区分翻译的图像和真实的图像。为了训练我们的模型，我们使用以下对抗性术语：L_adv=L_GAN（G_A，D_A）+L_GAN（G_B，D_B），⑷其中LGAN（G，D）是LSGAN公式[59]。总的来说，我们使用以下损失函数训练模型L=λadvLadv其中λadv、λcyc和λcorr是用户定义的超参数。3.4实现细节我们的模型基于cycleGAN，并在Pytorch中实现。我们尝试了不同的翻译网络架构，包括U-Net [60]，ResNet [61]和RNN块[62]。如果有足够的训练时间，我们发现所有网络都会产生类似的结果。由于其内存效率和快速收敛，我们选择U-Net作为最终模型。如图5所示，我们使用[27]中引入的多尺度鉴别器，其以2的速率下采样，这通常更适合高分辨率图像。我们的鉴别器还认为当地的对应补丁作为额外的输入，这有助于产生连贯的翻译。遵循[26]中提出的训练指导，我们在生成器中使用像素归一化并添加1-strided镜面反射到漫反射的多视点重建方法9图5：发生器和鉴别器网络的图示。该生成器采用U-网结构，输入和输出都是由三个视图组成的多视图序列。在训练期间对随机SIFT对应进行采样以计算对应损失。多尺度联合鉴别器检查图像序列的三个尺度和对应的局部块的两个尺度每个矩形块的宽度和高度分别指示输出特征图的通道大小和空间维度在每个去卷积层之后的卷积层为了计算对应损失，我们使用256×256的补丁大小，并在每次训练迭代中随机采样单个SIFT对应。鉴别器遵循如下架构：C64-C128- C256-C512-C1。生成器我们在所有实验中使用λadv= 1，λcyc= 10，λcorr=5，使用ADAM优化器进行训练，学习率为0.0002。4评价在本节中，我们提出了我们提出的S2Dnet的定性和定量评估。为此，我们评估了我们的模型在翻译任务和随后的3D重建上的性能在第4.1节中，我们报告了合成测试集的结果，并在第4.2节中对真实数据进行了评估。为了评估我们提出的视图间一致性的好处，我们通过训练cycleGAN网络[10]对光泽到漫射的转换进行了与单视图转换基线的由于我们的合成数据集具有光泽和漫射图像之间的双射映射，因此我们还训练了一个pix2pix网络[9]，用于合成数据的监督此外，我们比较重建质量，直接执行立体重建的光泽多视图序列，以证明的好处，翻译的输入作为预处理步骤。对于3D重建，我们对输入序列应用最先进的多视图表面重建方法[1]，10S. Wu，H.Huang，T.波特尼耶湾Sela，D.科恩奥尔河Kimmel和M.Zwicker光泽 pix2pix cycleGAN S2Dnet图像MSE118.39 56.2069.1557.78表1：对我们的合成测试数据的图像误差的定量评估图6：由8个视图组成的合成输入序列上的定性翻译结果。自上而下：光泽输入序列，地面真实扩散渲染，以及基线pix2pix和cycleGAN的转换结果，以及我们的S2Dnet。pix2pix的输出一般是模糊的。cycleGAN输出虽然尖锐，但缺乏视图间一致性。我们的S2Dnet提供清晰和连贯的翻译。10到15次观看对于我们的方法，我们顺序地翻译每个输入视图，但我们将两个相邻视图作为额外的输入馈送到我们的多视图网络。对于两种基线平移方法，我们独立地平移每个视图。3D重建流水线然后使用整个经转换的多视图序列作为输入。4.1合成数据对于图像翻译性能的定量评估，我们计算MSE相对于地面真实扩散渲染我们的合成测试集。表1显示了我们的S2Dnet与pix2pix和cycleGAN的比较。不出所料，supervised pix2pix网络表现最好，紧随其后的是我们的S2Dnet，它比无监督基线表现得更好。在图6中，我们显示了定性翻译结果。注意pix2pix的输出通常是模糊的。由于MSE会使离群值趋于平稳，并且更喜欢平滑的解决方案，因此pix2pix仍然可以实现较低的MSE误差。虽然cycleGAN的输出更清晰，但翻译的序列缺乏视图间一致性，而我们的S2Dnet产生高度详细和连贯的翻译。镜面反射到漫反射的多视点重建方法11模型12345678910 AVG光泽0.67 0.88 1.35 0.76 1.15 1.13 1.15 0.78 0.54 0.66 0.90cycleGAN 1.18 0.72 0.89 0.59 1.35 0.72 0.99 0.62 0.51 0.42 0.80S2Dnet0.52 0.67 0.72 0.43 0.87 0.54 0.92 0.65 0.55 0.56 0.64表2：对10种不同的场景误差度量是边界框对角线的百分比。我们的S2Dnet表现最好，并且平移基线的表现仍然明显优于直接从光泽图像重建。模型的编号遵循图7中的可视化，使用相同的从左到右的顺序。图7：10个不同场景上的定性表面重建结果从上到下：光泽输入，地面真实漫射渲染，cycleGAN转换输出，我们的S2Dnet转换输出，光泽图像的重建，地面真实漫射图像的重建，cycleGAN输出的重建，以及S2Dnet输出的重建。所有序列都被排除在我们的训练集之外，第3列和第4列中的对象甚至在训练过程中都没有被看到。接下来，我们通过将翻译的序列馈送到重建管道来评估表面重建的质量。我们发现pix2pix的模糊输出不适合立体重建，因为第一步，基于特征对应估计相机参数，在此数据上失败了。因此，我们从表面重建评估中排除pix2pix，但包括直接从光泽输入序列重建的平凡基线，以证明12S. Wu，H.Huang，T.波特尼耶湾Sela，D.科恩奥尔河Kimmel和M.Zwicker图8：由11个视图组成的真实世界输入序列上的定性翻译结果。第一行显示了光滑输入序列，其余行显示了pix2pix、cycleGAN和我们的S2Dnet的翻译结果。所有网络都只在合成数据上训练。与合成情况类似，cycleGAN的性能优于pix2pix，但它会产生沿视图不一致的高频伪影我们的S2Dnet能够去除大部分镜面反射效果，并以一致的方式保留所有几何细节。翻译步骤。为了计算表面重建输出的几何误差，我们使用ICP [63]的变体将重建的几何形状配准到地面真实网格。接下来，我们计算每个重建表面点到地面真实网格中最近邻居的欧氏距离，并报告每个模型的平均值。表2示出了与三个基线相比，我们的S2Dnet的表面重建误差。这些数字表明，我们的S2Dnet表现最好，并且对光泽输入序列进行预处理显然有助于获得更准确的重建，即使在使用cycleGAN基线时也是如此。在图7中，我们显示了各种环境中10个不同场景的定性表面重建结果。4.2真实世界数据由于我们没有真实世界的地面实况数据，我们编译了一个真实世界的测试集，并对其进行了定性比较对于所有方法，我们比较了在我们的合成数据集上训练时的泛化性能。此外，我们还评估了不同模型在对真实世界数据进行微调或从头开始对真实世界数据进行训练时的表现为此，我们通过拍摄真实世界物体的照片来编译数据集。我们选择了5个漫反射现实世界的物体，并从不同的相机位置和不同的照明条件下拍摄了总共5k张照片。接下来，我们使用光泽喷漆为对象覆盖一层光泽涂层，并拍摄另外5k张图片来表示光泽域。所得到的数据集由真实世界条件下的光泽和漫射对象的未配对样本组成，参见图10 a）和b）。在图8中，我们显示了真实世界数据的定性翻译结果所有网络都只在这里训练合成数据，并且由于我们的高质量合成数据集，它们都在一定程度上泛化到现实世界的数据。类似于合成的镜面反射到漫反射的多视点重建方法13图9：7个不同真实世界场景的定性表面重建结果。从上到下：光泽输入，cycleGAN转换输出，我们的S2Dnet转换输出，光泽图像的重建，cycleGAN输出的重建，以及S2Dnet输出的重建。所有网络都只在合成数据上训练。(a)（b）（c）（d）（e）（f）图10：a），b）我们真实世界数据集的样本。c）在我们的真实世界数据集上从头开始训练时cycleGAN的翻译结果。d）S2Dnet输出，在我们的真实世界数据集上从头开始训练。e）仅在合成数据上训练的S2Dnet输出。f）S2Dnet输出，在合成数据上训练，在真实世界数据上微调。结果如图6所示，pix2pix产生模糊的结果，而cycleGAN引入不一致的高频伪影。S2Dnet能够去除大部分镜面反射效果，并以一致的方式保留几何细节。在图9中，我们示出了7个不同场景的定性表面重建结果伪影主要发生在复杂背景环境中的物体轮廓附近这可以通过使用分割掩码进行训练来缓解14S. Wu，H.Huang，T.波特尼耶湾Sela，D.科恩奥尔河Kimmel和M.Zwicker最后，我们评估了在真实数据上进行微调或从头开始训练时的性能。我们在真实世界的数据集上重新训练或微调S2Dnet和cycleGAN，但不能为此目的重新训练pix2pix，因为它依赖于我们未配对的真实世界数据集中不存在我们的实验表明，使用如此小的数据集进行训练或微调会导致严重的过拟合。与仅在合成数据上训练的模型相比，在训练期间未看到的真实世界对象的翻译在图10的c）和d）中，我们展示了cycleGAN和S2Dnet在我们的真实世界数据集上从头开始训练时的图像转换结果。由于图10中的场景是训练集的一部分（尽管输入图像本身被排除在训练集之外），因此我们的S2Dnet产生了不错的翻译结果，而对于训练期间未看到的场景则不是这种情况微调我们的S2Dnet产生类似的结果（图10f））。5局限性和未来工作虽然所提出的框架能够更准确地重建光泽和镜面对象相比，国家的最先进的3D重建算法，一些限制确实存在。首先，由于网络架构包含具有跳过连接的编码器和解码器，因此光泽到朗伯图像转换限于固定分辨率的图像。对于某些类型的应用程序，此分辨率可能太低接下来，由于真实图像中背景的可变性，平移网络可能将背景的一部分视为重建对象的一部分类似地，网络偶尔会将前景误分类为背景的一部分，特别是在镜面反射对象上的非常亮的区域中。最后，由于模拟的训练数据是通过假设固定的反照率来渲染的，因此网络不能一致地将具有空间变化的反照率的光泽材料转化为朗伯表面。我们预测，给定在形状、背景、反照率和材料方面更大和更多样化的训练集，所提出的方法在恢复真实对象方面的准确性将大大提高。我们当前的训练数据集包括最常见的镜面材质类型。所提出的翻译网络有可能扩展到其他更具挑战性的材料，如透明物体，给出适当的训练数据。确认我们感谢匿名评论者的建设性意见。本工作得到了瑞士国家科学基金（169151）、国家自然科学基金（61522213，61761146002，61861130365）、973计划（2015 CB 352501）、广东省科技计划（2015 A030312015）、ISF-NSFC 联合研究计划（2472/17）的部分资助。和深圳创新计划（KQJSCX20170727101233642）。镜面反射到漫反射的多视点重建方法15引用1. Langguth，F.，Sunkavalli，K.，Hadap，S.，Goesele，M.：阴影感知多视图立体。欧洲计算机视觉会议（ECCV）论文集。（2016年）2. 迈尔河Kim KCremers，D.Kautz，J.，Niessner，M.：Intrinsic3d：高品质的3D重建通过联合外观和几何优化与空间变化的照明。2017 IEEE计算机视觉国际会议（ICCV）（2017）31333. Tarini，M.，Lensch H.P.A.Goesele，M.，Seidel，H.P.：镜像对象的3D获取使用条纹图案。Graph.模式67（4）（2005年7月）2334. Tin，S.K.，是的，J.，Nezamabadi，M.，Chen，C.：的镜面型物体的三维重建高效的光线编码。2016 IEEE International Conference on Computational Photography（ICCP）(May 2016）15. Ikeuchi，K.：用光度法立体方法IEEE Trans. Pattern Analysis Machine Intelligence（6）（1981）6616. Savarese，S.，Perona，P.：镜面三维重建的局部分析。2001年IEEE计算机协会计算机视觉和模式识别会议的进展。CVPR 2001年。第2卷第二季第2集II7. 戈达尔角Hedman，P.李伟，Brostow，G.J.：高分辨率三维物体不受控环境中的曲面In：3DV.（2015年）8. Khanian，M.，Boroujerdi，A.S.，Breuß，M.：用于强反射高光的光度学立体计算视觉媒体（2018年2月）9. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：带条件广告的对抗网络IEEE计算机视觉与模式识别会议（CVPR）(July（2017年）10. Zhu，J.Y.，Park，T. Isola，P.，Efros，A.A.：使用循环的不成对的图像到图像转换-一致的对抗网络。IEEE International Conference on Computer Vision（ICCV）(Oct（2017年）11. 张玉，Song，S.，Yumer，E.，Savva，M.，Lee J.Y.Jin，H.，Funkhouser，T.：身体上-基于卷积神经网络的室内场景理解渲染。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）12. Movshovitz-Attias，Y. Kanade，T.，Sheikh，Y.：照片级真实感渲染对于视觉学习？在：欧洲计算机视觉会议，Springer（2016）20213. 施，J.，Dong，Y.，Su，H.，Yu，S.X.：学习shapenet类别中的非朗伯对象内部函数IEEE计算机视觉与模式识别会议（CVPR）(July（2017年）14. Meka，A.，Maximov，M.，Zollhoefer，M.，Chatterjee，A.理查德角Theobalt，C.：生活本征材料估计arXiv预印本arXiv：1801.01075（2018）15. Hoffman，J.，Tzeng，E.，Park，T. Zhu，J.Y.，Isola，P.，Saenko，K.埃夫罗斯，匿名戒酒会达雷尔，T. ：苏铁：周期一致的对抗域适应。 arXiv预印本arXiv：1711.03213（2017）16. Benaim，S.，沃尔夫湖：单侧无监督域映射。在盖永岛卢森堡紫外线Bengio，S.，Wallach，H.，费格斯河Vishwanathan，S.，加内特河编辑：神经信息处理系统的进展30.柯兰联营公司（2017年）75217. 金，T.，Cha，M.，Kim，H. Lee，J.K.，Kim，J.：学习发现跨域关系生成对抗网络。在普雷卡普，D. Teh，Y.W.编辑：第34届机器学习国际会议机器学习研究论文集第70国际会议中心，悉尼，澳大利亚，PMLR（0618. Kang，G.，郑湖，Yan，Y.，Yang，Y.：深度对抗性注意力对齐监督域自适应：目标期望最大化的好处。arXiv预印本arXiv：1801.10068（2018）16S. Wu，H.Huang，T.波特尼耶湾Sela，D.科恩奥尔河Kimmel和M.Zwicker19. Chang，A.X.，Funkhouser，T.，吉巴斯湖Hanrahan，P.黄，Q，Li，Z.，Savarese，S.，Sav-va，M.，Song，S.，Su，H.，肖，J.，Yi，L.，Yu，F.：ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012 [cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所（2015）20. 奥尔-艾尔河Hershkovitz河Wetzler，A.，Rosman，G.，Bruckstein，A. M. Kimmel，R.：真的-镜面反射对象的时间深度细化。In：Proc. IEEE Conf.计算机视觉&模式识别（2016）437821. 奥尔-艾尔河Rosman，G.，Wetzler，A.，Kimmel，R.，Bruckstein，A.M.： Rgbd-融合：真实-时间精度高的深度恢复。In：Proc. IEEE Conf.计算机视觉&模式识别（2015）540722. 陈，T.，Goesele，M.，Seidel，H.P.：镜面反射的细观结构In：2006 IEEE Comput-计算机视觉与模式识别协会会议（CVPR第2（2006）182523. 伊尔克岛Kutulakos，K.N.，Lensch H.P.A.Magnor，M.，Heidrich，W.：透明和规范-目标重建计算机图形论坛（2010）24. Yi，Z.，张洪，Tan，P.，龚，M.：Dualgan：图像到图像翻译的无监督双重学习。IEEE International Conference on Computer Vision（ICCV）（2017年10月）25. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，库维尔一、Bengio，Y.：生成性对抗网。在Ghahramani，Z. Welling，M.，科尔特斯角劳伦斯，北达科他州，Weinberger，K.Q.，编辑：27.第27章我的世界柯兰联营公司（2014）267226. Karras，T.，Aila，T.Laine，S.，Lehtinen，J.：GANs的逐步增长，以改善质量、稳定性和变化。在：学习代表国际会议。（2018年）27. Wang T.C. Liu，M.Y. Zhu，J.Y.，Tao，A.，Kautz，J.，Catanzaro，B.：高分辨率图像使用条件GAN进行合成和语义操作arXiv预印本arXiv：1711.11585（2017）28. 黄河，巴西-地Zhang，S.，（1991），中国农业科学院，Li，T.，他，R.：超越面旋转：全局和局部感知根用于照片真实感和身份保持的正面视图合成。IEEE International Conference onComputer Vision（ICCV）(Oct（2017年）29. Richardson，E.，Sela，M.，Kimmel，R.：基于合成学习的三维人脸重建数据在：3D视觉（3DV），2016年第四届国际会议，IEEE（2016）46030. Sela，M.，Richardson，E.，Kimmel，R.：使用图像到图像转换的无限制面部几何重建。IEEE International Conference on Computer Vision（ICCV）(Oct（2017年）31. Richardson，E.，Sela，M.，奥尔-艾尔河Kimmel，R.：学习详细的面部重建从一个单一的形象。In：Proc. IEEE Conf.计算机视觉&模式识别，IEEE（2017）5553-556232. Sengupta，S.，Kanazawa，A.，卡斯蒂略哥伦比亚特区Jacobs，D.： Sfsnet：学习形状，反射率和光照度。arXiv预印本arXiv：1712.01261（2017）33. Qian，R.，Tan R.T.杨伟，苏，J.，Liu，J.：用于从单个图像中去除雨滴的注意生成对抗网络。arXiv预印本arXiv：1711.10098（2017）34. 王杰，Li，X.，Hui，L.，Yang，J.：堆叠条件生成对抗网络联合学习阴影检测和阴影去除。arXiv预印本arXiv：1712.02478（2017）35. Tatarchenko，M.，Dosov

下载后可阅读完整内容，剩余1页未读，立即下载