合成和真实数据进行无监督几何估计的新方法

43 浏览量更新于2023-10-23 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1RRRSSSRSharinGAN：结合合成和真实数据进行无监督几何估计库季利亚PNVRkoutilya@terpmail.umd.edu周浩hzhou@cs.umd.edu大卫·雅各布斯djacobs@umiacs.umd.edu美国马里兰大学帕克分校摘要我们提出了一种新的方法，用于在训练网络时将合成图像我们提出了一种方法，将这两种图像类型映射到一个单一的，共享的域。这是连接到一个主要的网络端到端的培训。理想情况下，这会导致来自两个域的映像向主网络提供共享信息。我们的实验表明，在两个重要领域，人脸的表面法线估计和户外场景的单眼深度估计，无论是在无监督的设置显着改善的最先进的1. 介绍从图像中理解几何是计算机视觉中的它有许多重要的应用。例如，单目深度估计（MDE）对于计算机图形学中的合成对象插入[18]，机器人中的抓取[21]和自动驾驶汽车的安全性非常重要。面部法线估计可以帮助面部图像编辑应用程序，如重新照明[39，49，54]。然而，为这些回归任务注释真实数据是非常困难的。另一方面，合成数据及其基础事实标签很容易生成，通常用于弥补真实数据中标签的不足。不幸的是，在合成数据上训练的深度模型通常表现得真实合成图1：我们建议通过将与主要任务相关的相应领域特定信息（δs，δr）映射到共享信息δsh中，以减少合成和真实之间的领域差距，保留其他所有内容。基本上是个难题。为了训练适用于真实域和合成域的回归量，我们只需要将两者映射到一个新的表示，该表示包含以共同形式存在于两个域中的任务相关信息映射不需要改变与任务无关的原始域的属性，因为回归器将学习忽略它们。为了看到这一点，我们考虑我们的问题的简化模型。我们假设真实图像和合成图像由两个分量形成：域不可知的（其具有跨合成和真实共享的语义信息，并且表示为I）和域特定的。我们进一步假设特定于领域的信息有两个子成分：与主要任务无关的领域特定信息（表示为分别用于合成图像和真实图像）和与主要任务相关的域特定信息（δ s，δ r）。因此，真实图像和合成图像可以分别表示为：xr= f（I，δr，δ′）和xs= f（I，δ s，δ′）。由于合成分布和真实分布之间的域差距，在真实数据上表现不佳为了解决这个问题，一些研究[30，53，52，3]已经提出了无监督域自适应方法，以利用合成我们认为{δs和δr}之间的畴隙可以完成主网络的训练，学习执行，并不总是存在的期望信息另一方面，可以绕过{δ′和δ′}之间的磁畴通过将数据映射到真实域或反之亦然，在特征级或图像级。但是，将示例从一个域映射到另一个域本身就是一个挑战性的问题，可能会限制性能。我们观察到，找到这样的映射解决了一个unnec-周浩目前在亚马逊AWS工作因为它不保存信息这是首要任务所需要的。例如，在真实面部图像中，诸如头发的颜色和纹理的信息与估计面部法线的任务无关，但是足以区分真实面部和合成面部。这可以被认为是与主要任务无关的领域特定信息，δ′。另一方面，沙德-13974Gδ13975SR由于渲染引擎的限制，真实图像和合成图像中的流可以具有不同的外观，但是可以包含与两个域中的MDE的主要任务相关的深度线索。因此，组合真实数据和合成数据的最简单策略是将δs和δr映射到共享表示δsh，而不修改δ′和δ′然而，这些方法在推理期间是耗时的，并且依赖于手动定义的特征，这在性能上具有限制。最近的研究将深度卷积神经网络（CNN）[8，7，22，16，50，33，32，34]应用于单目深度估计。Eigen等人[8]首次提出如图1所示。S R用于深度估计的多尺度深度CNN。在此之后最近的研究表明，一个共享的网络合成数据和真实数据可以帮助减少不同领域中图像之间的差异。例如，[39]通过为真实和合成数据训练统一的网络，[25]通过对不同的生成网络实施权重共享约束来学习多个域图像的联合分布。受这些研究的启发，我们定义了一个统一的映射函数G，称为SharinGAN，以减少真实图像和合成图像之间的域间隙。与现有的研究不同，我们的G是经过训练的，因此删除了最少的领域特定信息。这是通过在真实和合成数据上预训练G作为自动编码器来实现的，即，将G初始化为恒等函数。然后，G在对抗框架中进行端到端的训练，并带有重建损失，以及解决主要任务的网络，进一步推动G将与任务相关的信息映射到共享域。因此，成功训练的G将学习减少δs和δr中存在的域间隙，将它们映射到变成一个共享域δsh。 G将保持不变。 δ′工作，[7]提出应用CNN来估计深度，表面法线和语义标签。[22]将深度CNN与连续CRF相结合，用于单眼深度估计。这些基于监督学习的方法的一个主要缺点是需要大量的标注数据，这在现实中很难获得。随着大规模高质量合成数据的出现这一任务的最大挑战是合成数据和真实数据之间的巨大领域差距[3]建议首先使用合成数据训练深度预测网络。然后训练风格转移网络，以周期一致的方式将真实图像映射到合成图像[56]。[30]提出了通过对潜在特征应用对抗性损失来使真实图像的特征适应合成图像的特征。提出了一种内容一致的正则化方法以避免模式崩溃。T2 Net[53]训练了一个网络，将合成数据转换为图像级别的真实数据，并在此转换域中进一步训练了一个任务网络GASDA [52]建议通过对真实数据的极线几何约束进行训练，的当难以将它们映射到公共表示时，δr可以保持相对不变在数学上，G（x s）=f（I，δ sh，δ′）和G（xr）=f（I，δ sh，δ′）。如果不确定，G将把合成图像和真实图像映射到在眼睛看来可能完全不同的图像，但主要任务网络将从两者中提取相同的信息我们将我们的方法应用于使用虚拟 KITTI（vKITTI）[1]和KITTI的[29]分别作为合成和真实数据集我们的方法将KITTI特征测试分割和Make3D [37]测试集的绝对误差减少了23。77%，6。与最先进的方法相比，分别为45%[52]。广告因此，我们提出的方法在面部法线估计方面优于SfSNet它产生了近4的精度提升。在Photoface数据集上，正常预测在地面真实值的 20 （ Acc20 ）内为3%[51]。2. 相关工作单目深度估计一直是计算机视觉领域的一个研究热点。由于这个问题是不适定的，基于学习的方法在近年来占主导地位许多早期的学习工作应用马尔可夫随机场（MRF）通过对附近区域之间的关系进行建模来推断单个图像的深度[36，37，24]。这些合成数据的地面真实标签所有这些方法都试图通过将一个域转移到另一个域来对齐两个域。与这些工作不同的是，我们提出了一个映射函数 G ，也称为SharinGAN，只对齐影响主要任务的域特定信息，导致两个域中的图像的最小变化。我们表明，这使得学习主任务网络更容易，并可以帮助它专注于有用的信息。自监督学习是避免收集用于单目深度估计的地面实况标签的另一种方式。这种方法需要单眼视频[55，48，6，13]，立体声[11][28][31][27][13][14][15][16]我们提出的方法是对这些自监督方法的补充人脸几何参数估计是人脸逆绘制的一个子问题，是人脸图像编辑等应用的关键。传统的人脸几何估计方法通常基于3D变形模型（3DMM）[4]。最近的研究证明了深度CNN解决这个问题的有效性[44，42，10，39，46，45，23]。多亏了3DMM，生成具有地面真实几何的合成人脸图像变得很容易。[44，42，39]利用合成人脸图像，13976R共享的SemAntic ImageG：发生器合成图像合成转换的图像合成预测主网络不D：图像鉴别器真实图像房转换的图像房预测重构损失虚拟监管合成地面真相SharinGAN模块图2：模型架构概述。红色虚线箭头表示损失计算。Ground Truth形状，以帮助训练网络，从而使用真实图像预测脸部形状。大多数这些作品最初都是用合成数据对网络进行预训练，然后进行微调为了实现这一点，使用对抗损失来找到共享信息δsh。这是通过最小化xsh和xsh分布的差异来实现的。但俄.西它与真实和合成数据的混合，或者不使用超声波，透视或弱监督，忽视了真实和合成人脸图像之间的域在这项工作中，我们表明，通过使用我们提出的方法减少真实数据和合成数据之间的域间隙，可以更好地估计人脸几何形状。使用GAN的域自适应有许多作品[47，5，25，43，40]使用GAN框架通过经由监督翻译将一个域映射到另一个域来执行域自适应。然而，大多数这些只是玩具数据集上的分类设置。我们试图将合成域和真实域映射到一个新的共享域中，该共享域在训练过程中学习，并使用它来解决无监督几何估计的复杂问题。此外，我们在回归任务中应用了图像级别的对抗性损失，与上述一些先前的工作相比，域不变特征工程足以完成分类任务。3. 方法为了弥补真实数据注释的缺乏，并在容易获得的合成数据上训练主要任务网络，我们提出SharinGAN来减少合成和真实之间的域差距。我们的目标是培养一个初级SharinGAN创建的共享域上的任务网络，它学习映射函数G：x r →xsh和G：X s›→x sh，其中x k =f（I，δ k，δ′）;xsh=与此同时，为了保护域不可知论信息，在共享语义信息I（shared semantic informationI）中，我们使用重建损失。现在，在主任务网络没有损失的情况下，G可能会改变图像，使它们与标签不匹配。为了防止这种情况，我们还为真实和合成示例使用了主要任务损失来指导生成器。重要的是要注意，从合成到真实的平移，反之亦然，对于这种对称设置找到共享空间同样重要。为了促进这一点，我们使用了一种弱监督形式，我们称之为虚拟监督。一些可能的虚拟监督包括输入数据的先验或约束，可以缩小主任务网络的解决方案空间（详细信息在3.2.2中讨论）。对于合成的例子，我们使用已知的标签。对抗、重建和主任务损失一起训练生成器和主任务网络，以将两个域中的域特定信息{δs，δr}对齐到共享空间δsh中，保留其他所有内容。3.1. 框架在这项工作中，我们提出训练一个生成网络，称为SharinGAN，以减少真实数据和合成数据之间的域间隙，从而帮助训练初级网络。图2显示了我们提出的方法的框架。它包含生成网络G、体现SharinGAN模块的图像级D上的判别器和执行主要任务的任务网络Tsk kf（I，δ sh，δ k）; k ∈ {r，s}如图1所示。G允许主要任务网络在共享空间上进行训练，生成网络G取合成图像xs或实际图像xr作为输入，并将其转换为xsh或xshS R完成主要任务所需的信息，网络更适用于测试过程中的真实数据。为了骗过D。不同于现有的作品，将一个域中的图像转移到另一个域[3，53，52]，我们的13977SSSRRRSR生成网络G试图将合成图像和真实图像的域特定部分δs和δr映射到共享空间δsh，使δ′和δ′保持不变。因此，我们变换后的合成图像和真实图像（xsh和xsh）与xs和xr的差异更小。然后，我们的任务网络T将变换后的图像xsh和xsh作为输入，并预测3.2.2任务网络的损失任务网络以变换后的合成图像或真实图像作为输入，并预测几何信息。由于合成数据的地面真值标签是可用的，因此我们使用这些地面真值标签应用监督损失为s r真实图像，域特定损失或正则化是几何生成网络G和任务网络T以端到端的方式一起训练。3.2. 损失In this section, we describe the losses we use for the gen-erative and task networks.3.2.1生成网络的损耗我们为合成和真实数据设计了一个生成网络G，因为共享权重可以帮助对齐不同域的分布[25]。此外，现有的研究（如[42，39]）也表明，统一的框架在合成图像和真实图像上效果相当好。为了将δs和δr映射到共享空间δsh，我们在图像级别应用对抗损失[14]。更具体地说，我们使用Wasserstein方法[2]，该方法使用地球移动者{G（xs），G（xr）}，即：LW（D，G）=Exs[D（G（xs））]−Exr[D（G（xr））]，（1）D是一个编码器，Ge是gener- ator的编码器部分在[15]之后，为了克服由于所提出的权重裁剪而导致的梯度消失或爆炸的问题，作为一种虚拟监督的形式应用于根据任务的训练我们将我们提出的SharinGAN应用于两个任务：单目深度估计（MDE）和人脸正常估计（FNE）。对于MDE，我们使用GASDA [52]中使用的深度平滑度和几何一致性损失然而，对于FNE，对于虚拟监督，我们使用SfSNet中使用的伪监督[39]。我们用“虚监管”一词单眼深度估计。为了将地面实况标签用于合成数据，我们将L1损失应用于预测的合成深度图像：L1=||ys−y||1（5）其中，y是预测的合成深度图，并且y是其对应的地面实况。在[52]之后，我们对深度LDS应用平滑损失，以鼓励它与局部均匀区域一致。应用几何约束损失LGC，使得任务网络可以通过对极约束学习物理几何结构LDS和LGC定义为：L DS= e− εxr||阿吉尔||（六）1−SSIM（xr，x′）L GC= ηrr+µ||x r− x′||、（7）在[2]中，增加了一个梯度惩罚项，用于训练分布式系统。2个RR犯罪者：L （D）为（一）||D（h）||-1）2（2）表示真实图像的预测深度，表示一阶导数。xr是左边的图像，gph2KITTI数据集[29]。 x′是反扭曲图像，我们的总体对抗性损失定义为：Ladv=LW（D，G）−λLgp（D）（3）其中，当训练λ时，λ被选择为10，而当训练生成器时，λ被选择为0在没有任何约束的情况下，对抗性损失可以学习移除所有域特定部分δ和δ'，甚至一些域不可知部分I，以便欺骗鉴别器。这可能导致几何信息的丢失，这可能降低主任务网络T的性能。为了避免这种情况，我们建议使用类似于[41]的自正则化损失来迫使变换后的图像保留尽可能多的信息：基于预测深度yr 的x r 的右对应物。KITTI数据集[29]提供了相机焦距和相机之间的基线距离。与[52]类似，我们在实验中将η设为0.85，µ设为0.15的任务网络的总损失定义为：LT=β1LDS+β2L1+β3LGC，（8）其中β1= 0。01，β2= β3 = 100。面法线估计。SfSnet [39]目前在面部法线估计方面取得了最佳性能。因此，我们遵循它的设置，面对正常的估计和ap。在训练过程中为合成图像和真实图像提供LT=λreconLrecon+λNLN+λALA+λLightLLight，（9）13978L r= ||G（x s）− x s||2个以上||G（x r）− xr||二、（四）其中L，L和L为L侦察损失2 2Recon N A1结构化图像，正常和不规则，而L光是13979方法监督数据集帽错误率，越低越好准确度高，越高越好绝对相对值平方相对RMSERMSE日志δ<1。25δ<1。252δ<1。253Eigen等人[八]《中国日报》是的K80m0.2031.5486.3070.2820.7020.8900.958Liu等[22日]是的K80m0.2021.6146.5230.2750.6780.8950.965全合成（基线）没有S80m0.2532.3036.9530.3280.6350.8560.937全部为实数（基线）没有K80m0.1581.1515.2850.2380.8110.9340.970GASDA [52]没有K+S80m0.1491.0034.9950.2270.8240.9410.973SharinGAN（提议）没有K+S80m0.1160.9395.0680.2030.8500.9480.978Kuznietsov等人[19个]是的K50m0.1170.5973.5310.1830.8610.9640.989Garg等人[9]第一章没有K50m0.1691.0805.1040.2730.7400.9040.962Godard等人[第十一届]没有K50m0.1400.9764.4710.2320.8180.9310.969全合成（基线）没有S50m0.2441.7715.3540.3130.6470.8660.943全部为实数（基线）没有K50m0.1510.8564.0430.2270.8240.9400.973Kundu等人[30个]没有K+S50m0.2031.7346.2510.2840.6870.8990.958T2Net [53]没有K+S50m0.1681.1994.6740.2430.7720.9120.966GASDA [52]没有K+S50m0.1430.7563.8460.2170.8360.9460.976SharinGAN（提议）没有K+S50m0.1090.6733.770.1900.8640.9540.981表1：KITTI数据集[8]特征检验分割的MDE结果。对于训练数据，K：KITTI数据集和S：vKITTI数据集。以浅灰色突出显示的方法使用域自适应技术，而非突出显示的行对应于监督方法。27维球谐系数的L2损失。对真实图像的监督来自详情请参阅[39]。3.3. 整体亏损用于训练我们的几何估计管道的总损失然后被定义为：L= α1L adv+ α2L r+ α3L T。（十）其中，对于单眼深度估计任务，（α1，α2，α3）=（1，10，1），并且（α1，α2，α3）=（1，10，0.1）用于人脸正常估计任务。4. 实验我们将我们提出的SharinGAN应用于单目深度估计和人脸法线估计。我们将在本节中讨论实验的细节。4.1. 单目深度估计数据集在[52]之后，我们使用vKITTI [1]和KITTI[29]作为合成和真实的数据集来训练我们的网络。vKITTI包含21，260个图像深度对，它们都用于训练。KITTI [29]提供了42，382个立体对，其中22，600个图像用于训练，888个用于验证，如[52]所建议的。我们使用生成器G和主任务网络T，其架构与[52]相同。我们使用重建损失Lr在合成和真实数据上预训练生成网络G。这导致一个恒等映射，可以帮助G尽可能多地保留输入图像的几何信息。我们的任务网络使用合成数据进行预训练13980有监督。然后，通过使用学习率为1e−5的Adam优化器，使用公式10对150，000次迭代进行端到端训练，批量大小为2。基于KITTI的验证集选择最佳模型结果表1显示了MDE任务上不同方法的KITTI数据集本征检验分割所提出的方法在几乎所有指标上都优于MDE [52，53]的先前无监督域自适应方法。特别是与文献[52]相比，绝对误差减小了19. 7%和21。80 m上限和50 m上限设置分别为0%。此外，我们的方法的性能更接近监督设置中的方法[8，22，19]，该方法是在具有地面真实深度标签的真实KITTI数据集上训练图3直观地比较了所提出的方法与[52]的预测深度图。我们展示了三个典型的例子：近距离、中距离和远距离。实验结果表明，该方法在细节深度预测方面有更好的例如，我们预测的深度图可以更好地保留汽车的形状（图3（a）和（c））以及树的结构和后面的建筑物这表明了我们提出的SharinGAN与[52]相比[52]学习将真实图像转移到合成域，反之亦然，与SharinGAN相比，这因此，[52]的转换质量可能不如所提出的方法。而且，非监督变换不能保证几何信息不变.为了理解我们的生成网络G是如何工作的，我们在图4中展示了一些合成图像和真实图像、它们的转换版本以及差异图像这表明G主要作用于边。由于深度13981RRSS(a) 第一行从左到右：真实图像，地面真实深度图，GASDA的深度图[52]和SharinGAN的深度图第二行显示第一行红色框中的相应区域。SharinGAN比GASDA更好地估计了远处汽车的深度。(b) 第一行从左到右：真实图像，地面真实深度图，GASDA的深度图[52]和SharinGAN的深度图第二和第三行显示了第一行的绿色和红色框中的相应区域左边的树（绿色）和右边树后面的灌木的深度由SharinGAN更好地估计。(c) 第一行从左到右：真实图像，地面真实深度图，GASDA的深度图[52]和SharinGAN的深度图第二和第三行显示了第一行的绿色和红色框中的相应区域SharinGAN可以更好地估计汽车的边界和深度图3：SharinGAN与GASDA的定性比较[52]。地面实况（GT）已插入可视化。我们屏蔽了顶部区域，其中地面实况深度不可用于可视化目的。注意，除了上述各种其他方面之外，我们还能够去除GASDA的深度图中存在的边界伪影。(a) x r（b）x sh= G（x r）（c）|x r− x sh|（d）x s（e）x sh= G（x s）（f）|x s− x sh|图4：（a）、（b）和（c）显示了真实图像x r、转换后的真实图像x sh及其差异|x r−x sh|分别 (d)、（e）R r以及（f）示出了合成图像x s、经平移的合成图像x sh以及它们的差|x s−x sh|分别S s13982(a) 输入图像（b）地面实况（c）GASDA[52]（d）SharinGAN图5：Make3D数据集测试集的定性结果[37]。在顶行中，GASDA预测的深度图中缺少的一些远树结构在使用SharinGAN模块时被更好地对于最下面的一行，GASDA错误地预测了树后面的房屋的深度图很远，这是由SharinGAN正确捕获的地图在边缘处大多是不连续的，它们为场景的几何形状提供了重要的线索。另一方面，由于边缘周围物体的几何形状和材质的差异，绘制算法可能会发现与场景的其他部分相比，很难绘制出真实的边缘。因此，大多数与几何相关的域特定信息都位于SharinGAN正确关注的边缘中。4.1.1泛化到Make3D为了证明所提出的方法的泛化能力，我们在Make3D上测试了我们的训练模型[37]。请注意，我们没有使用Make3D的数据来微调我们的模型。表2显示了我们的方法的定量结果，该方法大大优于现有的最先进的方法。此外，性能方法训练错误率，越低越好绝对相对值平方相对RMSEKarsh等人[17个]是的0.3984.7237.801Laina等人[20个]是的0.1981.6655.461Kundu等人[30个]是的0.4525.719.559Goddard等人[12个]没有0.50510.17210.936Kundu等人[30个]没有0.64712.34111.567Atapour等人[3]第一章没有0.4239.3439.002T2Net [53]没有0.5086.5898.935GASDA [52]没有0.4036.70910.424SharinGAN（提议）没有0.3774.9008.388表2：Make3D数据集的MDE结果[37]。Trained指示模型是否在Make3D上训练。在中心影像作物中，计算深度小于70 m的误差[12]。可以得出结论，我们提出的方法更好地推广到一个看不见的数据集。13983SharinGAN与监督方法更具有可比性。我们在图5中进一步直观地比较了所提出的方法与GASDA [52]很明显，所提出的深度图在输入图像中捕获更多细节，反映了更准确的深度预测。4.2. 面法线估计数据集我们使用[39]和CelebA [26]提供的合成数据作为真实数据来训练SharinGAN进行类似于[39]的面部正常估计然后在Photoface数据集上评估我们的训练模型[51]。我们使用RBDN网络[35]作为我们的生成器和SfSNet [39]作为主要任务网络与之前类似，我们使用重建损失在合成和真实数据上预训练生成器，并以监督的方式仅在合成数据上预训练主任务网络。然后，我们端到端地训练G和T使用120，000次迭代的总损失（10）。我们使用的批量大小为16，学习率为1e-4。根据Photoface的验证集选择最佳结果表4显示了我们的方法在Photoface数据集的测试分割上估计的表面法线的定量性能。通过提出的SharinGAN模块，我们能够在所有指标上显著改善SfSNet。特别是，我们能够将平均角度误差度量显著降低约1.5μ m。此外，图6描述了我们的方法与SfSNet在Photo-face测试分割上的定性比较。SfSNet和我们的管道都没有在这个数据集上进行微调，但与SfSNet相比，我们能够更好地泛化这证明了所提出的SharinGAN对训练中看不见的数据的泛化能力13984组件帽错误率，越低越好准确度高，越高越好写轮眼重构损失绝对相对值平方相对RMSERMSE日志δ<1。25δ<1。252δ<1。253XX50m0.1370.8044.120.2100.8160.9400.978CX50m0.11130.67053.800.1920.8610.9540.980CC50m0.1090.6733.770.1900.8640.9540.981表3：单眼深度估计的消融研究，以了解SharinGAN模块的作用和重建损失。我们需要两者来获得这项任务的最佳性能。算法Mae<20◦<25◦<30◦3DMM [4]26.3米百分之四点三56.1%百分之八十九点四[38]第三十八话33.9米百分之二十四点八百分之三十六点一47.6%SfSNet[39]25.5米百分之四十三点六57.7%68.7%SharinGAN（提议）24.0米47.88%61.53%72.1%表4：Photoface数据集[51]测试分割上的Face法线估计的定量结果所有列出的方法都没有在Photoface上进行微调。指标MAE：平均角误差和<20°、25°、30°是指不同阈值的正态预测精度。(a)输入图像（b）GT（c）SfSNet[39](d)写轮眼图6：我们的方法与SfS-Net在Photoface数据集测试集的示例上的定性比较[51]。我们的方法在训练过程中更好地推广到看不见的数据。5. 消融研究我们使用KITTI和Make3D数据集对单眼深度估计进行了消融研究。我们通过移除SharinGAN模块并使用（8）在原始合成和真实数据上训练一个主网络来研究SharinGAN模块的作用我们观察到性能显著下降，如表3和表5所示。这显示了SharinGAN模块的重要性，它有助于有效地训练主任务网络。为了证明重建损失的作用，我们将其移除并训练我们的整个管道α1Ladv+α3LT。我们13985在表3的第二行显示KITTI测试集的结果，在表5的第二行显示Make3D测试集的结果。对于这两个测试集，我们可以看到与完整模型相比性能下降。尽管KITTI的下降较小，但可以看出，该下降对于在训练期间不可见的Make3D数据集是显著的。这表明重建损失对于很好地推广到训练期间未看到的域的重要性。组件帽错误率，越低越好写轮眼重构损失绝对相对值平方相对RMSEXX70m0.4768.0589.449CX70m0.4015.3188.377CC70m0.3774.9008.388表5：单眼深度估计的消融研究，以了解SharinGAN模块的作用和Make3D测试数据集上的重建损失。我们需要两者来获得这项任务的最佳性能。6. 结论我们的主要动机是简化在训练中将合成图像和真实图像相结合的过程。先前的方法通常选择一个域，并尝试将图像从另一个域映射到该域。相反，我们训练一个生成器将所有图像映射到一个新的共享域。在这样做时，我们注意到，在新的领域中，图像不需要对人眼不可分辨，只需要对执行主要任务的网络不可分辨。主网络将学会忽略保留在共享域中的无关的、特定于域的信息为了实现这一点，我们提出了一个简单的网络架构，依靠我们的新SharinGAN，它将真实和合成图像映射到一个共享域。所得到的图像保留了特定于域的细节，这些细节不会阻止主网络有效地组合来自两个域的训练数据。我们证明了这两个重要的应用，表面法线估计的脸，和单目深度估计的户外场景，实现显着的改进，国家的最先进的方法。最后，我们的消融研究证明了所提出的SharinGAN在有效结合合成数据和真实数据方面的重要性13986引用[1] 约翰·卡邦·埃莱奥诺拉·维格·阿德里安·盖东，王乔。虚拟世界作为多目标跟踪分析的代理。在CVPR，2016年。[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络NeurIPS，2017。[3] Amir Atapour-Abarghouei和Toby P.我猜使用合成数据的实时单目深度估计，通过图像风格转换进行局部自适应。在CVPR，2018年6月。[4] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型SIGGRAPH，1999年。[5] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。[6] 文森特·凯瑟，斯任·皮克，礼萨·马久里安，和阿尼莉亚·安格洛娃.没有传感器的深度预测：从单眼视频的无监督学习的杠杆结构。在AAAI，2019年。[7] David Eigen，Rob Fergus。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在ICCV，2015年。[8] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NeurIPS中。2014年[9] Ravi Garg，Vijay Kumar B.G.，古斯塔沃·卡内罗和伊恩·里德用于单视图深度估计的无监督CNN：几何学拯救了我们。在ECCV，2016年。[10] Kyle Genova，Forrester Cole，Aaron Maschinot，AaronSarna，Daniel Vlasic和William T.弗里曼。三维可变形模型回归的无监督训练。CVPR，2018年。[11] C le'mentGodard ， OisinMacAodha ， andGabrielJ. 兄弟 -拖。具有左右一致性的无监督单目深度估计。在CVPR，2017年。[12] Clement Godard，Oisin Mac Aodha，and Gabriel J.兄弟-拖。具有左右一致性的无监督单目深度估计。在CVPR，2017年。[13] Clement Godard，Mac Aodha Oisin，Michael Firman，and Gabriel J.布罗斯托深入研究自我监督的单目深度估计。在ICCV，2019年。[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS中。2014.[15] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在NeurIPS中。2017年。[16] Lei He，Guanghui Wang，and Zhanyi Hu.使用深度神经网络嵌入焦点长度从单个图像IEEE Trans. on ImageProcessing，27（9），2018.[17] K.卡尔施角Liu和S. B.康深度转移：使用非参数采样从视频中提取深度。IEEE Trans. PAMI，36（11）：2144[18] Kevin Karsch、Kalyan Sunkavalli、Sunil Hadap、NathanCarr、Hailin Jin、Rafael Fonte、Michael Sittig和DavidForsyth。三维物体合成的自动场景推断。ToG，33（3），2014.[19] Yevhen Kuznietsov，Jorg Stuckler和Bastian Leibe。用于单目深度图预测的半监督深度学习。在CVPR，2017年7月。[20] I.莱纳角Rupprecht，V. Belagiannis，F. Tombari和N.纳瓦布使用全卷积残差网络进行更深的深度预测。在3DV中，第239-248页[21] Ian Lenz，Honglak Lee，和Ashutosh Saxena.用于检测机器人抓取的深度 The International Journal of RoboticsResearch，34（4-5）：705[22] Fayao Liu，Chunhua Shen，Guosheng Lin，and Ian Reid.使用深度卷积神经场从单目图像学习深度。IEEE Trans.on PAMI，38（10），2016.[23] 凤琉，陈鸾，刘小明。从不同的原始扫描数据进行3D人脸建模。在ICCV，2019年。[24] Miaomiao Liu，Mathieu Salzmann，and Xuming He.从单个图像进行离散-连续深度估计。在CVPR，2014年6月。[25] 刘明宇和昂塞尔·图泽尔。耦合生成对抗网络。在NeurIPS中。2016年。[26] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在ICCV，2015年。[27] Fangchang Ma，Guilherme Venturelli Cavalheiro和SertacKaraman。自监督稀疏到密集：激光雷达和单目相机的自我监督深度完成。在ICRA，2019年。[28] Ishit Mehta, Parikshit Sakurikar, and P. Narayanan.用于无监督单目深度估计的结构化对抗训练。在3DV，2018年。[29] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。CVPR，2015。[30] Jogendra Nath Kundu ， Kristi Krishna Uppala ， AnujPahuja和R.文卡特什先生Adadepth：深度估计的无监督内容一致适应。在CVPR，2018年。[31] 马特奥·波吉，法比奥·托西，和斯特凡诺·马托西亚。学习单目深度估计与无监督的三目假设。在3DV，2018年。[32] Xiaojuan Qi ， Renjie Liao ， Zhengzhe Liu ， RaquelUrtasun，and Jiaya Jia. Geonet：用于联合深度和表面法线估计的几何神经网络。在CVPR，2018年。[33] 瓦姆希·雷帕拉和希夫·拉姆·杜比无监督单目深度估计的双cnn模型。2018年4月[34] Anirban Roy和Sinisa Todorovic使用神经回归森林进行单目深度估计。在CVPR，2016年。[35] Vlad I. Venkataraman Santanam Morariu和Larry S.戴维斯广义深度图像到图像回归。在IEEE计算机视觉和模式识别会议上，2017年7月。[36] 阿舒托什·萨克塞纳Chung，and Andrew Y. Ng.从单个单目图像学习深度。InNeurIPS，2006.[37] Ashutosh Saxena，Min Sun和Andrew Y. Ng. Make3d：从单个静态图像学习3D场景结构。IEEE Trans. PAMI，1398731（5）：82413988[38] Matan Sela Elad Richardson和Ron Kimmel使用图像到图像转换的无限制面部几何结构重建InICCV，2017.[39] 放大图片作者： Soumyadip Sengupta ， AngjooKanazawa，Carlos D.Castillo和Dav

下载后可阅读完整内容，剩余1页未读，立即下载