SRDA：低成本高效的3D扫描实例分割技术

4 浏览量更新于2023-10-14 收藏 2.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

SRDA：通过扫描、推理和领域自适应生成实例分割标注徐文强[0000−0002−8648−5576]、李永禄[0000−0003−0478−0692]、卢策武[0000−0002−4023−9257]上海交通大学{vinjohn，yonglu li，lucewu}@ sjtu.edu.cn抽象。实例分割是计算机视觉中的一个重要问题。然而，为该任务准备注释数据是非常耗时且昂贵的。通过结合3D扫描，推理和基于GAN的域自适应技术的优势，我们引入了一种名为SRDA的新型管道，以非常小的努力获得大量的训练样本。我们的管道非常适合可扫描的场景，即大部分是室内的，一些是室外的。为了评估我们的性能，我们建立了三个有代表性的场景和一个新的数据集，具有各种常见对象类别的3D模型和注释的真实世界场景图像。大量的实验表明，我们的流水线可以实现体面的实例分割性能给出非常低的人力成本。关键词：3D扫描·物理推理·领域适应。1介绍实例分割[6，21]是计算机视觉中的基本问题之一，与对象检测[28]或语义分割[23]相比，它提供了更多的细节随着深度学习的发展，实例分割取得了重大进展。提出了许多大量的注释数据集[5，22]。然而，在实践中，当遇到具有许多新对象的新环境时，大规模的训练数据收集和注释是不可避免的，这是成本高昂且耗时的。研究人员一直渴望有一种方法可以用较小的努力生成大量的训练计算机图形仿真是一种很有前途的方法，因为3D场景可以是无限的真实感图像与地面实况配对的来源。此外，现代仿真技术能够综合大多数这两位作者的贡献是相等的。刘思武为通讯作者：lucewu@sjtu.edu.cn，twitter：@Cewu Lu卢策武是MoE部人工智能重点实验室、上海交通大学人工智能研究所、上海交通大学商汤科技人工智能实验室成员。2徐文强、李永禄、卢策武人类SRDA2人小时4000人时6000张图片mAP77.02地图86.02室内和室外场景，具有感知的合理性。然而，这两个优点是双刃剑，渲染图像将是艰苦的，使模拟场景的视觉逼真[43，38，31]。此外，对于新环境，现实中的一些对象很可能不在3D模型数据库中。Fig. 1. 与人工标记（红色）相比，我们的管道（蓝色）可以显着减少近2000倍的人力成本，并在实例分割中达到合理的准确性77.02和86.02是3个场景的平均mAP@0.5我们提出了一个新的管道，试图解决这些挑战。我们的流水线包括三个阶段：扫描，物理推理，域自适应（SRDA），如图所示。1.在第一阶段，新的对象和环境背景从某一场景扫描到3D模型。与其他基于CG的方法使用现有模型数据集进行模拟不同，通过我们的管道合成的图像可以确保逼真的效果并很好地描述目标环境，因为我们使用真实世界的扫描数据。在推理阶段，我们提出了一个推理系统，以产生适当的布局，为每个场景，充分考虑物理和常识的合理性。物理引擎用于保证物理的合理性，常识的合理性由常识似然函数（CL）来检验。例如，“鼠标在鼠标垫上，它们在桌子上”将具有较大的输出。在此基础上，提出了一种新的几何引导GAN（GeoGAN）框架。它集成了几何信息（分割为边缘线索，表面法线，深度），这有助于生成更合理的图像。此外，它还包括一个新的组件预测器，可以作为一个有用的辅助监督，也是一个标准来评分的视觉质量的图像。我们的管道的主要优点是节省时间。与传统的穷尽式标注相比(See图1）。最耗时的阶段是扫描，这在大多数室内和一些室外场景中很容易完成。我们的管道可以广泛适应许多场景。我们选择了三个代表性场景，即超市的货架（用于自助超市），办公室的桌子（用于家用机器人），类似于Amazon Robotic Challenge1中的手提箱。1www.amazonrobotics.com/#/roboticschallengeSRDA3据我们所知，没有当前的数据集由紧凑的3D对象/场景模型和具有实例分割注释的真实场景图像组成因此，我们构建了一个数据集来证明我们的管道的有效性该数据集有两个部分，一个用于扫描的对象模型（SOM数据集），另一个用于具有实例级注释的真实场景图像（实例-60K）。我们的贡献有两个方面：– 主要贡献是新颖的三级SRDA流水线。我们增加了一个推理系统的可行布局建设，并提出了一个新的领域适应框架命名GeoGAN。实验结果表明，该方法省时省力，输出图像与真实图像接近。– 为了证明有效性，我们建立了一个数据库，其中包含3D模型的常见对象和相应的场景（SOM数据集）和场景图像与实例级注释（实例-60K）。我们将首先回顾一些相关的概念和作品在第二节。2，并描绘了整个管道从第二。我们在第3节中描述了扫描过程。3、二次推理系统4，和基于GAN的域适应在Sec.五、节中6，我们说明了如何构建实例-60K数据集。广泛的评价实验进行了第二节。7.最后，我们讨论了我们的管道在第二节的局限性。8.2相关作品实例分割是近年来研究的一个热点问题. Dai等人。[6]提出了一种复杂的多级级联网络，可以依次进行检测，分割和分类。Li等人。[21]结合了分段建议系统和对象检测系统，同时产生对象类，边界框和遮罩。Mask R-CNN [14]支持多个任务，包括实例分割、对象检测、人体姿态估计。然而，如果我们将这些方法应用到一个新的环境中，则需要穷举标记来保证令人满意的性能。自Goodfellow [12]引入以来，基于GAN的方法在各个领域取得了丰硕成果，例如图像生成[27]，图像到图像转换[42]，3D模型生成[40]等。前一篇关于图像到图像翻译的论文启发了我们的工作，它表明GAN具有弥合模拟领域和真实领域之间差距的潜力。Pix2Pix [16]首次引入了通用的图像到图像转换框架，但它需要大量的配对数据。Chen[4]提出了一种无对抗训练的级联精化网络，它可以获得高分辨率的结果，但仍然需要配对数据。Taigman等人[36]提出了一种无监督的方法来学习跨域转换，但是它需要一个预先训练的函数来将两个域的样本映射到中间表示。双学习[42，41，17]很快被引入用于不成对的图像翻译，但目前，当相机视点或对象位置变化时，双学习方法遇到挫折上4徐文强、李永禄、卢策武与CycleGAN相反，Benaim等人[2]学习单边映射。使用GAN细化渲染图像也不是未知的[33，32，3]。我们的工作是对这些方法的我们将比较[32，3]与我们的GeoGAN在第二节。7.第一次会议。一些研究人员试图为视觉任务生成合成数据，例如视点估计[35]，对象检测[11]，语义分割[30]。在[1]中，Alhaija et al.解决了在生产逼真地渲染和定位的汽车的技术努力下用于街道场景的实例分割训练数据的生成。然而，他们专注于街头场景，并没有使用对抗性的提法。通过计算机图形的场景生成通过CG技术的场景生成是计算机图形社区中的一个研究良好的领域[13，25，34，9，26]。这些方法能够生成室内或室外场景的合理布局，但它们没有意图将渲染的图像转移到真实域。3扫描过程在本节中，我们将介绍扫描过程。由于比例问题，对象和场景我们选择多视图环境（MVE）[10]来执行对象的密集重建，因为它是基于图像的，因此只需要RGB传感器。物体首先被录像，这可以很容易地通过大多数RGB传感器完成在实验中，我们使用iPhone5s。视频被切片成具有多个视点的图像我们可以对多个对象（至少4个）进行录像，并每次生成相应的模型，这可以缓解新对象太多而无法逐个扫描时的可扩展性问题MVE能够生成具有精细纹理的密集网格。对于无纹理的对象，我们用手握住扫描对象，并且手-对象交互可以是用于重建的有用线索，如[39]所示。对于环境背景，使用Intel RealSense R200扫描没有目标对象的场景，并使用ReconstructMe2重建。我们按照官方指示进行重建。iPhone5s 的分辨率为 1920×1080 ， R200 的分辨率为 640×480 （ 60FPS）。其余设置为默认设置。4用推理4.1场景布局知识构建有了物体和环境背景的3D模型，我们就可以通过我们的推理系统生成场景。一个合适的场景布局必须遵循物理定律和人类习惯。为了使场景物理学变得合理，我们选择了一个现成的物理引擎，ProjectChrono [37]。然而，它并不像2http://reconstructme.net/SRDA5WHD8S：）HUDV8S：（（E8）U2.18P6KHOI8S：（0，1，0））URQW：（0，0，1）1.87PGUiQN38S：（0，1，0）212PP）URQW：（0，0，1）&DWHJRU\：ERWWOH）XQcWiRQDOJURXS：GUiQN70PPR[3221PPS：（0，1，0）RQW：（0，0，1）W.H.J.R.U.E.R.[）XQcWiRQDOJURXS：IRRG248PP7RWH8S：（0，1，0））URQW：（0，0，1）1.42P0.51PDHVN8S：（0，1，0））URQW：（0，0，1）0.37P0.92P139PPERWWOH（0，1，0）QW：（0，0，1）HJRU\：102PPPHGiFiQH8S：（0，1，0））URQW：（0，0，1）DWHJRUI：ERWWOH84PP50PP165PP胡0，1，0）：（0，0，1）RU\：HUDVHU89PP ）XQcWiRQDOJURXS：119PPZHWWiVVXH8S：（0，1，0））URQW：（0，1，0）DWHJRUI：WiVVXH221PP）XQcWiRQDOJURXS：图二、代表性的环境背景、对象模型和对应的标签信息。推理柠檬汁红茶饼干（c）（d）图三. 将扫描的对象（a）和背景（b）放入基于规则的推理系统（c）中以生成物理学上合理的布局。（c）的上部是随机方案，而底部是基于规则的方案。最后，系统输出粗略的RGB图像和相应的注释（d）。为了使对象布局更有说服力，需要结合一些常识性的知识。为了产生可行的布局，我们需要使对象姿态和l〇cationre如在able上一样。练习时，一个杯子有“立起来”的意思，而不是“躺下来”，同时，它总是在桌子上而这种先验落在日常知识中，不能通过物理推理来实现因此，我们在下面介绍如何注释姿势和位置先验。Pose Prior：对于每个对象，我们在3D图形环境中向注释者展示其3D模型对于每个可能的姿势，注释器应该建议该姿势将发生的概率。我们将第i个对象在姿态k中的概率记录为Dp [k|i]。我们使用插值来确保大多数姿势具有概率值。之前的位置：与姿态先验一样，我们向注释器显示3D图形环境中的环境背景，从而注释器标记对象可能放置的所有可能位置。对于每个可能的位置，注释器应该建议放置该对象的概率。我们-（一）（b）第（1）款6徐文强、李永禄、卢策武将位置k中的第i个对象的概率记为Dl [k|i]。我们使用插值法使大部分位置都有对应的概率值。既往关系：一些对象具有强的共现先验。例如，鼠标总是靠近笔记本电脑。给定一个对象名列表，先用语言选择一组具有高共现概率的对象对对于每个OOP，注释器建议相应对象对出现的概率。对于第i个和第j个对象，它们的出现概率被表示为Dr[i，j]，并且建议的距离（由注释者）是Hr[i，j]。请注意，注释可能是主观的，但我们发现我们只需要一个先验来指导布局生成。大量的实验表明，粗略的主观标记足以产生令人满意的结果。我们将在补充文件中报告实验细节。4.2基于知识的版图生成我们通过考虑物理定律和人类习俗来生成布局。首先，我们随机生成一个布局，并通过Chrono检查其物理学合理性如果它在物理上不合理，我们拒绝这种布局。其次，我们检查其com-monsense似是而非的上述三个先验。详细地，在布局场景中提取所有对象对我们将（{cl（i），c2（i）}、（{pi（i），p2（i）}和（{ll（i），l2（i）}表示为场景布局中第i个提取的对象对的类别、姿态和3D位置姿势的可能性表示为Kp [i]=Dp [p1（i）|c1（i）] Dp [p2（i）]|c2（i）]。（1）第i个对象对的位置的可能性被写为，K1 [i]=D1 [11（i）|Cl（i）] Dl [12（i）]|c2（i）]。（二）第i个对象对的发生可能性表示为.Kr[i]=Gσ（|l1（i）−l2（i）|−Dr[c1（i），c2（j）]） ifHr[i，j]>γ1，否则。（三）其中Gσ是具有参数σ（σ = 0）的高斯函数。1在我们的文件）。我们在概率Hr [i，j]大于阈值γ（γ = 0）的情况下计算出现先验。5在我们的文件）。我们将场景布局的常识似然函数表示为YK=Kl[i]Kl[i]Kr[i]∝我Σlog（Kl[i]）+log（Kp[i]）+log（Kr[i]）⑷我因此，我们可以通过K来判断常识的合理性。如果K小于阈值（K彡0.6），我们拒绝其相应的布局。通过这种方式，我们可以生成大量的布局，这些布局既符合物理学又符合常识。SRDA7j=14.3注释成本我们对扫描的模型逐一进行注释。因此，注释成本是相对于扫描对象模型编号M的线性比例。注意，只有一小组对象具有强对象出现假设（例如，膝上型计算机和鼠标）。因此，对象出现标注的复杂度接近O（M）。我们进行了实验，发现10秒的平均扫描对象模型的标记知识，这是次要的（一个小时的数百个对象）。5基于几何引导的GAN现在，我们有粗糙（RGB）图像{Ir}M∈Ir及其对应的集合。响应地面实况、实例分段{Is-gtiIMi=1i=1∈Is-gt，曲面法线{In-gt}M∈In-gt，深度图像{Id-gt}M∈Id-gt. 另外，真实的形象-i i=1i i =1从目标环境中捕获的信号被表示为{Ij}N. M、N为样本渲染采样和真实采样的大小有了这些数据，我们就可以着手训练GeoGAN。GAN损失颜色路径几何体路径地理损失见图4。国内生产总值结构包括三个组成部分：生成器（G）、判别器（D）和预测器（P），以及四种损失：LSGAN损失（GAN损失）、结构损失、重建损失（L1损失）、几何引导损失（Geo损失）。时代图五. 迭代优化框架。随着时间的推移，G、D和P如所呈现的那样更新。当一个组件更新时，其他两个组件是固定的。5.1目标函数如图所示，G GAN是一种“G DP”结构。图4示出了根据本发明的一个实施例，其中组合物是一个生成器（G）、一个鉴别器（D）和一个预测器（P），所述预测器（P）用作一个几何形状PMSE损耗D真假GP重建损失}更新GDP固定DPPGGD8徐文强、李永禄、卢策武数据data我我事前指导。这样的结构导致目标函数的设计，其由以下将呈现的四个损失函数组成。LSGAN损失我们采用最小二乘生成对抗目标（LS-GAN）[24]来帮助G和D训练稳定。LSGAN对抗损失可以写为LGAN（G，D）=Eyp（y）[（D（y）−1）2]+Exp（x）[（D（G（x）2]，（5）x和y分别代表来自粗略图像和真实图像域的样本。对于第i个粗图像，我们用参数ΦG表示生成器的输出如I *，i. e. I*，G（Ir|ΦG）我我我引入结构损耗，以确保I 保持IR的原始结构。从[7]导入成对均方误差（PMSE）损失，表示为：L（G）=1Σ（Ir−I*）2−1Σ（（Ir−I*））2.（六）P MSENii我n2iii、j重建损失确保几何信息在网络中成功编码。我们还使用1作为几何图像的重建损失Lre c（G）=||[Ir，Is，In，Id|ΦG]re c，[Ir，Is，In，Id]||1 （7）给定优秀的几何预测器，高质量图像应当能够产生期望的实例分割、深度图和法线图。它是判断I*是否合格的一个有用的标准。不合格的图像（具有伪影、扭曲的结构）将引起较大的几何引导损失（Geo Loss）。为了实现这一目标，我们使用以下公式预训练预测器[Is，In，Id]= P（I|（8）这意味着给定输入图像I，利用参数ΦP，预测器可以分别输出实例分割Is、法线图In和深度图Id。在最初的几次迭代中，预测器用粗略图像进行预训练，即I=Ir。当生成器开始产生合理的结果时，ΦP可以更新为I=I*。然后，预测器准备好监督生成器，并且ΦG将被更新如下：L（G，P）=||P（I*|Φ），[Is-gt，In-gt，Id-gt]||二、（九）GeoiPi i i i2在这个等式中，ΦP没有更新，并且它是2损失。总的来说，我们的目标函数可以表示为：min maxλ1LGAN（G，D）+λ2LPMSE（G）+λ3Lrec（G）+λ4LGeo（G，P），ΦG ΦD（十）minLGeo（G，P）。ΦP它揭示了迭代优化，如图所示。五、SRDA95.2执行双路径生成器（G）我们的生成器具有双前向数据路径（颜色路径和几何路径），这有助于整合颜色和几何信息。对于颜色路径，输入粗糙图像将首先通过三个卷积层，然后下采样到64 × 64并通过6个resnet块[15]。之后，使用双线性上采样将输出特征图上采样到256 × 256。在上采样期间，颜色信息路径将连接来自几何信息路径的特征图几何信息首先被卷积到特征图并结合在一起，在传递到下面描述的几何路径之前产生三维256×256特征图在最后一层之后，我们将最后一层的输出分成三个部分，并针对三种几何图像产生三个重建图像。令3n 64s 1表示具有64个过滤器和步长1的3× 3-卷积-实例范数-ReLU层Rk表示包含两个3× 3卷积层的残差块，两个卷积层上具有相同数量的滤波器。upk表示一个双线性上采样层，后面是一个3× 3卷积-实例规范-ReLU层，具有k个过滤器和步幅1。发生器架构为：颜色路径：7 n3 s1 - 3 n64 s2 - 3 n128 s2-R256-R256-R256-R256-R256-R256-up 512-中国人256几何路径：7 n3 s1 - 3 n64 s2 - 3 n128 s2-R256-R256-R256-R256-R256-R256-R256-上一页256-上一页128马尔可夫鉴别器（D）鉴别器是典型的PatchGAN或在[20，19，16]中描述的马尔可夫鉴别器我们还发现70×70是合适的感受野大小，因此结构与[16]完全相同。几何预测器（P）类似于FCN的网络[23]或UNet[29]是几何预测器的良好替代品。在实现上，我们选择了一个UNet架构。downk表示具有k个过滤器和步幅2的3× 3卷积-实例范数-泄漏ReLU层，泄漏ReLU的斜率为0.2。upk表示一个双线性上采样层，后面是一个3× 3卷积-实例规范-ReLU层，具有k个过滤器和步幅1。由于相应层之间的跳过连接，所以UPk中的k比Downk中的k大2倍在最后一层之后，特征图被分成三个部分，并分别卷积到三维层，由tanh函数激活。预测器架构为：下载64-下载128-下载256-下载512-下载512-下载512-上传1024-上传1024-上传512-上传256-上传128对于所有三个“GDP”组件，使用TraininggDetallsAdamoptimizer[18]，批次大小为1。G、D和P是从零开始训练的。我们首先用5个epoch训练几何预测器以获得良好的初始化，然后进行迭代过程。在迭代过程中，前 100 个 epoch 的学习率为0.0002，并在接下来的100个epoch中线性衰减到零所有训练图像的大小为256× 256。所有模型都是用等式中的λ1= 2、λ2= 5、λ3= 10、λ4= 3训练的。10.在鉴别器更新一次之前，生成器被训练两次。10徐文强、李永禄、卢策武6实例-60 K构建过程由于我们发现没有现有的实例分割数据集[5，22，8]可以对我们的任务进行基准测试，因此我们必须构建一个新的数据集来对我们的方法进行基准测试。实例-60K是一项正在进行的工作，以注释场景的实例分割可以被扫描。目前它包含三个有代表性的场景，即超市货架、办公桌和手提袋。之所以选择这三个场景，是因为它们在未来可能有益于现实世界的应用。超市机箱非常适合像Amazon Go3这样的自助超市。家用机器人将永远满足办公桌的场景这款手提袋与亚马逊机器人挑战赛的设置相同图六、Instance-60 K数据集中的代表性图像和手动注释。需要注意的是，我们的流水线并不局限于这三个场景，从技术上讲，任何可以模拟的场景都适用于我们的流水线。货架场景有30个类别的对象，其中包括软饮料，饼干和纸巾等物品。桌面场景和手提袋场景的15个类别。所有这些都是相应场景中的常见对象。扫描对象和场景以构建SOM数据集，如第3节所述。例如-60K数据集，这些对象被放置在相应的场景中，然后由iPhone5s在各种视角下进行录像。我们为架子安排了10种布局，为桌子和手提袋安排了100多种布局。然后视频被切成总共6000张图像，每个场景2000张。标记实例的数量为60894，这就是我们称之为实例-60K的原因每个类别平均有966个实例这个规模大约是PASCAL VOC [8]级别（每个类别346个实例）的三倍同样，我们发现实例分割注释是费力的，构建这个数据集花费了4000多个工时。一些代表性的真实图像和注释如图所示。6.正如我们所看到的，注释它们是非常耗时的。3www.amazon.com/b? 16008589011SRDA117评价在本节中，我们将对生成的实例分割样本进行定量和定性评估。搁架式办公手提袋真糙假加真糙假假加mAP@0.579.75 18.10 49.1166.3188.24 43.81 57.0782.0790.06 28.67 61.40 82.69mAP@0.767.02 10.53 37.5647.2573.75 35.14 45.44 71.8285.10 16.87 50.13 76.84表1. 使用Mask R-CNN对不同场景的真实，粗糙，假，假加模型进行mAP结果。粗精粗精图7.第一次会议。GAN的细化。细化列是GeoGAN的结果，粗糙列是渲染图像。可以观察到照明条件和纹理的明显改善7.1实例评估我们采用实例分割任务来评估生成的样本。为了证明所提出的管道通常有效，我们将使用Mask R-CNN [14]报告结果。我们在GeoGAN生成的图像上训练分割模型。训练的模型被表示为同样，在粗糙图像上训练的模型被表示为“粗糙模型”。有一个问题，我们应该认识到，如何将“电子-现代化”与现代化相结合，实现真正的信息化。为了解决这个问题，我们在实例-60K数据集的训练集上训练模型，这被表示为它是在COCO数据集上预先训练的[22]。真实图像上的训练过程严格遵循[14]中提到的过程我们发现，真实图像的学习率对粗糙和12徐文强、李永禄、卢策武GAN生成图像，因此我们降低了学习率，使其更早地衰减所有模型都是用4500个图像训练的，尽管我们可以为“粗糙模型”和“模糊模型”生成无限的训练样本，但我们可以在最后，在60K实例数据集上对所有模型进行了测试。实验结果如表1所示。1.粗略图像的总体mAP是一般低的，而“fake-model”的特征可以是特定的。尽管“fake-model”资源和现实之间存在着明显的差距，但这一差距已经得到了很大的弥合。当然，我们想知道有多少细化的训练图像足以实现与“真实模型”相当的结果。因此，我们对15000个GAN生成的图像进行了实验，并将模型命名为 “fakeplus-model” 。正如我们从塔布那里看到的那样。1.“fakeplus“和”real“是相当接近的。我们希望更多地实现“fakeplus-model”的扩展，但这种扩展是有限的。因此，对于存储段，“信息+不确定性”与“实际信息+不确定性”是相同的。粗糙假假加上真正的图8. 分别对粗糙模型、假模型、假加模型和真实模型进行定性结果可视化。真实模型的结果可能意味着我们的实例60 K对于Mask R-CNN来说并不困难。数据集的扩展正在进行中。但是，不可否认的是，数据集能够证明GeoGAN的能力。与每个场景使用超过1000个工时的耗尽注释相比，我们的管道每个场景需要0.7个工时诚然，结果遭受性能损失，但节省了整个任务的3个数量级的工时。7.2与其他领域适配框架的比较先前的域自适应框架关注于不同的任务，诸如凝视和手部姿势估计[32]、对象分类和6D姿势估计[3]。据我们所知，我们是第一个提出基于GAN的框架来进行实例分割的人。相互比较是间接的。我们复制了[32]和[3]的工作对于[3]，我们将任务组件替换为我们的SRDA13我们的SimGAN PixelDA见图9。我们的管道与[3]、[32]的定性比较。来自[3]的生成图像的背景被损坏，因为它们使用掩蔽PMSE损失。实验是在与本文相同的场景下进行的。结果示于图9和Tab。二、mAP 0.5 0.7假加，我们的66.31 47.25架假加，[25]31.46 20.88假加，[13]56.16 36.04假加，我们的82.07 71.82Mask R-CNN书桌假加，[25]44.33 29.93假加，[13]69.54 57.27假加，我们的82.69 76.84tote假加，[25]42.50 33.61假加，[13]70.73 62.68表2. 我们的管道和[3]，[32]的定量比较。7.3消融研究分别去除几何引导损失和结构损失进行烧蚀研究。补充文件中报告了几何路径中特定几何信息的扩展消融研究。我们应用Mask R-CNN来在来自GeoGAN的具有几何引导的操作系统（定义为“fakepulus，w/o-geo-model”）或结构操作系统（定义为“fakepulus，w /o-pmese-model”）的所得图像上训练分割模型。如我们所见，当去除几何引导损耗或结构损耗时，它会带来显著的性能损失此外，我们还需要证明推理系统的必要性去除推理系统后结果见表1。3.第三章。14徐文强、李永禄、卢策武GeoGANGeoGAN，不含结构损失GeoGAN，不含地理损失SRDA，不含推理地图0.50.7假加号66.3147.25架fakeplus，w/o-geo48.5231.17fakeplus，w/o-pmse27.3319.24fakeplus，w/o-reason15.218.44假加号82.0771.82Mask R-CNN书桌fakeplus，w/o-geo63.9955.23fakeplus，w/o-pmse45.0534.51fakeplus，w/o-reason18.369.71假加号82.6976.84totefakeplus，w/o-geo64.2253.31fakeplus，w/o-pmse46.4435.62fakeplus，w/o-reason20.0512.43表3.Mask R-CNN消融研究的mAP结果。见图10。举例说明GeoGAN中的结构损失、几何引导损失和我们的管道中的推理系统8局限性和未来工作如果环境背景是动态变化的，我们需要扫描大量的环境背景来覆盖这种变化，并采取更多的努力。由于物理引擎的限制，很难处理高度非刚性的物体，例如毛巾。对于另一个限制，我们的方法不考虑渲染中的照明效果，因为它要复杂得多转移真实图像的照明条件的Ge-oGAN可以部分地解决这个问题，但它仍然是不完善的。此外，与COCO相比，我们的基准数据集的大小未来的工作是必要的，以解决这些限制。确认这项工作得到了中国国家重点研发计划（编号：2017YFA0700800）、中国国家自然科学基金资助61772332和商汤科技有限公司的部分支持SRDA15引用1. Alhaija，H.A.，Mustikovela，S.K.，梅谢德湖Geiger，A.，Rother，C.：增强现实与深度学习相结合，用于城市场景中的汽车实例分割。在：英国机器视觉会议的卷3（2017）2. Benaim，S.，沃尔夫湖：单侧无监督域映射。在：神经信息处理系统的进展（2017）3. Bousmalis，K.，Silberman，N. Dohan，D. Erhan，D.，Krishnan，D.：无监督像素级域适应与生成对抗网络。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）4. 陈昆，Koltun，V.：使用级联细化网络的摄影图像合成。IEEE InternationalConference on Computer Vision（ICCV）（2017）5. Cordts ， M. ， Omran ， M. ， Ramos ， S. ， Rehfeld ， T. ， Enzweiler ， M. ，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集。IEEE计算机视觉与模式识别会议（CVPR）（2016）6. Dai，J.，他，K.，孙杰：基于多任务的实例感知语义分割网络瀑布于：2016IEEE会议对计算机维-和模式识别（CVPR）。pp. 3150-3158（2016年6月）。https://doi.org/10.1109/CVPR.2016.3437. Eigen，D. Puhrsch，C. Fergus，R.：使用多尺度深度网络从单个图像进行深度图预测。在：神经信息处理系统国际会议。pp. 23668. Everingham，M. 凡古尔湖威廉姆斯，C.K.I.，Winn，J.，齐瑟曼，A.：PASCAL Visual Object Classes Challenge 2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html9. Fisher，M.，Ritchie，D.，Savva，M.，Funkhouser，T.，Hanrahan，P.：基于实例的三维物体排列合成。ACM Transactions on Graphics31（6），135（2012）10. Fuhrmann，S.，Langguth，F.，Goesele，M.：多视图重建环境。In：GCH.pp. 1111. Georgakis，G.，Mousavian，A.，Berg，A.C.，Kosecka，J.：合成用于室内场景中的对象检测的arXiv预印本arXiv：1702.07836（2017）12. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.， Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：神经信息处理系统的进展。pp.267213. Handda，A.， Ptru c ean，V.，S.， Cipolla，R. ：Sceneeneet：用于室内场景理解的神经网络模型IEEE机器人与自动化国际会议。pp. 573714. 他，K.， G.，G.，做吧，P Girshic k，R. ：Mas k r-c nn。arXiv：1703.06870（2017）15. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。计算机视觉与模式识别。pp. 77016. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）17. 金，T.，Cha，M.，Kim，H.李，J.，Kim，J.：学习发现跨域关系与生成对抗网络。IEEE International Conference on Computer Vision（ICCV）（2017）16徐文强、李永禄、卢策武18. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。计算机科学19. 莱迪格角泰斯湖胡萨尔，F.卡瓦列罗，J.，Cunningham，A. Acosta，A. Aitken，A.，Tejani，A.，托茨，J.，Wang，Z.：使用生成对抗网络实现照片级逼真的单幅图像超分辨率（2016）20. Li，C.，Wand，M.：用马尔可夫生成对抗网络进行预先计算的实时纹理合成。欧洲计算机视觉会议。pp. 70221. 李，Y.，Qi，H.，Dai，J.，吉，X.，魏云：完全卷积的实例感知语义分割。2017年IEEE计算机视觉和模式识别会议（CVPR）（2017）22. Lin，T. 是的，夫人M 在此之前，S.，嗨，J.， Perona，P.， Ramanan，D. ，Do lla'r，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。欧洲计算机视觉会议pp. 第74023. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。计算机视觉与模式识别。pp. 343124. 毛泽东，李，Q.，谢，H.，Lau，R.Y.K.，王志，Smolley，S.P.：最小二乘生成对抗网络（2016）25. Mccormac，J.，Handa，A.，Leutenegger，S.，Davison，A.J.：场景网rgb-d：500万合成室内轨迹的真实照片（2017）26. Merrell，P.，Schkufza，E.，Li，Z.，Agrawala，M.，Koltun，V.：使用室内设计指南的交互式家具布局In：ACM SIGGRAPH.p. 87（2011年）27. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行28. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。神经信息处理系统进展（NIPS）（2015）29. Ronneberger，O.，Fischer，P.，Brox，T.：U-net：Convolutional networks forbiomedical image segmentation9351，23430. Ros，G.，塞拉特湖Materzynska，J.，Vazquez，D.，Lopez，A.：关于SYNTHIA数据集：用于城市场景语义分割的大量合成图像。2017年IEEE计算机视觉和模式识别会议（CVPR）（2016）31. Rusu，A. 一、 Vecerik，M.， Rotho¨rl，T.， Heess，N.， Pas c anu，R. 哈德斯尔河：Sim-to-real robot learning from pixels with progressive nets（2016）32. Shrivastava，A.，Pfister，T.，Tuzel，O.，Susskind，J.，王伟，Webb，R.：通过对抗训练从模拟和无监督图像中学习。IEEE计算机视觉与模式识别会议（CVPR）（2017）33. 西克特湖怀尔德B Landsford，T.：Rendergan：生成真实的标记数据。arXiv预印本arXiv：1611.01331（2016）34. Song，S.，余，F.，Zeng，A.，Chang，A.X.，Savva，M.， Funkhouser，T.：从单个深度图像完成语义场景（2016）35. Su，H.，Qi，C.R.，李，Y.，Guibas，L.J.：为cnn渲染：使用用渲染的3d模型视图训练的cnn的图像中的视点估计。IEEE计算机视觉国际会议（ICCV）（2015年12月）36. Taigman，Y.，Polyak，A.，沃尔夫湖：无监督跨域图像生成（2016）37. Tasora，A.，塞尔班河Mazhar，H.，Pazouki，A.，Melanz，D.，Fleischmann，J.，泰勒，M.，杉山，H.，Negrut，D.：Chrono：一个开源的多物理动力学引擎。pp. 19-49. Springer（2016）SRDA1738. Tzeng，E.，德文角Hoffman，J.，Finn，C.，彭，X. Levine，S.，Saenko，K. 达雷尔，T.：从模拟环境到真实环境的深度视觉运动表征。计算机科学39. Tzionas，D.，Gall，J.：根据手-对象交互的3D对象重建。在：IEEE计算机视觉国际

下载后可阅读完整内容，剩余1页未读，立即下载