弱监督的深度自适应室内场景解析

12 浏览量更新于2023-10-12 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7345缺少什么合成：结合弱监督的深度自适应室内场景解析刘耕池，沈怡婷，杨鹏。Klopp，Liang-Gee Chen国立台湾大学{calvin89029，dennis45677，kloppjp}@ gmail.com，lgchen@ntu.edu.tw摘要场景解析是使自主系统能够理解并与周围环境交互的关键步骤。有监督的深度学习方法在解决场景解析问题方面取得了很大进展，但代价是费力的手动像素级注释。综合数据以及薄弱的监督已经调查，以减轻这一努力。尽管如此，综合生成的数据仍然遭受严重的域转移，而弱标签往往缺乏精度。此外，大多数现有的弱监督场景解析工作仅限于显著性源域综合数据深度目标域真实数据深度RGB域适应……老师……学生...老师深度预测伪标签弱局部化前景对象。因此，这项工作有两个目的：在可行的情况下利用合成数据，并在必要时整合薄弱的监督。更具体地说，我们通过利用深度作为传递域来实现这一目标，因为它的合成与真实的差异比颜色低得多。与此同时，我们执行弱本地化从easily可获得的图像级标签和集成使用一种新的轮廓为基础的计划。我们的方法被实现为一个教师-学生学习框架，通过生成一个伪地面真值来解决仅使用基于深度的自适应，这种方法在流行的室内场景解析SUN RGB-D数据集上已经优于以前的迁移学习方法。我们提出的两阶段集成与迁移学习中最先进的技术相比，将完全监督方法的差距缩小了一半以上。1. 介绍场景解析是一项重要的计算机视觉任务，旨在为整个图像分配语义信息。年龄和提供一个完整的了解现场。最先进的场景解析工作[7，23，24，46]严重依赖于人类标记的像素级数据，这是昂贵且繁琐的收集。为了使计算机视觉应用无需这样的标记工作，已经研究了两种范例：无监督域自适应图1.我们的教师-学生框架的插图。教师利用深度作为低域转移的辅助线索。这与弱定位信息融合以生成用于训练学生的伪监督不力。用于场景解析的域自适应（参见[15])通过从源域（模拟）转移到与目标域（真实数据）对准的特征而无需任何标记的目标样本来解决该问题。尽管在真实感场景绘制和迁移学习方法方面取得了进展，但真实图像和合成图像之间仍然存在显著的领域差异，特别是在纹理方面。弱监督通过利用具有较低获取成本的弱注释来解决此问题，这使得训练数据集的扩展更具成本效益。然而，对于图像级注释，诸如缺乏边界信息、感兴趣对象的稀有像素、类同现和区分性定位等问题仍然是巨大的挑战。此外，大多数现有的弱监督工作只能处理显著的前景对象。在这项工作中，我们的目标是提高性能，通过转移域差异小的路径。虽然RGB图像包含丰富的信息，但很难转换，融合7346从合成到RGB域中的真实实例。因此，我们采用深度信息作为辅助线索，可以很容易地捕获，并且仅在训练时使用在深度域中，仅对象几何形状是感兴趣的，这更容易准确地合成，因此呈现更少的域移位。因此，我们适应的深度线索，以模型感测伪影，通常会遇到真正的然而，由此产生的教师网络无法正确划分所有类别例如，书架上的书为了恢复这些信息，我们利用图像级对象标记。这样的标签很容易获得，但不附带位置或边界信息。因此，我们采用弱定位技术，通过仅在这些图像级标签上训练的网络从RGB图像中获得热图。最后，将局部化热图信息与基于深度的预测融合，以产生伪地面实况，该伪地面实况又用于仅在RGB图像上训练最终的学习网络。图1说明了我们的方法。我们的主要贡献可概括如下：我们提出了一个师生学习过程，通过低域移位辅助线索和弱特定领域的注释来学习场景分析研究表明，学生网络超越了老师，导致最先进的监督和域适应方法之间的差距减少了58%。我们是第一个通过周期一致的对抗网络执行深度图自适应的人，利用最小-最大归一化来确保正确学习真实的深度图噪声。它被证明对SUN RGB-D上最先进的域自适应结果有利[39]。提出了一种两阶段投票机制来整合深度自适应和基于轮廓图的弱定位的线索为了促进低复杂度的移动推理，我们还将复杂度降低技术应用于您的最终模型。相关结果在文献资料中给出，因为这些不是我们自己的贡献。2. 相关工作2.1. 域适应领域自适应的目的是将源数据转换为与目标领域对齐的特征，以便概括学习模型的能力并提高目标领域中没有目标标签的任务的性能[15]。近年来，随着计算机图形学的发展，合成域与实域之间的自适应问题得到了广泛的研究，成为各种计算机视觉任务的流行路径。几个数据集，如SceneNet [25]，Pbrs [45]已被提出用于场景解析。不幸的是，由于难以生成逼真的图像，仍然会遇到严重的主移位。因此，已经提出了几种自适应方法[8，9，15，16，44]，以通过生成对抗网络（GAN）来减少[16]应用了全局和特定类别适应的技术通过使用域对抗训练技术来对齐全局统计数据。[8]通过不仅调整全局统计数据而且调整特定类别的统计数据来扩展该方法[9]在训练过程中使用[14]中的目标引导蒸馏策略和空间感知自适应。[44]以课程学习的方式应用领域适应，从对上述领域差异不太敏感的任务中学习场景解析。此外，[15]将[48]提出的循环一致性重建损失与生成方法相结合，以防止映射函数相互矛盾。2.2. 弱图像级监控弱监督方法利用弱注释，其成本低于原始注释。由于这样的注释是有效的收集，人们可以建立一个大规模的数据集，为不同的语义类别，以较少的努力和学习场景解析在野外。早期的作品大多采用基于图形模型的方法，该方法利用图像和注释之间的概率关系来推断片段的标签此外，类不可知的线索和后处理通常用于改善结果。在那些只利用弱标注的方法中，只从图像中学习是最经济但也是最具挑战性的方法。多实例学习（MIL）[2]和自我训练[17]等范式[27]采用自训练EM类过程，其中模型从自身创建的结果递归更新。[31]通过在CNN之后应用全局最大池化来将任务制定为MIL问题，以强制执行对应于正类的预测。最近，经常采用基于判别定位的技术[37，47]，该技术探讨每个隐藏神经元的贡献。SEC [19]使用这种区分性定位来指示语义类区域内的位置，并将其扩展到相邻像素。然而，神经网络往往只关注有区别的部分，而不关注对象作为一个整体。因此，工作一直集中在转移信息的非歧视性的一部分，obbestion。[42]通过利用对抗擦除方法获得改进类不可知线索用于获得形状或实例信息，在大多数作品中实现最先进的结果[6]。[41]使用这两种技术从初始定位中挖掘共同的对象特征，例如，···7347--−UCM第1个集成步骤第二阶段：适应领域的训练合成深度……L循环L噪声DN……地点与国家：Belarus，RussiaLAdapt合成标签阶段3：伪地面实况生成LRestoreDR......深度恢复（R）第四阶段：目标领域培训真实深度……地点与国家：Belarus，Russia…Γ公司简介中国广告网L……学生：SP满实RGB弱定域化LCAM伪标签图2. 概述我们提出的框架。四阶段设计首先调整合成深度图，使其看起来像真实的深度图。然后，这些经过调整的深度图被用于在第二阶段中训练教师。第三阶段将教师的预测与基于等高线图的类激活图（CAM）的弱定位融合，最后，在第四阶段，使用前一阶段的伪标签在RGB数据上训练学生网络pand对象区域，并考虑贝叶斯框架下的显着图。[1]通过具有由Affini-tyNet预测的亲和力的随机游走来传播语义信息。[43]认为，不同的膨胀率可以有效地促进对象定位图。此外，大多数实验工作都致力于处理多个突出的前期实例，并在Pascal VOC数据集上进行评估[12]。[36]是通过利用双流深度架构和热图丢失来考虑仅具有图像级标签的完整场景解析（背景+前景）然而，与Cityscape数据集上的其他适应方法相比，它们的结果并不好。3. 该方法在本节中，我们将详细介绍我们提出的场景解析框架。图2说明了它是如何在四个阶段进行的：首先，我们调整深度线索从合成到真正的领域。第二，我们训练一个教师网络上的适应合成深度线索。第三，通过将教师网络应用于目标（真实）域，并将生成的标签与弱本地化集成在3.1. 深度域自适应我们的目标是将标签信息从合成数据XSyn={XSyn，D}转移到实域XReal=XReal，D，XReal，RGB，同时仅使用深度线索，因为它们与RGB相比具有更小的域间隙。虽然可以直接在合成深度数据上训练，当在目标（真实）域上进行评估时，域间隙仍然导致明显的性能下降。因此，将来自源（合成）的深度数据变换到目标域将有益于稍后的伪地面实况生成。这是一个无监督的自适应问题，其中只有来自源和目标域的未对齐数据可用，因为只有YSyn可以访问，而YReal不能。我们遵循类似的对抗适应方法，并将生成器作为这些域的映射来学习（参见图1中的阶段12）的情况。在这样的设置中，采用鉴别器来加强域映射和相应目标域之间的相似性这说明需要在两个域之间进行对齐。为了构建传感器噪声模型（即，正确地合成到真实域），我们引入深度图像的最小-最大归一化η：等高线图，我们获得强大的伪地面真相。最后，我们使用构建的伪地面真值在目标域RGB输入上训练学生网络。η（I）=2×.ΣI − min（I）1.max（I）−min（I）2（一）阶段1：深度域自适应噪声模拟器（N）��Syn→Real，第二个集成步骤7348−通过将深度值归一化为区间[1，1]，而不是直接在绝对尺度上学习，我们避免了由数据集之间的分布差异引起的尺度偏移。此外，该方法避免了深度振幅分布成为噪声的主要判断标准，从而学习到更好的传感器噪声模型。我们引入了传感器噪声模型N，它将数据从合成域映射到实域，目的是将真实的噪声添加到干净的合成样本中。它将被优化，以防止ADVN区分映射的和真实的深度数据。另一方面，该算法试图区分真实的噪声数据和映射的噪声数据。我们将此目标表示为：最后，我们通过解决以下优化问题来联合训练两个自编码器N、R及其相应的鉴别器DN和DRN，R = arg min maxL（N，R，D N，D R）.（六）N，R DN，DR3.2. 适应领域训练在合成训练样本上模拟噪声的能力使我们能够在第二阶段使用模拟真实训练样本的噪声合成训练样本来训练场景解析模型SPada，表示为XSyn→Real，D ={N（η（xSyn，D））<$xSyn，D∈XSyn，D}，以及相应的belsYSyn. 我们通过最小化像素方式训练模型多项logistic回归损失此外，预-L噪声（N，DN，XSyn，D，XReal，D）对于不平衡的类分布，我们应用[28]中提出的类平衡策略为了-=Ext<$XReal，D[log DN（η（xt））]（2）+Exs<$XSyn，D[log（1−DN（η（N（η（xs））]，其中Eq.2确保N产生令人信服的传感器-最后，来自样本XSyn→Real，D的像素i的预测与合成地面实况之间的加权负对数似然损失可以写为如噪声样本，给定合成清洁样本XSyn，D.ΣL=−w y日志.epi，cΣ（七）尽管如此，现有的研究表明，优化这些目标的网络往往是不稳定的，主要是因为适应，ic∈Cc i，cc′∈C epi，c′L噪声不考虑保留原始内容。因此，循环一致性约束[48]被施加到我们的适应过程中。为此目的，引入增强模型R以将类似传感器的深度图映射回干净的合成域，从而优化类似的最小-最大对抗损失：LRestore（R、DR、X Real、D、X Syn、D）=ExtXSyn，D[log DR（η（xt））]（3）+Exs<$XReal，D [log（1 − D R（η（N（η（x s））].与噪声模拟器N相比，恢复器R执行诸如孔填充和去噪的任务关于如何实现这一点的更多此外，对映射两次的样本施加L1惩罚，以便再次到达它们的原始域，例如，- 将合成样本映射到类似传感器的深度域并映射回合成域。这被称为最小-最大循环一致性损失：L循环（N，R）=Exs<$XSyn，D[<$R（η（N（η（xs）−η（xs）<$]+Ext<$XReal，D[<$N（η（R（η（xt）-η（x t）π]。（四）这三个损失函数构成了我们的完整目标：其中，pi，c是由SPada做出的预测，yi，c是基础事实标签，C是具有权重wc的类的集合。3.3. 伪地面实况生成第三阶段利用教师模型SPada对真实深度数据进行的预测，并继续生成伪地面实况标签YPseudo。3.3.1弱定域化对仅深度输入的实验表明，SPada对某些类别的性能仍然不足例如书籍，因为它们的几何形状不够独特。为了通过在RGB域中调整模型来弥补这一点，我们观察到了性能下降。这可能是由于合成纹理和真实纹理之间的域转移，这是由于难以以自动方式准确地建模和因此，我们建议利用弱监督的基础上，真正的RGB数据作为一个单独的线索微调到目标域中的对象外观。为了避免高昂的标签成本，我们只使用从SUN RGB-D中提取的图像级标签，而不使用位置或边界信息。我们通过利用CNN来生成定位线索，该CNN被训练用于具有全局平均池层（GAP）的图像分类，如[47]所提出的然而，由此产生的7349×L（N，R，DN、DR）=L噪声（N，DN，XSyn，D，XReal，D）类活动图（CAM）YCAM是不精确的，[19]even注意到用最终GAP训练的网络高估了+L还原（R、DR、XReal、D、XSyn、D）+ L循环（N，R）。（五）响应区域。因此，我们在GAP之前添加了一个2 2max池化层，以提取关键信息并防止GAP被高估。735012∈KK∗适配K适配∗AAM公司简介书��，桌子，��桌子像素轮廓在激活中。因此，我们手动将仅覆盖图像的几个像素的类添加到要检查置信度的候选列表中。接下来，我们使用峰值激活pk，c和响应率rk，c来确定哪一个建议足够有信心来取代步骤1中的估计，从而形成可选择的集合Ek。如果该集合为空，即没有可信的定位，我们求助于基于深度的预测的结果。否则，如果我们图3.定位热图对放置在较大物体上或较大物体中的小物体的典型响应。因此，如果单个轮廓有多个置信预测，则将响应区域3.3.2线索整合有几个自信的类，我们感兴趣的猫-这是最具体的，我们采取了一个最小的响应面积。通过这种方式，我们避免忽略与较大对象重叠的小对象（例如，桌子上的书，如图所示。（3）第三章。所有阈值τ都是在我们训练集的30个随机样本上调整的，以避免人类在数据集上学习该算法的列表可以在到整合的深度预测Y=适应=补充材料。SPada（XReal，D）和弱局部化Y<$CAM，我们证明了形成两级整合机制。我们的目标在这两个预测中做出选择3.4. 目标领域培训在如前一阶段中所述计算Y伪之后，最后阶段训练学生网络SP全us-pseudolabelsYpseudowherewetradecoverforconfi-证据：我们更喜欢向更少但更自信的人学习输入真实RGB图像XReal，RGB和估计的标签伪标签这种权衡是与类别相关的，不同的类别具有需要适应的不同的覆盖率-置信度配置文件。我们利用超度量轮廓图（UCM）[13]（图像边界的分层表示）来推断图像片段γkr上的伪标签。我们只考虑那些超过置信阈值τUCM的轮廓，表示它们γ∈Γ。Y伪。这些估计的标签仅提供以下信息所有像素的子集，即我们确信的那些像素。在[40]中，作者指出，他们仅用一部分高置信度预测就实现了整个图像的更好视差图。因此，假设YPseudo中的大多数估计是正确的，我们期望通过神经网络的泛化能力来恢复丢失或错误标记的区域。形式上，对于像素i，学生网络的损失由下式给出：第一积分步骤第一步骤通过下式将关于观察到的几何形状的信息添加到轮廓γ∈Γ：L解析，i=− ΣwPseudo，cy Pseudo，i，clogc∈C.epi，c′c′∈Cei，c分析基于深度的预测轮廓为了去除低置信度标签，首先，我们应用Softmax并对结果进行阈值处理（八）其中Y伪像中具有未知或忽略的标签a g ΔτAdapted=0。6，导致Y. 调整后的τ为不要造成损失。 pi，c表示对于选择，以平衡准确性和覆盖面。然后我们在像素i和y处的类c伪，i，c是包含以下项的独热向量：转向直方图H（γ，y）={hc，k}的伪标签。每个轮廓γk内的预测类别。做个模拟-最大似然法，我们选择的类别其中最大的直方图值是第一积分步骤的预测，即，步骤1，k=argmaxchc，k对于每个轮廓。第二积分步骤第二积分步骤确定定位热图y_CAM是否提供比轮廓y_CAM更可信的预测。从y_n_CAM中，我们首先为每个轮廓生成一组可能的类P_k，包括热图中最活跃的类由于弱定位是由具有相当大的感受野的深度神经网络提供的，因此小对象可能无法准确地定位。4. 实验为了证明我们的方法的有效性，几个烧蚀的深度感知适应和线索整合的研究。我们在SUN RGB-D数据集上评估了我们的方法首先，我们提出了实验来证明我们的深度适应方法的有效性在训练过程中使用了两个合成数据集SceneNet [25]和Pbrs [45]。然后，我们进行烧蚀研究，我们的模型，以显示每个措施的最终结果的影响。最后，我们比较国家的最先进的领域适应场景解析方法和他们的完全监督对应。请注意，为了更真实，没有使用额外的真实数据。使用的唯一注释c∈范畴7351××表1.深度适应的最小最大归一化消融研究报告的结果来自SUN RGB-D语义分割验证集。最佳值以粗体突出显示。床、书、天花板、椅子、地板、家具。目标油漆沙发桌子电视墙mIoU（不含窗口）我们的深度(Raw，w/o minmaxnormalization）27.850.0026.3772.29 二十四点八四10.91 4.1334.216.2358.7826.44我们的深度（原始）40.200.0033.77三十一点二一七十二点半30.06 十一点六一十三点零二分三十一点七五40.13 四点四九62.8130.95表2.传感器噪声仿真烧蚀研究这些结果在修复和原始SUN RGB-D验证集上报告在我们的设置中，是来自SUN RGB-D数据集的图像级标签，它比像素级注释或对象边界框更便宜。4.1. 实现细节所有的实验都是在Pytorch 0.3 [29]框架中实现的，带有CUDA 9.0和CuDNN后端，在一台NVIDIA Titan X上。为了公平比较和考虑计算效率，我们使用ERFNet[34]网络架构评估了我们的方法和最先进的自适应方法CY- CADA [15]。不失一般性，我们的方法可以应用到其他场景解析模型。我们对CYCADA的复制对于场景解析模型，输入图像的大小被调整为320 240，随机梯度下降的Adam[18]变体用于最小化所有损失函数。执行训练批量大小为48。此外，我们以5 10−4的初始学习率进行训练，并将其减半一次损失值暂停，以便加速收敛，[34]。我们应用标准的数据增强技术，如dropout，随机翻转和裁剪，以防止我们的过度拟合的模型对于弱监督模型，我们使用在ImageNet [11]上预训练的ERFNet编码器进行初始化，并将原始的全连接层替换为最大池，全局平均池和新的全连接softmax层。4.2. 消融研究表1展示了极小极大归一化对传感器噪声学习的影响。大多数类别的IoU在原始深度数据的最小最大归一化设置中得到了显着改善。这示出了归一化器η在抑制鉴别器DN和DR中的基于深度幅度的学习中的效用。请注意，由于创建SUN RGB-D数据集时使用的活动传感器报告的深度错误，类别窗口丢失被设置为零并被排除在此比较传感器深度模拟为了显示传感器深度模拟的功效，我们评估了基于深度的场景解析的性能，如表2所示。我们的评估包括SUN RGB-D提供的原始深度图和修复后的深度图。我们与仅从合成数据训练的模型以及[5]中提出的模拟方法进行了比较。我们的方法明显优于这两种方法的两种深度图，从而建立了一个新的基线，我们以下的适应性实验。线索与整合表3解释了个体线索和整合机制在训练过程中的每个阶段。研究结果表明，两个整合阶段在不同程度上促进了不同类别的IoU改善，从而实现了互补。类热图对于那些较小或不具有独特几何结构的对象特别有用。请注意，虽然整体mIoU性能有所改善，但由于类间出现问题，某些类别（如床和桌子）的mIoU在第二个集成步骤后会下降：在没有显式对象位置可用的弱定位中，这些类别床书细胞椅子地板炉目标油漆沙发表电视墙壁mIoU（w/owindows）经修复同步深度33.060.0025.8624.4276.2226.709.859.7426.2238.706.3663.9128.42我们的深度（无周期损耗）33.320.0032.0731.7671.1325.7112.7310.0232.0936.506.3353.8828.80[5]+同步深度38.550.0037.6041.2178.2528.2812.8016.2629.4139.715.8563.3432.61我们的深度49.040.0035.7541.4079.5531.4414.6814.6338.5143.737.7861.8334.86原同步深度25.920.0031.3718.9754.3022.256.958.2219.4029.242.9647.0222.22[5]深度30.310.0033.5422.8972.4026.4311.1113.0125.5436.344.5761.1228.11我们的深度（原始）40.200.0033.7731.2172.3030.0611.6113.0231.7540.134.4962.8130.957352表3.每个阶段的线索和投票机制的影响这些结果在SUN RGB-D验证集上获得输入训练标签床书细胞椅子地板炉目标油漆沙发表电视壁窗口Miou无适应RGBYSyn22.570.0046.8442.5062.8224.5513.8618.9631.8127.455.7655.7428.5829.34我们的深度深度YSyn49.040.0035.7541.4079.5531.4414.6814.6338.5143.737.7861.830.9132.25我们的（仅第一阶段）RGB第一步54.930.0053.1247.5079.6435.7715.990.0040.3948.8916.0764.820.6535.21我们的（仅限第二阶段）RGBUCM+Y轴凸轮27.7112.8716.1336.1929.1713.1212.9520.1534.5631.277.8150.7244.9925.97我们的（满）RGBY伪52.0623.5250.0349.4481.0036.3925.1728.0944.6447.8819.6869.6938.2543.53表4.伪标签Y伪与我们最终模型的比较。标记为“有效”的像素是指原始数量乘以覆盖率，从而仅考虑有效像素以进行更准确的比较。标记为@ Y伪的那些像素仅在伪标签Y伪可用的那些像素上进行评估。在SUN RGB-D数据集上进行评价。GA是指所有像素的全局精度。预测数据集划分覆盖率GAGA@Y伪有效遗传算法MioumIoU@Y伪有效mIoUY伪培训72.7780.8680.8658.8456.9756.9741.64SP已满培训10075.8980.9175.8949.4656.7449.46SP已满（包括UCM细化）培训97.7376.8181.2975.0750.8157.5249.66SP已满验证10073.64-73.6443.53-43.53在一个场景中大多数一起出现的场景不可能总是被适当地分开，即，它们的标签可以交换而不会使任何数据无效。学生网络表4将学生网络的结果与伪标签YPseudo进行比较，即直接对YPseudo进行评估，而无需训练学生网络。这说明了学生网络如何能够学习比其训练数据更准确的场景解析模型。为了评估性能矩阵和覆盖率，即，有效像素的百分比，表中标记为有效的量是指两者相乘。请注意，有效的mIoU是通过使用类覆盖率而不是全局覆盖率来计算的。线索的组合表5显示了不同线索的附加实验。我们通过让监督模型生成伪标签来表示为NADA，直接在合成数据上训练。CY-CADA是最先进的领域自适应方法，从预训练的NADA参数开始训练。尽管CYCADA的表现优于NADA，并且在具有不明显几何结构的类别（如油漆，电视，窗户）上的表现优于我们的深度适应，但只有轻微的改进，这是由于计算机生成图像的高度努力。它表明，即使只有图像级标签可用，考虑真实数据的出现也会产生显着的优势。图4显示了我们最终结果的示例。请注意，当我们的结果与真实情况相符时，我们的结果的某些可视化似乎是不正确的。然而，我们观察到，一些基本事实是不精确的，并且如果我们通过在推理阶段使用预测应用简单的基于UCM的轮廓投票来将我们的结果与RGB输入对齐，则标记为“未知”的区域的一部分因此，我们认为，我们的方法的性能可能仍然是y调整深度输入。正如预期的那样，我们的结果在于-低估了这一评价。我们提供更多的前-在补充材料中列举了这一现象的例子。之间，即我们的深度转移能够改进，无法完全与监督信息竞争。此外，我们交换了数据并调整了RGB，同时对深度线索应用了弱监督。结果比我们低了近5个百分点。调整RGB并同时在弱监督下使用它，使结果更接近我们的结果，但主要是由于“窗口”类别的改进，而我们的这表明合成RGB数据可能不是必要的，这可以减少数据集创建工作，如纹理，照明等。避免了4.3. 与最新技术在表6中，我们将我们的结果与完全监督和最先进的域自适应方法进行了比较。为了进行公平的比较，所有模型，包括CYCADA，都是使用ERFNet架构进行训练的不适应的选择，5. 结论从综合生成的场景解析数据出发，我们已经演示了如何在深度域中传输信息可以利用几何数据的较小域间隙进行室内场景解析。对弱定位进行融合，可以恢复合成室内场景中不存在或难以检测的信息总之，这在没有密集标签的情况下对学习室内场景解析产生了显着的性能改进，将mIoU从47%下降到20%。虽然我们利用深度进行适应，但这仅在训练时是必要的，而不是在推理时，从而保持低计算和感官足迹。这些技术可以很容易地应用和扩展，以造福于未来的其他计算机视觉7353表5.RGB和深度提示的影响这些结果在SUN RGB-D验证集上获得输入床书细胞椅子地板炉目标油漆沙发表电视壁窗口Miou我们的，D（适应）+ RGB（弱）52.2623.5250.0349.4481.0036.3925.1728.2944.6447.8819.6869.6938.2543.53深度（无自适应）+ RGB（弱）45.5215.3240.3544.4477.8738.0023.1226.8344.5446.2416.2468.7938.9440.48深度（完美转移）+ RGB（弱）54.4820.6257.6952.7583.2743.6133.1532.3048.4653.1116.0773.6150.9447.77RGB（适应）+ D（弱）51.7716.1047.4247.5477.3128.2415.8722.8944.5946.720.0062.0843.6438.78RGB（适应）+ RGB（弱）48.5319.6448.1448.2777.5836.3423.2229.4644.5947.4521.6668.6847.6843.17表6.比较我们的方法与最先进的领域自适应方法和完全监督方法。在SUN RGB-D验证集上获得结果方法收集数据，床、书、天花板、椅子、地板、家具。目标油漆沙发桌电视墙窗口mIOUmIOU太阳场景PBRs√下降[34]第34话（完）26.0767.5462.5285.6847.1038.4343.1549.7259.33四十点四十九76.92 54.12 54.89-[45]第一届中国国际汽车工业展览会40.08六十九点五十八分二十三块七十点三十四分五点零五分三十六点三八二十一点九8.9757.15 23.27 26.31-52.07%CYCADA [15] 28.22 0.0024.39三十九点五十七分68.45二十三点五一十二点六一十五点四十二三十九点十六点六十五分十三点七十四分59.12 34.95 28.90-47.35%我们的深度48.11 0.0022.2439.99七十七点一八二十七点五九十三点九二十二点零一分三十九点三十五分三十九点三二六点三四59.08 0.00 29.24-46.73%我们的深度49.04 0.0035.75四十一点四十七十九点五五三十一点四十四14.68十四点六十三分三十八点五一四十三点七三七点七八61.83 0.91 32.25-41.25%√我们的（满）（弱）2016年12月31日23.5250.0349.4481.0036.3925.1728.0944.6447.88十九点六十八分69.6938.2543.53-20.70%我们的（全+UCM细化）√（弱）价格 54.0721.9447.5450.3781.1036.5624.7530.6746.2349.15十七点七十六分2019 - 09 - 20 00：00：00RGB GT监督CYCADA我们的（深度）我们的（完整）我们的（完整+UCM）图4.我们的方法的可视化和比较。请注意，UCM有助于将预测与图像边界对齐。补充资料中显示了更多示例的叠加图像7354引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。CoRR，abs/1803.10464，2018。[2] 斯图尔特·安德鲁斯，扬尼斯·佐昌塔尔，和托马斯·霍夫曼。支持向量机多实例学习。神经信息处理系统15神经信息处理系统，NIPS，第561-568页[3] 艾米l Bearman，Olga Russakovsky，Vittorio Ferrari，and Fei-Fei Li.这有什么意义：带有点监督的语义分割。计算机视觉- ECCV 2016 -第14届欧洲会议，第549-565页，2016年[4] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。在Proceedings of the 26thAnnual International Conference on Machine Learning，ICML 2009，Montreal，Quebec，Canada，June 14-18，2009，pages 41[5] 珍妮特·博格，哈维尔·罗梅罗，亚历山大·赫尔佐格，斯特凡·沙尔.机器人手臂位姿估计透过像素式零件分类。2014年IEEE机器人与自动化国际会议，ICRA，第3143[6] Arslan Chaudhry，Puneet Kumar Dokania和Philip H. S.乇发现类特定的像素，用于弱监督语义分割。在英国机器视觉会议2017，BMVC，2017。[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。[8] Yi-Hsin Chen ， Wei-Yu Chen ， Yu-Ting Chen ， Bo-Cheng Tsai，Yu-Chiang Frank Wang，and Min Sun.不再歧视：道路场景分段器的跨城市适应。在IEEE国际计算机视觉会议，ICCV，2011-2020页[9] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。 CoRR ，abs/1711.11556，2017。[10] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在2015年IEEE国际计算机视觉会议上，ICCV，第1635-1643页[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。在2009年IEEE计算机协会计算机视觉和模式识别会议（CVPR，第248-255页[12] Mark Everingham，S. M. Ali Eslami，Luc J.放大图片作者：Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。 pascal visual object classes 挑战：回顾展。International Journal of Computer Vision，111（1）：98[13] 你好，罗斯。 Girshick ， PabloAndre'sArbela' ez ， andJitendra Malik.从RGB-D图像中学习丰富的特征用于对象检测和分割。在计算机可视化- ECCV 2014 -第13届欧洲会议，第345- 360页[14] 杰弗里·E Hinton，Oriol Vinyals，and Jeffrey Dean.在神经网络中提取知识。CoRR，abs/1503.02531，2015。[15] Judy Hoffman ， Eric Tzeng ， Taesung Park ， Jun-YanZhu，Phillip Isola，Kate Saenko，Alexei A.埃弗罗斯和特雷弗·达雷尔。Cycada：周期一致的对抗性结构域适应。第35届国际机器学习会议论文集，1994-2003页，2018年[16] Judy Hoffman，Dequan Wang，Fisher Yu，and TrevorDarrell.野生FCNS：像素级对抗和基于约束的适应。CoRR，abs/1612.02649，2016。[17] H.斯卡德三世一些自适应模式识别机的错误概率。IEEE Trans. Information The-ory，11（3）：363 -371，1965.[18] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。[19] Alexander Kolesnikov和Christoph H.蓝伯特种子、展开和约束：弱监督图像分割的三个原则。计算机视觉-ECCV 2016-第14届欧洲会议，第695-711页，2016年[20] Suha Kwak，Seunhoon Hong，and Bohyung Han.基于超像素池化网络的弱监督语义分割。在第三十一届AAAI人工智能会议的会议记录中，第4111-4117页[21] Qizhu Li，Anurag Arnab，and Philip H.S. 乇弱监督和半监督全景分割。计算机视觉中- ECCV 2018 -第15届欧洲会议，第106-124页，2018年。[22] Di Lin，Jifeng Dai，Jiaya Jia，Kaiming He，and JianSun. Scribblesup：用于语义分割的Scribble-supervised卷积网络2016 年 IEEE计算机视觉和模式识别会议，CVPR，第3159- 3167页[23] Guosheng Lin，Anton Milan，Chunhua Shen，and Ian D.里德Refinenet：用于高分辨率语义分割的多路径细化网络。2017年IEEE计算机视觉和模式识别会议，CVPR，第5168-5177页[24] LingniMa，Jo¨rgStu¨ ckler，ChristianKerl，andDanielCre-mers.使用RGB-D相机进行多视图深度学习以实现一致的语义2017年IEEE/RSJ智能机器人和系统国际会议，IROS，第598-605页[25] John McCormac 、Ankur Handa 、Stefan Leutenegger 和Andrew J.戴维森场景网RGB-D：500万张合成室内轨迹的真实照片。CoRR，abs/16

下载后可阅读完整内容，剩余1页未读，立即下载