学生模型：知识融合的轻量级深度模型，优于教师模型在多任务处理中的表现

178 浏览量更新于2023-10-18 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2829学生成为大师：用于联合场景解析、深度估计等的知识融合叶静文1、季一心1、王新潮2、欧凯日3、陶大鹏4、宋明丽11浙江大学计算机科学与技术学院杭州2美国新泽西州史蒂文斯理工学院计算机科学系3中国杭州阿里巴巴集团4云南大学信息科学与工程学院，中国昆明{叶敬文，吉怡欣，brooksong} @ zju.edu.cn，xinchao.gmail.com，suzhe. taobao.com，dptao@ynu.edu.cn摘要在本文中，我们研究了一种新的深度模型重用任务。我们的目标是训练一个轻量级和多功能的学生模型，没有人类标记的注释，该模型能够识别知识并掌握两个预先训练的教师模型的专业知识，这两个教师模型工作在异构问题上，一个是场景解析，另一个是深度估计。为此，我们提出了一个创新的培训策略，学习与教师交织在一起的学生的参数，通过“投影”到每个教师的域和计算的损失，其可识别的功能实现。我们还介绍了两个选项，一般化建议的培训策略，同时处理三个或更多的任务。所提出的方案产生了非常令人鼓舞的结果。正如几个基准测试所证明的那样，经过训练的学生模型在自己的专业领域取得的结果甚至优于教师，并且与依赖于人类标记注释的最先进的完全监督模型相当1. 介绍深度学习在计算机视觉应用的几乎每个方面都取得了前所未有的令人鼓舞的成果然而，最先进的性能往往是以在集群上训练数天甚至数周的大量注释数据为代价的。在许多情况下，在具有一个或两个GPU卡的个人工作站上进行训练是非常麻烦的，更不用说在没有训练注释的情况下是不可行的。这种困境在一定程度上得到了缓解，因为许多经过训练的深度模型已经由开发人员在线发布，使他们能够直接由社区部署。nity的。因此，已经进行了一系列工作来研究重用预先训练的深度模型。例子包括知识提取的开创性工作[11]，它使用从教师那里获得的软目标来学习紧凑的学生模型。[39]最近的工作通过训练具有更快优化和增强性能的学生更进一步。尽管取得了非常有希望的结果，现有的知识提取方法集中在训练学生处理相同的任务，作为一个教师或一组同质的教师做。在本文中，我们建议研究一个相关的新的和更具挑战性的模型重用任务。与传统的知识提取设置不同，在传统的知识提取设置中，一个教师或在同一领域（如分类）工作的教师集合被提供作为输入，所提出的任务假设我们被给予许多任务方面的异质教师，每个教师都在不同的问题上工作然后，我们的目标是训练一个多功能的学生模型，其大小小于教师的集合，该模型可以匹配知识并学习所有教师的专业知识，同样无需访问人工标记的注释。为此，我们研究了两个重要的像素预测应用程序，场景解析和深度估计。我们试图学习一个轻学生模型，同时处理两个任务，从两个预先训练的教师，其中每个人只专注于一个任务。这种紧凑的双任务学生模型在自动驾驶和机器人技术中至关重要，其中要部署的模型一方面应该足够轻以在边缘侧运行，另一方面，产生用于自导航的准确分割和深度估计。为了融合两位教师在不同领域的知识，我们引入了一种创新的块式培训策略。通过向教师和学生提供未标记的图像，我们学习合并的特征2830在每一个街区的学生与教师交织具体来说，我们作为沿着这条线的第一次尝试，我们现在假设教师模型共享相同的架构。这听起来可能是一个很强的假设，但实际上并非如此，因为类似编码器-解码器的架构在许多视觉应用中表现出了最先进的性能。我们还表明，所提出的合并方法可以很容易地推广培训学生与三个或更多的异质任务的教师。我们介绍了两个这样的多教师融合策略，离线和在线，并证明他们与第三个任务的表面正常估计。所提出的培训策略，知识再培训- mation产生真正有前途的结果。在多个基准测试中，学生模型不仅具有紧凑的规模，而且在各自领域的表现优于教师，表明从异构领域聚合的知识可以相互促进在不访问人类标记的注释的情况下，学生模型实现了与使用标记注释训练的完全监督的最先进模型相当的结果因此，我们的贡献是一个创新的知识融合策略，培养一个紧凑而多才多艺的学生使用异质任务的教师专门在不同的领域。我们从场景解析和深度估计的任务开始，并表明所提出的策略可以无缝地扩展到多个任务。几个基准测试的结果表明，学习型学生能够胜任教师的所有任务，并具有卓越的和最先进的结果，但体积较小。2. 相关工作我们在这里给一个简短的回顾场景解析和深度估计的最新进展。我们还讨论了一个相关但不同的任务，知识蒸馏，旨在训练一个学生模型处理相同的任务作为教师。场景解析。卷积神经网络（CNN）最近取得了最先进的场景解析性能，并已成为主流模型。已经提出了许多基于CNN的变体。考试-PSPNet [40]利用金字塔池操作来获取多尺度特征，RefineNet [18]利用多路径结构来利用多个级别的特征，而FinerNet [38]级联一系列网络来生成具有不同粒度的解析映射另一方面，SegNet [1]采用编码器-解码器架构，由最终的逐像素分类层降低其他模型，如[9，26，27]的基于掩码的网络和[14，22，35]的基于GAN的网络，也产生了非常有前途的场景解析结果。在我们的实现中，我们选择SegNet作为我们的场景解析教师模型，因为它具有强大的和最先进的性能。然而，在SEC中提出的培训策略。5的场景解析器不限于SegNet，也可以采用其他编码器-解码器场景解析器。深度估计早期深度估计方法[29，30，31]依赖于手工制作的特征和图形模型。例如，[30]的方法关注户外场景，并将深度估计公式化为马尔可夫随机场（MRF）标记问题，其中特征是手工制作的。最近的方法[16，17，19]应用CNN自动学习判别特征，取得了非常令人鼓舞的结果。例如，[5]引入了一个多尺度深度网络，它首先预测粗略的全局输出，然后是更精细的输出。[7，25]的方法处理深度估计与其他视觉任务，如分割和表面法线预测。另一方面，[36]的工作提出了一种多任务预测和提取网络（PAD-Net）结构，用于联合深度估计和场景解析，旨在改善这两项任务。与现有的方法不同，本文提出的方法旨在通过从两个在不同领域工作的训练有素的教师那里学习来训练学生模型，而无需手动标记注释。知识蒸馏。现有的知识表示方法集中于从一个教师或一组同质教师学习同一问题的学生模型。学习的学生模型预计将处理与教师相同的任务，但规模较小，并保留了教师的表现。[11]的工作表明，当应用于分类任务时，知识提取可以通过正则化的教师模型或教师集合产生有希望的结果。[28]通过使用教师的输出和中间表示，扩展了这一思想，使得能够训练比教师更深更细的学生。类似于知识蒸馏，[6]提出了一种多教师单学生知识集中方法来分类100K对象类别。[32]的工作提出训练一个学生分类器，该分类器通过从不同类的多个教师那里学习来处理综合分类问题。除了分类，知识蒸馏已被用于其他任务[2，13，36]。文[2]的工作解决了目标检测的知识提取问题，并学习了一个更好的学生模型。[13]的方法侧重于序列级知识提取，并在语音应用方面取得了令人鼓舞的成果。与知识提取方法不同，2831深度网......深度图TargetNet分支出来......输入...分支出来......SegNet解析映射溷合知识A知识融合图1.提出了一种基于编码器-解码器网络的语义分割和深度估计的知识融合方法。分支发生在目标网络的解码器部分。一个学生模型，该学生模型与教师在同一问题上工作，所提出的知识融合方法学习一个学生模型，该学生模型获得所有异质任务教师的超级一旦培训，学生因此有能力同时处理涵盖所有教师的专业知识的各种任务。3. 问题定义我们在这里解决的问题是学习一个紧凑的学生模型，我们称之为TargetNet，没有人类标记的注释，它融合了知识，因此通过向两个或更多个教师学习来同时处理几个不同的任务，每个教师只专注于一个任务。具体来说，我们专注于两个重要的像素预测任务，深度估计和场景解析，并描述了建议的战略，知识重建，在第二节。5.我们还表明，所提出的培训策略可以很容易地扩展到培养一个学生，handles三个甚至更多的任务联合。在本文的其余部分，我们将一个块作为由两个池化层包围的网络的一部分，这意味着在每个网络中，块内的所有特征映射都具有相同的分辨率。我们使用I来表示输入图像，并且使用Fn和Fn分别表示fea。SegNet和D的预测表示DepthNet的预测，并且令Si和Di表示像素i处的相应预测。在演示两个以上教师合并的可行性时，我们研究了第三个像素级预测任务，即表面法线估计，为此，表面法线教师网络（NormNet）进行了预训练。我们使用M来描述其预测的法线图，Mi是其第i个像素估计。4. 教师网络培训我们在这里描述了预先训练的教师网络， Seg-Net，DepthNet和NormNet，我们在此基础上训练我们的学生模型TargetNet。诚然，我们现在假设教师网络共享相同的编码器-解码器架构，但不限于任何特定的设计。这个假设可能听起来有点强，但实际上不是，因为许多最先进的像素预测模型部署了编码器-解码器架构。多个教师任意架构的知识融合是留给未来的工作。场景解析教师（SegNet）。场景解析的目标是为图像的每个像素分配一个表示类别的标签在我们的例子中，我们采用了最先进的Seg- Net [1]，它具有编码器-解码器架构，作为场景解析老师采用像素级损失函数s d是预训练分割的第n个教师网络（SegNet）和深度预测教师gt111体育投注gt111体育投注网络（DepthNet）;我们也让S表示最终的预L分段（S，S）=Nn（Si，Si）+λR（θ），（1）我2832我我我其中，St是像素i的预测，Sgt是地面实况学生网络，通过我我，N（·）是交叉熵损失，N是输入图像，并且R是L2范数正则化项。由于我们无法访问人类标记的符号，因此我们将通过one-hot编码从S_i转换的预测Si深度估计教师（DepthNet）。作为另一个研究得很好的像素级任务，深度估计旨在为每个像素预测表示对象相对于相机的深度的值。因此，场景解析和深度估计之间的主要区别在于，前者任务的输出是离散标签，而后者的输出是连续的正数。我们将深度估计转换为分类问题，这已被证明是有效的[23]，通过将深度值量化为Nd个bin，每个bin具有长度乳对于每个binb，网络预测p（b|x（i））=expri/bexpri，b，对象位于该区间中心的概率，其中ri，b是网络的响应在像素I和仓B处。然后，连续深度值Di被计算为：ΣNdDi=b × l × p（b|x（i））。（二）b=1用于深度估计的损失函数被计算为：L（Dgt，D）=1<$（d）2− 1（d）2，将学生的知识与教师用于计算损失和更新参数，如图所示。2在下文中，我们从SegNet和DepthNet的合并开始，然后扩展到包括表面法线预测网络（NormNet）在内的多个网络的合并。5.1. 向两位老师学习考虑到两个预先训练的教师网络， SegNet 和DepthNet在第二节中描述。4，我们训练了一个类似编码器-解码器架构的紧凑学生模型，除了解码器部分最终包括两个流，每个任务一个，如图所示1.一、原则上，所有标准骨干CNN，如AlexNet [15]，VGG [34]和ResNet [10]都可以用于构建这种编码器-解码器架构。在我们的实现中，我们选择VGG之一，就像[1]一样。我们的目标是学习一个足够小的学生模型，以便它可以部署在边缘系统上，但不能更小，因为它有望掌握两位教师的专业知识。为此，对于TargetNet的每个块，我们将其特征图的大小与教师的相应块中的特征图的大小相同。TargetNet的编码器和解码器在联合解析和深度估计任务中扮演编码器部分作为一个特征提取器，以获得两个任务的区别，Nant功能另一方面，解码器，深度Ni2N2ii i（三）预计将其中d=Dgt-D，N是有效像素的总数（我们屏蔽掉其中错过地面实况的像素）。ing）。深度网络的预测D被用作训练目标网络的监督。表面法线预测老师（NormNet）. 给定输入图像，表面法线预测的目标是估计每个像素的表面法线向量（ x ， y ， z ）训练表面法线预测教师网络（NormNet）的损失函数为具体的任务流程。尽管TargetNet最终有两个输出流，但它使用与教师相同的编码器-解码器架构进行初始化。然后，我们训练TargetNet，最后为两个任务分支出两个流，然后删除分支后的初始解码器块。整体培训过程概述如下：1ΣLnorm（Mgt，M）= −N 我Mi·Mgt=−N M·Mgt，（4）• 步骤1：使用相同的架构如5.1.1中所述，教师的情况。• 第二步：训练交织在一起的每个TargetNet块其中，M、Mgt分别是NormNet的预测和地面实况，并且Mi、Mgt是像素i处的那些。5. 该方法在本节中，我们将介绍学习紧凑型学生网络TargetNet的方法。我们介绍了一种新的策略，培养学生与教师交织我们方法的核心是图1所示的块学习方法。1学习参数教师，如图所示2和描述秒第5.1.2条。• 第3步：决定在TargetNet上的何处分支，如第2节所述。第5.1.3条。• 步骤4：从教师中取出相应的块作为学生的分支块;移除最后一个分支发生的块之后的所有初始块;微调TargetNet。12833uuuuuL深度L分段图2.所提出的知识融合模块在TargetNet的块n对每个块重复此操作在下文中，我们描述了学生网络的体系结构，它的损失函数和训练策略，以及分支策略。5.1.1TargetNet架构TargetNet使用与教师相同的编码器-解码器架构进行初始化，其中编码器和解码器的结构是对称的，如图所示。1.编码器中的每个块包括2或3个卷积层，具有3×3的内核大小，随后是2×2的非重叠最大池化层，而在解码器中，池化层被上采样层取代。图3. S-信道编码和D-信道编码的结构。5.1.2损失函数与训练策略为了学习TargetNet的第n个块处的合并特征Fn设Fn，FnDs我们通过学习与教师交织在一起的参数，对TargetNet的每个块进行知识融合。设Fn表示合并后的特征图表示在教师的第n个块处获得的特征深度网络和SegNet。学习Fn的一个选择是最小化其投影特征Fn，Fn之间的损失u在TargetNet的块n处我们希望Fn能同时编码乌德乌斯以及相应的特征Fn，Fn，如下所示，uds解析和深度信息，从两个L= λ ||F n− F n||2+ λ ||F n− F n||第二条，第（五）项教师为了让Fn与教师互动，u1ud d2美国为了进行更新，我们引入两个信道编码分支，称为D信道编码和S信道编码，分别用于深度估计和场景解析，如图2所示。直观地说，Fn可以被认为是整个特征集的容器，并且可以通过两个通道被投影或转换到两个任务域。这里，我们使用Fud和Fus分别表示将Fn通过D通道和S通道编码后获得的特征，换句话说，这两个任务域中的投影特征。双声道编码的结构如图11所示。3.修改自通道注意模块在[12]中，它由一个全局池化层和两个全连接层组成，并且尺寸非常小。实际上，它只增加了不到4%的参数总数，其中λ1和λ2是平衡深度估计和场景解析的权重。使用这个损失函数，参数更新发生在块n和连接的编码分支内，在此期间，过程块1到n-1保持不变。方程的损失函数（5）直接了当。然而，使用这种损失来训练TargetNet中的每个块是非常耗时和费力的。这是因为为了训练每个块，我们必须调整权重λ1，λ2和终止条件，因为特征映射的大小和收敛速度逐块变化。因此，我们转向另一种选择，学习与教师交织在一起的功能，旨在减轻繁琐的调优过程。对于n区块的汞齐化，我们首先通过传递合并的特征Fn来获得Fn，用户u导致非常低的计算成本。通过S信道编码。然后，我们替换这些特征，Fnu块n深度网×Fnudc×1×1TargetNet取代...块n+1取代块n×Fn反向传播c×1×1美国SegNet块n2834美国udu2u3Mu3Fn在SegNet的第n个块上，并获得的美国从Se gNet得到的结果预测Se，其中Fn是其特征。以相同的方式重复该过程，以从深度网获得预测深度图Dn，其中Fn为它的特点。以这种方式，我们能够将损失写为仅包括最终预测D_i，S_i和原始教师D，S的预测的函数，如下所示：Lu=λ1Ldepth（D，D）+λ2Lseg（S，S），（6）其中，λ1、λ2在训练期间对于TargetNet中的所有块是固定的，并且L_depth（·）和L_seg（·）分别是在等式1中定义的那些。(3)和（1）.5.1.3分支出来由于场景解析和深度估计是两个密切相关的任务，因此决定在何处将TargetNet分支为单独的任务特定流以同时实现两个任务的最佳性能是非常重要的不同于传统的多分支模型，选择分支出的边界的编码器和解码器，我们探索了一个-其他的选择，我们发现更有效。在使用等式的损失函数训练TargetNet的N个块之后，（6），我们还获得了每个块的最终损失2图4.用TargetNet-2和Norm-Net进行知识融合.虚线框中的部分来自TargetNet-2，并且在训练TargetNet-3期间保持不变。三任务合并的离线方法非常简单。块明智的学习策略中描述的节。5.1.2在这里可以很容易地概括。现在，我们有三个编码通道而不是两个编码通道，其中第三个M通道编码将合并的知识转移到正常预测任务。损失函数则为L=λL（ D ， D<$ ） +λL （ S ， S<$ ）， +λL（M，M），{L1，L、...、LN}和{L1、L2、...、LN{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}的u31深度2seg3规范segsegseg深度深度深度用于分支出的块，pseg和pdepth，取为：（八）p= arg minLn其中λ1、λ2和λ3是平衡配重。seg恩塞格在线方法以渐进的方式工作p= argminLn（七）假设我们已经训练了一个用于解析的TargetNet，深度n个深度深度估计，我们现在称之为TargetNet-2，其中，我们设置N/250M0.3310.6470.214 −PADNet-ResNet [36]>80M0.5020.7520.120 −TargetNet28M0.4590.6880.1240.2033、描述在S。5.2并在Tab中显示结果。二、利用TargetNet-3中的表面法线信息，场景解析和深度估计的准确性特别是，与场景解析的增强相比，深度估计的增强由于其与表面法线的紧密关系而更有意义。表面法线预测的视觉结果如图所示。六、我们还比较了TargetNet与最先进模型的性能。结果见表。3. TargetNet通过三个任务进行训练。由于尺寸最小，无法访问人工标注的注释，表4. TeacherNet（SegNet和DepthNet）和学生在Cityscape数据集上的比较结果。Target-D和Target-P分别表示TargetNet用于解析和深度估计的结果。方法平均IOU像素Acc.绝对值相对值sqr rel教师网0.5210.8750.2895.803目标-P0.5350.8820.2403.872目标-D0.5100.8820.2243.509TargetNet产生的结果优于所有比较方法，但PADNet-ResNet [36]除外，其大小几乎是TargetNet的三倍。城市景观上的表演我们还在Cityscape数据集上进行了所提出的知识融合，并在Tab中显示了定量结果4.第一章我们以与NYUDv2相同的方式进行实验结果进一步验证了我们方法的有效性，其中合并后的网络再次在各自的领域超越了教师。7. 结论在本文中，我们研究了一种新的知识重建任务，其目的是从专门从事不同应用领域的预先训练的教师那里学习一个通用的学生模型，而不需要人工标记的注释。我们从一对教师开始，一个在场景解析上，另一个在深度估计上，并提出了一个创新的策略来学习与教师交织在一起的学生的参数。然后，我们提出了两个选项，以概括培训策略，两个以上的教师。在多个基准上的实验结果表明，学生模型，一旦学习，在自己的专业领域优于教师。在我们未来的工作中，我们将探索不同架构的教师的知识融合，在这种情况下，主要的挑战是弥合教师特征图之间的语义差距确认本课题得到了国家重点研究发展计划（2016 YFB1200203 ）、国家自然科学基金（ 61572428 ，U1509206 ）、中央高校基础研究基金（ 2017 FZA5014）、浙江省重点研究发展计划（2018 C 01004）和创业基金 - 史蒂文斯理工学院 Stevens Institute ofTechnology2838引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Analysis and MachineIntelligence，第2481-2495页[2] 陈国斌，崔元根，项羽，韩东，和曼-莫汉·钱德拉克.学习有效的目标检测模型与知识蒸馏。神经信息处理系统的进展，第742-751页，2017年[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。计算机视觉和模式识别会议，第3213- 3223页[4] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签国际计算机视觉会议，2015年，第2650-2658页[5] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统，第2366- 2374页[6] Jiyang Gao，Zijian Guo，Zhen Li，and Ram Nevatia. 知识集中：在一个CNN中学习10万个对象分类器arXiv：计算机视觉和模式识别，2017年。[7] Jean-Yves Guillemaut和Adrian Hilton空时联合多层分割与深度估计。在3D成像，建模，处理，可视化和传输，第440-447页[8] 索拉布·古普塔，罗斯·B·格希克，巴勃罗·阿贝莱斯，和吉坦德拉·马利克.从rgb-d图像中学习丰富的特征用于目标检测和分割。欧洲计算机视觉会议，第345-360页[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在国际计算机视觉会议上，第2980-2988页[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射欧洲计算机视觉会议，第630-645页[11] 杰弗里·E·辛顿，奥里奥尔·维纳尔斯和杰弗里·迪恩。提取神经网络中的知识。神经信息处理系统，2015年。[12] 杰虎，李申，孙刚。挤压-激发网络。计算机视觉与模式识别，2018。[13] Mingkun Huang，Yongbin You，Zhehuai Chen，YanminQian ， and Kai Yu. 序列模型的知识提取。 Proc.Interspeech 2018，第3703-3707页[14] 马特乌斯·科津斯基，罗伊克·西蒙，弗雷德里克·朱里。结构化输出神经网络半监督训练的对抗正则化神经信息处理系统，2017年。[15] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展，第1097-1105页，2012年[16] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。3D视觉国际会议，第239-248页[17] Bo Li，Yuchao Dai，and Mingyi He.用扩张cnn和软加权和推理的分层融合进行单目深度估计。模式识别，83：328-339，2018。[18] Guosheng Lin，Anton Milan，Chunhua Shen，and Ian DReid. Refinenet：用于高分辨率语义分割的多路径细化网络。计算机视觉和模式识别，第5168-5177页[19] Fayao Liu，Chunhua Shen，and Guosheng Lin.深度卷积神经领域的深度估计从一个单一的图像。计算机视觉和模式识别，第5162[20] Wei Liu ， Andrew Rabinovich ， and Alexander C Berg.Parsenet：看得更宽，看得更好。arXiv：计算机视觉和模式识别，2015年。[21] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。计算机视觉和模式识别，第3431-3440页，2015年。[22] Pauline Luc，Camille Couprie，Soumith Chintala，andJakob J Verbeek.使用对抗网络进行语义分割。神经信息处理系统，2016。[23] Arsalan Mousavian，Hamed Pirsiavash和Jana Kosecka。使用深度卷积网络的联合语义分割和深度估计。3D视觉国际会议，第611-619页[24] Vladimir Nekrasov，Chunhua Shen，and Ian D Reid.用于实时语义分割的轻量级精化网。2018年英国机器视觉会议[25] Haesol Park和Kyoung Mu Lee从模糊图像序列联合估计计算机视觉国际会议，第4623-4631页[26] Pedro H O Pinheiro，Ronan Collobert，and Piotr Dollar.学习分割候选对象。神经信息处理系统，第1990-1998页[27] Pedro H O Pinheiro，Tsungyi Lin，Ronan Collobert，andPi- otr Dollar.学习细化对象分段。欧洲计算机视觉会议，第75-91页[28] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets：薄而深的网的2015年学习表征国际会议[29] Ashutosh Saxena、Sung H Chung和Andrew Y Ng。从单个单目图像学习深度。神经信息处理系统进展，第1161-1168页，2006年。[30] Ashutosh Saxena，Min Sun和Andrew Y.Ng. 从单一静止图像学习计算机视觉国际会议，第1-8页，2007年[31] Daniel Scharstein和Richard Szeliski。使用结构光的高精度立体深度图。计算机视觉和模式识别，1：1952839[32] 沈成超，王新潮，宋杰，孙立，宋明立.将知识融合到综合分类中。在AAAI人工智能会议上，2019。[33] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。室内分割和支持从rgbd图像推断。2012年欧洲计算机视觉会议。[34] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年国际学习表征会议[35] 纳西姆·苏利康塞托·斯潘皮纳托和穆巴拉克·沙阿。使用生成对抗网络的半监督和弱监督语义分割。arXiv：计算机视觉和模式识别，2017年。[36] Dan Xu ， Wanli

下载后可阅读完整内容，剩余1页未读，立即下载