没有合适的资源?快使用搜索试试~ 我知道了~
统一框架:翻译识别网络用于RGB-D场景识别
11836用于RGB-D场景识别的翻译识别网络大鹏杜利民王晓慧玲王凯赵刚山吴南京大学软件新技术国家重点实验室摘要跨模态转换有助于增强场景识别的模态区分能力。为此,本文提出了一个统一的框架,整合跨模态翻译和 特 定 模 态 识 别 的 任 务 , 被称 为 翻 译 识 别 网 络(TRecgNet)。具体而言,翻译和识别任务共享相同的编码器网络,这允许在翻译的帮助下显式地正则化识别任务的训练,从而提高其最终的泛化能力。对于翻译任务,我们在编码器网络之上放置解码器模块,并使用新的逐层语义损失进行优化,而对于识别任务,我们使用基于编码器特征嵌入的线性分类器,其训练由标准交叉熵损失指导。此外,我们的TRegNet允许利用大量未标记的RGB-D数据来训练翻译任务,从而提高编码器网络的表示能力。实验证明,这种新的半监督设置能够进一步提高识别网络的性能我们在两个RGB-D场景识别基准测试:NYU Depth v2和SUNRGB-D上进行了实验,证明TRegNet实现了优于现有最先进方法的性能,特别是对于仅基于单一模态的识别。1. 介绍最近,计算机视觉社区专注于将卷积神经网络(CNN)[15]应用于各种视觉任务[10,22,8,28,30,29]。与此同时,成本可承受的深度传感器(例如,Microsoft Kinect和Intel Realsense)已经引发了更多使用RGB- D数据重新审视计算机视觉问题的吸引力,例如对象检测[7,34],图像分割[19],活动识别[36,31]。在本文中,我们专注于增强特定模态网络*通讯作者。给定具有对齐的颜色和深度信息的场景图像。这是一个非常具有挑战性的分类任务,了解RGB-D场景数据,一方面是因为它的本质上不同的组合杂乱的对象,在不同的语义表示为室内场景的边界,重要的是,另一方面的数据稀缺问题。最大的RGB-D数据集[25]的数量级仍然不足以提供足够的标记RGB-D数据。由于预训练的RGB CNN模型很容易适应新的RGB数据,最近的工作集中在学习有效的深度特征。一些方法[27,40]直接使用预训练的RGB CNN权重来微调深度CNN,但只有有限的改进。[7] 直接将语义监督从标记的RGB图像转移到未标记的深度图像,这对变换方向有限制。本文从两个方面应对上述主要挑战:1)我们建议通过跨模态转换过程来增强RGB和深度的单模态网络的区分能力,以及2)我们使用生成的具有高语义相关性的图像来增强训练数据采样以用于分类任务。其基本思想是,模态转换增强了编码网络的描述能力,因为它迫使RGB/深度数据向其复杂的方向推断信息非模态。RGB→深度平移网络可以提高RGB场景网络的表示能力通过学习生成深度数据,在几何和外观不变线索上,而深度场景网络通过深度→RGB转换来学习颜色和纹理同时,该转换过程产生了新的高质量的跨模态数据用于其他模态数据具体来说,我们建议将任意模态特定场景识别网络与一模态以多任务方式训练的ityTranslation网络,称 为TRecgNet;两个分 支共享相同的 编码网络(ENet),如图1所示。TRecgNet提高情态描述能力的有效性实质上取决于情态翻译的效果,RGB-D数据如何有效地从配对数据中学习语义相似性,以促进联合学习-11837分支2:翻译分支目标模式B传奇1相似语义内容网(S)3@22244x264@112x112128@56x56256@28x28重量固定层层层层4生成3 2 1模式B2开始分类网(C)类标签来源方式A3@224x22464@112x112128@56x56256@28x28512@14x14分支1:分类分支编码网(E)解码网(D)ResNetBasicBlock图层残差上采样图层上采样+Conv 1x 1Conv 1x 1->特征增强1分层内容丢失2分类损失图1. TRegNet。 立方体是特征图,其尺寸和大小表示为#features@height × width。 管道由两个并行流组成:1)识别分支用于识别场景图像,其中使用监督分类损失来更新E → C网。2)翻译分支的目的是通过E→D网构造输入的成对互补模态数据。翻译过程受语义监督S网的约束。我们以端到端的方式联合培训两个分支。在测试阶段,我们只使用识别分支。ing任务。我们不像许多重建工作那样简单地使用像素级欧氏距离损失作为监督[35]。我们认为这种差异是不可靠的,特别是对于RGB→深度转换,因为深度数据的地面真实图像通常存在许多离群值,设备的局限性和操作失误。此外,低水平像素相似性不能提供任何语义相关性。相反,我们使用预训练的语义模型执行翻译过程,这是受到风格转换相关作品的启发[3,13,2]。已经表明,在特定的视觉任务(例如对象分类)上用足够的标记数据训练的CNN已经学会了提取语义内容表示。这种一般化的能力并不局限于特定的数据集或任务。在这些作品中,作者使用一个特定层的感知约束相比之下,我们建议利用多个层监督翻译过程的感知损失,以获得一个简单而有效的直觉,即高层倾向于保留语义内容,而低层在捕获详细信息方面做得更好,这可以为跨模态相似性学习提供足够有效的线索。我们在RGB-D室内场景识别任务的两个基准上测试了TRegNet,SUN RGB-D数据集和NYU Depth数据集v2。我们的TRegNet可以在特定模态和RGB-D设置上获得明显的改善。本文的主要贡献有两个方面:• 提出了一个TRegNet来传输互补的通过无标签模态转换过程来提取线索,以端到端的方式改进特定模态的分类任务,并在RGB-D室内场景基准测试中实现最先进的性能。• TRecgNet可以生成更逼真和语义相关的数据,以增强训练数据的一致性。该算法解决了数据稀缺问题,有效地提高了分类性能。2. 相关工作RGB-D场景识别早期的作品依赖于手工制作的功能来捕捉场景的特征属性。Banica等人[1]使用二阶池化局部特征进行分割和场景分类。Gupta等人[5]提出通过从深度图像检测轮廓作为场景分类的局部特征来对分割输出进行最近,CNN等多层网络能够从大量数据中学习有用的表示。一般来说,他们分别从RGB和深度图像中学习特定于模态的特征,然后进行融合。Wang等人[27]以组件感知融合方式从不同模态提取并组合深度判别特征。Gupta等人[7]将RGB模型转换为深度网络,使用未标记的配对数据,根据它们的中间层表示。然而,这些方法仅考虑将颜色线索转移到深度网络,而忽略了深度线索也可以有益于RGB网络。最近,深度网络的识别能力已经得到了全面的研究。在[26]中,Songet al.他认为,从预训练的RGB CNN模型中学习深度特征是有偏见的,11838Mφ我我M使用弱监督深度补丁从头开始深度特征。然而,由于深度数据仍然存在数据稀缺问题,深度网络的结构无法深入,这限制了其可扩展性。成对图像到图像翻译。成对的图像到图像的平移问题可以被公式化为像素级映射函数,然而,每个像素被平移以这种方式独立于其他人[37]。最近,GAN [4,21]在图像生成方面取得了令人印象深刻的成果。Wang等人[32]将生成分解为两个步骤:表面法线生成和内容生成。他们使用了一个逐像素的表面法线约束作为额外的监督。在[18]中,作者提出使用GAN来学习成对图像之间的映射函数。这些GAN约束有助于从数据分布学习中生成更多变化的图像,然而,基于GAN的模型很难训练和生成图像Conv1X1,BatchNormReLUConv3X3,BatchNormReLUConv1X1,BatchNorm基本剩余块插值(比例=2)剩余上采样层图2.残差上采样层的架构。输入特征图以比例2进行上采样,然后是一个基本残差块。显示了基于ResNet-18构建的RGB TRegNet的示例架构,该架构使用预训练的ResNet 18作为E和C网络。D解码来自E的特征图以重建互补数据。深度TRegNet使用相同的结构,只是交换了源和目标模态的位置我们采取三项措施,往往缺乏源图像的语义一致性,很难在随后的语义相关工作中被利用,例如分类或分割任务。最近,在许多风格转换作品[3,13,2]中,他们使用来自预训练RGB模型的特定层的感知损失,以在翻译期间保持结构内容然而,它们大多只使用来自特定层的内容约束,通常是VGG模型的conv4 x,而忽略了预训练模型可以执行不同级别的语义监督,这些语义监督对于图像翻译来说已经足够好了。在本文中,我们提出利用多个层的感知损失来约束RGB-D数据的翻译过程。与纯粹的图像生成任务不同,我们专注于这个翻译过程最终如何有利于分类任务和使用生成的图像进行数据增强的性能3. 方法本节详细介绍我们的翻译识别网络(TRegNet)。所提出的框架如图1所示。假设在RGB-D设置中,我们希望使用一个模态数据。 令(MA,MB)是来自集合L ={1,2,., Nc},其中Nc是场景类的总数。我们的目标是学习一个嵌入E:MA→Rd,它具有一个平移映射T:Rd→MB和一个类预测函数翻译过程首先,我们根据经验删除ResNet的第一个最大池化操作。在整个结构中,特征映射只通过步长卷积运算进行收缩,丢失的信息较少,这对图像平移过程非常重要其次,我们在DNet中引入残差上采样层。残差上采样层使用双线性插值操作对特征图进行上采样,其中一个残差块模仿ResNet的基本残差块。图2显示了残差上采样层的架构。第三,类似于[23],我们将E的三个阶段的上下文信息传播到D我们使用加运算而不是连接,这可以减少DNet中的参数数量。3.2.逐层内容监督翻译翻译网络旨在提高ENet学习互补数据特征的表示能力,其过程由语义RGB CNN模型监督,该模型使用从较低层到较高层的语义约束的组合,测量生成数据和配对数据的逐层相似性我们使用在ImageNet [38]上预训练的ResNet模型作为监督内容网络S,以考虑与ENet的架构一致。更多细节可参见第3.1节。我们将图像表示为-C:Rd→L。核心问题是如何翻译亲-SNet表示为Φ={φl,l∈[1,2,3,4]},其中cess可以使特定模式的编码器网络(ENet)学习有效的补充模态线索,以利于分类任务。3.1. TRecgNet架构TRegNet 由 编 码 器 网 ( ENet ) 、 分 类 器 网(CNet)、解码器网(DNet)和语义内容网(SNet)四部分组成。图1i是输入数据M的第i层表示。它将来自模态M的输入图像映射到Rd中的特征向量。具体来说,我们定义了两个特征向量之间的L1损失,用于翻译监督.假设我们正在训练MA的分类任务。生成的图像y′和MB被送入S网,我们可以从y′和MB得到分层 表示。我们通过L1损失将它们从每一层(ResNet中的11839L(y,y,l)=yT(x)i′内容我我ΣLl=1φl-φl1(1)重量固定10241024类数量全局平均池化3.3. 培训战略在本节中,我们将详细介绍我们的优化过程。为了共同学习嵌入和翻译对,我们以多任务方式优化E,C,D网络。 具体地,给定一对RGB-D图像,令eMA=E({xi})是在MA上计算的来自ENet的嵌入,并且dMB=D(E({xi})是从D解码的生成的模态B数据。我们同时更新1)E→D→S以最小化逐层向量的距离以约束它们的语义相似性,以及2)使用交叉熵损失函数的E→C用于分类任务。的总损失用线性组合更新:L总=αL含量+βLCcls(2)其中L含量是第3.2节中描述的等式(1),Lcls是分类任务的交叉熵损失,其系数α,β设置为10,1来自最佳试验。由于我们在第4节中使用的数据集以类别的不平衡图像为特征,因此我们使用为每个类别提供的重新缩放权重来进行交叉熵损失-重新缩放权重旨在为不同的类别分配不同的权重,以处理不平衡训练的问题具体来说,我们使用以下重新缩放策略:1f(xi)yi图3.融合网络。我们只使用RGB和深度TregNets的编码网络两个E网的权值是固定的,只更新分类器的权值。深度TRegNet(从深度到RGB的转换)。我们发现它有助于稳定深度TRecgNet的训练。所生成的RGB图像也从采样噪声中得到可解释的控制。在我们的实验中,噪声的维数被设置为128。用未标记的RGB-D数据拟合。如第1节所述,与RGB数据集相比,大多数现有标记的RGB-D数据集的大小然而,有大量的unla-例如,来自RGB-D视频序列的被标记的RGB-D对。我们的方法的一个显著优点是,我们能够用这些未标记的数据初始化TRegNet。换句话说,模态翻译过程是一个无标签的过程,通过该过程,TRegNet可以从未标记的RGB-D数据中学习丰富的表示,从而促进进一步的任务。有关实验在第四章中作了详细介绍. 4.第一章3.4. 融合在我们获得RGB和深度数据的两个训练TRegNet之后,我们计算两个ENet并从它们中连接特定于模态的特征。嵌入是在全局平均池(GAP)[18]上操作的,以减少L加权cls=N−w(yi)logIjf(xi)j.(三)参数后面是三个完全连接的层。整个结构如图3所示。我们修好编码器-权重w(y)计算为:N(y)−N(c min)+δw(y)=,(4)N(c max)−N(c min)其中Ny是类别y的图像的数量。 C min和C max表示具有最少和最多数目的训练图像的类。δ设定为0.01。在测试阶段,我们只使用识别分支进行识别预测,如图1所示。两种模式之间的翻译不平衡。有几个因素表明,从RGB到深度和深度到RGB的转换是不平衡的。例如,从RGB到深度图像的转换更复杂。相对自然的过程,而从相反的方向将成为一个不适定问题。另外,由于采集设备和工艺的特点,深度数据的地面真值存在较大的因此,我们从N(0,1)中采样一个随机噪声向量,并将其连接到D的输入特征,ing网络,并以端到端的方式直接训练分类器。我们发现,这将优于直接结合两个预测结果,更直接地显示了特定模态网络的有效性4. 实验在本节中,我们首先介绍评估数据集和我们提出的方法的实现细节。然后讨论了TRegNet的烧蚀研究对S.我们还比较了与其他方法生成的图像最后,我们评估我们的方法与国家的最先进的方法的性能。我们定量报告的平均准确度超过所有场景类别的常规评估计划。4.1. 数据集SUN RGB-D数据集是目前最大的RGB-D数据集。它包含来自纽约大学深度v2的RGB-D图像RGB编码网级联深度编码网FCFCFC我11840数据模型Init累积(%)RGBResNet18TRecgTRecg Aug地方地点地点47.449.850.6ResNet18随机38.1ResNet18地方44.5TRecg随机42.2深度TRecg地方46.8TRecg随机/未标记44.2TRecg地点/未标记47.6TRecg 8月地方47.9RGBTRecg网络表1. TRecg-ResNet 18对识别Per的消融研究。 在SUNRGB-D的测试集上报告结果(Top-1的平均准确度%)。“Aug”表示在训练中使用生成的数据。Berkeley B3 DO [12]和SUN 3D [33],并受到3,784个Microsoft Kinect v2图像,3,389个Asus Xtion图像,2,003个Microsoft Kinect v1图像和1,159个Intel Re-alSense图像的损害按照[25]中所述的标准实验设置,我们只使用包含80多个图像的19个主要场景根据标准分割,总共有4,845张图像用于训练,4,659张用于测试。NYU深度数据集V2(NYUD 2)是相对较小的数据集;在二十七个室内类别中,只有少数类别的设计是有特色的。按照[24]中的标准划分,类别被分为十个,包括九个最常见的类别和一个代表其余类别的其他类别。此外,我们使用795 / 654图像进行标准分割后的训练/测试。4.2. 实现细节所提出的方法在流行的深度学习框架Pytorch [20]中在NVIDIA TITAN Xp GPU上实现。我们用亚当随机操作训练网络-最小化[14]来学习网络参数,批量大小设置为40。RGB-D图像的大小被调整为256 ×256,随机裁剪为224×224。我们在70个epoch中训练TRecgNet,学习率在前20个epoch中初始化为2 ×10−4,在其余的epoch中线性数十年。50. 在测试阶段,我们对测试图像使用中心裁剪操作。我们采用地心HHA(水平视差,地面高度和重力角度)[6]来编码深度图像,它已被证明可以更好地捕获各种视觉任务的深度数据的场景结构和几何特性。在随后的实验中,我们分别训练了两种TRegNets进行评估。基本TRegNet在不使用生成的数据的情况下进行训练,而TregNet Aug 是指使用来自相应的基本TRegNet 的 生 成 的 数 据 来 训 练 TRegNet 。(RGBTRegNet 8月图4.使用不同层作为监督的内容模型对(A)RGBTRecgNet和(B)深度TRecgNet的分类的影响。在SUN RGB-D数据集上测试。(A) 层1(B)层2(C)层3(D)层4(E)层1 -4图5.TRegNet通过不同层的语义监督将RGB图像转换为深度图像的示例分层内容监督的组合提供了最佳的照片现实主义翻译。输入图像均来自SUN RGB-D数据集的测试集。利用基本深度TRecgNet作为生成的数据采样器,反之亦然)。具体来说,在TrecgNet Aug的训练阶段,我们随机使用生成的数据,其数量控制为批量大小的30%,以实现最佳性能。4.3. SUN RGB D数据集研究TRegNet的有效性。我们通过研究TRegNet对RGB-D识别任务的有效性来开始我们的实验。我们倾向于证明:1)从模态翻译分支中学习本质相似性可以有效地帮助分类任务,2)未标记的RGB-D数据有助于训练TRegNet用于识别任务,3)生成的数据改进了训练过程。(A)RGBTregNet数量的时段深度TRecg网络(B)深度TregNet数量的时段平均准确度(%)平均准确度(%)11841(A) RGB(B)生成深度(C)深度GT(D) 生成的RGB(A) RGB(B)生成深度(C)深度GT(D) 生成的RGB图6.TrecgNet从SUN RGB-D数据集的测试集生成的数据示例(B)是从原始RGB数据(A)转换的深度图像,(D)是使用原始深度图像(C)生成的RGB图像。损失像素像素+GAN我们平均Acc(深度)13.1%17.7%30.3%平均Acc(rgb)百分之七点三百分之二十点六百分之十八点四表 2. 我 们 通 过 训 练 在 Places 数 据 集 上 预 先 训 练 的 vanillaResNet18来比较生成的深度图像的质量。训练图像都是使用SUN RGB- D数据集的训练数据通过三种方法生成的在SUNRGB-D的测试集上报告结果(Top-1由我们的TRegNet生成的图像可以达到最佳效果。由于颜色和深度信息的模式在视觉外观、几何形状和表面上变化很大,我们使用以下基线:对于RGB模态的分类,我们在RGB图像上微调预训练的ResNet 18;对于深度模态,我们从头开始和从预训练模型训练网络。我们使用以下设置测试TRceg Net:a)与基线相同的初始化时间表,b)使用来自NYUD 2数据集的5 k个未标记的RGB-D视频序列对深度TRegNet进行预训练。c)两个TregNet提取翻译分支作为数据增强供应器来重新训练TregNet; 30%的原始训练数据被生成的数据随机替换。实验结果总结于表1中。我们观察到,对于每种模式,我们的TRegNet都以较大的利润率优于基线。RGB TRecgNet的性能比基线高出2.4%,而深度TRecgNet的性能比基线高出3.7%和2.3%,分别采用随机初始化和来自Places数据集的预训练权重。值得注意的是,当从头开始训练和使用预先训练的权重时,TRegNet的未标记RGB-D数据预训练分别进一步提高了2%和0.8%。没有预先训练的Places权重,但只有5k个未标记的数据,结果与在Places数据集上预先训练的vanilla ResNet非常相似,只需要很少的训练数据。这表明我们可以灵活地设计一个ENet,实现可接受的结果,而无需使用ImageNet或Places数据集等大规模数据集进行预训练当使用生成的图像作为训练数据时,我们也发现了提 升 , Aug-Depth 为 1.1% , Aug-RGB TregNets 为0.8%。我们在图6中显示了一些生成的数据示例。有趣的对于生成的RGB数据,由于原始深度数据存在不可忽略的测量误差,因此生成的RGB数据将不可避免地在细节上具有低质量,然而,我们发现通过在深度TRecgNet的训练中添加随机噪声可以减轻这种情况语义内容网络的层次贡献研究。补充线索传递的有效性在很大程度上依赖于语义内容模型SNet。因此,我们感兴趣的是SNet如何使用不同的层作为监督来影响翻译和识别任务。我们分别使用层1和层4以及它们的组合作为翻译约束进行测试TRegNet的场景识别性能,与直接微调预训练的ResNet18模型相比;所有实验都是在SUN RGB-D数据集上进行的。在图4中,准确度与训练时期的数量成正比可以提出以下意见:1)TRegNet通过不同层次的监督,在不同程度上实现了显著的改进。2)当使用逐层内容约束时,训练过程变得更稳定,并获得最佳性能。实验结果表明,使用S作为跨模态翻译的监督者是有效的。图5给出了RGB TregNet通过不同层的语义监督翻译图像的示例来自较低层监督的相似性学习11842准确度(%)方法RGB初始化深度初始化RGB深度融合基线ResNet18ImageNetImageNet46.644.550.1ResNet18地方地方47.444.850.8TRegNetImageNetImageNet48.746.955.5提出TRegNet 8月ImageNetImageNet49.247.956.1TRegNet地方地方49.846.856.1TRegNet 8月地方地方50.647.956.7多模态融合[40]地方地方40.436.541.5SOTA[27]第二十七话地方地方40.436.548.1RGB-D-CNN+wSVM [26]地方Fast R-CNN44.642.753.8DF2净度量学习[17]地方地方46.339.254.6表3. 在SUN RGB-D数据集的测试集上与最先进的方法进行比较。性能通过Top-1在类上的平均准确度来衡量。“Aug” means usinggenerated data in准确度(%)方法RGB初始化深度初始化RGB深度融合基线ResNet18地方地方59.852.363.8TRegNet地方地方60.255.265.5提出TRegNetSUN RGB-DSUN RGB-D63.856.766.5TRegNet 8月SUN RGB-DSUN RGB-D64.857.769.2[27]第二十七话地方地方53.551.563.9SOTARGB-D-CNN+wSVM [26]地方Fast R-CNN53.456.467.5DF2净度量学习[17]地方地方61.154.865.4表4. 在NYUD 2数据集的测试集上与最先进的方法进行比较。性能通过Top-1在类上的平均准确度来衡量。“Aug” means usinggenerated data in忽略亮度或纹理的语义线索。相比之下,分层内容监督结合了多层特性,不仅可以在分类任务上获得更好的性能,而且可以生成更逼真的图像。研究生成图像的质量。 在这项研究中,我们评估了从TRegNet生成的数据的质量。由于深度数据的稀缺性和价值误差问题,我们专注于深度数据的生成。我们com-carttrecgnet与两种图像生成方法。第一种是仅使用像素级强度上的L1损失来生成深度数据,这在图像重建工作中非常常见[16],如前所述。我们还测试了由像素到像素GAN监督生成的图像[11]。我们在图7中定性地比较了一些生成的示例。来自像素强度监督的图像往往会模糊,僵硬地模仿训练数据,而我们的TRecgNet会产生更自然的图像,特别是对于深度数据,甚至对于地面真实值存在重大错误的情况,请参见底部行。有趣的是,基于GAN生成的RGB图像显示出对颜色多样性的令人印象深刻的影响我们还通过仅使用不同方法生成的图像来微调预训练的ResNet18来定量评估生成图像的质量。表2示出了结果。深度图像从我们的TRecgNet优于其他方法,GAN方法在RGB图像上的增强效果更好与最先进方法的比较。我们报告了SUN RGB-D测试集上的TRegNet与最先进方法的比较,如表3所示。大多数RGB-D场景识别方法都建立在Places数据集上预先训练的模型上[39]。除此之外,我们还报告了使用ImageNet预训练权重的结果。这些方法中的大多数依赖于微调Places-CNN。Song等人[26]致力于通过SSP [9]从监督深度块中学习更有效的深度表示DF2Net采用基于三重丢失的度量学习[17]来学习用于特定于模态的表示和融合学习的区分和相关特征。我们的TregNets在这两种模式及其融合方面都优于其他最先进的方法。值得注意的是,我们的方法成功地从跨模态迁移学习中学习模态特定的特征,并且我们不太依赖于任何复杂和专门设计的融合策略。11843(A) 源模态(B)像素相似性(C)pix2pixGAN(D)我们的(E)目标模态(GT)图7.通过不同的方法生成的示例。转换为深度一的RGB数据在前两行中示出,而最后两行中的图像给出了相反的示例。(A)、(E)是RGB和深度数据的地面实况(B),(C)和(D)是分别从像素级L1丢失监督,像素到像素GAN和我们的TRegNet生成的图像4.4. NYUD 2数据集我们还在NYUD 2测试集上对TRegNet进行了评估,并与其他代表性作品进行了比较。NYUD 2是一个相对较小的RGB-D数据集,因此我们仅使用Places数据集或SUN RGB-D数据集的预训练权重来评估TRegNet。特别是,我们研究了SUN RGB-D上学习的TRegNet表示 的 泛 化 能 力 我 们 从 SUN RGB-D 转 移 学 习 的TRegNets,并对来自NYUD 2数据集的数据进行微调我们在表4中报告了结果。我们发现,对于RGB模态,我们的RGB TRecgNet只产生稍微好一点的结果。我们认为,这主要是因为NYUD2数据集的大小太小。深度图误差的负面影响严重影响了从RGB到深度的转换然而,从SUN RGB-D数据集转移预训练的权重当添加生成的数据时,我们观察到两种模式的进一步提升。在NYUD 2数据集上的实验在一定程度上揭示了TRegNet对训练数据规模的要求。使用小数据集的翻译难以使多训练任务受益,特别是对于存在不可忽略的测量误差的模态图4还显示了一些问题提示,在最初的几个时期,它往往比直接微调骨干网络的表现更不稳定,并得到次优的结果。5. 结论和未来工作在本文中,我们提出了一个有效的翻译识别网络(TRecgNet)学习特定模态的RGB-D表示的RGB-D场景识别任务。TRecgNet使CNN分类网络能够通过翻译过程学习与跨模态数据的基本相似性来学习更多的区分特征训练TRecgNet允许使用未标记的RGB-D数据作为初始化,这弥补了数据稀缺问题。在SUN RGB-D和NYUD 2数据集上的实验表明,我们都达到了最先进的结果,验证了所提出的方法的有效性。在未来,我们计划尝试实例化更多以及更深层次的CNN模型,如ResNet50和VGG Network。我们还将尝试处理深度数据的大误差问题。致谢本文的研究得到了国家自然科学基金项目(编号:61321491)和软件新技术与产业化协同创新中心的资助11844引用[1] 丹·巴尼卡和克里斯蒂安·斯明奇塞斯库。rgb-d图像语义分割的二阶约束参数建议和基于顺序搜索的结构化预测在CVPR,第3517-3526页[2] 杨晨,赖玉坤,刘永进。Cartoongan:用于照片卡通化的生成对抗网络在CVPR中,第9465-9474页[3] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR中,第2414-2423页。IEEE,2016.[4] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[5] SaurabhGupta,PabloArbela' ez,RossGirshick,andJiten-dra Malik.使用rgb-d图像理解室内场景:自底向上分割、目标检测和语义分割。IJCV,112(2):133[6] SaurabhGupta,RossGirshick,PabloArbela' ez,andJiten-dra Malik.从rgb-d图像中学习丰富的特征用于目标检测和分割。在ECCV,第345-360页中。Springer,2014.[7] Saurabh Gupta,Judy Hoffman,and Jitendra Malik.监督转移的交叉模态提取。在CVPR,第2827-2836页[8] KaimingHe,Geo r giaGkioxari,PiotrDol la'r,andRossB.娘娘腔。面罩R-CNN。在ICCV,第2980-2988页[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。见ECCV,第346-361页。Springer,2014.[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[11] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR中,第5967-5976页。IEEE,2017年。[12] Allison Janoch , Sergey Karayev , Yangqing Jia ,Jonathan T Barron , Mario Fritz , Kate Saenko , andTrevor Darrell.类别级3D对象数据集:让Kinect发挥作用。在计算机视觉的消费者深度相机中,第141-165页。Springer,2013.[13] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。参见ECCV,第694-711页。施普林格,2016年。[14] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[15] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS,第1097-1105页[16] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3D Vision(3DV),2016年第四届国际会议,第239- 239248. IEEE,2016.[17] Yabei Li,Junge Zhang,Yanhua Cheng,Kaiqi Huang,and Tieniu Tan. df 2net:用于rgb-d室内场景分类的判别特征学习和融合网络。在AAAI,2018。[18] Min Lin,Qiang Chen,and Shuicheng Yan.网络中的网络。arXiv预印本arXiv:1312.4400,2013。[19] John McCormac ,Ankur Handa ,Stefan Leutenegger ,and Andrew J Davison.场景网rgb-d:5 m合成图像能否在室内分割上击败通用imagenet预训练。InICCV,volume4,2017.[20] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[21] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。在arXiv预印本arXiv:1511.06434,2015。[22] 任少卿,何开明,Ross B.Girshick和Jian Sun。更快的R-CNN:朝向利用区域建议网络的实时对象检测。在NIPS,第91-99页[23] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234-241页。施普林格,2015年。[24] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。室内分割和支持从rgbd图像推断。在ECCV,第746-760页中。Springer,2012.[25] Shuran Song,Samuel P Lichtenberg,and Jianxiong Xiao.Sun rgb-d : 一 个 rgb-d 场 景 理 解 基 准 测 试 套 件 。 见CVPR,第567-576页。IEEE,2015年。[26] 宋新航,蒋树强,路易斯·赫兰兹,陈成鹏.学习有效的rgb-d 场 景 识 别 表 示 。 IEEE Transactions on ImageProcessing,2018。[27] 王安然,蔡剑飞,陆纪文,詹达仁。rgb-d场景分类中的模态和组件感知特征融合。见CVPR,第5995-6004页。IEEE,2016.[28] Limin Wang , Sheng Guo , Weilin Huang , YuanjunXiong,and Yu Qiao.多分辨率cnn下大规模场景分类的知识引导消歧。IEEE Trans.图像处理,26(4):2055[29] Limin Wang,Wei Li,Wen Li,and Luc Van Gool.用于视频分类的外观和关系网络。在CVPR中,第1430-1439页[30] Limin Wang,Zhe Wang,Yu Qiao,and Luc Van Gool.传输深层对象和场景表示,用于静态图像中的事件识别。International Journal of Computer Vision,126(2-4):390[31] Pichao Wang , Wanqing Li , Zhimin Gao , YuyaoZhang,Chang Tang,and Philip Ogunbona.场景流到动作贴图:基于rgb-d的卷积神经网络动作识别的新表示。在CVPR,2017年。11845[32] 王小龙和阿比纳夫古普塔。使用风格和结构对抗网络的生成图像参见ECCV,第318-335页。施普林格,2016年。[33] 肖 健 雄 , 安 德 鲁 · 欧 文 斯 , 安 东 尼 奥 · 托 拉 尔 巴 。Sun3d:使用sfm和对象标签重建的大空间数据库。见ICCV,第1625-1632页。IEEE,2013。[34] Xiangyang Xu,Yuncheng Li,Gangshan Wu,and JieboLuo.用于rgb-d对象检测的多模态深度特征学习PatternRecognition,72:300[35] HuangyingZhan , RaviGa
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功