没有合适的资源?快使用搜索试试~ 我知道了~
对象级场景上下文预测:一个基于卷积神经网络的方法
2633Tell Me Where I Am:对象级场景上下文预测肖天乔全龙郑颖曹林森。香港城市大学摘要上下文信息已被证明是有效的,在帮助解决各种图像理解任务。先前的工作集中于从图像中提取上下文信息,并使用它来推断图像中某些对象的属性。在本文中,我们考虑了一个逆问题,如何幻觉失踪的上下文,独立对象推断场景上下文从一些独立对象的属性中获取实际信息。我们称之为场景上下文预测。这个问题是困难的,因为它需要对自然场景中不同物体之间复杂多样的关系的广泛了解。我们提出了一个卷积神经网络,它将属性(即,类别、形状和位置)来预测对象级场景布局,该对象级场景布局对给定对象所在的场景上下文的语义和结构进行复合编码。我们的定量实验和用户研究表明,我们的模型可以产生更合理的场景上下文比基线的方法。我们证明,我们的模型允许合成的现实场景图像,只是部分场景布局和内部学习有用的功能,场景识别。1. 介绍场景上下文是指感兴趣的对象如何与它们周围的环境相关。背景信息在现代计算机视觉系统中起着重要的作用。最近的工作利用场景上下文来改进对象检测[15,24]、识别和分割[9,27,34,36],并学习视觉特征表示[28]。现有的工作试图利用图像中存在的上下文信息然而,一个未探索的问题是预测图像中某些对象的未知上下文(即,以预测丢失的对象是什么以及在哪里)。给定几个前景物体,人类依靠我们视觉世界的广泛常识知识,能够非常有效地推断出它们未知的完整场景上下文例如,给定一个前景对象,曹颖为通讯作者。这项工作由Rynson Lau领导图1.从独立对象推断场景上下文一个斯坦-Dalone对象提供用于预测其场景上下文的丰富信息(即,与其共现的其他对象及其空间关系)。虽然图像中的人的姿势和位置暗示该场景可能与体育活动有关,但是人的存在和位置提供了关于其它对象可以出现在什么和哪里的提示(例如,图像上部的天空和图像下部的人行道)。在一个如图1所示的相框中,我们可以推断出它周围的多个看似合理的环境。给定对象的属性提供了有关场景环境以及其他对象可能出现在场景中的位置和内容的强烈提示。因此,我们感兴趣的一个基本问题,机器是否可以复制这样的场景上下文推断能力。我们相信,机器预测物体位置的能力可以使许多场景生成和识别任务受益。然而,开发场景上下文的预测模型可能具有挑战性,因为自然场景包含丰富多样的语义对象,它们之间具有复杂的空间关系。物体可以在不同的位置,具有不同的比例和形状。此外,这个问题本质上是模糊的,因为相同的对象可以具有多个语义上合理的场景上下文。在本文中,第一次,我们解决的问题,场景上下文预测从独立的对象。为此,我们提出了一种新的模型,它作为输入的类别,形状和位置的一个或多个对象,并预测场景上下文的给定对象。而不是直接幻觉低级别像素,我们的模型预测的背景下,在一个对象级的场景布局的形式虽然缺乏详细的外观,这样的表示捕捉到了重要的语义,已被证明足以重建照片般逼真的图像[16]天空草天空树天空人人人滑雪板滑雪板路面积雪人?2634构建场景结构[43]。我们的模型由三个模块组成:形状生成器、区域生成器和合成器。形状生成器旨在生成不同类别的对象形状,区域生成器旨在生成对象边界框以指示可能的对象位置和大小。然后,两个生成器的输出被融合并传递到合成器以生成表示场景上下文的场景布局,该场景布局与输入对象相一致。为了评估我们的方法的有效性,我们在COCO-Stuff数据集上进行了定量和定性实验[2]。实验结果表明,我们的方法可以从给定的前景对象生成多样的,语义合理的场景上下文。此外,我们demon- strate,我们的模型,使现实的全场景图像合成,从只有部分场景布局,它内部学习有用的功能,场景识别。本文的主要贡献是:据我们所知,我们首次尝试解决预测感兴趣对象所在的未知环境的问题。我们开发了一种新的神经网络架构来预测对象级场景上下文从只是独立的前景对象。我们展示了场景上下文推理能力的价值,通过展示我们的模型在图像合成和场景识别任务中的实用性2. 相关工作建模场景上下文。图像的上下文包含有关对象和场景如何相互关联的丰富信息。认知科学研究表明,上下文信息在人类视觉识别中起着至关重要的作用[1,7]。有许多类型的上下文信息,包括视觉上下文[11]、全局场景上下文[35]、相对位置[8]和布局[32]。通过深度学习,许多任务现在都在利用上下文信息来学习视觉特征并提高视觉理解性能。一方面,上下文对于特征学习是必不可少的.例如,Pathaket al. [28]提出了一种上下文编码器来学习图像修复的高级语义特征。另一方面,上下文已被证明在许多视觉任务中是有效的,例如识别,检测和分割[27,36]。还可以组合多种上下文以提高性能。Choi等人[6]提出了一种图形模型,利用多个上下文来识别场景中的上下文外对象。Izadinia等人[17]对场景类别、对象的上下文特定外观及其布局进行编码,以学习场景结构。Chien等人[5]构建了一个ConvNet来预测行人位于图像中某个位置的概率。Wang等人[40]使用变分自动编码器来显示合理的nonex的可能性在一个场景中的真人姿势。所有这些工作都使用图像的前背景作为额外的线索来推理感兴趣的前景对象的属性。我们的目标是从根本上不同于这些先前的作品。从概念上讲,我们试图解决一个逆问题,即,以从给定前景对象的属性推断缺失的场景上下文。我们的工作也与最近在数据驱动的室内场景合成方面的努力有一些高度的相似之处。他们试图用不确定因素图[19]、活动图[12]和随机语法[29]来建模对象排列。与这些从成对对象关系构建上下文信息的工作不同,Wanget al.[38]介绍了一种深度神经网络来学习室内场景合成的对象放置先验。 类似于[38]从高层次的角度来看,我们还使用深度神经网络从图像数据中学习对象空间结构的先验知识,以便合成语义布局。然而,与[ 38 ]不同的是,[ 38]旨在生成稀疏的3D对象集的排列,我们的目标是预测密集的像素场景布局。此外,我们处理一个更具挑战性的问题,因为我们只使用给定的对象作为输入,但他们的方法假设场景类型是已知的。通过上下文预测的无监督表示学习。已经有一些通过上下文预测的无监督视觉表示学习的skip-gram模型[26]通过预测单个单词的周围单词来学习单词表示Doersch等人[10]通过预测图像中块的相对位置来学习图像表示(即,空间背景)。Vondrick等人[37]学会预测未标记视频的未来帧中的视觉表示(即,时间背景)。在我们的工作中,我们的最终目标不是视觉表征学习,而是预测一些独立对象的周围环境。基于上下文的图像处理。许多作品已经研究了如何使用上下文的图像操作任务。一些作品使用上下文作为检索和组合资产的优先级。Tan等人[33]使用CNN特征来捕捉人物构成的本地背景。通过联合编码前景对象和背景场景的上下文,Zhao等。[44]基于给定背景图像学习用于兼容前景对象检索然而,生成的图像的质量取决于检索数据库。检索到的其他作品将上下文表示为场景布局,并学习生成网络来操纵合成图像。Wang等人[39]提出了一种GAN模型来合成和处理场景布局中的高Hong等人[14]第十四话···2635斑马联系我们∈××××× ×形状鉴别器C16z16形状发生器12844C128输入对象布局编码器对象嵌入CCB5 128128粗略场景布局128场景布局类别分类器区域生成器128图2.我们的网络架构概览。 我们的模型将输入对象的属性编码的对象布局作为输入并生成表示场景上下文的场景布局。我们使用类别分类器对编码器进行预训练,以获得对象嵌入特征。对象嵌入特征和噪声向量被连接并传递到形状生成器和区域生成器。形状生成器生成所有C对象类别的形状,而区域生成器生成B边界框的参数和置信度值以表示每个类别的潜在区域提议。每个边界框的边界厚度指示框的置信度分数。然后使用边界框将其对应的形状变形为粗略的场景布局,然后由合成器细化以输出最终的场景布局。此外,引入形状识别符和布局识别符来分别将生成的对象形状和场景布局分类为真实或虚假。从文本描述中构造场景布局作为图像操作的中间表示这些方法的一个关键缺点是它们需要完整的语义布局或文本描述作为输入。通过我们的场景上下文预测模型,我们只需要用户提供包含少量对象的部分语义布局,并且我们的方法可以生成用于合成真实感全场景图像的多种合理场景布局。因此,我们的模型可以被认为是现有的图像合成方法的补充。3. 方法3.1. 问题公式化我们的目标是开发一个深度神经网络,它将一个或多个独立对象的属性作为输入,以生成对象周围的场景上下文,其中包含可能与给定对象共同出现的其他对象如图2所示,我们使用对象级语义布局对输入对象和预测场景上下文进行编码,该对象级语义布局可以完整地描述场景布局中对象的类别、形状和位置。具体地说,给定一个输入对象布局Xo,我们的模型学习一个函数f来生成一个场景布局Xs=f(Xo)。我们在下面详细描述了我们网络的每个部分3.2. 场景上下文预测网络编码器。编码器的输入是一个对象布局,Xo0,1H×W×C,其中H和W分别是布局的高度和宽度,C表示ob。在one-hot vec- tor格式中布局中每个像素的对象类别。编码器从X o中提取对象嵌入特征,以产生大小为4的特征图4512为了学习有用的对象特征表示,我们添加了一个类别分类器来预测场景上下文中每个对象类别的存在。类别分类器包含两个完全连接的层,后面是一个输出C维向量的Sigmoid层。形状生成器。为了增加生成的布局的多样性,我们通过空间复制和特征通道级联在对象嵌入特征的顶部添加噪声向量zt,从而产生级联特征F。然后我们将F输入到形状生成器。 输出是软二元掩码M[0,1]16×16×C,代表所有物体类别的形状。形状生成器模块由一系列去卷积层组成。每一层都是一个步长为2的4 -4去卷积,然后是批量归一化和ReLU。最后一层是11卷积,随后是Sigmoid非线性。区域生成器。区域生成器接收F,并为每个C对象类别预测B区域建议。每个区域建议由具有四个参数(x,y,w,h)和置信度得分的边界框表示S. (x,y)是指盒子的中心位置。(w,h)指盒子的宽度和高度置信度值表示边界框覆盖对象的概率。因此,区域生成器的输出是大小为B5C的张量,其中5是指四个参数加上置信度得分。对象生成器模块由一组残差块和卷积运算组成,如下所示:布局鉴别器C合成器128128经纱天异树斑马草2636∼∼×i、ji、j√i、ji、j通过两个完全连接的层来预测边界框参数和置信度得分。合成器。为了将预测的形状遮罩和对象边界框连贯地组合到场景布局中,对于每个对象类别,我们使用空间Transformer网络中的双线性插值算子[18]。请注意,融合后的粗糙场景布局中可能存在一些伪影,如未标记区域和微小对象。边界框覆盖地面实况对象和其他。由于大多数生成的边界框不覆盖任何地面实况对象,我们引入了一个类重新平衡函数λ(x),以防止模型预测大多数边界框的置信度为 当x=1且λ(x)= 0时,λ(x)=1。1,x= 0。对于形状生成器,设mpfake(m)是生成的形状。其损失定义为:此外,所生成的对象边界框可能过度-Lshape=Empfake(m)[Lcrs(m,m)]+(三)相互重叠,造成不同物体之间的遮挡。为了解决这些问题,我们进一步转换粗EMp假(m)[(D形(m)-1)2]。布局到密集像素场景布局,使用Cas-第一项惩罚了每一代之间的差异caded Refinement Module [3].标准形状m及其基础真值m使用像素方式鉴别器。对于给定输入(例如,画布上的独立对象),可能存在多个场景布局,这些场景布局是合理的并且与输入一致。为了处理这个多模态问题,我们引入了两个额外的判别器,这是受到对抗学习方法最近成功的启发[13,16]。一个是一种形状,交叉熵损失第二项鼓励形状生成器,以产生逼真的形状,以欺骗的形状。我们使用L2范数而不是log,如在LS- GAN [25]中,以稳定我们的训练。对于形状λ,定义了它的对抗损失如:而另一个是一个布局的二维布局。输入to the shapeDshape是生成的形状D形状 =Empfake(m)[(D形(m)−1)2]+(四)′掩模Mc或真实形状掩模Mc。输入到lay-Etpreal(t)[D形(t)2],out-codeD布局是生成的场景布局,或真实的场景布局。两个鉴别器都通过一系列下采样层对输入进行编码,这些下采样层通过步幅2卷积实现。3.3. 培训由于上下文预测的复杂性,很难直接端到端地训练我们的模型因此,我们首先预训练类别分类器以获得对象嵌入特征。 然后我们一起训练所有模块。设l={lc∈ {0,1},c∈C}是图像的真实对象类别。我们使用类别分类器的交叉熵损失Lcls为:ΣL=−[llogp+(1−l)log(1−p)],(1)其中t preal(t)是真实形状。最后,输出场景布局和布局的损失,则与Eq相同。3和4,除了对象形状被替换为场景布局。3.4. 实现细节输入对象布局的大小通过最近插值调整为128128.为了帮助网络收敛,我们首先训练类别分类器以获得对象嵌入特征。为了获得对象指示符pobj的值,这些值用于等式2中的损失。2、我们遵循YOLO的方法 [31]。特别是,对于训练过程中的每次迭代,我们都会向网络提供一个输入,以预测所有对象类别的区域建议。一个区域提案,CLSc c c c c c cc∈C猫血被标记为猫血(即,pobj=1),仅当它与任何其中,如果图像包含对象类别C,则L c= 1。pc是同一类别的地面实况边界框,以及la-C的预测概率。对于区域生成器,我们使用t=(x,y,w,(h)Tbeledasn eg at iv e(即,人民党真值置信度得分=0)否则。 地面和S分别表示边界框参数和预测边界框的置信度得分。我们将损失定义为:i,j是定义为预测边界框和地面实况之间的IOU。请注意,在训练阶段,我们使用对象边界框的地面真实值进行训练。ΣCL箱=Σ (pobj||ti,j−ti,j||2+λ(pobj)||si,j−si,j||2)、合成器生成场景布局。在测试过程中ing阶段,我们选择生成的对象边界框i=1j∈Bii、ji、j(二)基于相应的置信度值。我们使用Adam优化器[20]进行β1=0的优化。5和其中i的范围是所有对象类别,j的范围是β2=0。九九九九。学习率为2e-4,批量大小为类别i的所有边界框。ti,j和si,j是是128。对于每个小批,我们交替地最小化真值包围盒参数和置信度score,respect i vel y. pobj是对象指示符,当损失函数更新发电机参数”(《礼记》13:13)L26374. 实验在本节中,我们训练我们的模型在COCO-Stuff [2]数据集上生成场景我们的目标是表明,我们的模型可以从具有不同对象属性的输入对象生成合理的场景上下文。我们展示了我们的方法的定性和定量结果,与基线一致,并通过用户研究评估我们生成的场景上下文的可最后,我们展示了我们的模型如何可以用来合成逼真的场景图像从部分场景布局,并帮助场景识别的性能改进。4.1. 数据集我们在COCO-Stuff数据集上进行了实验,该数据集用额外的东西类别增强了COCO数据集的子集[22]。该数据集使用边界框和语义布局为室内和室外场景注释了40k个训练图像和5k个测试图像,总共包括80个事物类别和91个事物我们的评估只关注数据集中的室外场景图像,这些图像具有许多复杂多样的场景结构,因此使得场景上下文预测问题非常具有挑战性。给定室外场景布局,我们只选择其中包含2到8个对象的场景。为了训练我们的网络,对于每个布局,我们随机选择一个或两个对象并重新移动其他区域以形成对象布局,它与原始语义布局(在本作品中称为场景布局如果一个选定的对象覆盖的图像小于5%,我们跳过这个对象。结果,我们产生了一个包含72个对象类别(39个事物类别和33个东西类别)的数据集,总共有52,803个训练对和1,934个测试对。4.2. 基线由于我们不知道任何先前的场景上下文预测工作,我 们 将 我 们 的 方 法 与 pix2pix 方 法 [16] 进 行 比 较 ,pix2pix方法学习输入图像和具有对齐图像对的输出图像我们使用我们的训练数据集训练基线,以便它可以将输入对象布局映射到输出场景布局,就像我们的模型一样。注意,我们已经根据经验发现基线倾向于产生噪声,即,在其输出中的小因此,我们通过一个简单的后处理来改进其结果,以解决这个问题.具体来说,我们首先通过加权中值滤波器对初始结果进行滤波。然后,我们应用一个引导滤波器与过滤图像作为指导图像,以获得最终的结果。4.3. 定性结果图3显示了我们的模型的一些定性结果,与基线的结果进行了比较。我们提出以下几点意见首先,我们的方法可以生成比基线更加视觉多样的场景布局。例如,在第一列中,基线总是给出类似的对象类别和位置(例如,草,树和天空),而我们的方法可以生成不同的对象类别和位置,以响应输入对象布局。其次,我们的模型预测的场景布局比基线预测的场景布局在语义上更合理。例如,在第一列的第三行中,基线预测场景的对象之间的一些不太可能的空间关系(即,人在天空,草在天空)。相比之下,我们的方法预测了一个海域,因为鸟在沙滩上飞行,这更有说服力。第三,我们的模型能够生成一致尊重输入对象的场景上下文,而基线在某些情况下无法给出合理的结果(例如,将滑雪板降落在第一列第四行的草地上)。我们进一步研究了输入对象之间空间关系的变化如何影响我们模型的场景上下文推断,并在第二列中显示结果。例如,当我们将人和飞机的空间关系从左/右(第一行)改变为上/下(第二行)或内/周围(第四行)时,我们的模型的场景布局有利地适应输入,而基线往往会给出类似的结果。我们还分析了不同的对象大小和类别如何在第三列中,我们显示了当改变汽车的大小(第一行和第二行)或将输入的类别从船改为网球拍(第三行和第四行)时生成的不同场景布局我们的方法仍然可以给出有希望的结果,而基线预测的上下文有时不太可信(例如,把车放在草地上(第二排))。这些结果表明,与基线相比,我们的方法可以生成更多样化,语义上合理的场景,适合输入对象的布局。4.4. 用户研究我们使用Amazon Mechanical Turk(AMT)从两个方面评估我们的结果质量:可接受性(所生成的场景布局的可接受性)和适应性(所生成的场景布局与给定输入的匹配程度)。在这个实验中,我们使用了从测试数据集中随机选择的50个输入对象对于每个输入 , 我 们 使 用 我 们 的 方 法 ( Ours ) 和 pix2pix(Baseline)生成场景布局合理性。我们要求AMT工作人员通过评估场景布局中的对象是否具有不正确的关系(可扩展性)来判断生成的布局和地面实况(GT)。对于那些被认为是不可信的场景布局,他们被要求标记至少一对具有错误空间关系的对象。在我们的实验中,我们总共有30名工人,每个场景布局至少由10名工人进行评估。2638联系我们∈|⟨⟩⟨ ⟩∈⟨⟩我们超过基线关于GT基线超过GT体质偏好百分之七十一百分之四十三百分之十六飞机天空飞机天空飞机人人草车车污垢车草飞行员飞机人路飞机人草小艇天空船树船河天空树船船草车建筑物架空路面车路树天车草飞行员天空草地飞机人行道路面天空飞机树人人草鸟砂海鸟砂天空鸟树草人砂船船海树船草飞行员飞行员路面树飞机人草单人滑雪板天空单人滑雪板雪树单人滑雪板草网球拍网球拍运动场天空树网球拍草载人飞机天空载人飞机天空载人飞机无名氏草输入我们的基线输入我们的基线输入我们的基线图3.我们的模型和基线的定性结果给定包含一个或两个独立对象的输入对象布局(每列中的左图),我们使用我们的模型(每列中的中间图)和基线(每列中的右图)生成输出场景布局。我们的基线GT合理性评分↑0.34 ± 0.120.730.11 ± 0.85 ±0.08表1.基线(Baseline)、我们的方法(Ours)和基础事实(GT)的可信度评分表2.对基线(Baseline)、我们的方法(Ours)和地面实况(GT)的适应度偏好对于每种场景布局,我们计算选择它的工作人员的比例作为可行性得分,并在表1中报告每种方法的平均得分。请注意,地面实况的平均得分表示上限性能。结果表明,我们的结果被认为是显着合理的比那些由基线和更接近地面真理。4.5. 定量评价我们使用对象成对关系先验来定量评估我们生成的场景布局的可扩展性,该先验已广泛用于室内场景合成以表征场景结构[23,38]。特别地,我们从自然场景图像的数据集中计算对象类之间的成对关系的概率,并且评估每个生成的场景布局在概率下的可能性以衡量其质量。一般地,设C和R分别为对象范畴和两两对于每对对象类u,v,u,v C,我们计算出它们的概率-在空间关系中,r R为p(r u,v)。在这里,我们考虑六个相互排斥的空间关系,即R左,右,上,下,内,外。给定生成的场景布局X,我们将其负对数似对数(NLL)定义为:健身在这个实验中,我们向工作人员展示了一个输入对象布局以及两个场景布局,这两个场景布局是从三个源(我们的,基线和NLL=−Σ(u,r,v∈Tlogp(r|u,v|T|、(五)GT)。要求工作人员选择描述输入对象的更合理的上下文的场景布局我们共有9名工人参加了实验。表2中的结果表明,与基线相比,我们的结果在大多数情况下此外,工作人员对地面实况布局的偏好略高于我们的结果。这意味着我们的结果被认为更好地拟合输入对象,并且与地面实况相当。其中u,r,v迭代布局中标记为T的我们使用2-fold cross-validation进行评估。特别地,我们首先将训练数据集均匀地分成两部分。对于每个折叠,我们在其上训练一个模型,从另一个折叠中学习先验知识,并根据先验知识计算测试数据集上的NLL最后,我们使用的平均NLL(NLL所有)在两个倍作为我们的度量场景布局的可行性评估。此外,我们还计算了以输入为中心的2639砂天空海砂河天空树植河河天空建筑河流树天空树草车建筑公路车建筑天空修建道路汽车道路天空建筑路面车路总线建筑总线路鸟天空鸟海砂输入场景布局输出图像输入场景布局输出图像输入场景布局输出图像图4.给定部分场景布局或草图作为输入,我们的方法能够生成一个完整的场景布局,并进一步合成逼真的全场景图像。平均NLL(NLL对象)来测量预测的场景布局与输入的匹配为了做到这一点,我们只考虑输入涉及方程的类别对。五、表3将我们的模型的性能与基线进行了比较。我们的方法在这两个指标上都大大优于基线。与基线相比,这再次证实了我们的方法在预测合理和拟合场景上下文方面的优越性能。4.6. 消融研究为了研究我们的网络中的不同组件如何影响发电性能,我们使用第4.5节中介绍的平均NLL比较了我们模型的几个消融版本。无类别分类器。我们删除了类别分类器,因此没有对对象嵌入特征进行预训练没有歧视。我们删除了形状和布局鉴别器,仅依赖于模型学习的像素交叉熵损失。方法NLL全部↓NLL对象↓基线[16]2.152.11Ours(无类别分类器)1.771.70我们的(无鉴别器)1.911.85我们的(没有形状)1.721.61我们的(无布局图)1.881.84我们的(全模型)1.691.57表3.对基线、模型的消融版本和完整模型进行定量评价。我们评估的性能与负对数似然(NLL)的生成的布局下预先计算的成对关系先验。NLL 都反映了输出布局的整体可扩展性,NLL对象表示输入对象与输出布局之间的适应性。独立的前景对象使得可以仅利用部分语义布局来产生全对于这项任务,我们利用最先进的图像合成方法[30],将语义布局转换为逼真的图像。片段是从我们的火车上提取的-没有形状或布局。我们去掉一个鉴别器。从表3的结果中,我们可以观察到,与消融版本相比,我们的完整模型实现了更好的性能,这证明了我们模型中每个组件的必要性。4.7. 图像合成我们使用我们的模型进行图像合成实验。最近几个有前途的作品[3,30,39]图像合成试图从场景布局生成逼真虽然能够合成令人惊叹的结果,但它们都需要一个完整的场景布局。我们的模型仅从场景上下文推断场景上下文的能力使用数据集生成内存库。给定一个部分场景布局,我们首先使用我们的模型来预测一个完整的场景布局,然后将其输入到图像合成方法中以生成输出图像。除了部分语义布局外,我们还尝试使用草图作为图像合成模型的输入。为此,我们首先需要将草图转换为模型所需的部分布局。特别是,给定我们训练数据集中的图像及其语义布局,我们使用边缘检测[42]通过应用[4]中的后处理步骤(包括二值化,细化,小组件去除,侵蚀和毛刺去除)来获得随机选择的前景对象的草图。之后,我们训练一个pix2pix网络[16]来将草图映射到2640树鸟鸟飞机天空飞机输入结果输入结果表4. SUN数据集上的室外场景识别准确性[41]。我们评估表示学习我们的布局discrim- inator的场景识别。我们比较了直接使用学习的表示与SVM(Ours + SVM),随机初始化训练 器 ( Ours + Random Init ) 和 微 调 训 练 器 ( Ours +Finetune)的性能。为了比较,我们还展示了ImageNet-CNN和Places-CNN的结果。局部布局。在测试阶段,给定一个输入草图,我们首先将其映射到局部布局,然后使用上述图像合成过程将其转换为全场景图像。在图4中,我们显示了从部分语义布局和草图生成的一些图像合成结果。可以看出,我们的方法可以从稀疏的用户输入合成复杂的和语义上有意义的全场景图像。4.8. 场景识别我们还在SUN数据集[41]上测试了由用于室外场景识别的布局学习器请注意,我们使用220个户外场景类别进行评估,因为我们的模型是在户外场景上训练的要做到这一点,我们首先将我们的判别器的输出层替换为K路softmax层。然后,我们通过使用预先训练的语义分割模型[45]将输入彩色图像映射到场景布局来构建场景识别模型,然后将其输入到我们的判别器中进行分类。我们使用SUN数据集(Ours + Finetune)的训练分割来微调我们的训练。我们还尝试随机初始化我们的识别模型的判别器部分(Ours + RandomInit),而不是使用我们的SVM的学习权重,并直接使用SVM的倒数第二层的输出作为多类SVM的特征(Ours + SVM)。请注意,由于我们对探索我们的矩阵的表示感兴趣,因此我们固定了语义分割模型。我们在表4中报告了识别精度。使用我们学习的表示作为特征的SVM稍微优于在ImageNet上预训练的AlexNet [21],但低于专门为场景识别设计的预训练的Places-CNN [46此外,虽然我们的随机初始化模型比ImageNet-CNN和Places-CNN更差,但从我们学习的神经网络的权重初始化的模型获得了更好的性能。这可能是因为,为了区分真实和图5.故障案例。当输入对象的尺寸太小时,我们的方法可能会产生一个过于简化的场景上下文与一个大的背景。假场景布局,我们的机器人需要学习一种表示,该表示捕获场景布局中对象之间的复杂语义和空间这些结果表明,学习幻觉对象级场景上下文有助于学习有用的功能,场景识别。5. 结论在本文中,我们努力解决的问题,推理失踪的环境,从一些独立的对象的属性为此,我们提出了一个场景上下文预测模型,估计场景布局从输入对象布局在一个端到端的方式。大量的定性和定量结果表明,与基线模型相比,我们的模型能够生成更合理和多样化的场景布局,将输入对象放入正确的上下文中此外,我们证明了预测场景上下文的能力,使图像合成的方法,可以生成全场景图像,只有稀疏,部分用户输入。最后,我们表明,学习幻觉场景上下文可以是一个很有前途的监督信号学习有用的功能,场景识别。目前,如果输入对象太小,我们的模型可能会失败如图5所示,如果输入布局只包含一个小对象,则它往往会产生一个带有大背景的过度简化的场景布局,即使合成的场景布局仍然是合理的。为了解决这个问题,我们希望在未来的工作中探索一种多尺度对象建模方法来处理小对象。引用[1] M.酒吧上下文中的可视对象。自然评论神经科学,5(8):617,2004. 2[2] H. Caesar,J. Uijlings,and V.法拉利Coco-stuff:上下文中的事物和东西类。在CVPR,2018年。二、五[3] Q. Chen和V. Koltun.使用级联细化网络的摄影图像合成。InICCV,2017. 四、七[4] W. Chen和J. Hays.素描:走向多样化和现实主义的素描图像合成.在CVPR,2018年。7[5] J. - T. 钱角J. Chou,D.-J. Chen和H.-T. 尘探测不存在的行人。在ICCVW,2017年。2方法精度机会百分之零点五[21]第二十一话38.9%[46]第四十六话百分之四十九点八我们的+SVM39.8%我们的+随机初始化百分之三十七点六2641[6] M. J. Choi,A. Torralba和A. S.威尔斯基上下文模型和上下文外对象。Pattern Recognition Letters,33(7):853-862,2012. 2[7] M. M. Chun和Y.蒋背景线索:视觉背景的内隐学习和记忆引导空间注意.认知心理学,36(1):28-71,1998年。2[8] C. Desai,D. Ramanan和C. C.福克斯多类对象布局的判别模型。IJCV,95(1):1-12,2011. 2[9] S. K. Divvala,D. Hoiem,J. H. Hays,A. A. 埃夫罗斯,还有M.赫伯特语境在宾语检测中的实证研究。CVPR,2009。1[10] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在ICCV,2015年。2[11] N. Dvornik,J. Mairal和C.施密特建模视觉上下文是增强目标检测数据集的关键在ECCV,2018。2[12] Q. Fu,X.Chen,X.Wang,S.温湾,澳-地Zhou和H.Fu.通过活动相关对象关系图自适应合成室内场景。ACMTOG,36(6):201,2017。2[13] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS,2014。4[14] S. Hong,D. Yang,J. Choi,and H.李你 推理语义布局分层文本到图像合成。在CVPR,2018年。2[15] H. 胡,J.古,Z.张,J.Dai和Y.伟. 用于对象检测的关系在CVPR,2018年。1[16] P. Isola,J.Y. Zhu,T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR,2017年。一、四、五、七[17] H. Izadinia,F. Sadeghi和A.法哈迪。将场景上下文和对象布局简化为外观建模。CVPR,2014。2[18] M. Jaderberg , K. Simonyan 、 A. Zisserman 等 人 空 间Transformer网络。2015年,在NIPS中。4[19] Z. S. Kermani,Z. Liao,P. Tan,and H.张某从标注的rgb-d图像学习3d场景合成。在计算机图形论坛,第35卷,第197-206页。Wiley Online Library,2016. 2[20] D. P. Kingma和 J. BA. Adam :随机最佳化的方法。arXiv:1412.6980,2014。4[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS,2012年。8[22] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco : 上下 文中 的通 用对 象。 2014 年, 在ECCV。5[23] T. Liu,S.乔杜里河谷G.金角,澳-地Huang,N. J. Mitra和T.放克豪瑟使用概率语法创建一致的场景图ACMTOG,2014年。6[24] Y.柳河,巴西-地Wang,S. Shan和X.尘结构推理网络:使用场景级上下文和实例级关系的对象检测在CVPR,2018年。1[25] X.茅角,澳-地Li,H.谢河,巴西-地Y. Lau,Z. Wang和S.史莫利。最小二乘生成对抗网络。InICCV,2017.4[26] T. 米科洛夫岛 Sutskever,K. Chen,G. S. 科拉多,还有J·迪恩单词和短语的分布式表示及其组合性。在NIPS,2013年。2[27] R. Mottaghi,X. Chen,X. Liu,N.- G.周S W.李,S。菲德勒河Urtasun和A.尤尔。背景在野外对象检测和语义分割中的作用CVPR,2014。一、二[28] D.作者:P. Krahenbuhl,J.多纳休,T. Darrell和A. A.埃夫罗斯上下文编码器:通过图像修复进行特征学习。在CVPR,2016年。一、二[29] S. Qi,Y. Zhu,S.黄角Jiang和S.- C.竹基于随机文法的以人为中心的室内场景合成。在CVPR,2018年。2[30] X. 齐,阿根-地陈,J.Jia和V.科尔顿。半参数图像合成。在CVPR,2018年。7[31] J.雷德蒙,S.迪夫拉河,巴西-地Girshick和A.法哈迪。你只看一次:统一的实时物体检测。在CVPR,2016年。4[32] A. G. Schwing,S.菲德勒M.Pollefeys和R.乌塔松盒子里的盒子:联合三维布局和对象推理从单一的图像。InICCV,2013. 2[33] F.坦角,澳-地伯尼尔湾Cohen,V. Ordonez,and C.巴恩斯在哪里和谁?自动语义感知人物组合。在WACV,2018。2[34] A.托拉尔巴用于对象检测的上下文启动。IJCV,53(2):169-191,2003. 1[35] A.托拉尔巴K. Murphy和W.弗里曼。用森林看树木:上下文中的对象识别。ACM,2010年。2[36] Z. Tu和X.柏自动上下文及其在高级视觉任务和3d脑图像分割中的应用。IEEE TPAMI,32(10):1744-1757,2010年。一、二[37] C. Vondrick,H.Pirsiavash和A.托拉尔巴通过观看未标记的视频来预测2016. 2[38] K. Wang,M. Savva,A. X. Chang和D.里奇用于室内场景合成的深度卷积先验。ACM TOG,37(4):70,2018。二、六[39] T.- C.王兆国Y.刘杰- Y. Zhu,中国茶青冈A. Tao,J.Kautz和B. 卡坦扎罗基于条件gans的高分辨率图像合成与在CVPR,2018年。二、七[40] X. 王河,巴西-地Girdhar,A.古普塔。《暴饮暴食:从情景喜剧中学习启示》(Binge在CVPR,2017年。2[41] J. Xiao,J. Hays,K. A. Ehinger,A. Oliva和A.托拉尔巴Sun数据库:从修道院到动物园的大规模场景识别。CVPR,2010。8[42] S. Xie和Z.涂。 整体嵌套边缘检测。 在ICCV,2015年。7[43] D. Xu,Y. Zhu,C. B. Choy和L.飞飞通过迭代消息传递生成场景图。在CVPR,2017年。2[44] H. Zhao,X.沈,Z. Lin,K.松卡瓦利湾Price和J. 贾合成感知图像搜索。在ECCV,2018。2[45] H. Zhao,J. Shi,X. Qi,X. Wang和J.贾金字塔场景解析网络。在CVPR,2017年。8[46] B. Zhou , 中 国 古 柏 A. Lapedriza , J. Xiao 、 肖 氏 A.2642Torralba和A.奥利瓦使用地点数据库学习用于场景识别的深度特征。在NIPS,2014。8
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功