没有合适的资源?快使用搜索试试~ 我知道了~
合成感知的图像搜索Hengshuang Zhao1,Xiaohui Shen2,ZheLin3,Kalyan Sunkavalli3,Brian Price3,Jiaya Jia1,41香港中文大学、2字节跳动人工智能实验室、3Adobe Research、4腾讯优图实验室{hszhao,leojia}@ cse.cuhk.edu.hk,shenxiaohui@bytedance.com{zlin,sunkaval,bprice}@ adobe.com抽象。我们提出了一种新的图像搜索技术,给定一个背景图像,返回兼容的前景对象的图像合成任务。前景对象和背景场景的兼容性取决于各种方面,诸如语义、周围上下文、几何形状、样式和颜色。然而,现有的图像搜索技术仅在几个方面上测量相似性,并且可能返回许多不适合于合成的结果。此外,对于不同的对象类别和图像内容,每个因素的重要性可能不同,使得难以手动定义匹配标准。在本文中,我们提出了学习的前景对象和背景场景,其中图像内容和对象类别信息在训练过程中联合编码的特征因此,学习的特征可以自适应地编码最重要的兼容性因素。 我们将这些特征投影到一个公共的嵌入空间,这样可以使用余弦相似度轻松地测量兼容性得分,从而实现非常有效的搜索。 我们收集了一个评价集,由8个对象类别通常用于合成任务,我们证明,我们的方法显着优于其他搜索技术。1介绍图像合成是照片编辑和图形设计中的一项基本任务,其中来自不同来源的前景对象和背景场景被混合在一起以生成新的合成物。虽然以前的工作已经考虑了在给定前景和背景图像时渲染逼真合成的问题[1-具体地,如果前景与背景在语义、视点、风格、颜色等方面大致匹配,则认为前景与背景兼容。从而可以生成具有合理量的后续合成物这项工作是部分完成时H。赵是Adobe Research的实习生2H. Zhao,X.沈,Z.Lin,K.松卡瓦利湾Price,J.贾图1:合成感知图像搜索。给定背景图像作为查询,任务是找到可以在特定位置合成到背景中的特定类别的前景对象,如矩形所指示的。编辑.例如图1,用户打算在黄色框指示的位置处插入站在街道上的人。前景在绿色框中,可以呈现逼真的图像(图1)。1(b))通过调整颜色并添加阴影。另一方面,当给定一个不兼容的前景时,实际上不可能用任何编辑技术生成一个逼真的合成(图10)。(c)第1段。前景和背景对的兼容性可以由各个方面来确定例如,当在道路上插入汽车时,视点更重要,而当用雪山组成滑雪者时,语义一致性可能更重要。现有的搜索技术通常只关注某一方面,或者手动提取特征并定义匹配标准[6,7],无法适应不同的对象类别和背景场景。在本文中,我们提出了一种基于学习的方法,合成意识的图像搜索。该方法不需要人工设计匹配准则或人工特征,而是从大量训练数据中分别学习前景对象和背景图像的新特征表示,能够根据不同的前景对象和背景场景自适应地编码兼容性。具体来说,我们设计了一个双流卷积神经网络(CNN)来学习背景图像和前景对象的特征嵌入,其中对象类别信息通过多模态紧凑双线性池与图像一起编码[8]。构建来自具有分割掩模注释的现有数据集的三元组以学习公共嵌入空间,其中前景和背景图像的兼容性因此,可以使用现有的视觉搜索技术(如产品量化[9])对大量的前景资产使培训从大规模到更稳定合成感知的图像搜索3噪声数据,我们进一步开发新的采样算法,以扩大三胞胎通过寻找额外的类似前景。为了评估我们所提出的算法的有效性,我们收集了一个评估数据集,包括八个常见的前景类别用于图像合成。我们在评估集上的实验表明,我们学习的特征表示可以自适应地捕捉最重要的因素,在给定不同背景图像和前景类别的兼容性方面,并显着优于其他搜索技术。2相关工作传统的基于文本的搜索范式主要衡量文本查询和图像之间的语义相关性,而不考虑其他因素,是重要的图像合成,因此,往往返回许多不相关的结果。当搜索标准难以用文本描述时,基于图像的搜索通常是替代解决方案描述各种特征的特定特征,例如语义和外观[10],样式[11]和空间布局[12],被学习以服务于不同的任务。然而,在没有合适的前景图像可用的情况下,由于前景图像和背景图像之间的显著外观差距,如果使用背景图像作为查询,则通常是无效的在这项任务上的早期努力,如照片剪贴画[6],使用手工制作的功能,根据几个匹配标准,如相机方向,照明,分辨率和本地环境,找到前景资产最近,Tanet al. [7]使用现成的深度CNN特征来捕获局部周围环境,特别是用于人物合成。然而,这些方法缺乏通用性,因为它们仅考虑有限的方面并且不能适应不同的对象类别和背景场景。此外,它们假设前景对象具有周围的背景上下文,因此在具有纯背景的前景图像上是不可行的,这在图像在库存站点12中并且由用户优选。Zhu等人。 [13]训练了一个判别网络来估计合成图像的真实性,这可能用于选择兼容的前景。然而,在合成任务中,前景最终需要手动调整,以使最终图像逼真,因为直接找到与场景完美匹配的前景是非常罕见的,如果不是不可能的话。因此,在没有用户参与的情况下确定合成图像的真实性是不可靠的从大量资产中尝试每个前景候选在计算上也是不切实际的。此外,由于其训练过程,他们的训练模型主要考虑颜色兼容性。相比之下,受益于端到端的特征学习,我们的方法是通用的,并适应于不同的对象类别和图像场景,同时对大规模的前景资产非常有效。1https://shutterstock.com2https://stock.adobe.com4H. Zhao,X.沈,Z.Lin,K.松卡瓦利湾Price,J.贾图2:所提出的合成感知图像搜索(CAIS)系统的总体框架利用对称双流特征嵌入网络分别提取背景和前景图像特征,并引入MCB模块融合类别信息。然后执行特征变换模块以生成最终特征表示。3该方法在本节中,我们描述了我们提出的合成感知图像搜索(CAIS)算法的细节给定一个背景图像、一个前景对象类别以及前景在背景场景中的合成位置,我们的任务是返回该类别的前景图像。适合合成。如引言中所讨论的,难以手工设计匹配准则,因为兼容性可以由许多因素决定,这些因素可以在不同的背景场景中并且随着不同的对象类别而变化。因此,我们的目标是从大量的训练数据中学习背景场景和前景资产之间的特征嵌入,以便学习的特征表示可以编码丰富的信息,专门用于图像合成,并可以适应各种图像内容。此外,搜索算法应该具有在单个框架中处理多个前景类别的能力。通过这种方式,我们设计的网络应该对类别信息敏感。特别地,为了处理这种多类细粒度排序问题,我们设计了一个对称的双流网络,每个流分别以背景图像或前景对象作为输入,并生成相应的此外,为了结合类别信息,添加了轻加权词特征提取分支。然后将 图像和 单词MCB已被 证明是 一种有效 的技术 ,在视 觉问答(VQA)的背景下,在融合信息从多个模态与可忽略不计的附加参数。在这里,我们使用它来联合编码的类别信息和图像内容。在训练过程中,我们鼓励来自兼容的前地和背景图像的特征向量比来自不兼容的图像的特征向量更相似合成感知的图像搜索5对.在测试期间,学习的特征可以直接用于计算图像合成的兼容性方面的相似性,这使得能够进行高效的大规模图像搜索。在下面的章节中,我们首先介绍我们详细的网络架构,然后介绍我们的训练和采样策略,这些策略被证明是非常有效的。3.1网络架构我们的双流特征嵌入网络的架构进行了说明在图2中。顶部流将背景场景作为输入。我们使用图像的平均值来填充矩形,该矩形指示要插入对象的位置,以便可以向网络提供关于所需对象位置、大小和纵横比同时,底部流获取具有纯背景(例如,背景)的前景图像。白色背景)作为输入。我们在工作中关注的是那些纯前景资产,因为它们在这些股票图像网站中非常丰富,并且受到用户的青睐,同时很难通过传统的搜索技术进行检索。搜索算法应具有在单个框架中处理多个前向类别的能力。在确定兼容性中不同因素的重要性可以跨不同类别而变化一种直接的解决方案是为每个类别训练类别特定的网络,或者在实际上更合理的设计中,学习共享特征编码器,然后为每个类别分支以学习类别特定的特征。然而,这两种解决方案都不能扩展到许多类别,因为参数的数量将随着类别标签的数量线性增加。为了具有可以同时处理多个类别的单个紧凑模型,我们提出通过多模态紧凑双线性池化(MCB)[8]将类别信息编码到前景和背景在测试期间,通过改变我们打算搜索的类标签,学习的特征可以适应关于对象类别的最重要的兼容性因素具体来说,为了学习特征,我们采用流行的ResNet50 [14](直到5年前)作为我们的初始值,然后执行h i c lob al a v e r age po ol n g以获得大小为1 × 1 × 2048的特征图。 虽然背景流和前景流使用ResNet50的相同权重进行初始化,但我们希望在学习之后它们可以编码不同的信息,顶部流更多地关注场景上下文,底部流学习面向对象的特征。为了学习特定于类别的特征映射,我们使用word2vec [15]模型来提取300维向量作为字编码分支。在几个卷积层之后,然后将其与每个单独的MCB模块中的背景和前景特征融合。重量轻的特征 转型 模块,包括√one卷积层,一个逐元素有符号平方根层(y=sign(x)|)和实例方式的|) and an instance-wise将归一化运算的结果进一步附加到网络,从而得到单位特征向量分别用于背景和前景,其编码类别信息和图像内容两者。6H. Zhao,X.沈,Z.Lin,K.松卡瓦利湾Price,J.贾3.2目标函数为了训练网络,我们构建了由背景图像作为锚点,兼容前景作为阳性样本,不兼容前景作为阴性样本组成的三元组。然后,我们采用三重损失[16]来训练所提出的网络,并强制背景锚点和正前景之间的特征相似性由于特征向量经过2归一化后具有单位长度,因此我们可以使用平方2距离3轻松计算它们的相似度。为了提高正负样本对之间的区分能力,针对类别i引入正裕度αi。为了方便起见,我们将特征提取、多模态紧凑双线性池化和2归一化分组到操作表示F中。因此,我们希望:bfp2bfn2<$Fi(Bi)− Fi(Fi)<$2+αi<$Fi(Bi)− Fi(Fi)<$2(1)<其中Fb和Ff是在背景和前景中的类别i的操作i ipn流分开。Bi和Fi,Fi 代表背景图像及其相关正(即,兼容)和负前景对象。在训练中,我们将最小化以下损失函数L:P NBfp2L(Bi,Fi,Fi)=max(0,Fi(Bi)−Fi(Fi)2+αi(二)bfn2− Fi(Bi)− Fi(Fi)2)3.3计算效率我们发现,我们的设计比在多个类别中共享所有特征要有效得多,后者无法编码足够的类别特定信息,如第二节所示。5.我们的解决方案也比独立地学习专用于每个类别的单独特征表示更具计算效率,并且与这些单独的模型相比具有非常有竞争力的结果。至于测试期间的运行时间,该算法包括输入图像的特征提取(14.04ms)、MCB模块编码(0.62ms)、特征变换(3.15ms)和相似度计算(100幅前景图像4.32ms)。此外,乘积量化[9]可以很容易地用于支持数百万前景资产的实时检索。4训练数据采集为了学习用于图像合成的新特征表示,具有大量训练数据是至关重要的然而,不幸的是,没有专门用于合成感知图像搜索任务的可用训练集收集这样的训练集似乎也不切实际,因为手动标记许多对背景和前景图像不仅非常耗时,而且3它等价于它们的余弦相似度为x−y2= 2− 2 cos(x, y)。合成感知的图像搜索7了图3:数据预处理和数据预处理。“bg” 和 “fg” 分 别 不 显 示 背 景 图 像 和背景图像。需要在图像合成和照片编辑的专业知识,以决定这两个是兼容的。另一方面,有几个公开可用的数据集包含对象实例分割掩码,例如MS-COCO [17]、PAS-CAL VOC 2012 [18]和ADE 20 K [19]。利用这些掩模注释,我们可以将图像分解为背景场景和前景对象。由于它们是从完全相同的图像生成的,因此我们可以肯定它们是兼容的,并且通常比任何其他可能的候选对更合适。因此,要形成三元组,我们可以对图像的背景场景进行处理作为锚,并且来自相同图像的前景作为正样本,并且然后随机地从任何其他图像中采样前景作为负样本。通过这种方式,我们可以为我们的特征学习生成大量的三元组。具体地,基于这三个数据集,我们选择了八个类别,这些类别经常应用并且经常用于我们作为k的信息组合中:“p e r s on”、“c ar”、“b oat”、“d og”、“p l an t”、“b ot t le”、“c h a r r”和“pa n t in g”。这是一个非常重要的问题培训数据列在补充材料中。三元组的准备给定一个图像与对象掩模,生成的背景和前景样本的过程中所示的图.3.第三章。在测试期间,背景场景图像中不具有前景。为了在训练中模拟它实际上是从场景中移除前景对象当用户在测试期间绘制边界框以指示对象插入的位置时,我们可以应用相同的填充操作以使训练和测试输入一致。为了使背景图像更加一致,使训练更加稳定,我们从原始背景中裁剪出一个正方形图像,它包含尽可能多的上下文,并将填充的矩形放置在尽可能靠近图像中心的位置,如图所示3(b)和(e)。 至于前景示例,我们将前景粘贴在一个正方形图像中,中心位置为纯白色背景,如图所示。3(c)和(f)。通过在背景图像中包括填充的矩形,所学习的背景特征可以在测量兼容性时响应于要插入例如,当在草坪上插入人时,高矩形暗示用户可能想要站立的人,而宽矩形可以指示坐着的同时,这样的约束不应该是非常严格的,因为由用户绘制的矩形可以8H. Zhao,X.沈,Z.Lin,K.松卡瓦利湾Price,J.贾(a)语义语境(b)形图4:三联体延伸。蓝色的是原来的前景,而其他-分别使用(a)语义上下文信息和(b)形状信息来检索ER。(a)背景图像(b)正前景候选图5:具有其标记的正前景候选的示例背景图像不是很准确。出于这一动机,我们引入了数据增强过程,以在有限的程度上放松成对的前景和背景图像之间的大小和比例约束。对于背景增强,我们添加具有最大可能填充空间的边界框的随机填充,该最大可能填充空间是边界框的宽度和宽度的一半。新的数据区也充满了平均值。类似地,对于前景增强,我们添加随机填充并使用白色填充填充区域对于三元组中的负前景,它是从具有类似增强过程的另一图像中随机选择的它将不可避免地选择一些实际上与背景兼容的前景对象。然而,我们认为来自同一图像的前景仍然更兼容,并且相应地等式11。1应该足够了。此外,如将在下一节中呈现的,我们提出了一种三元组扩展方法来将那些前景图像作为正样本包括在内,这显著提高了特征学习性能。三元组扩展来自相同图像的成对前景和背景很容易收获,但它们比负对少得多(例如,m对m)。 m(m − 1),如果某个类别中有m个图像)。训练样本数量的严重不平衡,加上负对采样中的噪声,其中一些兼容的前景被误认为负样本,使得我们的特征学习相当困难。为了克服这些限制,我们提出了一个三重扩展策略,通过增加更多的积极前景样本。合成感知的图像搜索9给定一个前景,我们的目标是使用两个匹配标准找到相似的前景:语义上下文和形状信息。对于语义上下文信息,由于这些前景图像是由具有背景场景的图像生成的,因此我们可以用原始背景填充这些前景图像的背景,然后使用经过图像分类训练的ResNet50提取语义特征。然后通过比较提取的特征的2我们发现,这样的设计产生更一致的结果比提取纯背景的前景图像上的特征。图中显示了一些示例检索结果,这些结果使用了对原始数据进行索引的方法。第4(a)段。对于形状信息,我们简单地计算两个前景掩模在掩模中心周围对齐后的交集(IoU)分数。具有高于掩码的IoU分数的前景被认为更相似。使用在图4(b)中所示的碳原子层上的该临界值来实现采样率的估计。在实践中,我们观察到当物体具有更刚性的形状时对视点更敏感,形状信息在发现相似前景方面更有效;而当对象具有可能根据不同场景而变化的更多样的外观时,使用语义上下文信息产生更一致的结果。基于此观察,我们选择使用形状形式来为“bot tle”、“car”、“chai r”和“pai n t -i n g”的图组创建位置,并选择形状形式来为“b oat”、“d og”、“p e rson”和“pl an t”的图组创建相似的位置。从同一幅图像中提取前N幅相似的前景图像,并将它们作为背景的兼容前景。我们发现,这种三元组扩展策略可以大大增加正训练对的数量,同时减少负对采样中的噪声。因此,它显着改善了特征学习,如第二节所示五、5实验在呈现实验结果之前,我们在下面描述实现细节。我们在公共平台Caffe上进行实验[20]。我们将学习率固定为0.001进行训练,直到模型达到收敛。动量和重量衰减分别设置为0.9和0.0001。批次大小设置为12,三重损失中的余量设置为0.1。在三联体延伸中,我们使用前10个检索到的前景图像作为附加的正前景样本。对于模型输入,正方形背景和前景图像在被馈送到其相关特征提取流之前被调整为256×为了简化训练过程,我们进行了两阶段的特征学习:首先在没有MCB模块的情况下学习特征,从而获得可以在不同类别(如视点、风格和颜色)中共享一旦模型收敛,我们使用学习的网络作为初始化,并与MCB和特征转换模块联合训练模型,从而捕获某些类的类别特定属性,如语义和形状。10H. Zhao,X.沈,Z.Lin,K.松卡瓦利湾Price,J.贾表1:一个由您编写的文本框。Ba s i c d e n t e t t e t e n i n g t t h u t t e t e n s i n tt r a n i n g t t e t e n i n t t e t t e t e n s i n n t t e t e n t e n t e tt “语义”和“语义”必须不使用语义内容和语义形式。为我们的共同目标而共同努力。Meth.船瓶车椅子狗漆.人植物 是说基本60.66 40.8428.72 14.18 57.74 27.4431.6944.79 38.26形状48.80 44.9636.37 20.73 42.62 32.4818.6541.89 35.81语义66.16 43.9729.69 18.36 62.48 28.2851.2553.23 44.18结合71.58 42.3336.71 19.74 62.32 30.9550.8451.16 45.70表2:MCB模块输出尺寸的消融研究Dim.无MCB20488192 10240 20480 40960平均mAP(%)46.0246.17 46.46 47.1848.4247.915.1评估集和度量虽然图像合成任务作为一个整体需要许多组件,包括各种编辑和混合操作,但在本文中,我们主要解决任务中的第一步,即,在给定背景图像的情况下找到兼容的前景资产为了使评估集中在这一步,我们创建了一个由背景图像和兼容/不兼容的前景对象组成的评估集具体来说,给定背景图像和对象将被插入的位置,我们在该位置插入每个可能的前景一些标记的兼容前景图像的背景图。5(a)在图中示出。5(b)。评估集包含我们为此任务选择的八个对象类别,如第4节所述。每个类别有10个不同场景的背景图像。我们在每个背景图像的适当位置绘制一个边界框对于候选前景图像,我们利用来自MS-COCO、VOC2012和ADE 20 K的验证集的对象实例掩码。每个类别有100 〜 400个候选前景对象,平均有223个候选对象。对于地面实况,每个类别中的背景图像具有16 〜 140个兼容的前景候选。直观地说,给定一个背景图像,一个好的搜索算法应该将所有兼容的前景排序高于其他前景。这自然导致采用平均平均精度(MAP)作为我们的评价指标,这是常用的图像检索。我们对每个类别的所有10个测试样品的MAP求平均值以获得类别方面的MAP,并且还通过对所有类别的结果求平均值来报告平均表中显示的MAP评分均以百分比表示。合成感知的图像搜索11表3:对网络结构的烧蚀研究。方法船瓶车椅子狗漆.人植物 是说单独的模块69.65 49.7142.93 22.57 62.00 34.7254.7553.17 48.69我们71.04 55.0039.84 18.97 65.45 34.0951.1451.83 48.42表4:具有这些资源的组件。'R e a li s m C NN. 在[ 13 ]中的方法的测试和结果。“S h ap e”和“C l a s i c a t i c i t i n g e s h a p e t u r e s i n g e s i n g e s h a p e tu r e s i n g e s i n g e s h a p e t u r e s i n g e s i n g e s h a p e t u r e s i n g es i s方法船瓶车椅子狗漆.人植物是说RealismCNN46.8149.0515.5608.6050.1227.3721.4837.4832.06形状46.1239.0834.7711.5444.7726.4315.2543.0932.63分类63.30 55.51 14.9311.0345.9023.9633.4846.1036.78我们71.04 55.00 39.84 18.97 65.45 34.09 51.14 51.83 48.425.2消融研究三联体延伸我们首先对不同三联体延伸标准进行消融研究。为了更好地研究三重采样对特征学习的影响,本研究在第一阶段特征学习中进行,当学习没有MCB的共享功能时结果列于表1中 我们可以看到,在三元组扩展中单独使用形状信息实际上使结果更糟,这可能是因为针对诸如“person”和“dog”的类别返回了许多不相关的前景图像,从而使该三元组扩展处于一个平均水平。使用该方法,结果得到显著改善,证明了三重态延伸的重要性。最后,我们的组合策略产生了最好的结果,优于e'B,因为ic'medy7。44%的人在银行储蓄存款,19. 45%相对改善。网络结构我们还对M C B模型的输出维度进行了消融研究,如表2所示。 因此,网络在不同类别之间共享,而不编码类别信息具有MCB模块的分类器获得了更好的性能,这证明了编码类别信息和学习类别自适应特征的有效性。 性能随着维数的增加而提高,当维数达到20480时达到饱和。因此,我们在随后的实验中将维度设置为20480还要注意,一个阶段中的训练比两个阶段的解决方案更不稳定并且收敛更差(平均MAP 44.65% vs. 两阶段训练48.42%)。我们进一步研究了不同的网络设计在处理多个对象类别的特征学习如第3节所述,处理多个类别的一个直接解决方案是学习共享特征编码器,12H. Zhao,X.沈,Z.Lin,K.松卡瓦利湾Price,J.贾图6:我们的搜索结果被调整到边界框的位置和纵横比。然后分别学习每个类别的类别特定特征映射在我们的实现中,我们保留了共享的ResNet50骨干模型,删除了MCB模块,并为八个类别中的每一个学习了一个单独的特征转换模块结果报告于表3中。虽然它获得了良好的性能,但它具有更多的参数,并且对于大量的类别是不可行第二行中显示的我们采用的解决方案具有非常相似的性能,但更加紧凑。5.3与其他检索方法的比较我们将我们提出的CAIS方法与三种基线方法进行了比较:现实主义-CNN [13],形状特征和分类特征。在背景图像中绘制的矩形指示用户期望的尺寸和纵横比。因此,我们可以通过计算两个矩形的IoU得分,在将它们对齐后,将绘制的矩形与前景对象的边界矩形进行匹配。我们不认为这是一个简单的方法。另外,我们可以通过在基于图像的视觉搜索中常用的图像分类来简单地使用我们的图像管理来检索前景。对于RealismCNN,我们通过将前期候选项拟合到背景图像中绘制的矩形中以及泊松混合[1]来生成合成图像,并使用Realism-CNN预测的真实度得分来对所有候选项进行排名。这三种基线搜索方法以及我们的结果如表4所示我们的方法明显优于所有其他方法。在绝对差方面比第二好的提高了11.64%,在相对改善方面比第二好的提高了31.65%。视觉搜索结果如图所示。9,从中我们可以看出我们的方法考虑了不同的因素,并返回了更兼容的前景对象。此外,我们学习的特征可以考虑用户绘制的矩形的位置和纵横比,并相应地返回合适的前景,如图所示。6.更多的例子在我们的补充材料中。合成感知的图像搜索13图7:用户研究中采用的泊松混合的样本结果图8:推广到新的类别。5.4用户研究为了进一步评估搜索结果的合成质量,我们进行了一项用户研究,比较我们检索到的前景对象生成的合成物和使用分类功能检索到的前景对象生成的合成物,分类功能在三种基线方法中表现最好。泊松混合[1]用于混合图像并减少边界伪影。一些样本结果如图所示。7.第一次会议。我们从我们的评估集中随机选择了20张背景图片,并使用每个方法检索到的最上面的前景来生成合成。在这项研究中,参与者被要求选择他们认为更现实的结果。总共有30名受试者参与了研究。平均而言,有70.38%的复合材料前景检索所提出的方法被评为更多比通过分类特征搜索的更真实。5.5推广到新范畴为了进一步展示我们在多个类别中学习到的共享特征的表示能力,我们在尚未训练的新类别上测试了我们的方法。搜索结果如图所示。8.即使没有对新类进行训练,该算法仍然工作得相当好。有趣的是,重新测试的时钟都是长方形的,主要是因为引入了偏压。14H. Zhao,X.沈,Z.Lin,K.松卡瓦利湾Price,J.贾图9:视觉搜索结果。在每个示例中,黄色框指示位置要插入的前景对象。第1至第4行显示检索到的RE-使用RealismCNN,形状信息,分类特征和我们的方法的结果,respectecively。 该xtboxeswitheren'ered'eren'er 我们的结果包含更多兼容的前景,用于图像合成。从在训练过程中的训练阶段开始。如果新的训练数据可用,则我们可以轻松地计算更多的类别,因为类别信息可以通过单词特征分支并入,而网络架构仍然保持不变。6总结发言本文提出了一种通用的合成感知图像搜索算法,针对大规模的前景资产的图像合成。我们提出的新的训练和采样策略促进了背景场景和前景对象之间的特征嵌入,从而实现了高效和准确的搜索与轻的在线计算。我们进一步表明,学习的特征表示可以推广到新的类别,并用于其他搜索sce- narios。合成感知的图像搜索15引用1. P'erez , P. , 去 吧 , MBlake , A. : P 〇 iss 〇 nimagediting 。 在 :ACMTransacti onson graphics(TOG). (2003年)2. 孙,J.,贾,J.,Tang,C.K.,沈希尧:泊松铺垫。ACM Transactions onGraphics(TOG)(2004年)3. Sunkavalli,K.,约翰逊M.K.Matusik,W.,Pfister,H.:多尺度图像和谐化。ACM Transactions on Graphics(TOG)(二零一零年)4. Xue,S.,Agarwala,A.,多尔西J Rushmeier,H.:理解并提高图像合成的真实感ACM Transactions on Graphics(TOG)(2012年)5. 蔡永宏,沈,X.,林芝,Sunkavalli,K.,卢,X.,Yang,M.H.:深层图像协调。在:CVPR中。(2017年)6. Lalonde,J.F.,Hoiem,D.,埃夫罗斯,匿名戒酒会Rother,C.,Winn,J.,Criminisi,A.:照片剪贴画。ACM transactions on graphics(英语:ACM transactions on graphics)(2007年)7. Tan,F.,Bernier,C.,Cohen,B. Ordonez,V.,巴恩斯,C.:在哪里和谁?自动语义感知人物组合。在:WACV中。(2018年)8. Fukui,A.,D.H.公园杨,D.,Rohrbach,A.,Darrell,T.,Rohrbach,M.:多模态紧凑双线性池的视觉问题回答和视觉接地。In:EMNLP. (2016年)9. Jegou,H.,Douze,M.,Schmid,C.:最近邻搜索的乘积量化。TPAMI(2011)10. 戈多A Almazan,J.,Revaud,J.,Larlus,D.:深度图像检索:学习图像搜索的全局表示。In:ECCV. (2016年)11. Collomosse,J.,Bui,T.,Wilber,M.,方角Jin,H.:风格素描:草图和美学背景的视觉搜索。In:ICCV. (2017年)12. 迈湖Jin,H.,林芝,方角Brandt,J.,Liu,F.:基于视觉特征合成的空间语义图像搜索。在:CVPR中。(2017年)13. Zu,J. 是的, Kr¨ahenb u¨hl,P., Shechtman,E., Efros,A. A. :用于感知合成图像中的真实感的线性模型。In:ICCV. (2015年)14. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。在:CVPR中。(2016年)15. Mikolov,T.,Chen,K.,科拉多湾Dean,J.:向量空间中词表示的有效估计。arXiv:1301.3781(2013)16. Schroff,F.,Kalenichenko,D. Philbin,J.:Facenet:用于人脸识别和聚类的统一嵌入。在:CVPR中。(2015年)17. 林,T., 我是M Belongie,S. J. 嗨,J., Perona,P., Ramanan,D. ,Dolla'r,P.,Zitnick,C.L.:Microsoft coco:上下文中的公共对象In:ECCV.(2014年)18. Everingham,M. Gool,L.J.V.,威廉姆斯,C.K.I.,Winn,J.M.,齐瑟曼,A.:pascal视觉对象类VOC的挑战。IJCV(2010)19. Zhou,B.,(1991年),中国地质大学,赵,H.,Puig,X.,Fidler,S.,Barriuso,A.Torralba,A.:通过ade20k数据集进行场景在:CVPR中。(2017年)20. Jia,Y.,Shelhamer,E.,Donahue,J.,Karayev,S.,朗JGirshick,R.B.,瓜达尔-拉马,S.,达雷尔,T.:Caffe:用于快速特征嵌入的卷积架构In:ACM MM. (2014年)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功