基于空间语义的图像搜索技术

84 浏览量更新于2023-10-15 收藏 1.42MB PDF 举报

图像检索

大规模数据集

身份认证购VIP最低享 7 折!

30元优惠券

1人水冲浪板基于文本的查询a）仅人空间语义查询b）具有空间语义约束的图像搜索人冲浪板水基于视觉特征合成的Long Mai1，Hailin Jin2，Zhe Lin2，Chen Fang2，Jonathan Brandt2，andFeng Liu11波特兰州立大学2Adobe研究1{mtlong，fliu}@ cs.pdx.com，2{hljin，zlin，cfang，jbrandt}@ adobe.com水冲浪板图1：空间语义图像搜索。(a)使用仅内容查询（例如文本关键字）进行搜索，虽然在检索相关内容时有效，但无法包含详细的空间意图。（b）空间语义图像搜索允许用户与2-D画布交互以在空间和语义上表达他们的搜索意图。摘要近年来，通过使用深度特征表示，图像检索的性能得到了极大的提高。然而，大多数现有的方法，旨在检索图像的视觉上相似或语义相关的查询，无论空间配置。在本文中，我们开发了一种空间语义图像搜索技术，使用户能够搜索图像的语义和空间的约束，通过操纵概念文本框上的二维查询画布。我们训练一个卷积神经网络来合成适当的视觉特征，从用户画布查询中捕获空间语义约束我们在训练深度神经网络时直接优化视觉特征的检索然后，这些视觉特征用于检索与用户查询在空间和语义上都相关的图像在MS-COCO和Visual Genome等大规模数据集上的实验表明，该方法在空间语义图像搜索方面优于其他基线和最先进的方法。1. 介绍图像检索是必不可少的各种应用程序，如浏览照片集[6，52]，探索大型视觉数据档案[15，16，38，43]，和网上购物[26，37]。长期以来，它一直是一个活跃的研究课题，在计算机视觉和多媒体方面有着丰富的文献[8，30，55，56，57]。近年来，深度特征学习研究的进展已经产生了有效的图像和查询表示，这些表示对于检索视觉上相似或语义上与查询相关的图像是有效的[12，14，25，53]。然而，在许多搜索场景中，例如从个人相册中回忆特定场景或为设计项目寻找合适的库存照片，用户不仅希望指示哪些视觉概念应出现在图像中，而且还希望指示这些概念应如何在空间上布置在场景内。本文提出了一种空间语义图像搜索方法，它允许用户与二维画布进行交互，以构建搜索查询。如图1（b）所示，通过操纵表示视觉概念的文本框，用户可以自然地在空间上和语义上表达他们的搜索意图。相比之下，47184719诸如文本关键字的仅内容查询虽然在检索具有相关内容的图像时有效，但不能表示这样详细的空间查询（图1（a））。开发这种空间语义图像搜索技术的主要挑战是设计适当的图像和查询表示[8，57]。传统的搜索范式通常使用基于文本或基于图像的查询，有效的特征表示已经得到了很好的研究[18，31，41，46]。然而，空间语义图像搜索的查询表示还没有得到很好的研究。空间语义图像搜索的早期研究[4，34，59]主要遵循基于示例的方法，从单独检索的视觉样本中提取低级视觉特征来表示画布查询。尽管有很好的性能，这些方法依赖于精心设计的算法的特征提取和特征匹配，这往往不能很好地推广。在本文中，我们提出了一种基于学习的方法来支持空间语义图像搜索的视觉特征合成。我们的方法不是从单独的视觉样本中手动构建特征，而是直接从2D画布上的用户查询中学习合成视觉特征具体来说，我们开发了一个卷积神经网络来合成视觉特征，同时从用户画布查询中捕获空间和语义约束。我们通过显式优化其合成视觉特征的检索性能来训练该神经网络这种学习策略允许我们的神经网络生成视觉特征，这些特征可用于有效地搜索数据库中的空间和语义相关图像。我们在MS-COCO和Visual Genome等大规模数据集上的实验表明，该方法在空间语义图像搜索方面优于其他基线和现有方法实验结果表明，该方法能够支持用户检索出与其搜索意图相匹配的图像。此外，我们的实验表明，我们的特征合成方法可以捕捉不同的视觉概念之间的关系，预测有用的视觉信息的概念，没有包括在训练中。这表明它有潜力推广到新的概念。2. 相关工作我们的工作涉及多模态图像检索研究，其中数据库和查询属于不同的模态。特征学习的进步最近为不同的模态提供了有效的特征表示，例如文本[14，31，41，42]，图像[1，2，17，18，19，45，46]，和手绘草图[47，53，58，61]，这已被证明可以大大提高检索性能。现有的大多数工作都是针对传统的图像搜索范式，其重点是检索具有相关语义内容或视觉相似性的图像。因此，所学习的表示被指定为仅语义信息或视觉信息。另一方面，本文所针对的空间语义图像搜索范式需要一种特殊类型的查询，这种查询不仅包含语义概念，而且还包含它们的空间信息。在本文中，我们提供了一个功能合成的方法来学习有效的视觉表示这样的空间语义画布查询。多模态数据表示学习的一种常见方法是学习联合嵌入，将所有模态映射到一个公共的潜在空间[3，14，31，32，50，53]。在本文中，我们遵循一种不同的方法，固定的图像特征表示，并学习从用户给定的查询合成的视觉功能的大小。这种方法可以利用完善的图像特征，例如通过预训练的深度神经网络获得的特征，这些特征忠实地保留了图像中重要的视觉和语义信息[10]。另一个优点是图像特征不受查询表示学习的影响，这有助于避免在特征合成模型改变时重新处理数据库的成本[5]。在将空间信息整合到图像搜索系统中的背景下，Zaliky等人。 [62，63]提出了可视化方法，通过根据内容相似性将检索到的图像排列到搜索页面的2D布局上来显示搜索结果。然而，这些工作的重点是可视化和浏览的问题，这些检索图像是通过基于文本的查询，没有空间信息。另一方面，我们的工作解决了一个不同的问题，并侧重于检索相对于画布查询中指定的空间和语义约束的相关图像。与我们的研究最相关的是空间语义图像搜索的现有工作[4，34，59]。这些研究大多遵循基于范例的方法。查询中的每个视觉元素的一组视觉样本是预先确定的。然后从这些样本中提取低级特征，如SIFT [36]和颜色直方图，以形成查询的视觉表示。本文提出的空间语义图像搜索框架在两个重要方面与这些方法不同。首先，我们的方法提供了一个基于模型的框架，它显式地学习一个合成模型来直接从用户查询中合成视觉特征，而不是依赖于视觉样本进行特征提取。其次，而不是手动设计的ad-hoc过程的特征计算和匹配，我们提供了一个数据驱动的方法，学习的特征合成模型从训练数据，以显式优化检索性能。近年来，卷积神经网络模型在生成图像数据方面取得了巨大成功[9，20，48]。最近的研究已经能够从不同的输入信息（如文本）4720[39，51]，属性[11，60，64]，以及来自不同意见[13，27，44]。在最近的工作中，Reed et al. [49]提出了一种方法来合成给定场景画布的图像，该场景画布类似于我们的空间语义查询。受这些图像生成研究的成功启发，本文利用卷积神经网络模型从输入语义信息中合成视觉表示。然而，与图像生成研究不同，我们的目标不是生成逼真的图像数据。相反，我们的目标是合成有用的图像搜索功能。因此，我们的模型的训练框架需要量身定制，以优化检索性能。3. 视觉特征合成我们使用卷积神经网络架构实现我们的视觉特征合成模型我们的框架首先将2-D输入画布查询表示为三维网格Q，其深度维度对应于查询中每个空间位置处出现的概念的语义向量，例如Word 2 Vec[41我们注意到，使用语义向量表示而不是one-hot- encoding替代方案可以帮助利用语义空间中的关系，并推广到更大的概念类别对应于画布中未指定区域的网格条目在合成期间，查询网格Q然后通过特征合成模型以合成用于查询的视觉特征fQ图2展示了我们的视觉特征合成框架-合成网络，我们将每查询损失函数定义为L（fQ）=wS LS（fQ）+wD LD（fQ）+wRLR（fQ）（1）其中LS、LD和LR是对指导网络学习的三个目标进行建模的三个单独的损失项（如下所述）相对损失权重wS、wD和wR分别被精确地确定为0.6、0.3、0.1，以强调特征相似性损失LS的重要性，因为它与检索性能最相关。这些超参数在我们所有的实验中都是固定的在训练期间，模型参数被迭代地更新以最小化在训练数据上累积的随机损失函数。我们的功能合成模型的最终目标是合成有用的功能，检索相关的图像给定画布查询。因此，我们显式地设计损失函数，以鼓励每个训练查询的良好检索性能。3.1.1相似性损失对于给定的训练查询Q，让IQ表示与Q相关的训练图像（这种查询图像对可以很容易地从具有可用边界框注释的图像数据集获得，例如MS-COCO [33]和VisualGenome [29]）。我们设计了相似性损失项LS，以鼓励合成的特征fQ类似于从IQ中提取的已知视觉特征fIQ。形式上，相似性损失LS被定义为：工作虽然该模型适用于具有任意数量概念的查询，但我们发现最好对网络进行LS（fQ）= 1−cos（fQ，fIQ）（2）由于两个重要原因，仅用于单概念查询。首先，多概念查询通常包含相互重叠的概念框，这导致在重叠区域的语义表示方面的歧义。此外，随着概念数量的增加，与这些概念的任何特定空间配置相匹配的可行图像的数量通常是有限的，这限制了直接用于训练多概念查询的合成模型的可用数据量。通常，当输入查询由多个概念组成时，我们首先将其表示为多个单概念子查询。然后，我们为每个子查询独立地合成视觉特征，并将它们与最大运算符结合在一起，最终形成整个查询的最终特征。我们注意到，也可以使用用于组合输入Word2Vec描述符或重叠区域处的输出特征的其他方法[23]。3.1. 模型训练令Q表示空间语义画布查询，并且fQ表示使用我们的特征从Q合成的视觉特征最小化该损失函数等价地最大化从每个查询合成的特征与从数据库中的其相关图像合成的特征之间的余弦相似性因此，这些相关图像在检索期间可能会被高度排名。然而，仅使用相似性损失来训练特征合成模型虽然相似性损失训练鼓励学习相关特征，但它不能强调有助于区分概念的区别性特征。结果，与相关概念共享一些视觉相似性的不相关概念的图像也可能被排名较高，导致噪声检索结果。我们建议通过引入两个额外的损失函数，即区分损失和排名损失来解决这个限制。3.1.2判别损失我们将区分损失函数，以encour-年龄的合成功能，不仅是相关的，但也歧视相对于查询中的概念。学习区分性特征的常用方法是训练4721Q（i，j）用户画布查询Q花空间语义表征Word2Vec（“花”）图2：画布查询表示在由三维网格Q组成的空间语义表示中，其中Q（i，j）包含出现在位置（i，j）处的概念的Word2Vec语义向量。画布的基于网格的表示然后通过卷积特征合成网络来合成查询的视觉特征fQ。特征合成网络被训练为联合最小化三个专用损失函数，以鼓励在每个训练查询的良好在学习特征fQ之上的分类模型FD。然而，与特征合成模型联合学习分类模型是有问题的，因为这种设置倾向于迫使合成特征保留大部分语义信息，而忽略有用的视觉信息。我们的想法是用实际图像特征fIQ而不是合成特征fQ来训练分类模型FD，然后使用它（具有固定权重）来计算合成模型训练期间合成特征上的分类损失因为FD是在真正的IM上训练的-年龄特征进行分类，它可以为每个概念编码有区别的视觉特征因此，使用它来指导特征合成器的训练，鼓励合成的特征捕获类似的区分特征。查询Q的判别损失函数被定义为：LD（fQ）=交叉熵（FD（fQ），cQ）（3）其中，F_D（f_Q）表示以合成特征f_Q作为输入的分类子网络F的类别预测。cQ表示查询Q中指定的概念。分类损失由分类网络训练中广泛使用的标准交叉熵目标函数来在我们的实现中，我们将分类子网络FD实现为具有4，096个神经元的全连接层，每个神经元后面都有一个ReLU激活单元。3.1.3排序损失为了进一步鼓励良好的检索性能，我们定义了一个排名损失函数，鼓励适当的排名的合成功能的图像。根据先前关于基于排名的特征学习的工作[21，53，54]，我们使用三重损失排名公式定义排名损失LR其中，FIQ<$表示来自图像IQ<$的与查询q无关的特征e。α表示排名损失的边际，根据经验确定为0.35在我们的框架中最大限度地减少这种损失，鼓励适当的排名的图像给定的合成功能的查询。3.2. 实现细节对于这里报告的所有实验，我们使用GoogLeNet网络的第四个初始模块中的特征特别是，我们使用Torch1 中实现的预训练GoogLeNet 模型。该网络在ImageNet分类任务上进行了预训练，具有1，000个我们的初步研究表明，这个功能是特别适合我们的任务，因为它可以有效地捕捉高层次的语义信息的图像，在同一时间自然地保留了大部分的空间信息。我们注意到，我们的框架是通用的，可以采用任何类型的图像特征.对于具有全连接层的网络（例如，AlexNet或VGG），我们还可以使用完全卷积结构（即网络中完全连接层下面的卷积层和池化层）来保留空间信息。我们使用卷积网络架构实现我们的特征合成模型，该架构具有3×3滤波器大小的三个卷积层，由两个步幅为2的最大池化层交织，每个层后面都有一个ReLU激活函数和批量归一化[22]。我们的网络将大小为31×31×300的画布立方体表示作为输入，把尺寸为7×7×832的特征，这是焦油的尺寸获取GoogLeNet功能层。特征图在两个中间卷积块中分别是256和512。该网络使用ADAM算法[28]进行训练，使用小批量进行100，000次迭代LR（fQ）= max（0，α−cos（fQ，fIQ）+cos（fQ，fIQ<$））（4）1https://github.com/soumith/inception.torch合成视觉特征相似性损失判别损失视觉特征合成器东凤企业股份有限公司排序损失4722我大小为17，初始学习率为0.01。为了鼓励网络在训练期间捕获空间信息，我们屏蔽了预测特征中的区域，空间-语义相关性得分：输入查询Q和检索到的数据库图像I之间的相关性被定义为：查询画布中的对象区域，损失经过训练后，我们的网络需要一毫秒来合成R（Q，I）=1Σ maxI（c（bi）=c（bj））bi（五）NVIDIA Geforce Titan X上的一次查询功能|b ∈ B|b∈Bbj∈BIbiGPU。一旦生成该功能，我们的系统可以在不到一秒钟的时间内搜索超过500万张图像。4. 实验我们在两个大规模数据集MS-COCO [33]和VisualGenome [29]的组合上评估了我们的方法。MS-COCO数据集在其训练和验证集中包含123，287张图像，为81个对象类别提供了边界框2。Visual Genome数据集包含108，077张图像，并为各种视觉概念提供边界框注释。我们结合MS-COCO和Visual Genome来获得具有179，877个图像的组合数据集，该组合数据集由大多数图像区域的边界框注释组成，不仅包括对象，还包括非对象和背景概念，例如天空，草地，海滩和水。数据集中的图像被随机划分为105，000张图像的数据库集和74，877张图像的训练集。在训练期间，通过对每个训练图像中的边界框进行采样来获得训练单概念查询Q图像本身用作对应的相关图像IQ。在不包含Q中指定的概念的图像中随机挑选不相关的图像IQ<$。原则上，我们可以应用这个过程来用数据集中所有可用的概念训练我们的模型。然而，为了确保每个概念都有足够的数据来训练，我们只对至少包含在1,000张图像中的概念进行训练查询。因此，我们使用的概念列表有269个概念，涵盖了各种类别。测试查询：我们的评估需要大量不同的测试查询集，这些测试查询集涵盖了各种各样的概念，每个查询的概念数量不同，并且概念以不同的大小出现。为了避免依赖于人类的努力，在查询集的创建，这是昂贵的，难以控制这样一个多样化的查询集，我们自动生成测试查询从图像与他们的注释边界框。我们在数据库集中随机选择5，000张图像，并从中创建测试查询。对于每个图像，我们随机采样其边界框，以获得多达六个查询，包含从一个到六个概念实例。为了避免包含许多对场景内容无关紧要的小对象，我们使用与其大小成比例的概率这个过程总共给了我们28，699个测试查询。2http://mscoco.org/3https://visualgenome.org/api/v0/网站其中，BQ和BI分别表示查询Q和图像I中的注释边界框的集合。I表示指示器函数，如果其值为真，则取值1，否则取值0。 c（bi）和c（bj）表示由框b i和bj表示的概念的语义类。该依赖性分数根据语义内容和空间配置两者评估检索到的图像与输入查询的相关4.1. 空间语义搜索性能我们将我们的方法与空间语义图像搜索的不同方法进行比较，包括基于文本的方法、具有已知图像特征的基于图像的方法以及[59]中介绍的基于示例的方法。基于文本的方法：我们使用每个数据库图像提供的注释，根据查询中指定的概念数量对图像进行排名。在图像中，无论其位置如何。基于图像的方法：该方法用从示例图像中提取的已知图像特征来表示每个查询。我们考虑一种类似于Oracle的方法，其中选择用于表示每个测试查询的图像是用来生成该查询的地面实况。这就形成了一个强基线，因为每个查询的特征都是从保证与查询高度相关的图像中获得的。特别地，我们考虑两种类型的特征：在GoogLeNet的第四个初始卷积层提取的GNet-Conv特征（类似于我们的模型中使用的特征）和在分类之前的层提取的GNet-1024特征，这形成了一个具有1024维的特征向量。基于范例的方法[59]：我们也用Xu等人进行了实验。’s approach [首先应用为查询中的每个概念选择6个样本，从这些样本中构造视觉特征并用于搜索数据库图像。[59]中的原始框架采用低级视觉特征，如SIFT和局部颜色直方图进行特征提取。在这个实验中，我们还考虑了一个变体，其中低级特征被从GoogLeNet卷积层的输出中获得的局部特征替换。我们根据在学习排名和信息检索的背景下广泛使用的三个标准度量来归一化贴现累积增益（NDCG）：NDCG是最常用的评估指标之一Q4723天空山人水D窗口壁床图3：空间语义图像搜索的视觉特征合成。给定用户提供的画布查询描述空间语义约束，我们使用我们的特征合成模型来合成画布查询的视觉特征。合成特征用于搜索数据库图像视觉特征，以检索在语义和空间上与查询相关的图像。0.40.30.20.1我们的（全部）我们的（LS+LD）我们的（LS）GNet-ConvGNet-1024文本徐，2010Xu，2010（GNet）top-k检索结果。我们计算每个查询的NDCG质量，并在所有测试查询中取其平均值，以获得整体性能。根据先前的工作[34，59]，我们计算不同k值的NDCG质量以获得NDCG曲线。平均精度（mAP）：在检索结果中的每个秩位置，精度和召回率值为0 20406080100 120 140 160 180200根据所述空间-语义相关性分数计算0.30.250.20.150.10.0500.30.20.10检索到的图像数（k）(a) 归一化贴现累积增益（NDCG）n0 20 40 60 80 100 120 140 160 180200检索到的图像数（k）(b) 平均精密度（mAP）（等式5）通过用阈值T（我们使用T=0. 3在我们的实验）。平均精确度是精确度-召回率曲线下的面积。总体平均精度（mAP）是通过累积所有测试查询的平均精度值来计算的。斯皮尔曼等级相关性：对于每个查询，我们使用等式5中定义的相关性得分获得所有数据库图像的地面实况排名。然后，可以通过根据查询的合成特征和数据库图像特征之间的余弦相似性获得的地面实况排名和预测排名之间的斯皮尔曼排名相关性[35，40图4比较了不同方法的空间语义检索性能。正如预期的那样，基于文本的方法并没有很好地完成这项任务，因为它不能考虑到空间信息。通过从相关范例中构建视觉特征并捕获空间信息，基于范例的方法[59]可以GNet-Conv GNet-1024文本Xu，2010（GNet）Xu，2010 Ours（LS）Ours（LS+ L）Ours（All）相比之下，基于文本的方法。利用来自(c) Spearman秩相关图4：空间语义图像搜索性能。评估信息检索系统[7，24]。NDCG测量由GoogLeNet可以进一步提高性能。基于图像的方法表现出良好的性能，因为它使用来自地面实况图像的已知图像特征结果表明，所提取秩相关NDCG地图我们的（全部）我们的（LS+ LD）我们的（LS）GNet-Co vGNET-1024Te XT徐，20岁10（全球网络）徐，20104724来自卷积层的比来自后面的层的表现更好。这是由于空间信息保留在这一层，使其更适合我们的目标任务的空间语义图像搜索。我们的方法在考虑排名靠前的搜索结果时对已知的图像特征进行搜索，并且在考虑较长的排名列表时逐渐优于图像特征。从GoogLeNet等深度网络中提取的特征可以忠实地描述-6004002000 12 3 45用户得分真实图像中的视觉和语义信息这有助于检索高度相关的图像。然而，随着更多的图像被考虑，具有高视觉相似性但空间和语义相关性较低的图像也可以被排名高。我们的方法显式地学习的空间语义检索任务的特征合成模型，并优于其他方法，根据所有的评价metrics。结果还表明，在我们的框架中不同的损失函数的影响。消除区分性损失有助于合成更具区分性的特征，与仅使用相似性损失相比，这提高了性能。当应用所有三个损失函数时，性能进一步改善。图1和图3显示了我们的方法的检索结果，例如具有不同概念和配置的查询。4.2. 主观评价除了基于客观的相关性分数和自动生成的测试查询的定量评估，我们还调查了我们的方法对人类用户构建的查询的性能，通过用户研究，让参与者创建自己的空间语义查询，并对检索结果的相关性进行评级。在我们的研究中，我们招募了14名参与者。每个参与者被要求执行六个搜索会话。在每个会话中，我们让参与者为她想要搜索的特定目标场景构建查询画布，然后对我们的方法返回的搜索结果的相关性以及两个基线方法进行评级，包括基于文本的基线和基于示例的基线与GoogLeNet功能。如果没有特定的内容，我们发现用户很难想象一个现实的场景，可以找到相关的图像，特别是当数据库不是太大。因此，在查询构造阶段，我们用从MS-COCO标题集获得的标题提示每个参与者。该标题作为一个提示，帮助参与者轻松地想象一个现实的场景，同时安排空间查询，因为他们想要的。我们将随机选择的提示字幕限制为最多15个单词长并且包含269个训练概念中的至少一个概念。在构建每个查询之后，用户会看到所有三种算法检索到的前20个搜索结果，以随机顺序呈现。用户从1到5图5：我们的空间语义图像搜索方法获得了显著更多的高分搜索结果，这表明它能够检索在语义和空间上都满足用户意图的结果。0.50.40.30.20.10图6：我们的模型在未经训练的概念上的性能，虽然低于用所有概念训练的模型，但总体上与地面实况图像特征相当或更好，这表明我们甚至可以为未经训练的概念合成有用的特征。(with 5是最高相关性），指示其与用户意图的相关程度。图5描绘了每个算法的相关性得分值的直方图。结果表明，我们的空间语义图像搜索方法获得了显着更多的搜索结果与高相关性分数，这反映了它的能力，检索相关的图像，满足用户的意图，语义和空间。4.3. 对新概念的概括我们的特征合成模型使用空间和语义标记的数据学习从每个视觉概念到相应视觉特征的转换。因此，它依赖于训练数据中概念的可用性。在本节中，我们将研究我们的模型在给定迄今未见的概念时的图7提供了具有未训练概念的查询的示例。在这种情况下，概念蝴蝶不是用于训练模型的概念列表的一部分。实例表明，该方法能够利用从相关训练概念中学习到的知识，综合有用的特征来检索相关图像。请注意，虽然我们的模型从未使用蝴蝶概念进行过训练，但它可以在一定程度上利用从语义学中学习到的特征。我们基于文本的Xu，2010Ours（接受过所有概念的培训）我们的（训练w/o遗漏的概念）GT图像特征（GoogLeNet-Conv）图像数量秩相关4725花蝴蝶未训练的概念蝴蝶相关训练概念的搜索结果：花鸟图7：未训练的概念蝴蝶可以被相关概念捕获，如鸟和花，它们在语义Word2V ec空间中相似因此，该模型可以从这两个概念中合成有用的特征，以检索顶部列表中的几个蝴蝶图像（用绿色框标记）。在词2动词的语义空间中，花、鸟等与蝴蝶关系密切的概念。利用合成的特征，对几幅蝴蝶图像进行了检索.另一方面，直接用训练过的概念flower和bird进行搜索（图7），返回的结果大多不同这表明我们的模型可以结合来自多个训练概念的知识来表示新的概念，而不仅仅是从最接近的训练概念中复制特征。为了进一步研究我们的模型在未经训练的概念上的表现，我们从原始概念列表中随机删除了10个选定的概念。然后，我们从剩余的集合中训练我们的特征合成模型，并对包含遗漏概念的查询进行测试。图6比较了三种方法的等级相关性：我们的原始特征合成模型使用所有概念进行训练，我们的模型在没有10个遗漏概念的情况下进行训练，以及基于图像的方法使用地面实况GoogLeNet特征。结果表明，我们的模型在未经训练的概念上的性能虽然低于使用所有概念训练的模型，但大多与地面实况图像特征相当或更好，这表明我们甚至可以为未经训练的概念合成有用的视觉信息。5. 结论本文提出了一种数据驱动的空间语义图像搜索方法，该方法使用基于卷积神经网络的视觉特征合成模型直接从用户画布查询中学习合成视觉特征。设计了一个具有三个损失函数的训练框架来训练特征合成模型，以优化视觉特征空间中在 MS-COCO 和 VisualGenome数据集上的实验表明，该方法可以从查询中学习到有效的表示，与其他基线和最先进的方法相比，提高了检索性能。通过显式地学习从空间语义表示到视觉表示的映射，我们的模型可以利用语义空间中的关系，从而可以推广到新的概念。在未来的工作中，我们计划增加我们目前的框架与额外的信息，如高层次的属性和手绘草图，允许更细粒度的搜索和细化。致谢。这项工作是在第一作者在Adobe Research实习这项工作得到了NSF IIS-1321119的部分支持。鸟4726引用[1] A. Babenko和V. S. Lempitsky聚合局部深度特征用于图像检索。 IEEEInternational Conference on ComputerVision，2015年。2[2] A. Babenko、A. Slesarev，A. Chigorin和V. S. Lempitsky图像检索的神经代码。2014年欧洲计算机视觉会议。2[3] S. Bell和K.巴拉用卷积神经网络学习产品设计的视觉相似性。ACM Trans.Graph. ，34（4），2015年7月。2[4] Y. Cao，H. Wang，C. Wang， Z.利湖，澳-地Zhang和L.张某Mindfinder：基于草图的交互式图像搜索。ACM多媒体国际会议，2010年。2[5] F. 卡拉拉A。Esuli，T. Fagni、F. Falchi和A. M. 弗恩·安德兹。在你的脑海中想象一下：从文本描述生成高级视觉表示。CoRR，abs/1606.07287，2016。2[6] S. H. Cooray和N. E.奥康纳增强个人照片管理应用程序的数据库与专家系统应用国际研讨会，2009年。1[7] B. Croft，D. Metzler和T.斯特罗曼搜索引擎：实践中的信息检索. Addison-Wesley出版公司，第1版，2009年。6[8] R.达塔D. Joshi，J. Li，and J. Z.王.图像检索：新时代的思想、影响和趋势。ACM计算监视器，40（2），2008年5月。一、二[9] E. L. Denton，S. Chintala、A. Szlam和R.费格斯。使用对抗网络的拉普拉斯金字塔的深度生成图像模型神经信息处理系统的进展，第1486-1494页，2015年2[10] J. Dong，X. Li和C. G. M.斯诺克Word2visualvec：基于视觉特征预测的跨媒体检索。CoRR，abs/1604.06838，2016。2[11] A.多索维茨基T. Springenberg和T.布洛克斯学习用卷积神经网络生成椅子。IEEE计算机视觉与模式识别会议，2015年。3[12] H. Fang，S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说，P. Dollr，J. Gao、X.他，M。米切尔，J。C.普拉特角L.Zit-nick和G.茨威格从标题到视觉概念再到后面。IEEE计算机视觉和模式识别会议，2015。1[13] J. Flynn，I. Neulander，J. Philbin和N.很聪明深立体声：学习从世界的图像中预测新的观点。2016年在IEEE计算机视觉和模式识别。3[14] A. 弗罗姆， G 。 S. Corrado ， J.Shlens ， S.Bengio ，J.Dean，M.A. Ranzato和T.米科洛夫Devise：一个深度视觉语义嵌入模型。神经信息处理系统进展26，第2121-2129页。2013. 一、二[15] E. D. Gelasca，J.D. Guzman，S.Gauglitz，P.Ghosh，J.许、E. Moxley ， A. M. Rahimi ， Z. Bi 和 B. S. 曼朱纳特Cortina：搜索1000万+图像数据库。技术报告，2007年。1[16] P. Ghosh，S.安塔尼湖R. Long和G. R.托马斯医学图像检索系统的回顾与发展趋势。在基于计算机的医疗系统国际研讨会上，2011年。1[17] A. Gordo，J. Alma za'n，N. Murra y和F. 佩罗宁LEWIS：词汇图像及其语义的潜在嵌入。IEEE国际计算机视觉会议，2015。2[18] A. Gordo，J. Almaz a'n，J. R ev aud和D. 拉勒斯深度图像检索：学习图像搜索的全局表示。2016年欧洲计算机视觉会议2[19] A. Gordo，A. Gaidon和F.佩罗宁深海捕鱼：深网的梯度特征。在2015年英国机器视觉会议上。2[20] K. 格雷戈尔I. 丹妮赫卡A. 格拉夫D. Rezkirk，以及D.维尔斯特拉画图：一个用于图像生成的递归神经网络. 国际机器学习会议，第1462-1471页。JMLR研讨会和会议记录，2015年。2[21] E. Hoffer和N.艾伦使用三重网络的深度度量学习。基于相似性的模式识别国际研讨会，2015年。4[22] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。第32届国际机器学习会议论文集，2015年。4[23] M. Jain，J. C. van Gemert，T. Mensink和C. G. M. 斯诺克目标2行动：分类和本地化的行动没有任何视频的例子。在IEEE计算机视觉国际会议上，2015年12月。3[24] K. J a？velin和J. 我来了。基于累积增益的红外技术评价 ACM Trans. INF. 系统，20（4）：4222002年10月。6[25] L.姜世- I. Yu，D.孟氏Y. Yang，T. 三田村，A. G. 豪普特曼在1亿个互联网视频中进行快速准确的基于内容的2015年国际多媒体会议。1[26] Y. Jing 、 D. Liu ， L. Kislyuk ， A. Zhai ， J. Xu ， J.Donahue 和 S. 塔维尔 Pinterest 上的视觉搜索在 ACMInternational Conference on Knowledge Discovery andData Mining，第1889-1898页，2015年。1[27] N. K. Kalantari，T.- C. Wang和R. Ramamoorthi基于学习的光场相机视图合成。 ACM事务处理图表193：1-193：10，Nov. 2016. 3[28] D. P. Kingma 和J. BA. Adam ：随机最佳化的方法。CoRR，abs/1412.6980，2014。4[29] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma，M.Bernstein和L.飞飞可视化基因组：使用众包密集图像注释连接语言和视觉。2016. 三、五[30] M. S. Lew，N.塞贝角Djeraba和R.贾恩。基于内容的多媒体信息检索：最先进的技术和挑战。ACM Trans.Multimedia Comput. Commun. Appl. ，2（1），2006. 1[31] X. Li，S.廖，W.兰，X. Du和G.杨基于层次语义嵌入的零镜头图像标注。国际ACM信息检索，第879-882页，2015年。24727[32] Y. Li，H.苏C. R. Qi，N. Fish，D. Cohen-Or和L.吉巴斯联合嵌入的形状和图像通过cnn图像净化。ACM事务处理图表，34（6），Oct. 2015. 2[33] T.林，M。迈尔，S。J. Belongie，J. Hays，P. Perona，D. Ra-manan ， P.Doll a'r 和 C. L. 齐特尼克MicrosoftCOCO：上下文中的常见对象.在2014年欧洲计算机视觉会议上。三、五[34] C. Liu，L. Wang，X. Liu，C.王湖，加-地Zhang和B. 张某基于语义草图的特定图像检索。IEEEInternationalConference on Multimedia and Expo，2010。二、六[35] T.- Y. 刘某学习为信息检索排序 Found.趋势信息Retr. ，3（3）：2252009年6[36] D. G.洛从尺度不变的关键点中提取独特的图像特征。国际计算机Vision，60（2）：91-110，Nov. 2004年2[37] C. Lynch，K. Aryafar和J.阿滕伯格图片不会说谎：将深度视觉语义特征转移到大规模多模态学习中进行排名。在知识发现和数据挖掘国际会议上，第541-548页1[38] S. Lyu，D. Rockmore和H.法里德艺术品鉴定的数字技术。美国国家科学院院刊，101（49），2004年。1[39] E. Mansimov，E.帕里索托湖J. Ba和R. Salakhutdi- nov.从字幕中生成具有注意力的图像 CoRR ，abs/1511.02793，2015年。3[40] M.梅鲁奇论情报检索评价中的等级相关性。SIGIRForum，41（1）：18-33，June 2007. 6[41] T. 米科洛夫岛 Sutskever，K. Chen，G. S. 科拉多，还有J·迪恩单词和短语的分布式表示及其组合性。神经信息处理系统进展26，第3111-3119页。2013. 二、三[42] M.诺鲁齐T.米科洛夫，S。本焦湾Singer，J. 史伦斯A.弗罗姆，G。S. Corrado，J。Dean.基于语义嵌入凸组合的零镜头学习。见ICLR，2014年。2[43] M. C. Oliveira，W. Cirne，和P. M.阿泽维多·马奎斯。在临床常规中应用基于内容的图像检索。未来一代Comput.系统，23（3）：466 1[44] D. Pathak，P. Kr aehenbuhl，J. 多纳休，T. Darrell和A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。2016年在IEEE计算机视觉和模式识别会议上发表。3[45] M. Paulin ， M. Douze ， Z. Harchaoui ， J. Mairal ， F.Perronnin和C.施密特用于图像检索的非监督训练的局部卷积特征。IEEE国际计算机视觉会议，2015。2[46] M.作者：J. Douze，Z. H

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于空间语义的图像搜索技术

基于语义的图像检索论文

基于颜色空间的图像检索技术

基于深度学习的遥感图像语义分割

基于地质图语义检索系统研究

基于深度学习的 RGBD 图像语义分割算法研究国内外研究现状时间线

基于深度学习的 RGBD 图像语义分割算法研究研究现状

如何将图像、文本特征映射到统一语义哈希空间？

基于语义分割模型进行待分割图像分割的过程是怎样的

具体来说有哪些模型是基于swin transformer来做语义分割的

图像语义分割 深度学习

基于matlab的语义分割_U-Net：基于小样本的高精度医学影像语义分割模型

深度学习的RGBD图像语义分割基本知识

基于子空间学习的方法的定义

基于transformer的图像分类

语义分割算法发展脉络

无监督予语义分割模型

语义分割研究历史和现状

基于CNN的空间特征提取

霹雳巴拉wz学习笔记语义分割

基于神经网络的图像检索方法的研究现状??csdn

最新资源

图像语义分割深度学习