利用对象间空间关系的图像检索方法

59 浏览量更新于2023-12-04 收藏 704KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

利用对象间空间关系的图像表示与检索达尼洛·努内斯·莱昂纳多·安乔莱托·费雷拉保罗·爱德华多·桑托斯CentroUniversita'riodaFEISaBarceloBernardodoCampo，巴西nunesdanilo@gmail.com，{psantos，laferreira}@fei.edu.br摘要本文针对基于内容的图像检索中存在的低层信息与高层知识（称为语义间隙）的融合问题，提出了一种利用空间关系描述图像的方法所提出的方法被称为使用区域分析的图像检索（IRRA），并依赖于将图像分解为对象对。该方法生成由n个三元组组成的表示，每个三元组包含：一个名词、一个介词和另一个名词。这种表示铺平了道路，使图像检索的基础上的空间关系。室内/室外分类器的结果表明，单独的神经网络能够实现88%的准确率和召回率，但当与本体相结合时，该结果增加了10个百分点，达到98%的准确率和召回率。1引言在这项工作中，我们研究了空间关系在图像检索问题中的应用。图像中存在的语义的表示问题近年来受到了极大的关注。数值方法（低级）不能完全集成语义（高级），因为语义内容可能由定性概念构成。将低级信息与高级知识相结合的挑战是计算机视觉中的一个已知问题，通常被称为语义鸿沟。在这项工作中，一个多层次的方法，称为图像检索使用区域分析（IRRA），提出了检索图像的语义从自底向上的知识表示过程。这里提出的方法ensem- bles一堆不同的神经网络，以估计空间关系，表示的空间介词对对象之间。这个过程允许通过所描绘的对象和它们之间的关系来表示图像。因此，考虑到这些对象及其关系，构建稀疏表示图像索引的基础上，这种稀疏表示，以便能够快速检索。最后，我们用这些数据扩展了一个公共本体，以便推断出新的关系，版权归作者所有以 . 马丁， K.Hinkelmann ， A.Gerber ，D.Lenat ， F.van Harmelen ， P.Clark （ Eds. ）， AAAI 2019Spring Symposium on Combining Machine Learn（AAAI2019春季研讨会）亚当·皮斯印孚瑟斯，美国加利福尼亚州帕洛阿尔托山麓研究中心adam.infosys.com原始的二元关系。这种表示使检索图像的查询的基础上，相对于空间的安排。为了语义地解释图像，有必要：定义上下文，检测对象，定义一些相似性度量，最后，应用一些知识表示方法（Wan et al.2014年）。我们可以将所提出的框架分为两个不同的步骤：定量分析，与低层次的信息处理有关，定性分析，代表高层次的知识表示。定量分析使用分类器的层次来解决语义空缺问题我们代表了语义学建立一个自上而下的方法，其中包含一个特定的分类器，用于以下每个任务：场景识别，对象分割和介词估计。所提出的方法将图像分解成场景，然后对于每个场景，它分割相关对象;给定一对这些对象，该方法估计空间介词，是的。定性分析建立在建议的上合并本体（ SUMO ） 1（Niles和Pease 2001; Pease 2011）之上，并利用在定量阶段获得的数据构建，即，场景、物体和介词。这种表示包含了不同的分割对象和它们的关系，由一个空间介词表示。为了评估的目的，所提出的方法被应用到图像检索任务。实验结果表明，该方法在基于空间关系的图像检索方面优于现有的方法。结果还表明，与单独使用神经网络分类器相比，将神经网络（工作在低级信息）与对象本体（表示高级知识）相结合，分类任务得到了很大的改进2相关工作检索图像的最常见方法之一是被称为示例查询的范例视觉词袋（BOVW）是一种广泛用于图像检索的方法。BOVW提取局部特征，并且相对于稀疏表示，执行图像检索（Philbin、Sivic和Zisserman 2008）。BOVW-与知识工程（AAAI-MAKE 2019）。斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日第1www.ontologyportal.org的技术检索图像的视觉相似性。然而，检索任务并不考虑所寻求的信息的含义（或语义），因为它完全基于数值分析。一方面，图像的表示方式对于快速检索图像至关重要。另一方面，一个图像可能包含的语义与其构造的表示之间的关系很差（Hudelot，Atif和Bloch 2008）。表示图像中表达的语义的一种可能方式是通过遵循（Hare等人，2006）中描述的步骤提取和描述感兴趣的特征，执行对象分割，并创建图像中检测到的区域的高级考虑到图像中的非结构化区域，目标是为它们中的每一个分配不同的标签。许多方法集中于标记图像中的区域。为了命名一些最相关的，我们可以参考基于条件随机场（CRF）（Gould，Fulton和Koller 2009），基于深度神经网络（NN）（Socher等人2011）或卷积神经网络（CNN）（Gir- shick等人2011）的方法。2014），CRF和CNN的组合也被应用于该任务（Zheng et al.2015年）的报告。然而，这些方法，不考虑图像中的对象之间的关系，在本文中考虑。值得注意的是，为了减少语义差距，重要的是要表示对象之间的空间关系，因为这些关系比对象识别本身更少受到视点变化的影响（Bloch，Hudelot，andAtif 2007）。一些工作已经调查了包括高层次的知识集中在图像分析中的空间关系。例如，我们可以引用（Bloch，Hudelot，and Atif 2007）和（Hudelot，Atif，and Bloch 2008）的工作。它们都建立了高层次的假设，以加强低层次的处理。最近，我们参考了（Lu et al. 2016）和（Dai，Zhang，and Lin 2017），两者都基于一组不同的预测项建立了图像中对象之间的关系。类似地，（Malinowski和Fritz 2014）通过使用基于图像中对象之间的空间关系构建的查询来关注图像检索，并且（Mai等人，2017）基于示例输入图像的空间排列来检索图像。在本文中，我们提出了一个新的范式，结合定量处理和定性分析，端到端体系结构中SIS。为了建立空间关系，有必要定义一个参考系。例如，考虑到关系x在y的前面，应该定义三个概念：目标对象，参考对象和参考系统（Hudelot，Atif和Bloch2008）。参照系统一般从观察者的角度（相对或绝对）或根据关系的使用方式进行分类：内在的，外在的这项工作使用内在的关系，它指定一个观察者的角度下的关系。重要的是要强调，这些关系在时间上不是恒定的，也可以改变它们的地位，相对于所采用的观点。目前的工作使用的空间关系定义的一般本体，以完成自动提取的语义内容存在于图像中。有不同的定义的本体论发现在文学-erature（Sankat，Thakur和Jaloree 2016）。在这项工作中，本体被理解为（LehmannandV？ el ker2014），它将本体定义为一种形式化的知识表示，可能局限于也可能不局限于特定的领域。这种表示方式可以通过计算过程来理解（Sankat，Thakur和Jaloree 2016）。本体可以被称为关于感兴趣领域的常识性知识，并且可以通过：概念、概念之间的关系、功能和实例来表示。在这项工作中使用的建议向上合并本体（SUMO），扩展了这些概念与公理在高阶逻辑，试图定义每个概念。3使用区域分析的（伊朗伊斯兰共和国）在这项工作中，我们解决了图像检索中的语义差距的问题，通过表示图像中存在的对象之间的空间关系本身。我们的目标是将从像素级获得的信息（定量分析）与专家提供的信息（定性分析）相结合，在这项工作中，专家知识被在这项工作中提出的方法被称为图像检索使用区域分析（IRRA），并在图1中总结。考虑到输入图像，IRRA应用神经网络来分割图像中的对象，这些对象进一步组合成对象对。在序列中，对于每一对，估计它们之间的介词因此，我们将图像分解成包含对象对和空间介词的n元组。因此，这些n-三元组部分3.1较详细地描述了IRRA的定量分析。图1：IRRA方法数值分析阶段概述。3.1定量分析定量分析的拟定管道如下：1. 确定插入对象的上下文;2. 检测图像中每个物体所占据的区域;3. 将检测到的对象成对组合;2Ix4. 估计每个检测到的对象对的空间关系为了执行所有这些任务，应用了我们应用三种不同的神经网络来分层检测上下文，对象和空间关系。上下文识别：应用第一个神经网络以估计上下文。在这项工作中，上下文被理解为图像所属的场景类。本工作中使用了两个场景类：室内和室外。我们创建了一个模型，其架构与 AlexNet （ Krizhevsky ，Sutskever和Hinton 2012）中描述的架构相同，以便执行此分类。该步骤的目的是减少目标对象的数量，排除与场景不一致的对象;例如，建筑物和汽车等对象将不会成为室内模型分割的一部分。对象分割：对象（语义）分割是在图像中表示高级信息的第二步这项任务具有挑战性，因为我们希望对图像进行像素分类;此外，对象识别取决于对象所处的上下文。在这项工作中执行语义分割的神经网络具有相同的架构，尽管每个神经网络都有自己的权重集它们之间的主要区别在于它们用于构造模型的目标类。分割神经网络为图像中的每个像素生成一组类别建议。此外，相似的像素被分组在一起以表示对象。在这项工作中，我们专注于分配这些分割对象对之间的空间关系。为了定义一个空间区域，我们映射成对的检测到的对象，旨在建立一个表示，可以表示在拓扑术语。然后，使用另一个神经网络从先前的（拓扑）分类估计空间介词。阳离子每个图像I x生成C Ix =。nx，其中nIx为了表示通过图像的数值分析获得的知识，我们选择扩展现有的本体：SUMO（Pease 2011）。SUMO（Suggested Upper Merged Ontology）被采用是因为它是建立在高阶逻辑上的，因此它提供了创建复杂结构的灵活性，而不限于二元关系。表示知识的第一步是创建域的实例。在这项工作中，每个检测到的对象被认为是一个独特的和独立的实例。考虑具有检测到的目标Building、Floor和Sky的示例图像Ix，在该工作中，这些项中的每一个由对应于原始图像的后缀标识，在这种情况下为x。因此，术语Building被Buildingx引用，以此类推。公式1显示了实例定义。（在建筑物x建筑物）（在楼层x楼层）（i n s t a n c eSkyx Sky）公式1：所有图像和检测到的对象都以类似的方式表示。我们的框架的下一步是构建不同对象之间的空间关系。为了将这些关系映射到分割的对象对，我们考虑了由统计分类器估计的介词。最后，我们的介词域包含以下关系： above、 across from、 behind、 below、in 、 infront of、inside of、left of、on、right of和under。通过使用现成的本体，这些关系的介词表示的表示被简化。在这项工作中，只有一个准时的延长相扑是必要的。标准的SUMO本体提供了定义是针对图像Ix检测到的对象的数量，并且CIx是成对的nIx介词估计：创建CIx的稀疏表示，并将其作为输入提供给神经网络，该神经网络的任务是将英语介词分配给图像。重要的是要注意，对象信息在这一点上是至关重要的，以消除多个（可能的）分配。此外，这种稀疏表示提供了关于一对对象的空间拓扑的概念。最后，与估计的空间介词组合的该稀疏向量使得能够创建可以用结构化查询访问的索引，以便检索相关图像。这一指数类似于BOVW（Csurka等人，2004年）申请所使用的指数。因此，图像可以被检索给定的特征，在这种情况下，是一个空间关系。3.2定性分析知识表示是相对于图像中所识别的结构的空间布置而建立的空间关系的解释有助于减少图像中的语义差距，因为关系往往比它们的论点中的对象更少受到变化的影响（Hudelot，Atif和Bloch 2008）。空间关系。为了定义空间关系，SUMO需要创建PositionalAttribute类的实例。这个类允许声明两个对象之间的二进制方向关系。此外，重要的是要提到，关于空间关系的语义可以由多个介词来表达，此外，不同的介词可能是相似的或互补的。例如，两个不同的对象可以通过以下介词来引用：在前或在后，根据上下文和观察者这个特性允许我们使用双蕴涵算子=>来表示这两种关系。因此，可以根据后面的介词来定义前面的介词，或者反之亦然。该定义在公式2中示出。值得指出的是，虽然前面或后面都是相对于观察者而言的，但本文假设观察者是摄像机的视点，因此，它是隐含在定义中的。（=>（or i e n t a t i o n ？X1 ？X2 后面）（或者我不是我？X2？公式2：在后面和前面的双重含义⟨⟩∩∅表1：场景分类的查全率场景精确回忆N室内户外0.860.880.840.901,8292,439整体0.870.874,268根据空间介词的性质，这一过程也适用于其他关系，如under和above或left of和right of。此外，关系的传递性也在可能的情况下用于此上下文。例如，我们可以推断，如果有一个物体a在一个物体b上面，而b在第三个物体c上面，那么a在c上面。总之，通过定量的方法，定性信息方面的领域推断。在下一节所述的测试中评价了该程序的影响4个实验本节详细介绍了为评估所提出的方法而执行的实验。为了进行实验，公开可用的数据集SUN09（Choi etal.2010年）使用。该数据集由12，000多幅图像组成，其中为了进行测试，使用了SUN 09的两个注释数据集。首先，使用由（Lan等人，2012）提供的数据集（数据集1），其包含以结构化查询（名词、介词、名词）的形式表示下面和上面两个关系的注释。第二，考虑在（Malinowski和Fritz 2014）（数据集2）中提供的注释，其包括十一（11）个不同的介词类：上面、从对面、后面、下面、里面、前面、里面、左边、右边、上面和下面。类为87%，证明适用于该任务的方法。如上所述，场景识别提供信息以细化对象分割过程，其结果如下所示。4.2对象分割在系统评估的这一部分中，我们研究了场景识别（第4.1节）提供的信息是否改善了分割的假设。根据这一前提，我们已经手动分离了室内和室外的对象。室内物品有：扶手椅、篮子、书柜、书、瓶子、盒子、椅子、壁橱、杯子板、窗帘、书桌、地板、花、地面、镜子、植物、海报、冰箱、座椅、桌子、花瓶、墙壁和窗户. 室外物体有：飞机、阳台、长凳、建筑物、汽车、门、栅栏、大门、草地、小路、道路、岩石、标志、天空、路灯、树、货车、水。根据检测到的每个场景类，我们应用一个或其他分割模型（即，一个用室内对象训练，另一个用室外对象训练）。本实验中应用的语义分割模型使用（Zhou等人，2016）提供的权重进行微调对象分割结果如表2所示。表2显示了数据集2中的所有对象。在最左边的列中是对象所属的场景类。第二列，从左到右，是表示对象的名词。以下两列表示交集对并集（IoU）（Jaccard1912），考虑使用上下文信息或不使用上下文信息的对象识别（列考虑场景中给定对象的标记区域AL和由神经网络分割产生的分割区域AS，Inter-section overUnion是AS和AL的交集与区域之间的并集之间的比率，如等式1所示。总共有4，367张图像用于训练，4，317张图像用于图片测试在这些数据集中，IoU=ASLASAL（一）培训对象173,111人，因此，当神经网络分段完全相同时，考虑数据集1的不同对象和考虑数据集2的42。表2：联合上的交叉点。当分割区域A S与标签区域A L完全不同时（A S AS=），则IoU=0。对于任何情况-当分割区域与标记区域重叠时，场景交点超过并集%（ASAS）但不相等，0IoU1。<<没有上下文户外24.1118.60室内16.5714.07平均22.6618.674.1场景分类本提案的场景分类部分（识别我们用作上下文的内容：室内或室外场景）使用数据集2进行评估，其中手动注释用于训练和评估目的。这种二进制分类的结果如表1所示，其中我们可以看到，每个所考虑的结果表明，使用上下文信息的分类总体上具有更高的IoU值（在表2中的行然而，存在使用场景类信息没有改善结果的各种情况（诸如与扶手椅或长凳相关的结果），这是由于这样的对象出现在（室内和室外）场景两者中的事实而发生的。因此，在这些情况下，假设场景类导致训练阶段某些对象的示例数量减少。4.3基于分割和本体的场景分类利用上一节中介绍的对象分割神经网络，.对于图像I和分割对象NII，测试，其中我们结合了低级别的信息，表3：对象场景中的高级信息由描述提供，相扑中的物体对于该分类器，在SUMO中将第4.2节中呈现的每个对象描述为具有三种可能的类别之一：室内（例如，扶手椅），户外（例如，天空）或两者（对于既在室内又在室外的对象，例如，椅子）。对象类的完整列表和相应的SUMO注释如表3所示使用与第4.2节中使用的相同的分割方法，对每个场景中识别的对象进行计数，并且将存在最高数量的对象的类别视为场景类别（例如，具有2个室内对象、1个室外对象和1个两者的场景被认为是室内场景）。室内和室外物体数量相等的场景被归类为两者。在这种情况下，使用对象等级以考虑对象相对于场景分类的相关性。例如，包含对象“天空”的场景我们认为以下户外对象的级别高于域中的任何其他对象：建筑物、天空、标志、围栏、草地、道路。低级别和高级别分类的组合所获得的结果如表4所示，其中我们获得了超过98%的精确度和召回率。相对于没有本体的分类器（其结果在表1中示出）提高在这个实验中使用的4，268个场景中，有44个场景不能被归类为三个类别中的任何一个，因为它们不包含任何物体，或者只包含一个在两个类别中都被识别的物体。表4中未说明这些情况。4.4介词赋值将介词分配给图像中的一对对象的主要困难是术语的常见重叠，即，每个空间关系都有几个可能的（一致的）介词作为-为了解决这个问题，在给介词赋值之前，先对宾语对之间的拓扑关系进行分类，作为介词定义的桥梁。在我们的实验中，数据集中的每个图像都被转换成一个表示，其中包含：（目标对象，参考对象）。该表示如图2所示，图2a表示原始图像，图2b表示对象掩模。重要的是要提到的事实是，对象的颜色表示目标对象（蓝色）和参考对象（红色）。数据集中的每幅图像都被分割并与其相关对象相结合，生成一个组合NIxx2为了形象。从CIX生成的每个图像都是一流的-根据与所指对象和目标对象有关的空间介词来划分。在这个测试中，我们使用了包含11个空间介词的数据集2。2在这个实验中，一个窗口被认为是一个单一的对象，因此在它的轮廓内没有其他对象可以被感知。Object Class SUMO AnnotationBackground Both（subclass BackgroundBoth）飞机室外（subclass飞机室外）扶手椅室内（subclass扶手椅室内）阳台室外（subclass阳台室外）篮子室内（subclass篮子室内）室内书柜（室内书柜）室内书柜（室内书柜）室内书柜（书柜）室内书柜室内书柜）室内书柜（书柜）室内书柜）室内书柜（书柜室内书柜）室内书柜室内Door Both（subclass Door Both）Fence Outdoor（subclass Fence Outdoor）Floor Indoor（subclassFloor Indoor）Flower Both（subclass FlowerBoth）Gate Both（subclass Gate Both）GrassOutdoor（subclass Grass Outdoor）地面室外（子类地面室外）室内镜子（子类室内镜子）室外路径（子类室外路径）室内海报（subclass Poster Indoor）室内海报（subclass Poster Indoor）室内冰箱（子类室内冰箱）室外道路（子类室外道路）室外岩石（子类室外岩石）室内座椅（子类室内座椅）户外标志（subclass户外标志）室外天空（子类室外天空）室外路灯（子类室外路灯）室内桌子（子类室内桌子）户外树（子类户外树）厢式货车（subclass厢式货车）室内花瓶（subclass室内花瓶）室内墙（子类室内墙）两水（子类两水）Window Both（子类Window Both）表5显示了每个测试介词的精确度、召回率和f-度量最后一行显示了总体值：对于测试的4，953个关系，系统的总体精度为0。75人，召回0人。75和f值为0。71岁。下一节比较了IRRA的性能与其他国家的最先进的方法在图像检索的任务，从结构化查询。4.5检索评价为了评价使用IRRA的图像检索，使用了（Lan等人，2012）提供的据我们所知，这是唯一一个将空间关系映射到图像中检测到的对象我们有表4：使用本体的分类的查准率-查全率场景精确回忆N室内0.98 0.981，813户外0.99 0.98 2，463总数0.99 0.98 4，320表5：估计介词的精确度、召回率和f-度量。介词上述精度0.76召回0.58F-measure0.66n166对面1.000.030.06387背后0.650.620.63329下面0.840.790.81361在0.590.840.69475面前0.550.690.61317内部0.000.000.0065左侧0.010.010.01187对0.600.770.67208权0.000.000.0059下0.870.980.932,399整体0.750.750.714,953测试了我们的方法对所有结构化查询类型提出（兰等2012）。结构化查询包含名词，例如行人，或由形式（名词，介词和名词）的三元组表示的关系集，e.G.“car on the road”可用的结构表示为：结构a（Sa），其仅包含关系集，例如，“汽车在路上”;结构b（Sb）包含关系集和名词，例如，“汽车在路上，行人”;结构c（Sc）包含两个“car on road, sky above building”“caron road, sky above building, pedestrians”“car on road, skyabove building, books inside of bookcase”图3说明了获得的结果，并显示了与使用相同数据集的其他方法的比较仅列出召回率，因为这是（Lan等人，2012）中使用的测量方法。根据图3，可以观察到IRRA在所有考虑的结构化查询中优于其他方法。单独分析IRRA结果，我们可以看到，在不包括单个对象的大型查询中（例如，在场景Sc和Se这种行为的发生是由于这样的事实，即当回答诸如Sc或Se的查询时，分割或介词检测错误被传播到检索任务。我们还评估了检索使用的第二个数据集，其中有一个更大的介词集。在这种情况下，IRRA实现了平均精度（mAP）为53的检索。95，优于（Malinowski和Fritz2014）中报告的最近结果。性能优越IRRA相对于其他（竞争）方法的不同之处在于，IRRA使用了各种关系，(a) 原始.(b) 对象遮罩。图2：突出显示对象的拓扑表示在检索任务中插入图像。4.6本体扩展在上面的测试中执行的查询是严格单向的，这是因为没有关于文档集合中的项目的空间布置的高级为了解决这个问题，我们研究了使用相扑推理的应用。我们扩展了（Malinowski and Fritz 2014）中的注释，目的是从手动注释的原始关系通过使用相扑本体，我们扩展了系统的知识，边缘的关系，以评估空间的prepositions，为了评估该方法，提出了不同的查询，但保持从图像集中检索相同的信息为了完成这项任务，应用了逆关系。例如，对于两个对象（x，y）和查询（x-above-y），我们还针对与原始查询中使用的above相同的注释来评估（y- below-x基于SUN09数据的本体实例化6040200图3：与其他方法的比较。生成了13，000多个关于图像和对象的术语，以及18，000多个引用所创建的关系的公式。通过使用E一阶逻辑定理证明器评估每个图像来执行基于新查询集的检索任务（Schulz 2013）。阿尔-尽管SUMO是在高阶逻辑中定义的，但在这项工作中，我们能够仅用理论的一阶逻辑内容来实现我们的目标，这允许我们使用一阶逻辑证明器。使用新的注释查询测试每个图像，在这种情况下实现的mAp为41。60，而这些介词的原始集合获得了51的mAp。使用扩展的关系（与原始关系相反）的原因是，通过增加知识库的大小，错误可能被包括在过程中，其检测变得越来越复杂（Pease 2011）。5讨论提出了一种基于神经网络集成和本体空间关系的图像检索框架。该方法将图像分解为不同的层次，以分类静态场景中的对象及其空间关系。然后通过指定对象的存在和两个对象之间的空间关系（例如，虽然对象和关系的数量似乎很小（42个对象和11个关系），但使用的图像数量超过9，000，并且由于场景中对象之间的关系被划分，因此它可以用于训练多个关系和/或术语，因此生成了超过186，000对这一重新在本体论的基础上，得到了13,000多个术语和18,000多个公式。介词分类的结果也表明，本文提出的方法优于以前的工作中使用的空间关系的图像检索，但是，它没有表现出预期的在以下情况下：从对面，里面，左，右。这个问题可能是由于不同的竞争介词，可以同样适用于这些情况下的场景。如何更深入地研究对象对，以提高其空间介词的估计是未来工作的任务扩大该系统所涵盖的一系列关系，放松目前对二元关系的限制，也符合我们未来的利益当使用本体将图像分类为室内或室外场景时，可以指定对象类，例如，（子类天空室外）或描述它与另一个对象的关系，例如，（子类Armchair Chair），这使得将新对象添加到分类器并推断其属性比训练新的深度学习方法来分类数据库中的新对象更因此，当使用本体对神经网络输出中发现的对象类进行分类时，结果增加了10个百分点6结论本文研究了基于内容的图像检索中存在的语义鸿沟，提出了一种通过空间排列建立图像中对象之间关系的方法。本文提出了一种基于区域分析的图像检索查询查询B查询C查询D查询E召回（Malinowski and Fritz2014）(Lan等人2012）（Siddiquie et(Lan等人2012）（Siddiquie etal. 2014年度）(Lan等人2012）（Siddiquie etal. 2014年度）(Lan等人2012）（Siddiquie etal. 2014年度）(Lan等人2012）（Siddiquie etal. 2014年度）（IRRA），通过相对于对象对分解图像开始，其中每对也与空间关系组合。每个空间关系都与自然语言中表达的空间介词有关。IRRA在一个公共数据集上进行了评估，其结果表明，我们的方法在使用空间关系进行图像检索方面优于以前（最近）的工作。结果表明，通过将SUMO虽然这种增加是在几乎没有增加运行时间的情况下实现的，但仍然有一些场景由于缺乏关于图像中发现的对象的上下文而无法分类。我们认为，所提出的框架有两个令人信服的应用。首先是改进统计分类器，遵循类似于（ Chen ，Shrivastava和Gupta 2014）的方法第二是包括抽象（在高级关系，空间或不）静态数据集，以提高图像检索任务的可能性。确认Danilo Nunes 得到了 CAPES 的部分支持（赠款5131024）。Leonardo Anjoletto Ferreira承认，本研究部分由CoordenacaodePessoaldeN'velSuperior-Brasil（CAPES）- Finance Code 001和FAPESP-IBM（授权2016/18792-9）资助Paulo Santos感谢FAPESP-IBM的支持（赠款2016/18792-9）。引用Bloch，I.; Hudelot，C.;和Atif，J. 2007. 基于本体的图像解释的空间关系和模糊表示的兴趣。在第七届模式识别进展国际会议集，ICAPR'07，15-25中。Kolkata，India：ICAPR.陈X.; Shrivastava，A.;和Gupta，A. 2014.通过对象发现和分割丰富视觉知识库。计算机视觉与模式识别崔，M。J.道：Lim，J.J.道：Torralba，A.;和Willsky，A.S. 2010年。利用对象类别的大型数据库上的层次上下文 2010 年 IEEE Comp. Soc. Conference on ComputerVision and Pattern Recognition，129Csurka，G.;跳舞，C。的R.;范湖; Willamowski，J.;和Bray，C. 2004.视觉分类与袋的关键点。在计算机视觉统计学习研讨会上，ECCV，1戴，B.;张玉; Lin，D. 2017.使用深度关系网络检测视觉关系。IEEE计算机视觉与模式识别会议（CVPR）格希克河; Donahue，J.; Darrell，T.; and Malik，J. 2014.丰富的功能层次结构，准确的目标检测和语义分割. 在proc 2014年IEEE会议on Computer Vision and Pattern Recognition ， CVPR'14，580-587.华盛顿特区，美国：IEEE计算机协会。Gould，S.; Fulton，R.;和Koller，D. 2009. 将场景分解为几何和语义一致的区域。2009年IEEE第12届计算机视觉国际会议，1Hare，J.S.的; Sinclair，P.;Lewis，P.H.的; Martinez，K.;恩瑟，P. G.地; 和Sandom，C.J. 2006年。桥接多媒体信息检索中的语义鸿沟：自顶向下和自底向上方法。第三欧元。语义网会议，第187卷。Hudelot，C.; Atif，J.; Bloch，I. 2008.图像判读的模糊空间关系本体。Fuzzy Sets Syst.159（15）：1929-1951.Jaccard，P. 1912.标题高山植物区系的分布。1. 新植物学家11（2）：37-50。Krizhevsky，A.; Sutskever，I.;和Hinton，G. E. 2012.使用深度卷积神经网络进行图像网分类。第25届神经信息处理系统国际会议论文集，NIPS'12，1097- 1105。Lan，T.;杨，W.;王玉;和Mori，G. 2012.基于潜在排序支持向量机的结构化对象查询图像检索。第12届欧洲计算机视觉会议论文集 - 第六卷， ECCVBerlin ，Heidelberg.Lehmann，J.，和V？el k e r，J. 2014年。本体论学习导论。在Lehmann，J.，和V？el k e r，J.，编辑，本体学习研究进展。也就是海德堡卢，C.; Krishna，R.; Bernstein，M.;和Fei-Fei，L. 2016.基于语言先验的视觉关系检测。在欧洲计算机视觉。Mai，L.; Jin，H.; Lin，Z.;方，C.; Brandt，J.;和Liu，F.2017.基于视觉特征综合的空间语义图像搜索。IEEE计算机视觉与模式识别会议（CVPR）Malinowski，M.，Fritz，M. 2014.一种用于图像检索和注释的空间关系建模的池化方法。arXiv：1411.5190[cs.CV]。奈尔斯岛，和Pease，A. 2001.标准的上层本体论。在信息系统正式本体论国际会议论文集-卷2001，FOIS'01，2-9。New York，NY，USA：ACM.Pease，A.2011年。本体论：实用指南。Angwin，CA：Articulate Software Press.Philbin，J.;Sivic，J.;和Zisserman，A.2008年使用匹配图在非常大的图像集合上进行对象2008年第六届印度计算机视觉会议论文集，图形图像处理，ICVGIP'08，738-745。华盛顿特区，美国：IEEE计算机协会。Sankat，M.;塔库尔河S.的;和Jaloree，S. 2016. 面向教育目的的半自动本体设计。Her- shey，PA，USA：IGIGlobal. 124-142Schulz ， S. 2013. 系统描述： E 1.8. 在 McMillan ， K.;Middeldorp，A.;和Voronkov，A.，编辑， Proc. 第19届LPAR，Stellenbosch，LNCS的第8312卷。斯普林格。Siddiquie ， B.;White ， B.;Sharma ， A.; 和 Davis ， L.S.2014年。使用小代码进行复杂查询的多模态图像检索在 Proc. of International Conference on MultimediaRetrieval，ICMRNew York，NY，USA：ACM.Socher ， R.; 林角，澳 - 地 C.- Y 的 ; Ng ， A. Y 的 ;Manning，C. D. 2011.用递归神经网络解析自然场景和自然语言。在第28届国际机器学习国际会议论文集，129美国：Omnipress。万，J.; Wang，D.; Hoi，S. C. H.的;吴，P.; Zhu，J.;张玉; and Li，J. 2014.深度学习用于基于内容的图像检索：全面研究。第22届ACM多媒体国际会议论文集，MMNew York，NY，USA：ACM.Zheng，S.;Jayasumana，S.;Romera-Paredes，B.;Vineet，V.;苏，Z.; Du，D.;黄，C.;和Torr，P. H. S.2015.作为递归神经网络的连续随机场。在2015年IEEE国际计算机视觉会议（ICCV）中，ICCV 15，1529-1537中的第9华盛顿特区，美国：IEEE计算机协会。周，B.;赵，H.; Puig，X.; Fidler，S.; Barriuso，A.;和Torralba，A. 2016. 通过ade20k数据集对场景进行语义理解。在arXiv预印本arXiv中：1608.05442。

下载后可阅读完整内容，剩余1页未读，立即下载