基于属性图匹配和推理的可视化查询

174 浏览量更新于2023-10-19 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8357基于属性图匹配和推理的可视化查询查询Peixi Xiong1人， Huayi Zhan1人， XinWang2人， Baivab Sinha3人， Ying Wu1人1西北大学、2西南交通大学、3四川长虹电器有限公司公司1{peixixiong2018，huayi.zhan，yingwu}@ u.northwestern.edu，2xinwang@swjtu.cn， 3baivabsinha@changhong.com摘要可视化查询查询（VQA）在为人们提供便利方面具有重要意义：人们可以对图像提出对象细节或对场景的高级理解的问题。本文提出了一种新的方法来解决VQA问题。与以往的工作相比，我们的方法，针对单场景VQA，基于图的技术，并涉及推理。简而言之，我们的方法集中在三个图上。第一个图，称为推理图GI，是通过在标记数据上学习来构造的另外两个图，称为查询图Q和实体-属性图GEA，分别从用户发出的自然语言查询Qnl和图像Img生成由于GEA通常不需要足够的信息来回答Q，我们开发了利用GI来推断GEA的缺失信息的技术。基于GEA和Q，我们提供了在GEA中找到Q的匹配的技术，作为Img中Qnl的答案。与通常使用的基于端到端神经网络的VQA方法不同，我们的基于图的方法显示了精心设计的推理能力，因此具有高度的可解释性。我们还创建了一个具有丰富注释的足球比赛数据集（Soccer-VQA）1。实验结果表明，我们的方法优于国家的最先进的方法，并有很高的潜力，为未来的调查。1. 介绍近年来，视觉查询回答（VQA）受到了极大的关注[20，24，8]，因为它涉及多学科研究，例如。自然语言理解、视觉信息检索和多模态推理。VQA的任务是根据查询Qnl找到答案。*作者平均贡献1Soccer-VQA数据集已在http://120.25.121.173/research/vqa图1：这张图片是关于足球比赛的，其中每个person对象都与属性相关联：id、均匀颜色、状态（S tanding、M oving、E expansion）、方向（Backing、F acing、N/A）以及位置，并且足球对象具有位置属性。图像的内容。VQA有多种应用，例如：监控视频理解、视觉解说机器人等。解决VQA问题通常需要从图像的内容进行高级推理。自从VQA问题首先由[19]提出以来，端到端神经网络已经成为社区中的主导方法。其基本思想是分别通过卷积神经网络和递归神经网络提取图像和文本的表示，并将这两种表示组合起来形成联合嵌入，然后将其输入分类器以推断答案[36]。基于神经网络的方法试图在联合语义空间中学习文本查询与输入图像（以及隐式地与期望答案）的相关性。对基本方法的一个重大改进是增加了注意力机制[38，31，37，12，18]。尽管神经网络方法在VQA文献中占据主导地位，但它也存在一些不足，这极大地阻碍了它的进一步发展。首先，深度神经网络作为“黑箱”工作8358表演。其次，但更重要的是，没有证据支持神经网络在解决VQA问题时具有推理能力的假设相反，最近的工作[10]表明，通过简单地记忆关于查询/答案对的统计数据，可以在许多VQA为了克服这些弱点，一个更可行的方法，可行的推理能力是非常需要的。考虑自然语言查询回答（NLQ）问题，其类似于VQA问题但没有图像输入，NLQ问题的现有技术方法倾向于应用基于图的技术，其将底层答案和查询分别表示为知识图和查询图，并且通过图模式匹配来寻找答案，而不是依赖于传统的基于神经网络的方法。该方法的优点事实上，类似的技术也可以应用于VQA问题。示例1：图1描绘了关于足球比赛的图像，其中两个队由红色和绿色制服区分，并且每个对象与一组属性相关联。一个典型的查询可能会问“图像中有多少个玩家？“.虽然简单，但要回答这个查询并不简单，因为我们不仅需要识别所有的person对象，而且还必须推断每个人的隐藏属性推理该人是球员、守门员还是裁判。为了回答查询，可以通过识别对象及其属性来用图结构表示图像，并使用所识别的对象来构建由实体-属性图表示的图GEA。图形表示的好处是双重的：（1）由于G EA可能不包含足够的信息来回答查询，例如属性“role“的值可能无法通过视觉方法识别，我们可以开发技术来推理对查询至关重要的缺失信息;以及（2）由于查询的结构化表示，可以经由图模式匹配来评估查询应答。Q这个例子表明，我们利用基于图的方法来解决VQA问题。而要做到这一点，必须解决几个问题（1）如何用图表示图像和查询（2）当从图像构造的GEA不充分时，如何推断关键信息（3）如何用GEA从图中找到答案？本文的贡献主要体现在以下几个方面：(1) 我们产生了一个数据集的7900图像的足球比赛。对于数据集中的每一幅图像，我们对对象进行详细的注释，以描述它们的属性，例如：颜色、角色、状态、位置等。据我们所知，这是VQA文献中关于足球比赛的第一个数据集。(2) 我们提出了用基于图的技术来回答视觉问题的方法。更具体地说，我们首先从给定的图像构建一个实体属性图;然后训练一个分类器来推断对回答查询至关重要的缺失信息;我们最终提供了用图形模式匹配来回答查询的方法。2. 相关工作我们将相关工作分为以下三个部分。可视化查询应答。目前的VQA方法主要基于深度神经工作。[38]引入了一种类似于图像字幕模型的空间注意机制。[31]不是迭代地计算注意力向量，而是获得全局空间注意力权重向量，然后将其用于生成新的图像嵌入。[37]提出将视觉注意力建模为图像区域上的网格结构条件随机场上的多变量分布，因此可以同时选择多个区域。这种注意力机制在[37]中被称为结构化多元注意力。标准的深度学习方法还有许多其他的改进，例如[7]利用多模态紧凑双线性（MCB）池化来有效地和表达地组合多模态特征。另一个有趣的想法是神经模块网络的实现[2，11]，它将查询分解为它们的语言子结构，并使用这些结构动态地实例化模块网络。[27]提出在场景对象和问题词上构建图。可视化图与我们的相似，但查询图不同。请注意，所提出的方法[27]仍然是一种基于神经网络的方法，因为结构化表示被馈送到递归网络中以形成最终嵌入，并且答案再次由分类器推断视觉对象处理。视觉对象检测以及关系识别不仅是VQA的初步任务，也是图像字幕的初步任务[17，32，27]。其他作品，例如：[33]产生输入图像的高级属性，基于该高级属性可以进行进一步的处理。这些先前的工作表明，检测所有的视觉对象，它们的属性和关系是非常重要的解决VQA问题。基于图的查询应答。查询应答已被广泛研究的图形数据。概括地说，这项工作包括两个方面：查询理解和查询评估。接下来我们从两个方面回顾以前的工作。(1) 用自然语言表达的语义是非常用户友好的，但理解起来并不容易。通常情况下，它们需要在发布之前进行结构化，例如，搜索引擎，知识图谱，因为结构化查询更有目前已经有大量的基于查询日志、基于人机交互和基于神经网络的研究成果。[23]利用查询日志来训练分类器，基于8359生成哪些结构化查询。[35]提出了一种通过数据之间的对话来生成结构化查询的方法（即，知识图谱）和用户。[34]介绍了如何使用卷积神经网络从查询中生成核心推理链。由于我们只处理一组固定的查询，因此，我们将查询理解的主题推迟到另一篇论文，并主要关注查询评估。(2) 为了评估图上的查询，典型的方法是图模式匹配。在图模式匹配方面已经有了大量的工作，例如.用于查找精确匹配[4，29]，不精确匹配[39，28]以及在RDF数据上评估SPARQL查询的技术[30]。我们的工作与以前的工作有以下不同：（1）在查询图中集成算术运算和集合运算;（2）开发了用于查询应答的缺失值推断技术。3. 新数据集在本节中，我们将介绍我们的数据集以及典型的特定领域问题。3.1. 创新传统的VQA数据集，例如。[3，10，25，9，15]是大规模的。虽然劳动力和资源密集型，这些数据集是不适合的规则学习和推理，由于过于广泛的领域和不足的场景意义的特点。一些其他的数据集，例如[13，19，1]，nar-row域更好的推理。然而，这些数据集中的图像是非常初级的，图像中的对象之间的关系很简单与他们一样，我们有以下两个主要创新：(1) 我们的数据集不仅是特定领域的，而且还包括内容丰富的图像，这些共同使我们能够很好地进行推理;（2）具有规则推断的复杂问题，涉及推理、算术运算等，可以以高精度回答。3.2. 图像规模从2016年世界杯足球赛视频中收集了7900帧视频，其中5900帧作为训练集，1000帧用于验证，其余用于测试。为了确保测试的有效性，我们丢弃了来自相同序列的相似帧。注释。我们的数据集的注释包括四个主要部分，基于对象类型：人、场、事、景（表1）。在这里，我们通过边界框定位对象，并记录四个角的最小值和最大值。为了区分每个人，我们注释了他所扮演的角色，他与目标的相对方向，他的动作和他的制服颜色等。为了更好地定位物体，我们记录下这张图像是关于场地的左、右还是中间部分，以及相应的四个位置。关键点为了更好地评估图像的高层含义，我们还记录了它的场景类型。对象属性类型描述人ID明显一个索引为每个人在外地。作用隐藏e.G.球员、守门员、裁判均匀明显这个人的统一颜色。e.G.红蓝位置明显边界框的坐标。e.G. (xmin，ymin，xmax，ymax）方向明显这个人和目标之间的方向。e.G.背衬，饰面，n/a地位明显此人的当前操作。e.G.站立、移动、扩张捍卫隐藏不管这个人是在保护别人。e.G.是的领域部分明显这张照片是关于场地的哪一部分。e.G.左，右，中间关键点明显记录禁区四个角的位置;也就是中心圆的长轴、短轴和中心的长度。足球位置明显边界框的坐标。e.G. (xmin，ymin，xmax，ymax）场景类型隐藏e.G.正常场景，任意球，开球，角球，点球表1：视觉对象及其属性。3.3. 问题我们的问题，这是7种类型，涉及计数，检测，角色识别和现场的理解。为了更好地评估模型的性能，我们将问题分为三个级别，简单，中等和困难（表2）。它们由过程中所需的视觉任务数量以及用于推理的知识图使用水平对于答案部分，我们要求5人手动回答问题，因此答案可能会有不同的格式。ID问题差异QNL1谁拿着足球？容易QNL2裁判员的制服颜色是什么容易QNL3图像中有裁判吗容易QNL4守门员属于哪个队？介质Qnl5谁是防守队？介质Qnl6球员们现在在场上的哪个位置？硬QNL7图中有多少玩家硬表2：一组问题评价标准。通过检查预测的答案是否与任何人类提供的答案相同来计算准确度。在我们的实验中，为了消除由于机器对基础事实答案的变化的不可解释性而导致的错误4. 我们的方法在本节中，我们将详细介绍我们的方法。8360支持扩展维... 方向地位ID人1均匀颜色bl缺少val推断（？膨胀背衬地位指导作用？作人ID推理图位置位置(403（500，466，ack2均匀颜色绿色独立属性图(b)实体-属性图不完全EAG问：图像中有多少个玩家图模式匹配（全球机制）查询图的办法(c)查询及其图形表示sion查询图构造（QGC）独立属性图建筑（VGC）(332（321，385，400）标记的训练数据图像自然语言查询QNL可视内容查询内容(a) 概述...作用发挥儿图2：我们的方法、实体属性图和实体属性图的4.1. 表示下面，我们首先回顾几个概念。4.1.1独立属性图我们从实体、属性、关系和实体-属性图的概念开始。实体、属性和关系。实体通常被定义为存在于现实世界中的对象或概念e.G.人、足球等等。一个实体通常携带多个属性，这些属性描述实体的特性，例如：统一的颜色，人物角色。在实体之间，可能存在各种关系，例如，友谊，显示实体对的分离。属性图。假设实体的集合E、值的集合D、指示实体的属性的谓词的集合P和类型的集合ΘE中的每个实体e具有唯一的ID和Θ中的类型。实体-属性图，表示为EAG，是三元组t=（s，p，o）的集合，其中主语s是E中的实体，p是P中的谓词，并且宾语o是E中的实体或D中的值d。它可以表示为有向边标号图GEA=（V，E），使得（a）V是对于每个三元组t=（s，p，o），由s和o组成的节点;以及(b) 对于每个三元组t=（s，p，o），在E中存在由p标记的从s到o的边。我们考虑两种类型的平等：(a) 如果实体e1和e2具有相同的ID，则E：e1惠e2上的节点标识，即指同一实体;及(b)D上的值相等：如果它们是相同的值，则d1=d2在GEA中，e1和e2被表示为相同的节点，如果e1惠e2;如果d1=d2，则对于值d1和d2也是如此。实施例2：图2（b）示出了样品EAG，其中每个四舍五入（分别为正方形）节点表示实体（相应地，attribute），从实体节点ve到值节点va的每个用p标记的有向边表示ve具有值为va的p属性，并且每个对象对由于相互关系而用双向箭头连接，例如，距离Q图像表示。一幅图像可以表示为具有检测到的对象和明显属性的EAG。这可以通过一些视觉任务来实现。而直接在图像处理后产生的EAG往往是不完整的，即。它可能会错过一些关键信息来回答查询。因此，我们将具有不完全信息的实体-属性图称为不完全实体-属性图，并将节点与白色矩形相关联，以指示EAG中实体或属性的缺失值。图2（b）是一个不完整的实体-属性图，其中代表人员角色的方形节点与白色矩形相关联。由于出于评估的目的，用自然语言发出的查询通常被翻译成图结构，为了回答结构化查询，从图像构造EAG将是有益的，使得现有技术可以直接应用于查询回答。4.1.2查询表示认识到，用来自Qnl的关键字查询图数据可能不能很好地捕获用户查询意图[23]。相反，具有“查询焦点”的结构化查询有鉴于此，我们接下来引入查询图的概念。查询图表。查询图Q（uo）是三元组（sQ，pQ，oQ）的集合，其中sQ是变量z或以z为参数的函数f（z），oQ是值d或z或f（z）中的一个，并且pQ是P中的谓词。这里函数f（z）由用户定义，变量z有三种形式之一：（a）实体变量y，映射到实体，（b）值变量y，映射到值，以及（c）y，映射到实体。这里Q可以是y或y，而Q可以是y、y+或y。实体变量和变量名携带一个类型，表示该类型他们所代表的实体。查询图也可以表示为这样一个图，即如果两个变量具有相同的名称y、y或y，则将它们表示为同一个节点;函数f（z）和值d。我们假设w.l.o.g. Q（x）是con-连接的，即，在uo和Q（uo）中的每个节点之间存在无向路径。特别地，uo是中的指定节点，人数（人）（怎么样？）自然语言处理（NLP）目视分析（VA）推理图构造（IGC）（离线）8361(a)站(b)移动(c)膨胀Q（u o），表示查询焦点，标记为“？“.以图2（c）为例。它描述了一个查询图，该查询图是从查询“图像中有多少玩家？“.注意，备注。在本文中，我们不处理任意的Qnl，只处理一组固定的查询（表2）。鉴于此，我们不提供构造Qnl的技术。我们请感兴趣的读者参阅参考文献，如。[23，35，34]，了解有关任务的更多详细信息。4.1.3图模式匹配我们介绍了估值的概念，其次是图模式匹配问题（GPM）。估值Q（uo）在三元组集合S中的赋值为从Q（uo）到S的映射ν，它保留D中的值和P中的谓词，并将变量y和y映射到相同类型的实体。更具体地说，对于每个三元组，（sQ，pQ，oQ）在Q（uo）中，存在S中的（s，p，o），记为（sQ，pQ，oQ）<$→ν（s，p，o）或简单地记为（sQ，pQ，oQ）<$→（s，p，o），其中(a) ν（sQ）=s，p=pQ，ν（oQ）=o;(b) o是一个实体，如果o Q是一个变量y，或者 y;它是一个值，如果oQ是y，并且如果oQ是值d，则o=d;并且(c) 实体s和s Q具有相同的类型;类似地，如果oQ是y或y，则o和oQ相连。我们说ν是一个双射，如果ν是一对一的且在上。图形模式匹配。[4]的文件。考虑EAGGEA=（V，E）和查询图Q（uo）=（VQ，EQ，uo）。我们说GEA在e处匹配Q（uo），如果存在GEA中的三元组集合S和Q（uo）在S中的赋值ν使得ν（x）=e，且ν是Q（uo）和S之间的双射.我们称S为GEA中Q（uo）在v下e处的匹配。直觉上，当Q（uo）和S都是图时，ν是Q（uo）到S的同构也就是说，我们采用子图同构的图模式匹配的语义4.2. VQA建模我们提出了一个全面的方法作为建模的VQA问题。图2（a）展示了我们方法的概述。可以看出，我们的方法围绕着三个图表：实体-属性图、查询图和推理图。实体-属性图GEA的生成遵循三个步骤。模块VA进行第一步，即。图像处理，并输出所有检测到的对象及其属性。VGA模块利用第一步中产生的视觉内容构建了一个不完整的EAG。在最后一步中，模块VI以推理图和不完全EAG为输入，用GI推理缺失信息，并输出一个更新EAG以进行质询应答。推理图GI用于推断不完整EAG的缺失值。并且由模块IGC在训练数据上构造。由于是查询独立的，GI是由递归构造的，这保证了我们方法的效率作为输入的另一部分，自然语言查询Qnl需要被结构化以用于查询评估。为此，QNL首先通过我们的NLP模块进行解析，然后由模块QGC进行结构化。生成Q（uo）和GEA后，利用GM模块进行匹配计算，并返回最终结果。由于一些模块采用现有技术，为了强调我们的新颖性，我们将在第4.3节详细阐述模块VA和VGA，在第4.4节详细阐述模块IGC和VI，在第4.5节详细阐述模块GM。4.3. 从图像生成EAG接下来，我们将介绍如何通过说明模块VA和VGA的功能来构造EAG。4.3.1视觉处理受[32，16，5]的启发，模块VA进行了一些视觉任务来检测物体并找出它们的属性。受表2中给出的查询的影响，对于每个图像img，模块VA仅识别四种类型的对象，即：人物、场地、足球和场景，如表1所示。图3：人员状态。通过简单的视觉任务可以获得人/物体的许多明显属性例如，属性如图第三，我们把人的“身份”分为三种类型，即：站立，移动和扩张，其中最后一个是从前两个由对象的膝盖和他所占据的空间的模式图4：图像与标准场的配准。8362i=1i=1可以如下检测现场对象的明显属性。属性“part”通过简单的图像分类器进行区分。属性“关键点”可以通过边缘和圆检测来识别。通过处理后，VA模块输出一组识别的对象及其明显的属性，用于EAG构造。4.3.2EAG建设VGA模块负责EAG的构建。鉴于输出模块VA的图像，VGA进行以下- ing：（1）构造空实体-属性图G EA;(2) 将对象和属性值分别作为主体和客体，并在GA中创建与每个对象和属性值相对应的节点;（3）对于每个实体及其明显的属性，将节点v e连接到节点v a，其中边由p标记，以指示实体e具有值为a的属性p（节点v e和v a分别对应于e和a）;以及（4）将节点对（v e1，ve2），其中双向边缘用实体e1和e2 之间的距离标记。请注意，VGA还将实体节点v e连接到值节点v b，该值节点v b取空值，边标记为p′，如果p′是隐藏属性，并且属性p′的值不能由模块VA识别。4.4. EAG推理一个不完整的EAG往往不能提供查询答案，由于一些隐藏的属性值丢失这促使我们开发方法来推断隐藏属性的值。下面，我们介绍模块IGC和IM，图5：用于推断person对象角色的推理图流水线通过B=G，ΘG>，其中G是有向非循环图，θG是可以最大化似然的参数集[6，22]。

下载后可阅读完整内容，剩余1页未读，立即下载