Zoom-Net：基于深度特征交互的视觉关系识别

68 浏览量更新于2023-10-13 收藏 1.28MB PDF 举报

图像理解

功能交互

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Zoom-Net：挖掘深度特征交互用于视觉关系识别尹国军1、2[0000 - 0001 - 8260 - 5449]、卢胜2、刘斌1、于能海1、王晓刚2、邵静3[0000 - 0003 - 3521 - 6744]、陈昌来41中国科学技术大学、中国科学院电磁空间信息重点实验室2香港中文大学3商汤科技研究4南洋理工大学gjyin@mail.ustc.edu.cn，{flowice，ynh} @ustc.edu.cn，@ ee.cuhk.edu.hk，shaojing@sensetime.com，ccloy@ieee.org抽象。识别任何一对局部对象之间的主谓宾关系是图像理解的关键。以往的研究表明，利用语言先验或外部文本信息来提高绩效取得了显着进展。在这项工作中，我们研究了一个正交的角度特征的相互作用的基础上。我们表明，通过鼓励深层消息传播和本地对象特征与全局谓词特征之间的交互，可以在不使用任何语言先验的情况下在识别复杂关系方面实现令人信服的性能。为此，我们提出了两个新的池单元来鼓励功能交互：（i）对比ROI池化单元，其具有将局部对象特征反向池化到全局谓词特征的对应区域的独特的去 ROI 池化。 (ii)Pyramid ROIPooling Cell，广播全局预测特征以增强局部对象特征。这两个细胞构成一个空间-上下文-外观模块（SCA-M），它可以进一步连续堆叠，形成我们最终的缩放网络。我们进一步阐明了如何解决歧义和嘈杂的对象和谓词注释的层次内树（IH树）。在VisualGenome数据集上进行的大量实验证明了我们的面向特征的方法与现有技术方法相比的有效性（Acc@111. 42%从8。16%），这取决于明确的语言交互建模。我们进一步表明，SCA-M可以无缝地纳入现有的方法，以提高性能的大幅度。1介绍视觉关系识别[22，30，38]旨在解释一对本地化对象之间的丰富交互，即，执行如图12所示的>主语-谓语-宾语>形式的元组识别第1（a）段。这项任务的根本以补充2尹国军等主题谓词对象SCA（（b）金字塔ROI汇集对比ROI池（c）第（1）款输入图像ROI空间-上下文-外观模块关系识别- -米我们的）CA-Ma-M（一）了图1.一、在（a）中给出了一个基于上下文的数据挖掘方法，传统的方法没有挖掘对象（主体）和谓词之间的上下文交互（例如，，外观模块（A-M））或忽略空间信息。例如，上下文外观模块（CA-M））可能在关系识别中失败，如（c）的两个底部行所示。（b）中提出的空间-上下文-外观模块（SCA-M）允许全局对象间交互和空间感知上下文信息的共享，从而导致更好的识别性能。在基于视觉的识别中，一种有前途的方法是采用语言模型并从语言中学习对象和谓词标签之间的关系。许多现有方法已经证明这种策略是有效的[26，30，6，47 这些基于语言的方法或者将统计推断应用于元组标签集，建立语言图作为先验，或者从外部十亿级文本数据（例如，文本数据）中挖掘语言知识。，Wikipedia）。在本文中，我们探索了一个新的角度超越了语言学为基础的范式。特别地，当代方法通常经由单独的卷积神经网络（CNN）分支来识别元组主语-谓语-宾语我们相信，通过加强这些分支之间的信息共享和功能为此，我们制定了一个新的空间感知的上下文特征学习模型，命名为Zoom-Net。与以往分别学习外观和空间特征的研究不同，Zoom-Net提出了空间感知的对象特征与谓词特征交互，并广播谓词特征来强化主语和宾语的特征。Zoom-Net的核心是一个空间-上下文-外观模块，简称SCA-M。它由两个新的池单元组成，允许对象和谓词之间的深层特征交互，如图所示。第1段（b）分段。第一个单元，对比ROI池化单元，通过经由独特的去ROI池化将对象/主体特征反向池化到预测特征的匹配空间上下文来促进预测特征学习这允许所有的主体和客体都落在同一个空间上，即一个真实的空间。第二单元被称为金字塔ROI池化单元。它通过将谓语特征广播到相应的对象/主语的空间来帮助对象/主语特征学习。 Zoom-Ne ta cksmultipleSCA-MscetieS C A- M s e t i e S C A-M s e t i eS C A-M s e t i 如图如图1（c）所示，消息共享和特征交互不仅有助于更准确地识别个体对象，而且有助于学习对象间关系。从天而降冲浪板冲浪者近冲浪板人近艇人Zoom-Net3我们的工作的另一个贡献是一个有效的策略，减轻歧义和不平衡的数据分布在？主谓宾？注释。具体来说，我们在具有挑战性的Visual Genome（VG）数据集[22]上进行了主要实验，该数据集由超过5，319个对象类别，1，957个谓词和421，697个关系类型组成VG数据集中的大规模模糊类别和极不平衡的数据分布阻止了先前的方法预测可靠的关系，尽管它们在仅具有100个对象类别、70个谓词和6，672个关系的视觉关系检测（VRD）数据集[30] 为了减轻VG中的模糊性和不平衡的数据分布，我们将传统的one-hot分类重新表述为n-hot多类分层识别，通过一种新的层次内树（IH-树），用于元组中的每个标签集<主语-谓语-宾语>。捐款. 我们的贡献总结如下：1) 一个通用的功能学习模块，允许功能的相互作用-我们介绍了一种新的SCA-M挖掘低层次的空间信息和高层次的语义外观特征之间的内在相互作用的同时。通过将多个SCA-M堆叠到一个Zoom-Net中，由于主体，谓词和对象之间的多尺度双向消息传递，我们在VG数据集上获得了令人信服的结果。2) 多类层次内树-为了减轻大规模数据集中的标签歧义，我们将视觉关系识别问题重新表述为多标签识别问题。通过引入一个内部层次树（IH树）的对象和谓词类别，分别提高了可识别性。我们表明，IH-树也可以受益于其他现有的方法。3) 大规模关系识别- 大量的实验证明了所提出的SCA-M和IH树的各自有效性，以及它们在具有挑战性的大规模VG数据集上的组合。值得注意的是，所提出的方法与以前的工作有很大的不同，因为Zoom-Net既没有建模明确的，也没有建模隐含的标签级别的相互作用之间的主语-谓语-宾语。我们表明，功能级别的交互，这是由SCA-M启用，可以实现最先进的性能。我们进一步证明了基于标签级交互的先前最先进的[26]可以从所提出的SCA-M和IH树中受益。2相关工作情境学习。上下文信息已经被用于各种任务[1，13，15，25，34，40，42]中，例如：对象检测、分割和检索。例如，从一组对象检测器捕获的视觉特征与[24，5]中的全局特征相结合对于检测和分割，从全局视图而不是定位的对象本身学习特征表示已在[3，23，32]中被证明是有效的。上下文特征学习的视觉关系识别在以前的作品很少探索。类层次结构。在以前的研究中[17，11，33，8，9]，编码不同标签关系或结构的类层次结构被用来提高4尹国军等OPS+ 1 + 2 + 1 + 2 + 1 + 2（一）（b）第（1）款（c）第（1）款（d）其他事项主语谓语宾语空间感知主语空间感知谓词空间感知对象图二、（a）给定来自输入图像的主语（S）、谓语（P）和宾语（O）的ROI池化特征，（b）外观模块（A-M）单独地处理这些特征而不传递任何消息，（c）上下文外观模块（CA-M）试图通过直接融合成对特征来捕获上下文信息（d）中提出的SCA-M以空间感知的方式集成本地和全局上下文信息SP/PS/S 0/P0/0 P特征通过逐信道级联来组合如SP特征是主语特征和谓语特征结合的结果分类和检索例如，Deng等人 [11]通过形成由许多抽象层次组成的语义层次结构来改进对象类别的大规模视觉识别虽然对象类别可以很容易地通过它们的语义相似性进行聚类，给出对象的干净和明确的标签，但由于嘈杂和模糊的标签，构建用于视觉关系识别的语义层次结构可能更具此外，一些短语和介词之间的语义相似性，例如walking on a与walks near the之间的语义相似性是不可直接测量的。在我们的论文中，我们采用的词性标注工具包提取和规范化的关键字，这些标签，如步行，上和附近。视觉关系。识别视觉关系[38]已被证明有利于各种任务，包括动作识别[15，7]，姿态估计[12]，识别和对象检测[4，36]以及场景图生成[44，27]。最近的工作[30，6，48，27，18，28，29，35，45，50]侧重于测量语言与文本先验或语言模型的关系。已经探索了对象识别[9，31，43]，对象检测[37]，检索[39]和字幕生成[16，21，20]的语言关系。 Yu等人[46]使用数十亿外部文本数据来提取有用的知识用于三元组<主语-谓语-宾语>学习。这些方法并没有充分探索潜在的特征学习和特征级的信息共享的视觉关系识别的问题Li等人[26]提出了一种消息传递策略，以鼓励从<主语-谓语-宾语>中提取的特征之间的特征共享。然而，网络并不捕获不同对象的相对位置，因此它不能捕获主语、谓语和宾语之间的有效上下文信息。3Zoom-Net：挖掘深度特征交互我们提出了一个端到端的视觉关系识别模型，能够挖掘特征级的交互。这不仅仅是测量交互-SPPS所以POOPZoom-Net5主题谓词对象SPpppppPS所以POOOOOpOOP(a) SP-金字塔ROI池<、>>(b) PS-对比ROI合并<、>>(c) SO-对比ROI池<、>>(d) PO-对比ROI池<、>>(e) OP-金字塔ROI合并<、>>输入主题谓词对象ROI池去ROI池化添加图三.空间-背景-外观模块（SCA-M）取决于两个组件：（i）对比ROI池化（b-d），表示为ROI，deROI，其将空间相关性fs，fo从空间和空间传播到特定特征fp的空间，以及（ii）金字塔ROI池化（a，e），ROI，ROI，其将全局相关性fp传播到空间相关性fs，fo从空间和空间传播到特定特征f p。三重标签之间的额外的语言先验，如以前的研究认为。3.1表象、语境与空间如图2（a），考虑到主语、谓语和宾语的ROI池化特征，我们考虑一个问题：如何学习好宾语（主语）和谓语特征？我们研究如下三个合理的模块。外观模块。本模块侧重于每个ROI内的内部依赖性，即在这种情况下，主语、谓语和宾语分支的特征是独立学习的，而不需要任何消息传递。我们将这种网络结构称为外观模块（A-M），如图所示。第2段（a）分段。不能从这样的模块导出上下文和空间信息。上下文-外观模块。上下文-外观模块（CA-M）[26]直接在三个分支之间融合成对特征，其中主语/宾语特征从谓语特征吸收上下文信息，并且谓语特征也从主语/宾语特征接收消息，如图所示。第2段（b）分段。尽管如此，这些特征被连接，而不管它们在原始图像中的相对空间布局如何。尺度和空间性的不相容性使得融合特征在捕获所需的空间和上下文信息方面不太理想。空间-上下文-外观模块。空间配置，例如对象和对象的相对位置和大小在CA-M中没有被充分地表示为了解决这个问题，我们提出了空间-上下文-外观模块（SCA-M），如图2所示。第2段（c）分段。它由两个新颖的空间感知特征对齐单元（即，对比ROI池化和金字塔ROI池化）用于不同分支之间的消息传递。与CA-M相比，SCA-M以空间感知的方式重新表达了局部和全局信息集成，从而在捕获<主谓宾>特征之间的空间和上下文关系方面具有更好的能力。6尹国军等3.2空间-上下文-外观模块我们将主语、谓语和宾语的相应感兴趣区域（ROI）表示为Rs、Rp和Ro，其中Rp是紧密覆盖主语和宾语的并集边界框。这三个ROI的ROI池化特征分别是ft，t∈ {s，p，o}。在本节中，我们将介绍SCA-M的详细信息。特别是，我们讨论了如何对比ROI池和金字塔ROI池细胞，SCA-M中的两个元素，允许对象和谓词之间的深功能对比ROI池化表示一对操作，即对象特征f〇首先被ROI池化以提取归一化的局部特征，然后这些特征被deROI池化回到在urefp ， so 处的 perdicatee 的空间调色板，以使 reaspiality-awareobjeteaturefowit e t et i te。尺寸与同品种器械相同，如图所示3（b）由紫色三角形标记。不是在该其他区域之外识别出该其他对象ROIinfoisetto0。所述局部特征表示可在全局特征图fp中的特定区域中使用的局部特征。在实践中，所提出的deROI池化可以被认为是传统ROI池化的逆操作（图1B中的绿色三角形）。3），这类似于自上而下的反卷积与自底向上卷积SCA-M模块中有三个对比ROI池单元，用于整合特征对主语-谓语、主语-宾语和谓语-宾语，如图所示。3（b-d）。接着是几个卷积层，来自主语和宾语的特征在空间上融合到谓词特征中，以增强表示能力。所提出的操作不同于传统的特征融合操作（通道级级联或求和）。后者将在局部主体/客体特征与全局谓词特征之间引入尺度不兼容性，这可能妨碍后续卷积层中的特征学习。Pyramid ROI Pooling表示一对操作，其将全局谓词特征广播到主语和宾语分支中的局部特征，如图所示。3（a）和（e）。具体地，在R0I池单元的帮助下，我们从R0I池单元中提取来自R0I上的输入区域的预分配。其传达该区域的全局上下文信息。接下来，我们对谓词特征执行第二个ROI池，其中主题/对象ROI进一步从全局谓词特征区域挖掘上下文信息。因此，金字塔ROI池化提供多尺度上下文以促进主体/对象特征学习。3.3Zoom-Net：Stacked SCA-M通过堆叠多个SCA-M，所提出的Zoom-Net能够捕获具有动态上下文和空间信息聚合的多尺度特征交互。它能够可靠地识别视觉关系5主语和宾语是同一个概念，所以我们只以宾语为例来说明。Zoom-Net7去ROI池化ROI池卷积中文（简体）中文（简体），o，o，o谓词对象主题SCASCASCA-Module SCA-Module人CNN发挥conv1_1~conv1_2conv2_1~conv2_2conv3_1~conv3_3conv4_1conv4_2conv4_3conv5_1conv5_2conv5_3滑板FC中文（简体）p中文（简体）p中文（简体）p图4.第一章Zoom-Net的架构主语（浅黄色）、谓语（红色）和宾语（深黄色）在较低层中共享相同的特征提取过程，然后将ROI汇集到三个分支中。在池化特征图的每个分支之后是两个卷积层，以学习外观特征，然后将其馈送到两个堆叠的SCA-M中，以进一步融合跨不同分支的多尺度空间感知上下文信息三个分类器与内部层次结构被施加到从每个分支视觉关系识别获得的功能三元组，其中谓语p表示关系（例如、空间性、介词、动作等）在一对局部化的主体S和客体O之间。如图所示。4，我们使用具有卷积层的共享特征提取器直到conv3 3来编码不同对象类别的外观特征。通过为主语、谓语和宾语指示感兴趣区域（ROI），将相关联的特征ROI汇集到相同的空间大小，并分别馈送到三个分支。三个分支中的特征首先被独立地馈送到两个卷积层（VGG-16中的conv 4 1和conv 4 2层），以进一步抽象它们的外观特征。然后将这些特征放入第一SCA-M中以跨不同分支融合空间性感知的上下文信息在接收到交互增强的主语、谓语以及来自第一SCA-M、M1的对象特征，我们继续卷积这些特征与另外两个外观抽象层（模仿VGG-16中conv 5 1和conv 5 2层的结构），然后将它们转发到第二SCA-M、M2. 在这个模块之后，多尺度交互增强每个分支中的特征被馈送到三个完全连接的层FC s、FC p和fc o分别对主语、谓语和宾语进行分类。4层次关系分类为了彻底评估所提出的Zoom-Net，我们采用了Visual Genome（VG）数据集6[22]，因为它的规模大，关系多样。我们的目标是理解更广泛的关系范围，与仅关注6，672个关系的VRD数据集[30]相比，总共有421，697个关系类型。由于以下几个原因，识别VG中的关系是一项重要的任务：修剪6个极其罕见的标记物（少于10个样品）以进行有效评价。8尹国军等s，p，os，p，oOO图五、内部层次树的图解对象的IH树（左）和谓词（右）从基础层H（0）开始至纯化层H（1）但有一个第三层的不同结构 H（2）聚类来自H（1）的相似语义概念，而H（2）分别聚类来自H（1）的动词和介词词。奥·普·普(1) 多样性- -总共有5319个对象类别和1957个谓词，是VRD数据集中的数十倍。(2) 歧义- 某些对象类别共享相似的外观，并且多个谓词引用相同的关系。(3) 不平衡-我们观察到对象和谓词的长尾分布。为了规避上述挑战，现有的研究通常是简单的。通过频率滤波或清理手动删除相当大一部分数据来简化问题[26，6，47，46]。然而，像“old man”和“whi t e s h irt”这样的不常见标签经常出现在“man”此外，假设平面标签结构这些方法仅限于描述VG数据集的标签空间，模糊和嘈杂的标签。为了克服上述问题，我们提出了一种解决方案，通过建立两个层次内树（IH树），分别用于测量对象7和谓词内的类内相关性。IH树建立了一个概念的层次结构，系统地将稀有，嘈杂和模糊的标签与那些明确定义的标签组合在一起。与现有的通过外部语言先验来正则化三元组之间的关系的工作不同，我们只考虑类内相关性来独立地正则化对象和预测标签的出现。在端到端训练期间，网络采用加权的层次内损失用于视觉关系识别，L=αLs+βLp+γLo，其中超参数α、β、γ平衡关于主体Ls、谓词Lp和客体Lo的损失。在我们的实验中，α=β=γ= 1。接下来我们介绍IH-树和损失4.1对象的层次内树Ho我们为深度为3的对象构建一个IH树，其中基础层H（0）由原始对象类别组成。(1) H（0）-H（1）：通过使用下式修剪噪声标签来从H（0）提取H（1）o o o o相同的概念但不同的描述性属性或以不同的单数和7本文中的主语和宾语指的是同一个术语，因此我们仅以宾语为例进行说明。装备人力动物水果家具服装车辆男人女人女孩孩子少年人民警卫官茄克裤鞋衬衫裙子大衣牛仔裤黄色的一个粉红色灰色对上在旁边旁边一个男人在她身上在它身上站站着站着走着走戴着戴着戴着老年轻人秃顶的男人高的人几人拥挤的灰黑红紫条绿橙人人人男士步行男士衬衫衬衫衬衫衬衫旁边下旁边磨损靠在站走在走走对磨损走精益站对磨损下在旁边（0）中文（简中文（简岛，o，o（2 -1）（2 -2）（0）（一布吕布吕布吕布吕动词PrepZoom-Net9OOppppp复数形式。我们采用NLTK [2]和NLTKLemm的词性标注工具包来过滤和规范化新的关键词。G. “m an“来自“old d man“、“bal d man“和“men“。(2) H（1）→ H（2）：我们观察到一些标签具有密切的语义相关性。o o如图1的左面板所示。5.具有类似语义概念的标签，例如“shirt”和“jacket” ，是 “clot hing” 的缩写，并且需要从类似 “animal” 和“vehicle”的其他语义概念中删除。我们将为您介绍H中的标签（1）到第三级H（2）语义相似度计算Leacock-Chodorow距离[40]来自NLTK。我们发现阈值为0。65非常适合于分割语义概念。主体/对象分支的输出是对应于IH树中的三个分层级别的三个独立softmax激活向量的级联。因此，损失Ls（Lo）是相对于这些级别的三个独立softmax损失的总和，从而鼓励级别内相互标签排除和级别间标签依赖性。4.2谓词的层次内树Hp谓词IH-树也有三个层次。与只处理名词的对象IR树不同，谓词类别包括各种词性类型，例如。动词（动作）和介词（空间位置）。即使是一个单一的复制品，也可能会出现多个复制品，例如：G. 、(1) H（0）-H（1）：类似于H（1），H（1）被构造成旨在提取和啪啪啪啪规范化谓词中的关键字。我们保留了关键词，并规范了时态与三个主要的词性类型，即。，动词，介词和形容词，并摒弃其他无意义和歧义的词。如图1的右侧所示。在图5中，(2) H（1）→H（2）：不同的词类类型有其独特的特点p p具有不同的上下文表示，因此动词（动作）和介词（空间）的单独的层次结构对于更好的描述是必不可少的。为此，我们构造了H（2），用于动词和介词标签indepen-dently，即，H（2 - 1）表示动作信息，H（2 - 2）表示空间配置。p p在H（1）中有两种情况：（a）标签是短语的形式，它由短语和短语组成（例如：G. “s t and d on“和“wal k n ex t to”），并且（b）a b e l是单个单词（例如，、“on”和“wear”）。对于第一种情况，H（2 - 1）从两个短语中提取动词词，而H（2 - 2）提取介词词。因此，它导致标签可能同时聚类到H（2）的不同部分中。如果标签是单个单词，则它通常会被聚类到对应的词性中，但在相反的词性中保持相同，如图1B的右图中的虚线所示。5.损耗Lp的构造类似于对象的损耗Lp的构造。10尹国军等5可视化基因组数据集数据集。我们在Visual Genome（VG）数据集（版本1.2）上评估我们的方法。每个图像都用一个三元组（triplet）<主语-谓语-宾语>进行注释，其中主语和宾语用标签和边界框进行注释，而谓语只有标签。我们将VG数据集随机分为训练集和测试集，比例为8：2.请注意，这两个集合都保证具有来自每个对象或谓词类别的正样本和负数据预处理的细节和源代码将被发布。评估指标。(1)加速度@N我们采用的准确性得分作为主要的评价指标，在我们的实验。该指标通常用于传统的分类任务。具体而言，我们报告了主语、谓语、宾语和关系的Acc@1和Acc@5的值，其中关系的准确度被计算为主语、谓语和宾语的平均准确度。(2)记录@N。在[30]之后，我们使用Recall作为另一个度量，以便处理不完整的注释。Rec@N计算每个图像的前N个预测中覆盖的正确关系实例的比率。我们在实验中报告了Rec@50和Rec@100 为了公平比较，我们遵循[30]在三个任务上评估Rec@ N，即谓词识别，给出主语和宾语的标签和边界框;短语识别，将三元组作为并集边界框，并预测三元组标签;关系识别，其也输出三重标签，但评估主体和对象的单独边界框。召回性能与每个主宾对的谓词数量有关。前k个预测。在VG数据集上的实验中，我们采用topk = 100进行评估。培训详情。我们使用在ImageNet [10]上预训练的VGG16 [41]作为网络骨干。随机初始化新引入的层我们将基本学习率设置为0。001并固定从conv1 1到conv3 3的参数。这些实现基于Caffe [19]，网络通过SGD进行优化传统的特征融合操作在这里通过SCA-M单元中的逐通道级联来实现。5.1消融研究SCA-模块。Zoom-Net的优势在于其通过SCA-M学习空间感知上下文信息的独特能力为了证明学习视觉特征与空间导向和上下文辅助线索的好处，我们比较了Zoom-Net的识别性能与一组变体，通过一步一步地删除每个单独的线索，即。、没有堆叠结构的SCA-M第3.1节）。他们的准确率和召回率得分报告在表中。1.一、在比较香草A-M，CA-M和SCA-M获得了显着的改善，表明上下文信息的重要性，个别主语，谓语，宾语分类和它们的关系识别。请注意，当代CNN已经表现出了显着的Zoom-Net11表1.VG数据集上Zoom-Net的识别性能（Acc@N和Rec@N）与（i）SCA模块的三种变体以及（ii）Zoom-Net丢弃IH树进行比较。最佳结果以粗体表示。度量@NZoom-NetSCA-MCA-Ma-MZoom-Netw/oH（1， 2）Zoom-Netw/o中文（简体）主题1538.9465.7037.4864.0934.8461.5932.5258.2836.5262.6337.8863.97Acc.谓词对象151548.7377.6445.0971.6948.1476.9744.1370.6446.8175.5542.6669.5535.8967.0541.3967.9947.1876.4342.5269.3348.2677.1843.6770.35关系111.4210.519.466.399.9210.76522.8021.3119.7014.0620.4422.08谓词5067.2566.5465.0753.9465.8466.7310077.5176.9275.4566.5376.3077.16Rec.关系5019.9718.6017.1412.2317.7818.9210025.0723.5121.6315.8622.5323.88短语5020.8419.5518.1213.0518.6519.7810026.1624.7022.8516.9223.6224.96主题和对象分类的性能，即通过个体外观信息识别对象并不困难，因此间隙（4. 96%）小于同品种器械（12. 25%）。毫不奇怪，由于关系识别的关键固有问题其有效性也可以从图中的定性比较中观察到。第6（a）段。内部层次树。我们使用两个辅助级别的分层标签H（1）和H（2）来促进分别针对主语、谓语和宾语的原始基础事实标签H（0）的预测。在这里，我们表明，通过涉及层次结构的语义聚类模糊和嘈杂的标签，识别性能w.r.t. 主语、谓语、宾语的原始标签以及它们的关系都被提升，如Tab中所示。1.一、丢弃IH树中的两个级别中的一个明显地妨碍性能，即。，没有IH树的Zoom-Net在不同的指标上经历了大约1% 〜 4%的下降。它揭示了内部层次结构提供了有益的信息，以提高识别的鲁棒性。此外，Fig.图6（b）示出了具有和不具有IH树的Zoom-Net的前5个三重关系预测结果。层次标签结构的新颖设计有助于解决对象和谓词上的数据歧义。例如，由于在Sec. 4、所述预处理相对于“w ear”（例如，G. 、“wearing”和“wears”）可以被排名在最高预测中。另一个例子显示了H（ 2 ）designedforsemamanticlabelclustering的贡献，e. G. “sittingin”（其在地面实况“in”的相同集群中形成）也出现在排名靠前的结果中。5.2与最新方法的我们总结了VG的比较结果。2与两个最近的艺术状态[6，26]。为了进行公平的比较，我们使用VGG-16作为网络骨干来实现这两种方法。Zoom-Net的建议大大超出了-12尹国军等表2.Zoom-Net在VG数据集上的识别性能（Acc@N和Rec@N）与最先进的方法进行了比较。粗体的结果是单个模型的最佳结果，而下划线的结果指示将所提出的模块并入到其他最先进的架构中的组合模型的最佳性能度量@NZoom-NetDR-Net[6]VIP[26]VIP+SCA-MVIP+ IH树VIP+SCA-M+ IH树主题1538.9465.7030.1055.4631.1057.3337.1363.6134.3661.0338.7865.69Acc.谓词对象151548.7377.6445.0971.6944.1471.6737.9164.3045.1774.2639.1865.6848.4077.2843.0969.9346.5475.3043.1869.4849.0778.0744.9671.58关系111.426.698.1610.659.9711.79522.8013.1117.0121.6320.4023.28谓词5067.2562.0563.4466.8764.8067.6310077.5171.9674.1577.2275.2977.89Rec.关系5019.9712.5614.7818.7317.7620.4110025.0716.0618.8523.6722.3525.55短语5020.8413.5115.7019.6118.7221.3110026.1617.2319.9624.7023.5026.66定量和定性地执行这些方法。定性结果显示在图1的第一行6（c）.DR-Net [6]利用二进制对偶掩码作为特征学习中的空间配置，因此丢失了视觉上下文和空间信息之间ViP [26]通过提出短语引导的消息传递结构来关注另外，该方法试图通过在ROI池化之前跨三个分支传递消息来捕获上下文信息，因此未能探索深入的空间感知特征表示。可转移SCA-M模块和IH树。我们进一步证明了所提出的SCA-M模块在捕获空间性，上下文和外观视觉线索，和IH-树解决歧义注释的有效性，通过将它们插入到现有作品的架构在这里，我们将ViP [26]的网络作为其端到端训练方案和最先进结果的骨干（Tab.2）的情况。我们比较三种配置，即。、ViP+SCA-M、ViP+IH-树和ViP+SCA-M+IH-树。为了进行公平比较，通过用SCA-M或IH树替换目标组件并固定其他组件来修改ViP如Tab.所示2，在应用我们的SCA-M后，ViP的性能在所有评估指标上都有相当大的提高（即，ViP +SCA-M）。结果再次表明，所提出的空间感知特征表示的ViP的优越性。请注意，通过添加堆栈SCA模块和IH树（即，ViP+SCA-M+ IH-树）优于ViP本身。ViP设计了一个短语引导的消息传递结构，以在标签级学习<主语-谓语-宾语>之间的文本连接相反，我们更专注于捕捉上下文之间的联系subject-predicate-object 因此，这并不重要，因为这两个方面的组合可以提供更好的结果。6视觉关系数据集（VRD）设置. 我们进一步定量地比较所提出的方法与以前的视觉关系数据集上的最新技术的性能Zoom-Net13时钟-对-窗帘女孩-对-桌子（一）（b）第（1）款（c）第（1）款VIPZoom-Net苹果-对- 头熊- 坐在-桌子猫-坐在-手提箱5熊- 穿着-帽子5球员棒球- 投掷-棒球斑马 -在- 窗口眼镜-对-脸女人-对-桌子猫-坐在-手提箱4熊-穿- 帽子4人-具有-飞盘斑马 -对-猫球-对-头猫-内部-手提箱3熊-与-帽子3人- 穿着 -头盔斑马 -对-斑马猫-对- 手提箱2熊-具有-帽子2男孩-背后-飞盘斑马 -后面-斑马猫-在- 手提箱1熊-穿着-帽子1猫-对-沙发5泰迪熊- 具有-香蕉5狗-对- 行李箱4熊-具有-结冰4狗-对-沙发3熊-具有-香蕉3头-对- 行李箱2泰迪熊- 具有-结冰2人戴手套树后滑板头-对-沙发1泰迪熊- 具有-香蕉1时钟- 背后 -雕像马拉车男戴手套树-对-腿时钟-对-极马 -骑 -车厢男戴眼镜树-对-窗帘时钟-具有-腿马 -骑 -车厢DR-NetZoom-Net w/o（1，2） Zoom-Net马-对- 车厢a-MCA-MSCA-MZoom-Net见图6。VG数据集上的定性结果。(a)不同模块配置的变体的比较结果（b）通过丢弃IH-树得到的结果（c）Zoom-Net与最新方法之间的比较。(a)以及（c）示出了Top-1预测结果，而（b）提供了每种方法的Top-5结果基本事实用粗体表示表3.与VRD数据集上的参考方法进行比较。粗体结果表示最佳性能，而下划线结果表示次佳性能。* 标记LK的结果而不进行知识蒸馏。** 标记了LK的结果，其中包括大规模外部维基百科数据的知识蒸馏。K方法谓语关系短语Rec@50 Rec@100 Rec@50 Rec@100 Rec@50 Rec@100LP[30]47.8747.8713.8614.7016.1717.03VTransE[47]44.7644.7614.0715.2019.4222.42VRL[29]--18.1920.7921.3722.60PPRFCN[48]47.4347.4314.4115.7219.6223.15SA-Full[35]50.4050.4014.9016.1016.7018.10k=1黎巴嫩[46]*47.5047.5016.5717.6919.1519.98[46]**55.1655.1619.1721.3423.1424.03VIP [26]--17.3220.0122.7827.91中文（简体）53.5953.5915.6317.3917.6019.24Zoom-Net50.6950.6918.9221.4124.8228.09CAI + SCA-M55.9855.9819.5422.3925.2128.89[46]*74.9886.9720.1228.9422.5925.54[46]**85.6494.6522.6831.8926.3229.43k=70DR-Net [6]80.7881.9017.7320.8819.9323.45Zoom-Net84.2590.5921.3727.3029.0537.34CAI + SCA-M89.0394.5622.3428.5229.6438.39(VRD)[30]第30段。以下比较保持与现有技术相同的设置由于VRD具有干净的注释，因此我们通过以下方式微调IH树的构造：去除H（1）和H（1），其目的在于减少数据模糊性和噪声。o pVG（详见第4）.为了进行公平的比较，这里的对象提案由RPN [14]生成，并且由于其出色的性能，我们使用三元组NMS按照[26]中的设置来删除冗余的三元组候选。评估指标。我们遵循 [6 ， 46] 来报告当 k= 70 时的 Recall@50 和Recall@100。预测的边界框和地面实况之间的IoU需要大于0。5在这里。此外，以前的一些工作使用k= 1的评估，因此我们报告我们的结果与k= 1，以及比较这些以前的方法在相同的条件下。结果结果列在选项卡中。3表明，拟议的Zoom-Net超过了国家的最先进的方法，在几乎所有的评价上都有显着的收益14尹国军等测量度量8. 与以前的最先进的方法相比，Zoom-Net将谓词预测的召回率提高了3。47%Rec@50和3。当k = 70时，62% Rec@100。此外，关系和短语预测任务的Rec@50增加了1。25%和6。分别为46% 注意，预测（k = l）的结果仅实现了与一些现有技术[49，35，29，46]相当的性能，因为这些方法使用主语和宾语的基础事实并且仅预测谓语，而我们的方法一起预测主语、谓语、宾语。在没有外部数据设计的所有现有技术中，CAI [49]已经在谓词预测上实现了最佳性能（53. 59%Rec@50），通过设计上下文感知交互识别框架将标签编码到语义空间中。为了证明所提出的SCA-M在特征表示中的有效性和鲁棒性，我们用我们的SCA-M（即，SCA-M）代替CAI [49]中的视觉特征表示。 CAI + SCA-M）。性能改进非常显著，如表1所示。3由于更好的视觉特征学习，例如，谓词Rec@50增加2。39%的人[49]。此外，无论是语言先验，语言模型，也没有外部文本数据，所提出的方法仍然可以实现国家的最先进的性能上的大多数评估指标，由于其优越的特征表示。7结论我们提出了一个创新的框架Zoom-Net的视觉关系识别，专注于特征学习与一个新的空间-上下文-外观模块（SCA-M）。SCA-M的独特设计，它包含了所提出的对比ROI池和金字塔ROI池单元，有利于学习空间感知的上下文特征表示。我们进一步设计了层次内树（IH树）来模拟类内相关性，以处理模糊和嘈杂的标签。Zoom-Net在VG和VRD数据集上都实现了最我们证明了Zoom-Net的每个组件的优越性和可移植性。探索其他应用程序中的特征交互的概念是有趣的，例如图像检索和图像标题生成。国家自然科学基金（批准号：200000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000

下载后可阅读完整内容，剩余1页未读，立即下载