没有合适的资源?快使用搜索试试~ 我知道了~
3736弱监督视觉语义分析Alireza Zareian、Svebor Karaman和Shih-Fu Chang哥伦比亚大学,美国{az2407,sk4089,sc250}@ columbia.edu摘要场景图生成(Scene Graph Generation,SGG)的目的是从图像中提取实体、谓词及其语义结构,从而实现对视觉内容的深入理解,在视觉推理、图像检索等方面有着广泛的应用。然而,现有的SGG方法需要数百万个手动注释的边界框来进行训练,并且计算效率低下,因为它们穷尽地处理所有对的对象建议以检测谓词。在本文中,我们首先提出了SGG的一般化公式,即视觉语义解析,它解开实体和谓词识别,并使次二次性能,从而解决了这两个限制然后,我们提出了视觉语义解析网络,VSPN ET,基于一个动态的,基于注意力的,二分消息传递框架,通过迭代过程共同推断图形节点和边缘。此外,我们提出了第一个基于图的弱监督学习框架,该框架基于一种新的图对齐算法,该算法可以在没有边界框注释的情况下进行训练。通过广泛的实验,我们表明,VSPN ET优于弱监督基线显着和接近完全监督的性能,同时是几倍的速度。我们公开了方法1的源代码。1. 介绍深度学习在各种任务中表现出色,例如对象检测[33]和语音识别[1],但它不适合需要更深层次的语义理解和推理的任务,例如视觉问答(VQA)[47]。受自然语言处理中结构化表示的成功[2,34,37]的激励,计算机视觉已经开始采用场景图来提高性能和可解释性,用于各种任务,如VQA [35,12],图像字幕[42]和图像检索[14]。场景图生成(SGG)[40]的任务旨在用一组实体来表示图像1https://github.com/alirezazareian/vspnet图1.结构化场景理解的一个例子公式化为场景图生成,其中谓词是边 缘,相比之下,提 出的视觉语义解 析,其中predicates是节点和边缘表示语义角色。关系(节点)和谓词(有向边),如图1(底部)所示。已经提出了几种方法来解决这个问题[40,20,41,48],但尽管他们的成功,重要的挑战仍然没有解决。大多数现有的方法是计算效率低下,因为他们穷尽处理每对对象的建议,以检测谓词。这导致了关于提案数量的二次OR。扩展到更高阶的相互作用还没有被研究过,这将使这个问题变得更加复杂。此外,现有的SGG方法需要在整个训练数据上对地面实况图中的每个对象(节点)进行边界框注释我们认为,SGG应该理想地从包围盒本地化中解脱出来然而,弱监督SGG几乎没有被研究,并且性能与监督方法相差甚远[50]。为了推进结构化场景理解,我们提出了视觉语义解析网络(VSPNET),3737旨在解决上述两个限制,即,计算和监督成本。为此,我们推广了SGG的公式,将谓词表示为与实体节点相同的语义空间中的节点,而不是表示语义角色(例如,主体和客体)作为边。图1(上)说明了所提出的视觉语义解析(VSP)形式主义。这不仅允许我们打破二次复杂度,而且可以支持使用现有SGG公式无法表达的高阶交互。例如,一个女孩用叉子吃蛋糕的语义结构可以表示为一个谓词节点吃,通过三种类型的边连接到三个实体节点女孩,蛋糕和叉子,分别标记为主语,宾语和工具角色基于这个新的VSP公式,我们提出了一个动态的,基于注意力的,二分的消息传递框架,通过迭代过程联合推断节点标签和边标签,从而产生一个VSP图,并进而产生一个场景图。VSPNET由一个角色驱动的注意力机制来动态估计图的边缘,以及一个新的三阶段消息聚合网络来有效地路由整个图的消息。这两个模块依次细化图的节点和边,通过全局推理实现联合推理。所提出的架构不需要处理所有对的对象建议,因此是计算效率。最后,也是最重要的是,我们提出了一种新的框架,通过定义一个两阶段的优化问题,并设计一个新的图对齐算法来解决它,在弱监督设置训练VSPNET通过在Visual Genome数据集上的广泛实验,我们表明,与弱监督的计数器相比,我们的方法实现了显着更高的准确性,接近完全监督的基线。我们还表明,VSPNET很容易扩展到完全监督的设置,在那里它可以利用边界框注释,以进一步提高性能,并优于最先进的。此外,我们表明,我们的方法比所有基线快几倍,并定性地证明了其提取高阶相互作用的能力,这是任何现有方法的能力。2. 相关工作结构化场景理解:深度学习通常将计算机视觉简化为分类或检测任务,旨在孤立地提取视觉概念,如对象或动作。Lu等人[23]通过定义视觉关系检测(VRD)[49,50,21,7,31,45,51,13],其旨在对场景中检测到的对象对之间的关系进行分类。他们对“关系”的定义进食),空间位置(例如,以上)和比较形容词(例如,高于)。人-物交互(HOI)检测[9,4,15,32]是VRD的一个专门版本,专注于具有人类主体的动词最近,Xuet al.[40]将VRD重新定义为场景图生成(SGG)[20,27,48,41,19,39],其目的是联合检测场景中的所有对象和谓词,并将其表示为捕获整体场景内容的图。SGG假设每个谓词中包含两个实体(主语和宾语),这在现实世界中并不总是如此。情景识别(SR)[44,43,24]通过检测场景中的动词及其所有参数来解决该限制,但不定位对象,并且每个图像仅限于一个动词。我们提出的VSP可以看作是SGG和SR的推广,用语义图表示图像,这些语义图可以包含任何数量的谓词、本地化实体和语义角色。场景图生成:大多数SGG方法从输入图像中提取对象建议,执行某种信息传播(例如,[48]中的Bi-LSTM或[41]中的图卷积网)来合并上下文,然后将每个提议分类到实体类,以及将每对提议分类到预测类[40,20,48,19,39]。这个过程是二次的,因此效率很低。 最近的方法试图通过使用轻量级模型修剪全连接图来减少计算[41],或者通过将图分解为更小的子图[19]。然而,他们仍然suf- fer从二次秩序。Newell和Deng [27]提出了一种完全不依赖建议的方法,直接从一对特征图中提取实体和谓词。我们的方法是类似的,因为我们分配一个常数,次二次方数量的谓词,并推断它们与实体的连接,而不是处理所有的实体对。与[27]不同的是,我们将我们的图基于对象亲,并利用消息传递来合并上下文。神经信息传递:最近的深度学习方法越来越多地在各种计算机视觉任务中使用消息传递(MP)[22,5,15]。大多数SGG方法使用MP在对象程序之间传播信息[40,20,19,41]。而不是依赖于一个静态的,10个全连接图,我们提出了一个动态的,二分图,使用注意到相关的实体谓词对之间的路由消息进行细化。与在每个步骤中细化图形边缘的其他动态MP方法(已用于其他任务,如HOI [32]和视频对象检测[46])相比,我们定义了实体和谓词之间的边缘,而不是实体对,从而提高了计算效率,同时通过三阶段聚合合并了丰富的语义角色结构。弱监督学习:弱监督(WS)已经在几个领域得到了提倡,例如对象,动作和关系检测[3,36,50],并且受到手动注释边界耗时的事实的激励。大多数WS对象检测方法基于多个3738eeeeppR实例学习[8],它假设每个基本事实对象对应于许多建议中的一个,但对应性是未知的。WSDDN [3]专门有一个网络分支来为每个地面实况选择一个建议。Zhang等人[50]VRD采用WSDDN,为每个地面真值关系选择一对映射。相比之下,我们定义了一个全局优化问题,其中整个输出图必须与地面真值图对齐,而不是单独考虑每个谓词。Peyre等人[30]定义了一个全局优化的WS VRD,但它仅限于线性回归模型的关系识别。我们新颖的WS公式允许梯度下降学习,这使我们能够训练具有复杂消息传递架构的深度网络图不一定映射到场景图,因为预测可以连接到少于或多于两个的实体,可能涉及其他语义角色,例如仪器。因此,VSP是SGG的推广。在本文中,我们采用VSP形式主义,不仅是因为它涵盖了更广泛的语义,而且是因为它自然导致一个更有效的模型体系结构。为了考虑所有可能的关系,大多数现有的方法处理具有n2条边的全连通图,其中ne通常是建议的数量,通常为300。在Visual Genome中,超过99%的图的谓词少于20个,最大的一VSP允许我们用一个常数np的谓词节点来替换n2条边,远远小于n2。3. 方法在本节中,我们首先将第3.1节中的问题形式化,然后详细介绍我们的方法及其两方面的贡献:用于从图像构造语义图的VSPN ET体系结构(第3.2节),以及用于所提出的网络的弱监督训练的图对齐算法(第3.3节)。图2说明了我们的方法的一般流水线。3.1. 问题公式化给定图像I,SGG的目标是产生图GSGG=(N,E),其中N中的每个节点由实体类ci∈Ce和边界框bi表示,并且每个边将谓词类分配给有序的节点对,即, E:N×N ›→Cp。谓语边缘的方向通常遵循它们在英语短语中出现的顺序。例如,坐在椅子的人将被表示为标记为sitting on的边,从节点person到节点chair,而不是相反。然而,这种符号本质上是限制性的,因为它重新限制谓词在场景中正好有两个参数。这种限制对于关系谓词(如介词)来说是可以接受的,但对于构成谓词的一个重要组成部分的动词来说肯定不行。为了放松这一约束,我们遵循[44]采用语义角色标记[28]的公式,其中谓词表示为节点,边表示实体在每个谓词中扮演的语义角色。相应地,我们将可视化语义分析(VSP)定义为预测二分图3.2. 可视化语义分析网络我们提出了VSPNET,它以图像为输入,生成VSP图。为此,我们利用一个对象建议网络来初始化一组实体节点,并设计了另一个模块来初始化一组谓词节点。VSPNET的目标是将每个实体和谓词节点分类为实体类和谓词类(包括背景),并将每个实体-谓词对分类为预定义的边类型(语义角色)(包括无边)。这是两个相互依赖的任务,因为合并节点将有助于边分类,反之亦然。但是,由于它们都是未知的,有待确定,我们的模型依次推断出彼此。更具体地说,VSPNET是基于一种新的bipartite消息传递框架,传播信息从实体到谓词,反之亦然,通过角色驱动的注意力机制,估计边缘。在使用估计的边更新节点之后,我们通过使用新的节点表示重新计算注意力来更新边,并重复此过程u次迭代。为了分别合并每个语义角色,我们为每个角色指定一个这导致了一个复杂的路由问题,其中来自潜在的大量节点的消息必须通过多种类型的边缘传播。因此,我们提出了一个三阶段的消息聚集网络,以有效地路由和收集相关的消息更新每个节点。形式上,我们定义H(0)∈Rne×de 为初始GVSP=(Ne,Np,E),其中,的。N=c ∈C,bΣ,n∈R4,隐藏n-e个实体节点状态,并初始化每行用户。设置相应对象提案的外观(RoI [33])特征,以及其边界框坐标,e.N =cIe我∈ C<$np 得双曲正弦值.i=1(一)nates,通过将它们送入两个完全连接的网络,e(. )和e(. ),并将两个输出相加。 我们还定义p kpk=1a bE:Np× Ne <$→Cr。H(0)∈Rnp×dp为np的初始隐态谓词每个场景图GSGG都有一个等价的VSP图GVSP结 H(0)是一个可训练的矩阵,随机初始化为-在训练前,但在测试中固定。 给定H(t)和H(t),我们其中每个谓词都有两个角色,主语和ob-ep对象,意味着Cr={s,o}。然而,任意VSP计算一组注意力矩阵A∈(t)∈Rnp×ne,每个e3739Repr′nR rr图2.我们建议的框架概述:给定一个输入图像和对象的建议,场景图是由一个迭代过程,涉及到一个多头注意模块,推断实体和谓词之间的边缘,和一个新的消息传递模块节点之间传播信息和更新它们的状态。为了定义每个节点和边的分类损失,通过一种新的弱监督算法将地面真值图与我们的输出图对齐。红色代表错误。最好用彩色观看。在每个语义角色的上下文中表示Cr中的语义角色类r更具体地说:~(t).p. (t) Σe.(t)M(t)[k]= ge→p。A(t),H(t)A R [k,i]=fr Hp[k],frHe[i]、(二)p.=gp← 伦河.乌恩河GeeA(t)[ k,i]ge→Σ.ΣΣH(t)[ i],(四)其中,. n表示点积,H[k]表示第k个行H,以及fp和fe是可训练的全连通网,Rr=1R ei=1R r工作来计算注意力的查询和关键向量我们进一步堆叠A(t)以构建三维张量A(t)其中ge→,ge,和gp← 是独立的,完全可训练的R它代表了整个角色驱动的注意力。在我们的实验中,没有一个谓词可以为每一个实体角色,任何实体-谓词对都不能有一个以上的语义角色。因此,我们将A(t)归一化,使得:连接的网络,分别称为发送头,池头和接收头。请注意,池头由应用于每个角色的池消息的nr个类似地,更新每个实体的传入消息计算为:A(t)[ k,i]=exp . A(t)[k,i]M(t)[i]=gp→e。A(t),H(t)Rp+伦河r′=1.. A(t)[k,i]Σ(三).Σr=ge←. ΣnpGpA(t)[k,i]gp→Σ.ΣΣH(t)[k]。(五)exp A(t)[k,i]r r p×p+neRexp. A(t)[k,i′].r=1k=1i′=1r这可以解释为应用两个softmax函数在收集每个节点的消息后,我们使用两个门控递归单元(GRU)更新它们的状态[6]。在A上的Pockell(t)中,一次沿着角色的轴标准化,一次沿着实体的轴标准化,然后乘以H(t+1)[i]=GRUe.H(t)[ i],M(t)[ i]Σ得双曲正弦值.e两个标准化矩阵,元素方面。常数p是e e.Σ(6)H(t+1)[k] = GRU pH(t)[k],M(t)[k]。加到每个分母上,使之和小于p p p一个,例如,实体-谓词对之间没有角色。在计算注意力矩阵后,我们用它们来支持-这个过程重复恒定的次数u,exp3740R最后的状态H(u)和H(u)通过-将每个实体的信息传递到其相关谓词e p反之亦然。为此,我们提出了一个三阶段的消息聚合框架,计算传入的消息更新每个节点,通过聚合传出的另一对全连接网络(He,Hp)产生实体和谓词节点的语义嵌入EO和PO。邻接矩阵A(u)的最终状态为所有其他节点的数据,并分别处理它们堆在一起,命名为AO。3741软软ep¨n在消息传递过程之后,我们得到一个连续的完全可微的输出图GO=(EO,PO,AO).为了产生一个有效的,离散的图中定义的方程。(1),我们应用两步离散化过程。首先,我们将EO和PO转换为离散的la,对齐节点的成本总和例如,如果我们将实体损失LE和谓词损失LP定义为实体和谓词嵌入的均方误差,并且如果我们将角色损失LR定义为所有注意力分数上的二进制交叉熵,则我们可以写为:bels通过选择每一行的最近邻居来O T 1T¨2在实体和谓词类的字典中嵌入-叮。接下来,我们阈值的注意力矩阵AO和抑制每个实体谓词对的非最大角色LE(G,G,I)=|I e| (i,j)∈Ie我 −Ej−2,(10)这导致离散图GO=(NO,NO,EO)。在1Σ¨ ¨2e pLP(GO,GT, I)=O−PT、(11)在下一小节中,我们定义成本函数,其中我们还需要相反的过程:将地面真值图G T=(NT,NT,ET)转换为软表示|Ip|kl2(k,l)∈Ipe pΣr不软 =(E T,P T,A T)。为此,我们将类em-不LR(GO ,GT ,I)=1Lr,(12)实体和谓词节点的铺垫以得到矩阵E和PT,并将边缘编码为二进制邻接矩阵AT。3.3. 弱监督训练其中对于角色r,1 Σ ΣL=nrr=1X. OT我们使用图像和未本地化的图像对来训练我们的模型。R|我|(i,j)∈Ie(k,l)∈IpAr[k,i],Ar[l,j],(13)地面实况图。具体来说,我们需要比较软输出图GO(即,在离散化之前),哪里|我|为|Ie|| Ip|得双曲正弦值.不软 来计算要最小化的可微成本。X(p,q)= −q log p −(1 − q)log(1 −p)。(十四)为此,我们找到一个对齐(即,节点对应dence),然后将总成本定义为对齐的节点和边缘上的损失项的总和。形式上,我们将对齐I定义为:I=(Ie,Ip),其中、、、Ie=(i,j)|i∈ {1…n 0},j∈ {1. n T},以及由于LR与LE和LP处于不同的尺度,因此我们使用超参数λ来平衡其在等式中的重要性(九)、弱监督学习的主要挑战是对齐I未知,因此我们的训练涉及以下嵌套优化:φ_i=argminE_inL(G_O,G_T,I)_i,e e(7)φI、、、Ip=(k,l)|k∈ {1…n 0},l∈ {1.n T},其中φ是导致p p到GO,期望值是通过对其中nO=ne和nO=np是输出从训练数据中采样的小批量请注意,实体和谓词节点,而nT和nT是数字优化受到等式中的约束(八)、启发e p基本真值实体和谓词节点。 Ie是有效的实体对齐,如果对于任何输出节点i,最多有一个目标节点j,并且对于每个j,最多有一个i,其中(i,j)∈ Ie。类似的约束对于Ip也成立。此外,如果所有输出实体或所有目标实体都对齐,则I e是最大对齐,无论哪个更少,即|= min(n O,n T),类似地,|= min(n O,n T), and similarly,中国 (8)|I p| = min(n O,n T),[25]我们用一种新的方法,混合化方法:我们使用Adam Optimizer [16]进行外部优化,并在下面提出一种迭代对齐算法来解决内部优化。没 有 有 效 的 精 确 算 法 求 解 方 程 的 内 部 优 化 。(15)、因此,我们提出了一个迭代算法来近似最优对齐。我们表明,给定一个实体对齐,它是可能的,多项式时间内的最优谓词对齐Ip,以及p p从Ip到Ie。 因此,我们执行这些哪里|. | denotes set cardinality. 如果我是一条直线在输出和目标图之间,我们的目标函数是:以坐标下降的方式迭代两步,保证收敛到局部最优值。L(GO,GT,I)=LEG得到G(十五)3742W,+LP+λLR、(9) 假设Ie已知,我们试图找出使L最小化的Ip. 由于LE相对于Ip是常数,因此,这是实体确认成本的组合,预计,lem简化为最小化LP+λLR,可以写成:身份识别和语义角色标注。我们的弱监督训练框架与我们如何定义每个损失项无关,只要它们是LP+λLR1= |Ip|ΣPKL(k,l)∈Ip(十六)3743OTΣ方法监督公司简介R@50 R@100PHR DETR@50 R@100VtransE-MIL [50]PPR-FCN [50]弱0.71.50.91.91.52.42.03.2VSPNET,无迭代对齐1.31.68.010.2VSPNET,对齐步骤更1.82.09.911.9VSPNET,不带三级MPVSPNET,不带角色驱动MP弱2.42.52.82.916.715.719.818.7VSPNET,MP步骤2.52.815.518.3VSPNET(我们的)3.13.517.620.4VtransE [50]5.56.09.510.4S-PPR-FCN [50]充分6.06.910.611.1VSPNET(我们的)8.99.924.027.8表1.[50]预处理VG的结果所有数字都是百分比,基线是从[50]借来的。其中WP是输出谓词节点和目标谓词节点之间的成对代价函数,不仅度量它们的语义嵌入距离,而且度量它们在图中的连通性差异。更具体地说:添加项相对于模型参数的梯度为零,因此这仅影响对齐。4. 实验PúOTúWkl,-k −Pl?2λr.ΣXA[k,i],A[l,j]。(十七)我们将我们的框架应用于Visual Genome(VG)数据集[17],用于场景图生成任务,并与弱监督和完全监督基线进行比较。n r|Ie|R r(i,j)∈Ier=1通过定量分析,我们表明,VSPNET签名注意,Eq. (16)这取决于Eq。(8),这使得|Ip|常数因此,该问题等价于具有全连接成本函数WP的最大二分匹配,其可以使用Kuhn-Munkres算法在多项式时间内求解[26]。同样,给定ip,我们可以解出ie,并重复改变。每一步都导致较低或相等的损失,因为当LE固定时LP+LR最小化,或者当LP固定时LE+LR最小化由于L不能成为负的,这些迭代必须收敛。我们已经观察到,L的收敛值对我们是否从初始化Ie或Ip开始不敏感,也不依赖于初始化值。在我们的实验中,我们初始化ip为空集,并继续更新ie。我们用v表示用于该对齐过程的迭代次数我们的方法可以自然地扩展到完全supervised设置通过添加一个项在方程。10,以最大化对齐的边界框对之间的重叠具体地,我们将LE重新定义为:显著优于现有技术的弱监督和完全监督此外,消融实验显示了每个提出的模块,即迭代对齐,角色驱动的注意力,和三阶段的消息聚集的conception。最后,我们提供了定性的证据表明,我们的方法是能够产生VSP图,这是超出了传统的场景图的表达能力。4.1. 实现细节我们使用现成的Faster R-CNN [33]在Open Images数据集[18]上进行预训练,以提取需要作为VSPNET输入的对象建议。我们为所有图像提取一次建议坐标和特征,并在训练和评估模型时保持固定我们不会将VSPNET堆叠在Faster R-CNN之上,也不会在训练期间微调Faster R-CNN。我们使用具有1024维状态(de和dp)的GRU [6]初始化头ea和eb,注意头fe和fp,以及消息传递头ge→,ge,1Σ。 ¨¨R r rp←p e ←Lsup(GO,GT, I)=EO−ET<$2g,gp→,gr,和g,都是全连通网络E| I e|(i,j)∈Ie.-哦ij2中国(18)不有两个1024维的层嵌入预测头he和hp都是单层网络,λB测井 IoU [Bi −Bj]+,将1024-D GRU状态映射到300-D嵌入空间。所有完全连接的网络都使用Leaky ReLU激活函数,其中,B0和BT分别是输出和真实边界框的集合,λB和λ T是通过交叉验证选择的请注意,Gra-[11]. 通过交叉验证,我们设置λ = 10,u = 3,v=3。我们使用GloVe嵌入[29]来表示每个类,并在训练过程中对其进行微调+3744方法监督公司简介SGCLSR@50 R@100PRED CLSR@50 R@100时间R@50R@100IMP [40]1.643.44.221.724.444.753.1[20]第二十话3.567.710.519.321.863.166.4MotifNet [48]2.076.99.123.827.241.848.8副大使[27日]充分1.199.711.326.530.068.076.2图R-CNN [41]0.8311.413.729.631.654.259.1VSPNET(我们的)0.1112.614.231.534.167.473.7VSPNET(我们的)弱0.114.75.430.532.757.762.4表2.关于VG的结果[40]。[41]回忆数(%)来自[41]。推理时间以秒为单位,部分借用了[19]。谓词节点数np是一个重要的选择。拥有更多的谓词节点将增加召回率,但也会增加推理时间。由于SGG方法通常在100和50个谓词下进行评估,因此我们设置np=一百块为了只输出50个谓词,我们对谓词进行排名节点相对于其置信度,其定义为作为主语、宾语和谓语的三个分类置信度得分的乘积。为了在表2中报告推理时间,我们使用所有方法的相同设置(NVIDIA TITAN X,200提案,VGG主干)计算测试集上每个图像的平均推理时间。时间包括提取的建议和他们的特点。4.2. 任务定义Visual Genome数据集由108,077张图像组成,带有对象和关系的手动注释,以及开放的词汇表类。[40]以及[50]预处理注释的对象和关系以产生具有固定词汇表的场景图。[40]保留了150个最频繁的实体和50个最频繁的谓词类,而[50]分别在200和100我们根据[40]和[50]进行了两组实验,以便能够与每篇论文分别报告的性能进行我们遵循他们的预处理,数据分割和评估协议,但我们假设边界框在弱监督训练期间不可用被称为SGGEN的主要评估指标测量主语-谓语-宾语三元组的准确性。如果针对主语、宾语和谓语的预测类都是正确的,并且主语和宾语边界框具有至少0.5的与地面真值的交集大于并集(IoU),则检测到的三元组被认为是正确的为了评估,将模型预测的前K个三元组与地面实况三元组匹配。正确匹配的三元组的数量除以地面真值中的三元组总数,以计算K处的召回率。该值在导致R@50和R@100的所有图像上平均。由于SGGEN在很大程度上受到目标提案质量的影响。我们还报告了SGCLS,它假设在测试时给出了真实边界框,而不是建议。另一个指标PRED CLS假设地面实况边界并给出了真正的对象类。[50]还使用PHR DET进行评估,P HR dET代表短语检测。该度量类似于SGGEN,不同之处在于,不是分别评估主体和对象的边界框,而是目标是预测包围对象和主体的联合边界框。为此,对于每个检测到的三元组,我们得到其主体和客体的并集盒,并在IoU ≥ 0时与地面真值三元组的并集盒匹配。五、4.3. 结果表1显示了我们在弱监督(WS)和完全监督(FS)设置下与VtransE [49]和PPR-FCN [50]相比的VG定量结果,遵循[50]的评估设置。我们的VSPN ET实现了最佳的WS性能,SGG EN性能比最先进的高出两倍以上,PHR D ET比最先进的高出六倍以上。此外,我们的方法的FS扩展显著优于这些基线的FS变体。在PHR DET测量上,即使是我们的WS方法也优于所有FS基线。此外,我们在表1中提供了我们的方法的消融变体作为额外的行,以单独研究每个拟议组件的效果。在VSPN ETw/o迭代对齐中,我们用启发式基线替换了所提出的对齐算法,其中我们通过最小化LE来对齐实体,并且在一个步骤中独立地对齐谓词以最小化LP。我们的对齐算法导致超过两倍的性能,这种消融。 我们通过将对准步骤v的数量从3减少到1来进行类似的观察,表示为VSPN ETw/更少的对准步骤。此外,在VSPN ETw/o三阶段MP中,我们用传统的平均池化来替换所提出的三阶段消息聚合框架,该平均池化计算所有消息乘以注意力权重之后的总和。在VSPN ET w/o role-driven MP中,我们保留了三阶段消息聚合,但去除了role-driven attention,并将Ar(t)替换为恒定的均匀分布的tention。最后,在具有较少MP步骤的VSPNET中,我们仅将MP步骤的数量u从3减少到1。所有这三种消融都导致了较差的性能,证明了消融的有效性。3745我们提出的消息传递框架的有效性。为了与最近的方法进行比较,我们还对[40]使用的VG的原始版本表2将VSPNET与[41]报告的所有数字进行了比较。我们的方法的FS版本在所有指标上都优于所有最先进的方法,除了Assoc稍微优于它。EMB. [27]仅在PRED CLS中。除了优越的准确性,我们的方法是几倍的速度比所有的方法。它也比Factorizable Net快5倍[19],这是最快的SGG方法(每个图像0.55秒),尽管没有在表2中显示,因为他们报告的召回率计算方式与我们的不同。此外,我们的WS方法表现出竞争力的性能,甚至优于一些FS方法。虽然从FS到WS的性能有所下降,但这主要是由于WS设置中的对象本地化的困难在SGCLS中,它实现了非常接近FS VSP-NET的性能,并且优于所有其他FS基线。这表明,如果有一天我们可以获得非常准确的建议,我们的WS模型将与FS方法一样准确请注意,尽管SGCLS提供了地面实况边界框,但WS模型仅将其视为输入建议,并且仍然使用未本地化的地面实况和未知对齐进行训练。还要注意,表2中的所有基线都直接在VG上训练他们的Faster R-CNN,使用我们假设在WS设置中不可用的注释边界框。因此,我们使用现成的Faster R-CNN,它在我们所有的实验中都是在另一个数据集上进行预训练的这使得表2中的比较有些不公平,对我们不利。采用基线所使用的主干可以改进我们的结果,但违反了WS约束。为了说明我们新的VSP公式的表达能力,我们在V-COCO数据集[10]上训练我们的模型,该数据集在图像中注释人类动作,以及这些动作的对象和工具。虽然该数据集主要用于文献中的HOI [32,38],但我们将其用于VSP,通过将每个图像的所有动作注释聚合到单个语义图中,并通过3种类型的语义角色将它们连接到相关对象生成的VSP图具有在场景图中看不到的独特属性,如图3所示,例如具有两个以上实体的动词(例如,person cutting cakewithknife),以及只有一个实体的动词(例如,微笑的人)。在V-COCO的训练集上训练我们的模型之后,我们将其应用于测试集,并在图3中显示输出图我们的方法成功地生成VSP图包含的相互作用,是不可能与任何SGG方法。5. 结论我们提出了一种方法来解析图像到一个语义图,其中包括实体,谓词和语义角色。图3.我们的方法生成的示例VSP图。实线、虚线和点线表示主体、客体和工具。与以前的作品不同,我们的方法不需要边界框注释进行训练,并且不依赖于所有对象提案对的自动处理。此外,它能够提取更灵活的图,其中每个谓词中涉及任何数量的实体。为此,我们提出了一种通用的场景图生成(SGG),从实体中解开谓词,并使次二次性能。在此基础上,我们提出了VSPNET,它基于一个动态的、基于注意力的、双向的消息传递框架。我们还介绍了第一个基于图的弱监督学习框架,该框架基于一种新的图对齐算法。我们通过大量的实验将我们的方法与最先进的方法进行了比较,并在弱监督和完全监督的情况下实现了显着的性能改进,同时比现有的方法快几倍。鸣 谢 : 这 项 工 作 得 到 了 美 国 DARPA AIDA 计 划 编 号FA8750-18-2-0014。的意见和本文件中包含的结论是作者的结论,不应被解释为代表美国的官方政策,无论是明示的还是暗示的。政府的 的美国尽管本文件载有版权注释,政府仍获授权为政府目的复制及分发3746引用[1] Dzmitry Bahdanau,Jan Chorowski,Dmitriy Serdyuk,Phile-mon Brakel,and Yoshua Bengio.端到端基于注意力的大词汇量语音识别。在2016年IEEE声学、语音和信号处理国际会议,第4945-4949页。IEEE,2016.[2] Laura Banarescu 、 Claire Bonial 、 Shu Cai 、 MadalinaGeorgescu 、 Kira Griffitt 、 Ulf Hermjakob 、 KevinKnight 、 Philipp Koehn 、 Martha Palmer 和 NathanSchneider 。 AB- 代 表 银 行 。 在 Proceedings of the 7thLinguistic Annotation Workshop and Interoperability withDiscourse,第178-186页[3] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集,第2846- 2854页[4] Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and Jia Deng.学习检测人机交互。2018年IEEE计算机视觉应用冬季会议(WACV),第381-389页。IEEE,2018年。[5] Xinlei Chen,Li-Jia Li,Li Fei-Fei,and Abhinav Gupta.它是超越卷积的交互式视觉推理。在IEEE计算机视觉和模式识别会议论文集,第7239-7248页,2018年[6] KyunghyunCho,BartVanMerrieenboer,CaglarGulcehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv:1406.1078,2014。[7] Bo Dai,Yuqi Zhang,and Dahua Lin.用深层关系网络检测视觉关系。在IEEE计算机视觉和模式识别会议论文集,第3076-3086页[8] 托马斯·G·迪特里希、理查德·H·莱思罗普和托马的洛扎诺·佩雷斯。用平行轴矩形求解多实例问题人工智能,89(1-2):31[9] GeorgiaGkioxari , RossGirshick , PiotrDolla'r ,andKaimingHe.检测和识别人机交互。在IEEE计算机视觉和模式识别会议论文集,第8359-8367页[10] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv:1505.04474,2015。[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在IEEE计算机视觉国际会议论文集,第1026-1034页[12] 德鲁·哈德森和克里斯托弗·D·曼宁抽象学习:神经状态机。神经信息处理系统的进展,第5901-5914页,2019年[13] Seong Jae Hwang、Sathya N Ravi、Zirui Tao、HyunwooJ Kim、Maxwell D Collins和Vikas Singh。Tensorize、fac- torize和regularize:强大的视觉关系学习。 在IEEE计算机视觉和模式识别会议论文集,第1014-1023页[14] Justin Johnson,Ranjay Krishna,Michael Stark,Li-JiaLi,David Shamma,Michael Bernstein,and Li Fei-Fei.使用场景图进行图像检索在Proceedings of the IEEEconference on computer vision and pattern recognition,pages 3668[15] Keizo Kato,Yin Li,and Abhinav Gupta.人机交互的组合学习。在欧洲计算机视觉会议(ECCV)的会议记录中,第234-251页[16] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[17] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A Shamma,et al.可视化基因组:使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision,123(1):32[18] Alina Kuznetsova , Hassan Rom, Neil Alldrin , JasperUijlings , Ivan Krasin , Jordi Pont-Tuset , ShahabKamali,Stefan Popov,Matteo Malloci,Tom Duerig,et al.开放图像数据集v4:统一的图像分类,对象检测,并 在 规 模 视 觉 关 系 检 测 。 arXiv 预 印 本 arXiv :1811.00982,2018。[19] Yikang Li,Wanli Ouyang,Bolei Zhou,J
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功