没有合适的资源?快使用搜索试试~ 我知道了~
46130用于场景图生成的反事实评论多智能体训练0Long Chen 1 Hanwang Zhang 2 Jun Xiao 1 � Xiangnan He 3 Shiliang Pu 4 Shih-Fu Chang 501 DCD实验室,浙江大学计算机科学与技术学院 2 MReal实验室,南洋理工大学 3中国科学技术大学 4 海康威视研究院 5 DVMM实验室,哥伦比亚大学0摘要0场景图——以对象为节点,以视觉关系为边——描述了图像中对象的位置和相互作用,用于全面理解场景。为了生成连贯的场景图,几乎所有现有的方法都利用了丰富的视觉上下文,通过建模对象之间的消息传递。例如,“骑自行车”的“人”可以帮助确定两个对象之间的关系,从而有助于它们的置信度。然而,我们认为使用流行的基于交叉熵的监督学习范式没有正确学习到视觉上下文,这种范式对图不一致性不敏感:在中心节点或非中心节点的错误应该受到不同的惩罚。为此,我们提出了一种反事实评论多智能体训练(CMAT)方法。CMAT是一种多智能体策略梯度方法,将对象框架化为合作智能体,然后直接将图级度量作为奖励进行最大化。特别地,为了正确分配奖励给每个智能体,CMAT使用反事实基线,通过固定其他智能体的预测来解开智能体特定的奖励。在具有挑战性的VisualGenome基准测试中进行了大量验证,结果表明CMAT在各种设置和指标下取得了显著的性能提升,达到了最先进的水平。01. 引言0视觉场景理解,例如,计算机视觉中的事物和物品的内容和位置,以及它们之间的关系,是核心任务之一。随着目标检测[49,34]和分割[35,16]的成熟,计算机可以很好地识别对象类别、位置和视觉属性。然而,场景理解超越了对象的位置。更关键的一步是推断它们的视觉关系——它们与对象一起提供全面和连贯的视觉基础知识,称为场景图[23]。如图1所示0� 通讯作者。0夹克0轮胎 篮子0包 电脑 鞋 树0筑0窗户0有 在0附近附近0关于场景图生成0图协调目标的图级度量0轮胎 篮子0包0女人 附近 在 上0附近0男人0建筑0附近0用于局部敏感目标的反事实评论0自行车 非自行车(人)0观看附近的0携带0真实场景图0图1:(a)输入图像及其真实场景图。(b)对于图协调目标,图级度量将惩罚红色节点比蓝色节点更多,即使两者都被错误分类为人。(c)对于局部敏感目标,将红色节点预测为自行车的个体奖励可以通过排除非自行车预测的奖励来确定。0(a)中,场景图中的节点和边分别表示对象和视觉关系。此外,场景图是许多高级视觉任务(如图像字幕[69,66,68,24]、视觉推理[53,14]和VQA[42,19])的不可或缺的知识表示。场景图生成(SGG)的一个直接解决方案是以独立的方式进行:通过现有的对象检测器检测对象边界框,然后分别预测对象类别和它们的成对关系[37,74,67,52]。然而,这些方法忽视了丰富的视觉上下文,而视觉上下文提供了有助于对象和关系检测的强大归纳偏见[9]。46140在图1的示例中,窗户和建筑通常在图像中同时出现,并且树和建筑之间的关系通常是“附近”关系;可以很容易地推断出窗户-在-建筑或树-附近-建筑。这种直觉在提升SGG方面已经被实证显示出了好处[62, 7, 28, 30, 29, 71, 20, 73, 58, 13, 44, 59,45]。具体来说,这些方法使用条件随机场[78]来建模节点和边的联合分布,其中上下文通过节点之间通过边进行的多步均值场近似的消息传递来进行融合;然后,通过节点(例如对象)和边(例如关系)的交叉熵(XE)损失之和来优化模型。然而,由于主要原因是基于XE的训练目标不是图形一致的,现有的SGG方法不能有效地捕捉到视觉上下文的连贯性。通过“图形一致性”,我们指的是场景图的质量应该在图形级别上:检测到的对象和关系应该在上下文上保持一致;然而,对象和关系的交叉熵损失之和实质上是独立的。为了看到这种不一致性的负面影响,假设在图1(b)中红色和蓝色节点都被错误分类。基于XE损失,这些错误被同等地惩罚。然而,错误地将红色节点分类错误的错误应该比蓝色节点更严重,因为红色错误将影响比蓝色错误更多的节点和边。因此,我们需要使用图形级别的度量,如Recall@K[37]和SPICE[1]来匹配图形一致的目标,这样可以更严厉地惩罚错误分类重要的中心节点。同时,SGG的训练目标应该是局部敏感的。通过“局部敏感”,我们指的是训练目标对单个节点的变化敏感。然而,由于图形一致性目标是全局汇聚量,节点预测的个体贡献丢失了。因此,我们需要设计一种解耦机制来识别个体贡献,并为每个局部预测提供有效的训练信号。在本文中,我们提出了一种新的训练范式:对抗性评论员多智能体训练(CMAT),以同时满足图形一致和局部敏感的要求。具体而言,我们设计了一种新颖的通信多智能体模型,其中对象被视为合作智能体,以最大化生成的场景图的质量。每个智能体的动作是预测其对象类别标签,并且每个智能体可以使用成对的视觉特征与其他智能体进行通信。通信保留了SGG中丰富的视觉上下文。经过几轮智能体通信后,一个视觉关系模型通过将生成的场景图与真实图进行比较来触发整体的图形级别奖励。对于图形一致的目标,我们直接将目标定义为图形级别的奖励(例如Recall@K或SPICE),并使用策略梯度[56]来优化不可微分的目标。从多智能体强化学习(MARL)[57,36]的视角来看,特别是演员-评论员方法[36],关系模型可以被构建为评论员,而对象分类模型则作为策略网络。对于局部敏感的目标,我们通过改变目标智能体并固定其他智能体,从图形级别奖励中减去一个反事实基线[11]。如图1(c)所示,为了近似红色节点作为自行车的真实影响,我们固定其他节点的预测,并将自行车替换为非自行车(例如人、男孩和汽车),并观察这种反事实替换如何影响奖励(例如连接其邻域的边都是错误的)。为了更有效地编码视觉上下文以进行CMAT训练,我们设计了一种高效的智能体通信模型,该模型舍弃了现有消息传递方法[62, 30, 20, 28, 71,29]中广泛使用的关系节点。由于这种设计,我们将智能体通信(即消息传递)与视觉关系检测解耦,使前者专注于建模视觉上下文,而后者作为评论员指导图形一致的目标。我们在具有挑战性的VisualGenome[27]基准测试上验证了CMAT的有效性。我们观察到在广泛的消融实验中持续改进,并在三个标准任务上实现了最先进的性能。总之,本文在以下三个方面做出了贡献:1.我们提出了一种新的训练范式:对抗性评论员多智能体训练(CMAT)用于SGG。据我们所知,我们是第一个将SGG形式化为合作多智能体问题的人,这符合场景图的图形一致性特性。2.我们设计了一种对于训练有效的反事实评论员,通过识别个体智能体的贡献,使图形级别的奖励对局部敏感。3.我们设计了一种高效的智能体通信方法,将关系预测与视觉上下文建模解耦,前者本质上是后者的结果。0我们在挑战性的VisualGenome[27]基准测试中验证了CMAT的有效性。我们观察到在广泛的消融实验中持续改进,并在三个标准任务上实现了最先进的性能。总之,本文在以下三个方面做出了贡献:1.我们提出了一种新的训练范式:对抗性评论员多智能体训练(CMAT)用于SGG。据我们所知,我们是第一个将SGG形式化为合作多智能体问题的人,这符合场景图的图形一致性特性。2.我们设计了一种对于训练有效的反事实评论员,通过识别个体智能体的贡献,使图形级别的奖励对局部敏感。3.我们设计了一种高效的智能体通信方法,将关系预测与视觉上下文建模解耦,前者本质上是后者的结果。02. 相关工作0场景图生成。在Lu等人的开创性工作[37]和Krishna等人的第一个大规模场景图数据集问世之后,检测视觉关系重新引起了社区的关注[27]。在早期阶段,许多SGG工作侧重于独立检测对象和视觉关系[37,74,80,79,75],但这些独立推理模型忽视了丰富的视觉上下文。为了从视觉上下文中受益于对象和关系检测,最近的SGG方法采用了消息传递机制[62,7,30,29,71,20,65,58,13,44,59]。��46150(a)ROI提案(b)智能体通信0男孩0脸裤子0风筝手0(c)对象标签0握着0图度量0关系模型0反事实基准模型0(d)关系标签(e)输出场景图0手0男孩0裤子0脸0握着0风筝0基准0奖励0训练路径反事实评论测试路径0图2:CMAT框架的流程。给定一张图像,模型使用RPN提出对象区域(a)。然后,每个对象(智能体)与其他对象进行通信以编码视觉上下文(b)。智能体通信后,模型预测所有对象的类别置信度。基于置信度,它选择(随机或贪婪采样)对象标签(c)并推断对象对的视觉关系(d)。最后,它生成场景图(e)。在训练阶段,使用反事实评论来计算个体贡献。0然而,由于传统的XE损失,这些方法无法学习到视觉上下文,这种损失在图级上不具备一致性。与以前的方法不同,在本文中,我们提出了一个CMAT模型,以同时满足图的一致性和局部敏感性要求。多智能体策略梯度。策略梯度是一种可以优化不可微分目标的方法。它在许多场景理解任务中得到了广泛研究,如图像字幕[46,50,33,51,77,32],VQA[18,22],视觉定位[4,72],视觉对话[8]和目标检测[3,38,21]。Liang等人[31]使用DQN将SGG形式化为单个智能体的决策过程。与这些单个智能体策略梯度设置不同,我们将SGG形式化为一个合作的多智能体决策问题,其中训练目标是图级上下文一致并符合场景图的图一致性特性。同时,与许多经过深入研究的多智能体游戏任务[10,43,12,57]相比,CMAT中的智能体数量(64个对象)和动作样本空间(151个对象类别)要大得多。03. 方法0给定一组预定义的对象类C(包括背景)和视觉关系类R(包括非关系),我们正式表示一个场景图G = {V = {(vi, li)}, E = {rij} | i, j = 1...n},其中V和E分别表示节点和边的集合。vi∈C是第i个节点的对象类,li∈R4是第i个节点的位置,rij∈R是第i个节点之间的视觉关系0和第j个节点。场景图生成(SGG)是为了检测节点和边的一致配置。在本节中,我们首先介绍CMAT的组件(第3.1节)。然后,我们介绍CMAT的训练目标的详细信息(第3.2节)。03.1. 使用多智能体通信的SGG0我们按照推理路径(图2中的路径)顺序介绍CMAT的组件,包括0对象候选框检测、agent通信和视觉关系检测。03.1.1 对象候选框检测0输入:IMAGE → 输出:{ ( l i , x 0 i , s 0 i ) }我们使用FasterR-CNN作为目标检测器,提取一组对象候选框。每个候选框关联一个位置 l i,一个特征向量 x 0 i 和一个类别置信度 s 0i。上标 0 表示用于后续 T轮agent通信的初始输入。我们遵循之前的工作,将所有位置 {l i }固定为最终预测结果。为简洁起见,我们在后续章节中将省略 li。03.1.2 Agent通信0输入:{ ( x 0 i , s 0 i ) } → 输出:{ ( x T i , s T i , h T i )}给定上一步的 n个检测到的对象,我们将每个对象视为一个agent,并且每个agent将与其他agent进行 T轮通信,以编码视觉上下文。在每一轮通信中,如图3所示,有三个模块:提取模块、消息模块和更新模块。这些模块在所有agent和时间步之间共享参数,以减少模型复杂度。接下来,我们介绍这三个模块的详细内容。提取模块的具体实现是一个LSTM,它编码agent的交互历史并提取每个agent的内部状态。具体而言,对于第 t 轮(0 < t ≤ T)通信的agent i(第 i 个对象):0h t i = LSTM ( h t − 1 i , [ x t i , e t − 1 i ]) ,0s t i = F s ( s t − 1 i , h t i ) , e t i = F e ( s t i ) , (1)0其中,h t i 是LSTM的隐藏状态(即agent的内部状态),xt i 是时间步输入特征,s t i 是对象类别置信度。x t i(即 x0 i)和 s t i(即 s 0 i)的初始化来自候选框检测步骤。e t i是类别标签的软加权嵌入,[ , ] 是连接操作。F s 和 F e是可学习的函数。所有内部0为了简洁起见,我们将详细内容放在补充材料中。𝑥%&'(Extract Moduleℎ%&'(𝑀%+&'(Update Moduleℎ%+&'(Message ModuleExtract Moduleℎ+&'(𝑀+%&'(𝑥+&'(𝑥%&𝑥+&𝑡-round (3)�46160Agent !�Agent !�0Agent通信0Agent !�0Agent !�0图3:agent i和agentj(红色和绿色节点)之间的agent通信示意图(在时间步t)。0状态 { h t i }被输入到下一个消息模块中,以组合agent之间的通信消息。消息模块考虑了agenti和j之间的通信,将为每个agent组合消息 M t ij 和 M tji。具体而言,agent i的消息 M t ij 是一个元组 M t ij = (m t j , m t ij ),包括:0m t j = F m 1 ( h t j ) , m t ij = F m 2 ( h t ij ) , (2)0其中,m t j是捕捉agentj的身份信息(例如,局部对象内容),m tij是建模两个agent之间交互的双向信息(例如,相对空间布局)。h t ij是agenti和j之间的双向特征,其初始化是由目标检测器提取的联合框特征。F m � 是消息组合函数。所有agenti与其他agent之间的通信消息(即 { M t i � })和其内部状态 h t i被输入到下一个时间步的更新模块中,以更新下一轮agent通信的时间步特征。更新模块使用软注意力机制[5]来融合来自其他agent的消息。0α t j = F att 1 ( h t i , h t j ) , α t ij = F att 2 ( h t i , h t ij ) ,0在时间步t+1,agent i的更新公式为 F u 1 ( h t i , { α t j m t j } , { α t ij m t ij } )0h t +1 ij = F u 2 ( h t ij , h t i , h t j ) ,0其中 α t j 和 α t ij 是融合不同消息的注意力权重,F att � 和F u � 是注意力和更新函数1。03.1.3 视觉关系检测0输入:{(s T i, h T i)} → 输出:{r ij}在T轮智能体通信后,所有智能体完成状态更新。在推理阶段,我们根据置信度s T i 贪婪地选择物体标签v Ti。然后关系模型预测任意物体对的关系类别:0r ij = F r(h T i, h T j, v T i, v T j), (4)0其中 F r是关系函数1。在预测了所有物体对的关系之后,我们最终得到生成的场景图:({v T i}, {r ij})。02 我们将通信步骤称为智能体通信,而不是消息传递[62,30],有两个原因:1)为了与多智能体框架的概念保持一致,其中智能体通信表示智能体之间的消息传递。2)为了突出与现有消息传递方法的区别,我们的通信模型将关系预测与视觉上下文建模分离开来。03.2. 反事实评论家多智能体训练0我们详细介绍了CMAT的训练目标,包括:1)图一致性目标的多智能体策略梯度,以及2)局部敏感目标的反事实评论家。我们CMAT在训练阶段的数据流如图2所示(路径)。03.2.1 图一致性训练目标0几乎所有先前的SGG工作都将XE损失最小化作为训练目标。给定一个生成的场景图(ˆV, ˆE)及其真实的(V gt, Egt),目标为:0L(θ) =0ij XE(ˆv i, v gt i) + XE(ˆr ij, r gt ij) . (5)0如公式(5)所示,基于XE的目标本质上是独立的,并且平等地惩罚所有节点上的错误。为了解决这个问题,我们提出用以下两个图级度量替换XE,用于SGG的图一致性训练目标:1)Recall@K[37]:它计算在前K个置信预测中的正确预测三元组的比例。2)SPICE[1]:它是预测的三元组精确度和三元组召回率的F-score。与XE损失不同,Recall@K和SPICE都是不可微分的。因此,我们的CMAT采用多智能体策略梯度来优化这些目标。03.2.2 多智能体策略梯度0首先,我们正式描述CMAT中的动作、策略和状态,然后推导参数梯度的表达式。动作。每个智能体的动作空间是所有可能的物体类别的集合,即 v t i 是智能体 i 的动作。我们将V t = {v t i}表示为所有智能体动作的集合。状态。我们遵循之前的工作[15],使用LSTM(提取模块)来编码每个智能体的历史。隐藏状态 h t i 可以看作是智能体 i的部分可观察环境状态的近似。我们将 H t = {h t i}表示为所有智能体状态的集合。策略。每个智能体的随机策略是物体分类器。在训练阶段,根据物体类别分布进行动作采样,即 p T i = softmax(s Ti)。由于我们的CMAT只在T轮智能体通信后为每个智能体采样动作,根据策略梯度定理[56],CMAT中的合作多智能体的(随机)梯度为:0� θ J ≈0i=1 � θ log p T i(v T i | h T i; θ) Q(H T, V T),(6)0其中 Q(H T, V T)是状态-动作值函数。我们的CMAT不是像actor-critic方法[2, 36,25]那样学习一个独立的网络来拟合函数Q并近似奖励;而是像[47]中所述,直接使用真实的(2)(1),(10)46170全局奖励来替代 Q。原因如下:1)在SGG中,代理和每个代理的可能动作数量比以前的多智能体策略梯度设置要大得多,因此训练样本数量不足以训练准确的值函数。2)这可以降低模型复杂性并加速训练过程。因此,我们CMAT的梯度变为:0� θ J ≈0i =1 � θ log p t i ( v T i | h T i ; θ ) R ( H T ,V T ) ,(7)0其中 R ( H T , V T ) 是真实的图级奖励(即 Recall@K 或SPICE)。值得注意的是,奖励 R ( H T , V T )是一个可学习的奖励函数,其中包括关系检测模型。03.2.3 局部敏感训练目标0如公式(7)所示,图级奖励可以被视为来自所有局部预测的全局汇聚贡献,即所有 n个代理的奖励是相同的。我们通过一个示例图(如图4所示)展示了这种情况的负面影响。0a a0b b0c c0d d0图4:(1)(2)是两个生成的场景图结果。绿色和红色分别表示正确和错误的预测。该玩具示例的图级奖励是正确预测的三元组数量减去错误预测的三元组数量。0假设两个生成的场景图的所有预测都相同,除了节点“a”的预测不同。根据公式(7),第一个图和第二个图中的所有节点都获得了正奖励(即 3(正确)-1(错误)=+2)和负奖励(即 1(正确)-3(错误)=-2)。然而,节点“b”、“c”和“d”的预测在两个图中是相同的,但它们的梯度方向完全不同,这导致了许多低效的优化迭代步骤。因此,SGG的训练目标应该是局部敏感的,即它可以识别每个局部预测的贡献,为每个代理提供高效的训练信号。03.2.4 反事实评论家0一个直观的解决方案,用于确定特定代理动作的贡献,是将目标代理的默认动作替换为其他动作。形式上,R ( H T , VT ) - R ( H T , ( V T − i , ˜ v T i )) 可以反映出动作 v T i的真实影响,其中 V T − i 表示除代理 i(即其他 n - 1个代理)之外的所有代理使用默认动作,代理 i 采取新动作˜ v T i 。由于代理 i 的新动作 ˜ v T i 有 |C|种选择,我们可以得到完全不同的结果 R ( H T , ( V T − i , ˜v T i )) 。0对于不同的动作选择,为了更精确地近似代理i的默认动作的个体奖励(即 v T i),我们对代理i遍历所有可能的动作时的奖励进行边际化:CB i ( H T , V T ) = ∑ p T i (˜ v T i ) R ( H T , ( V T − i , ˜ vT i )) ,其中 CB i ( H T , V T )是代理i动作的反事实基准。反事实基准表示当所有其他代理采取默认动作且不考虑代理i的动作时,模型应该接收到的平均全局级奖励。CMAT中反事实基准模型的说明(图2)如图5所示。给定全局奖励 R ( H T , V T ) 和代理i动作 v T i的反事实基准 CB i ( H T , V T ) ,代理i动作的解耦贡献为:0A i ( H T , V T ) = R ( H T , V T ) - CB i ( H T , V T ) 。(8)0注意,A i ( H T , V T )可以被视为actor-critic方法中的优势[55, 39],CB i ( H T ,V T )可以被视为策略梯度方法中的基准,它减少了梯度估计的方差。计算 A i ( H T , V T )的整个网络被称为反事实评论家3(图2)。然后梯度变为:0�θJ ≈0i = 1 �θ log pTi(vTi | hTi; θ)Ai(HT, VT). (9)0最后,我们将辅助的XE监督损失(由权衡α加权)纳入到端到端训练中,总体梯度为:0�θJ ≈0CMAT � �� � n �0i = 1 �θ log pTi(vTi | hTi; θ)Ai(HT, VT) +0α0n �0i = 10j = 1 �θ log pij(rij)0� �� � 关系的XE0+ α0i = 1 �θ log pTi(vTi)0� �� � 对象的XE0其中CMAT鼓励视觉上下文探索,XE稳定训练[47]。我们还按照[63, 18]的做法,添加了一个熵项来正则化{pTi}i。04. 实验0数据集。我们在具有挑战性的基准测试Visual Genome (VG)[27]上评估了我们的SGG方法。为了公平比较,我们使用了在[62, 73, 40, 65,17]中广泛使用的发布的数据预处理和划分。该发布选择了最常见的150个对象类别。03尽管CMAT中的评论家不是像actor-critic中用于估计奖励的值函数,但我们之所以称之为评论家,有两个原因:1)评论家的本质是计算策略网络动作的优势。正如先前的策略梯度工作[51]中所述,评论家可以是一个没有值函数的推理算法。2)CMAT中的评论家包括一个可学习的关系模型,该模型在训练过程中也会更新其参数。CB for Object Boy…Baselinefor FaceBaselinefor HandBaselinefor Boyholdingholdingfacebackgroundhandpantskitefacehandhandpantskite………(1) Fix object labels except “boy”(2) Relation Prediction (3) Marginalization…CB for Object HandCB for Object Facetialization (aka, teacher forcing), our CMAT also utilizedthis two-stage training strategy. In the supervised trainingstage, we froze the layers before the ROIAlign layer and op-timized the whole framework with the sum of objects andrelationships XE losses. The batch size and initial learn-ing rate were set to 6 and 10−3, respectively. In the pol-icy gradient training stage, the initial learning rate is set to3 × 10−5. For SGDet, since the number of all possible re-lationship pairs are huge (e.g., 64 objects leads to ≈ 4,000pairs), we followed [73] that only considers the relation-ships between two objects with overlapped bounding boxes,which reduced the number of object pairs to around 1,000.Speed vs.Accuracy Trade-off.In the policy gradienttraining stage, the complete counterfactual critic calcula-tion needs to sum over all possible object classes, whichis significantly time-consuming (over 9,600 (≈ 151 × 64)times graph-level evaluation at each iteration). Fortunately,we noticed that only a few classes for each agent have largeprediction confidence. To make a trade-off between train-ing speed and accuracy, we only sum over the two highestpositive classes and the background class probabilities to es-timate the counterfactual baseline. In our experiments, thisapproximation only results in a slight performance drop but70x faster training time.Post-processing for SGDet. For SGDet, we followed thepost-processing step in [73, 76] for a fair comparison. Af-ter predicting the object class probabilities for each RoI, weused a per-class NMS to select the RoI class and its corre-sponding class-specific offsets from Faster-RCNN. The IoUthreshold in NMS was set to 0.5 in our experiments.4.2. Ablative StudiesWe run a number of ablations to analyze CMAT, includ-ing the graph-level reward choice (for graph-coherent char-acteristic), the effectiveness of counterfactual baseline (forlocal-sensitive characteristic), and the early saturation prob-lem in agent communication model. Results are shown inTable 2 and discussed in detail next.Graph-level Reward Choices. To investigate the influenceof choosing different graph-level metrics as the training re-ward, we compared two metrics: Recall@K and SPICE.In particular, we used the top-20 confident triplets as thepredictions to calculate Recall and SPICE. The results areshown in Table 2 (a). We can observe that using both Re-call and SPICE as the training reward can consistently im-prove the XE pre-trained model, because the graph-levelmetrics is a graph-coherent objective. Meanwhile, usingRecall@K as training reward can always get slightly betterperformance than SPICE, because SPICE is not a suitableevaluation metric for the incomplete annotation nature ofVG. Therefore, we used Recall@K as our training rewardin the rest of the experiments.Policy Gradient Baselines. To evaluate the effectiveness46180对象标签0男孩0脸裤子0风筝手0反事实基准模型基准线0所有对象0关系模型0对象标签0男孩的基准线0关系模型0图度量图度量0加权求和0对象男孩的CB模型0图2中反事实基准线(CB)模型的示意图。对于给定的图像,模型计算所有代理(例如男孩、脸、手、裤子和风筝)的CB。如底部所示,对于男孩的CB,我们遍历将类别标签男孩替换为所有可能的类别(例如背景、...、手等),并对这些奖励进行边际化。0和50个谓词类别。经过预处理,每个图像平均有11.5个对象和6.2个关系。发布的数据集将70%的图像用于训练(包括5K张图像作为验证集),30%的图像用于测试。设置。按照[62, 73,20]的惯例,我们在三个任务上评估SGG:谓词分类(PredCls):给定真实的对象边界框和类别标签,我们需要预测所有对象对之间的视觉关系类别。场景图分类(SGCls):给定真实的对象边界框,我们需要预测对象和成对关系的类别。场景图检测(SGDet):给定一张图像,我们需要检测对象并预测它们的成对关系类别。特别地,对象检测需要将主体和客体与真实边界框的IoU至少为0.5进行定位。按照[73,20]的惯例,我们使用召回率@20(R@20)、召回率@50(R@50)和召回率@100(R@100)作为评估指标。04.1. 实现细节0目标检测器。为了与之前的工作进行公平比较,我们采用了与[73]相同的目标检测器。具体来说,目标检测器是一个具有VGG骨干网络的Faster-RCNN[49]。此外,锚框的大小和长宽比与YOLO-9000[48]类似调整,并且RoIPooling层被RoIAlign层[16]替代。训练细节。遵循使用监督预训练步骤作为模型初始化的先前策略梯度工作的做法。SGDetSGClsPredClsModelR@20R@50R@100R@20R@50R@100R@20R@50R@100MeanConstraintVRD [37]-0.30.5-11.814.1-27.935.014.9IMP [62]-3.44.2-21.724.4-44.853.025.3MSDN [30, 65]-7.09.1-27.629.9-53.257.930.8AsscEmbed [40]6.58.18.218.221.822.647.954.155.428.3FREQ+⋄ [73]20.126.230.129.332.332.953.660.662.240.7IMP+⋄ [62, 73]14.620.724.531.734.635.452.759.361.339.3TFR [20]3.44.86.019.624.326.640.151.958.328.7MOTIFS⋄ [73]21.427.230.332.935.836.558.565.267.143.7Graph-RCNN [65]-11.413.7-29.631.6-54.259.133.2GPI⋄ [17]----36.538.8-65.166.9-KER⋄ [6]-27.129.8-36.737.4-65.867.644.146190CMAT 22.1 27.9 31.2 35.9 39.0 39.8 60.2 66.4 68.1 45.40无约束0IMP+ � [62,73] - 22.0 27.4 - 43.4 47.2 - 75.2 83.6 49.80FREQ+ � [73] - 28.6 34.4 - 39.0 43.4 - 75.7 82.9 50.60MOTIFS � [73] 22.8 30.5 35.8 37.6 44.5 47.7 66.6 81.1 88.3 54.70KER � [6] - 30.9 35.8 - 45.9 49.0 - 81.9 88.9 55.40CMAT 23.7 31.6 36.8 41.0 48.6 52.0 68.9 83.2 90.1 57.00表1:与VG [27]上没有图约束的最先进方法相比的性能(%)。由于某些工作没有在R@20上进行评估,我们计算了所有任务在R@50和R@100上的平均值。�表示使用与我们相同的对象检测器的方法。0XE R@20 SPICE0SGCls R@20 34.08 35.93 35.270SPICE 15.39 16.01 15.900SGDet R@20 16.23 16.53 16.510SPICE 7.48 7.66 7.640(a)不同奖励选择的结果(%)。0XE MA SC CF0SGCls0R@20 34.08 34.76 34.68 35.930R@50 36.90 37.58 37.54 39.000R@100 37.61 38.29 38.25 39.750SGDet0R@20 16.23 16.07 16.37 16.530R@50 20.62 20.41 20.82 20.950R@100 23.24 23.02 23.41 23.620(b)不同基线类型的结果(%)。02步 3步 4步 5步0SGCls0R@20 35.09 35.25 35.40 35.930R@50 37.95 38.19 38.37 39.000R@100 38.67 38.91 39.09 39.750SGDet0R@20 16.35 16.43 16.47 16.530R@50 20.89 20.88 20.92 20.950R@100 23.49 23.50 23.54 23.620(c)不同#通信步骤的结果(%)。0表2:消融。所有结果都带有图约束。XE:在经过监督的XE预训练后的初始化性能。为了
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功