RU-Net：正则化展开网络用于场景图生成

166 浏览量更新于2023-10-25 收藏 13.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0.900.1000.5 0.50.6 0.4123156420.60.30.10.40.40.20.70.20.10.60.30.10.50.40.10.50.20.3194570RU-Net：正则化展开网络用于场景图生成0Xin Lin 1 * Changxing Ding 1 , 2 † Jing Zhang 3 Yibing Zhan 4 Dacheng Tao 4 , 301 华南理工大学 2 广州琶洲实验室 3 悉尼大学 4 京东探索学院0eelinxin@mail.scut.edu.cn, chxding@scut.edu.cn, jing.zhang1@sydney.edu.au,0zhanyibing@jd.com, dacheng.tao@gmail.com0摘要0场景图生成（SGG）旨在检测对象并预测对象之间的关系。现有的SGG方法通常存在一些问题，包括1）模糊的对象表示，因为基于图神经网络的消息传递（GMP）模块通常对虚假的节点间相关性敏感，以及2）关系预测的多样性较低，由于严重的类别不平衡和大量缺失的注释。为了解决这两个问题，本文提出了一种正则化展开网络（RU-Net）。我们首先从展开技术的角度研究了GMP和图拉普拉斯去噪（GLD）之间的关系，确定GMP可以被形式化为GLD的求解器。基于这一观察，我们提出了一个展开的消息传递模块，并引入了基于ℓp的图正则化来抑制节点之间的虚假连接。其次，我们提出了一个群体多样性增强模块，通过最大化排名来促进关系的预测多样性。系统实验证明RU-Net在各种设置和指标下都是有效的。此外，RU-Net在三个流行的数据库（VG、VRD和OI）上取得了新的最先进结果。代码可在https://github.com/siml3/RU-Net找到。01. 引言0场景图生成（SGG）旨在提供图像中对象及其关系的图形表示。最近，SGG已成为连接视觉和自然语言领域的一种有前途的方法。它已被发现对许多视觉任务有用，包括3D场景理解[2, 40]，视觉问答[8, 32]和图像字幕[12,58]。场景图包括一组三元组，0* 本文第一作者在京东探索学院实习期间完成的工作。† 通讯作者。0man0冲浪板海滩0消息传递0（a）模糊的节点表示。0man0冲浪板海滩0注意力图0与非关系其他0man1在street1上0man4在street2上0man2站在street1上man3坐在street1上0man5在street2上行走man6在street2上躺着0（b）关系预测缺乏多样性。0图1.（a）节点之间的虚假相关导致通过基于图神经网络的消息传递产生模糊的表示。（b）相同类别节点对的关系预测缺乏多样性。缺失的关系注释用下划线和灰色突出显示。最佳观看效果请使用彩色显示。0从主体-关系-客体的形式来看，对象及其两两关系被表示为节点和边。现有的SGG模型[6, 19, 22, 39, 46, 47,60]通常采用上下文建模策略来学习节点和边预测的判别性表示；具体而言，它们大多采用基于图神经网络的消息传递（GMP）机制。在GMP中，节点表示通过根据可学习的注意力权重聚合邻居信息进行迭代更新，这些权重通常由节点标签进行监督。然而，当前的GMP受到节点之间虚假相关性的负面影响。这里，虚假相关性指的是两个语义不同的节点之间的相对较大的注意力权重。这些虚假相关性经常发生，因为空间上相邻节点之间的注意力权重往往很大，无论它们的对象类别是否相关。在图1（a）中，很明显，冲浪板的注意力权重被人的注意力权重所主导（即等于0.9）。结果是，一些节点的表示质量在错误的消息传递后可能会降低。此外，现有SGG模型中的关系预测多样性往往较低。这主要是由于关系的长尾分布和大量缺失的关系引起的。3. Regularized Unrolling NetworkThis section presents the details of the proposed regular-ized unrolling network. More speciﬁcally, we ﬁrst introducethe preliminaries, then explain the network details and thetraining losses. As Figure 2 illustrates, RU-Net comprisesa U-MP module and a GDE module. From the perspectiveof DAU, the U-MP module utilizes ℓp-based graph regular-194580如图1(b)所示，这两个图像包含与man-street对相关的六个三元组；然而，只有其中两个被注释，并且关系类别都是on。因此，训练的SGG模型倾向于对大多数类别和非关系类别进行有偏见的预测。为了解决上述问题，我们提出了一种正则化展开网络（RU-Net）用于SGG。首先，我们从展开技术的角度研究了GMP和图拉普拉斯去噪（GLD）[33]之间的关系。我们表明：1）GMP可以被形式化为GLD的求解器；2）广泛采用的GLD公式中的二次惩罚对异常值（例如节点之间的虚假相关性）非常敏感。作为替代方案，我们提出了一种展开消息传递（U-MP）模块，并采用基于ℓp的图正则化项来抑制这些虚假的节点之间的连接，从而有效减少节点表示中的歧义。此外，我们确定ℓp图正则化的优化可以通过将重新加权矩阵集成到U-MP中以实现端到端的方式来高效地实现，该矩阵考虑了节点之间的语义差异。其次，我们引入了一个组多样性增强（GDE）模块，以促进标记和未标记样本的关系预测的多样性。具体而言，由于不同类别的关系预测得分向量往往是线性独立的，我们将关系预测多样性的优化建模为一个排名最大化问题。由于排名最大化是NP-hard的[36]，我们使用ℓ2,1范数来近似矩阵的秩。我们还将大矩阵分成几个较小的矩阵，每个矩阵包含相同对象类别的节点对的关系预测。通过增加较小矩阵的ℓ2,1范数，可以更有效地优化关系预测的多样性，如第4.3节所示。总之，本研究的贡献有三个方面：（1）一种新颖的展开框架，将GMP解释为GLD问题的求解器；（2）基于ℓp的图正则化的U-MP模块，通过抑制节点之间的虚假连接来增强GMP对异常值的鲁棒性；（3）GDE模块，通过组内ℓ2,1正则化项来提高关系预测的多样性。我们对所提出的RU-Net在三个流行的SGG数据库VisualGenome（VG）[16]、OpenImages（OI）[17]和VisualRelationshipDetection（VRD）[25]上进行了系统评估。实验结果表明，我们的RU-Net始终优于最先进的方法。02. 相关工作0场景图生成。现有的SGG研究[6,7,10,14,47,57,60]通常集中在上下文建模上。0解决类别不平衡问题（即长尾分布）的方法有很多。已经提出了几种上下文建模策略，通过探索各种消息传递机制来学习具有区分性的对象表示。Zeller等人[52]通过循环顺序架构（即双向长短期记忆（Bi-LSTM）模型）表示全局上下文。Tang等人[39]利用动态树结构实现了节点特定的消息传递。Lin等人[22]提出了一种方向感知的消息传递模块，将边缘方向信息编码到上下文建模中。Li等人[19]采用了基于关系预测置信度的自适应消息传递策略来减少上下文建模中的噪声。Lu等人[26]利用变压器编码器获取与对象和上下文相关的上下文信息。为了处理类别不平衡问题，Tang等人[38]提出了一种无偏模型，通过反事实因果关系消除了视觉无关偏差，而[4,7]则使用了正样本-无标签学习来解决这个问题。一些研究还探索了类别不平衡学习策略[19,45]、重采样和成本敏感学习，以缓解长尾分布问题。我们的工作在一个统一的框架中考虑了上述两个问题。深度算法展开。在深度算法展开（DAU）中，基于模型的迭代优化算法的结构被展开成一个神经网络[11,27,29]。具体而言，算法的每一次迭代被表示为网络的一层。将这些层堆叠起来形成一个具有依赖于所采用的优化方法的架构结构的深度神经网络。网络的前向传播相当于多次执行迭代算法。与完全参数化的神经网络相比，DAU在可解释性和模型复杂性方面具有优势[5,20,28]；因此，基于DAU的网络可以在较少的训练数据下进行有效优化。例如，Yang等人[49]提出了交替方向乘子法的展开版本[48]用于磁共振成像。Zhang等人[56]将卷积网络与迭代收缩阈值算法[3]集成到压缩图像感知中。此外，半二次分割算法[1]已经被用于图像去噪和超分辨率[9,59]的最小化问题的展开。受到这些工作的启发，我们将DAU引入到SGG中，并将现有的GMP模块统一起来解决GLD问题。�Attention Modelcarwindowdoormanwomanphonearmbesideholdinginofofof�DiversityRegularization2,1Faster R-CNNPropagation�U-MPGDEInput ImageObject ProposalsSGG by RU-NetRU-NetRelationship Fusion�SGG by Conventional ModelcarwindowdoormanwomanhandarminofofinofofGraph Regularization�� Cross Entropy Lossof…non-rel.maxnon-rel.of� = 0.1� = 1� = 22,12,1��Figure 2. The framework of RU-Net. RU-Net adopts Faster R-CNN [31] to obtain object proposals. Compared with conventional SGGmodels (highlighted in gray), our RU-Net promotes SGG model optimization with two regularization terms (highlighted in yellow). Morespeciﬁcally, the graph regularization acts as a reweighting matrix to reﬁne the attention maps and reduce ambiguity in the node represen-tations. The diversity regularization is incorporated with the cross-entropy loss and prompts the relationship prediction diversity via rankmaximization. ⊕ and ⊙ represent addition and the Hadamard product, respectively. The functions H and ∗ are deﬁned in Section 3.2.1and Section 3.3, respectively. Best viewed in color.ization to improve the robustness of existing GMP modulesagainst spurious connections between nodes. For its part,the GDE module improves relationship prediction diversityvia a group-wise ℓ2,1-based regularization term. In the be-low, we will describe these two components sequentially.3.1. PreliminariesNotations. To obtain the appearance feature for each pro-posal, we adopt the same approach used in [52]. There areO object categories (including background) and R relation-ship categories (including non-relationship). The represen-tation for the i-th node is denoted as xi ∈ Rd. Speciﬁcally,xi is obtained via linear projection from the concatenationof the appearance feature, object classiﬁcation probabilities,and the spatial feature. For an image that includes n nodes,we can obtain a node representation matrix X ∈ Rn×d,where d is the feature dimension. In addition, we extractfeatures from the union box of one pair of nodes i and j,denoted as uij ∈ Rd. | · |, ∥ · ∥2, and ∥ · ∥F denote theabsolute value of a number, the ℓ2-norm of a vector, and theFrobenius norm of a matrix, respectively. [; ] represents theconcatenation operation. ⊙ is the Hadamard product. Fora matrix S ∈ Rm×n, [S]ij and si represent the ij-th entryand the i-th row of S, respectively.Smoothed ℓp-norm Distance Metric. To improve the ro-bustness against spurious correlations between nodes, weutilize a smoothed ℓp-norm distance metric [35] as follows:κϵp(x) ≜�ϵp−2|x|2,|x| ≤ ϵ2p|x|p − 2−pp ϵp,|x| > ϵ ,(1)194590其中，ϵ > 0且0 < p ≤2。如图2的坐标平面所示，当p的值较小（例如p =0.1）时，方程（1）对大的|x|的重视程度较低，对异常值的鲁棒性更强于基于ℓ2范数的距离函数。有关方程（1）性质的更多细节可参见附录A。03.2. 未展开的消息传递0现有的SGG方法[19, 22, 24,47]通常利用一系列GMP层来迭代地改进节点表示，以获得上下文信息。然而，这些GMP模块可能对节点之间的虚假相关性敏感，这可能导致更加模糊的节点表示。为了澄清和解决这个问题，我们将在接下来讨论两个关键方面：GMP与GLD[33]之间的关系以及抗虚假性的图正则化。03.2.1 GMP与GLD之间的关系0在每个GMP层中，使用一个函数来计算每个节点对的注意力权重。然后根据可学习的注意力权重聚合邻居信息来更新节点表示。194600第k + 1层的GMP可以表示如下：� A (k + 1) =Normalize(H(Y(k)))0Y (k + 1) = ReLU(Y (k) + A (k + 1) Y (k)), (2)0其中，Y ∈ R n × d表示经过GMP改进的节点表示。A ∈ Rn ×n表示学习到的注意力矩阵。H(Y)是一个可训练的注意力函数，以Y作为输入。“Normalize”表示通过softmax函数进行逐行归一化。接下来，我们将证明方程（2）中定义的GMP模块本质上解决了SGG上的GLD问题[33]。具体而言，GLD问题可以定义为：0L GLD (Y, L) � ∥Y - X∥2F + G GLR (Y, L), (3)0其中0G GLR (Y, L) = �� L12 Y��20F = �0(i,j) ∈ E [A]ij �� yi - yj��22.0（4）这里，方程（4）被称为图拉普拉斯正则化（GLR）[30]。E表示场景图中的所有节点对的集合。与标准的GLD问题[33]不同，标准GLD问题中的拉普拉斯矩阵L已知，而在SGG中需要学习该矩阵。具体而言，拉普拉斯矩阵定义如下：L = D - A，其中[D]ii = �0j[A]ij。受到算法展开策略[29]的启发，我们可以展开一系列梯度步骤，形成一个未展开的消息传递（U-MP）模块，并优化方程（3）。具体而言，给定L，我们有0∂ L 0∂Y = 2LY + 2Y - 2Y(0), (5)0其中，Y (0) = X。因此，梯度下降中的第k +1步可以表示如下：0Y (k + 1) = Y (k) - 2α[(L + I)Y (k) - Y(0)], (6)0其中，α是步长，I表示单位矩阵。如果我们用随机游走归一化的拉普拉斯矩阵[15]替换L，即L = I - D - 1A，并将α设为1/6，我们有：0Y (k + 1) = 103 (D - 1 AY (k) + Y (k) + Y (0)). (7)0给定Y，我们可以直接更新A，而不是更新L，使用先前SGG工作[6, 46,47]中提出的任何H(Y)。在本文中，我们将H(Y)定义为：[H(Y)]ij = wTa[yi; yj; uij]，其中wa ∈R3d表示融合向量。这使我们能够使用类似GMP的过程解决方程（3）中定义的GLD问题，如下所示：��0�0˜A(k + 1) = Normalize(H(Y(k)))0Y (k + 1) = 103 (Y(k) + ˜A(k + 1)Y(k) + Y(0)), (8)0其中，A = D - 1A可以被视为行归一化的注意力矩阵。值得注意的是，可以通过求解修订后的方程（3）来将非线性激活引入方程（8）0i η ( y i )。这里，η ( y i ) 表示一个指示函数，对 y i的任何元素赋予无穷大的惩罚，如果 y i的值小于零。根据近端梯度法[18]，Eq. (8)的近端下降版本可以写成如下形式：� �0�0˜ A ( k +1) = Normalize( H ( Y (0Y ( k +1) = ReLU( 103 ( Y ( k ) + ˜ A ( k +1) Y ( k ) + Y0(9) 不考虑标量项（即 103 )，GMP层在Eq. (2)中定义的方式与Eq.(9)中定义的GLD问题的求解器之间唯一的区别是与原始节点表示 Y (0)的跳跃连接。因此，现有的GMP模块可以用于解决SGG中的GLD问题。这个结论使我们能够解决GLD框架中的虚假节点之间的相关性问题。03.2.2 鲁棒性图正则化0作为GLR（Eq.(4)）中的二次惩罚项，Frobenius范数因为误差累积二次而对异常值敏感[43]。对于基于GMP的SGG模型，这意味着节点之间的虚假相关性可能主导损失，导致模糊的节点表示。为了解决这个问题，我们提出了以下基于 ℓ p的图正则化来替代Eq. (4)中的GLR：0G p ( Y , L ) = �0( i,j ) ∈E [ A ] ij κ ϵ p � ∥ y i - y j ∥ 2 �. (10)0因此，我们可以将一个通用的GLD问题定义如下：0L 0GLD ( Y , L ) � ∥ Y - X ∥ 2 F + G p ( Y , L ) . (11)0当 p 为2时，Eq. (11) 等价于Eq.(3)，即传统的GLD问题。传统的优化策略，例如基于梯度或基于Hessian的方法，在优化Eq.(11)时计算开销较大，特别是当 n是一个大数时。受主导-最小化算法[37]的启发，我们利用二次上界函数来近似Eq.(10)（附录B中提供了证明）。具体来说，0ˆ G p ( Y , L ) = �0( i,j ) ∈E [ A ] ij [Ω] ij ∥ y i - y j ∥ 22 , (12)0其中0[Ω] ij �0� ϵ p − 2 , ∥ y i − y j ∥ 2 ≤ ϵ ∥ y i − y j ∥ p− 2 2 , otherwise . (13)∥P ∥2,1 =�Rj=1��Ni=1[P ]2ij ,(17)Le =1BLecls − τBBb=11b∥P b∥2,1 ,(18)L = 1nbLocls + Le,(19)ei = arg maxo∈O(ti(o)),(20)qij = arg maxr∈R(pij(r)),(21)194610这里，[Ω] ij 充当 [ A ] ij的重新加权因子。因此，我们修改U-MP的架构如下：� �0�0˜ A ( k +1) = Normalize(Ω ( k ) ⊙ H (0Y ( k +1) = ReLU( 103 ( Y ( k ) + ˜ A ( k +1) Y ( k ) + Y0(14) U-MP的更多细节可以在附录C中找到。最后，第 i个节点的分类得分向量可以通过以下方式获得：t i =softmax(W t ˆ y i)。这里，W t ∈ R O × d表示对象分类器，而 ˆ y i是通过最终的U-MP层获得的输出节点表示。03.3. 分组多样性增强0熵最小化在之前的SGG模型中被广泛采用进行优化。然而，由于类别不平衡和缺失注释的问题，它也可能降低关系预测的多样性；由于大多数类别的样本数量明显更多，关系预测往往会对大多数类别产生偏差。在这部分中，我们提出了GDE模块来促进关系预测的多样性。具体而言，第 i个节点和第 j个节点之间的关系的预测分数向量可以表示如下：0p ij = softmax(W r (ˆ y i � ˆ y j � u ij) + f ij) , (15)0其中 W r ∈ R R × d 表示关系分类器。� 表示在 [39] 中定义的融合函数：x � y = ReLU(Wx x + W y y) - (W x x - W y y) ⊙ (W x x - W y y)，其中 W x 和 W y 分别将 x 和 y投影到 d 维空间。f ij 表示训练集中第 i 个节点和第 j个节点之间的关系分布向量，它的作用类似于频率偏差，并且在现有的工作中被广泛采用[22, 39, 46,52]。通过收集同一图像中的所有预测分数向量，我们可以得到一个关系预测矩阵 P ∈ RN × R，满足：� R0其中，N是图像中节点对的总数。考虑到当预测不同的关系类别时，P中的行向量是线性独立的，我们可以利用P的秩来衡量预测的多样性。然而，最大化矩阵的秩被认为是一个NP难问题[36]。我们提出了两种策略来解决这个问题。首先，受[23,55]的启发，我们采用基于ℓ2,1范数的正则化来近似P的秩，如下所示：0第一，鼓励P的列稀疏结构，从而促进关系预测的多样性。第二，与其为所有节点对促进预测多样性，我们发现鼓励共享相同对象类别的节点对之间的预测多样性更加有效。这主要是因为当节点数n较大时，P的秩最大化很难优化。因此，我们将节点对分成几个组，每个组包含相关的节点对。在实践中，我们发现为每个组选择相同对象类别的节点对有助于优化方程（17）。最后，通过扩展到整个批次，我们可以利用以下损失函数来促进关系预测的多样性：0其中，L ecls表示关系分类的交叉熵（CE）损失，τ是一个权重，B表示一个小批次中的组数。每个组包含共享相同对象类别的节点对的预测分数向量。P b表示第b组的关系预测矩阵，MB表示同一批次中的分数向量数量，而Nb表示第b组中的分数向量数量。方程（18）的关键见解是降低大多数类别的预测命中率，以增强少数类别的预测命中率。当预测多样性增加时，一个关键问题是一些属于多数类别的样本可能被错误地分类为少数类别。幸运的是，标记样本上的分类损失将惩罚由于鼓励多样性而导致的错误预测。因此，通过选择适当的τ值，模型可以在确保大多数标记样本被正确预测的同时生成多样的预测。03.4. 通过RU-Net进行SGG0在训练过程中，RU-Net的整体损失函数L可以表示如下：0其中，n b表示批次中的节点数。L ocls表示对象分类的交叉熵损失。在测试过程中，第i个节点的对象类别由以下方程预测：0其中，O表示对象类别的集合。第i个节点和第j个节点之间的边的关系类别可以通过以下方式获得：SGDETSGCLSPREDCLSBackbone MethodR@20R@50R@100 R@20R@50R@100 R@20R@50R@100 MeanIMP⋄ [10]14.620.724.531.734.635.452.759.361.339.3MOTIFS⋄ [52]21.427.230.332.935.836.558.565.267.143.7KERN⋄ [6]-27.129.8-36.737.4-65.867.644.1GPI⋄ [14]----36.538.8-65.166.9-VCTREE⋄ [39]22.027.931.335.238.138.860.166.468.145.1VGG-16GPS-Net⋄ [22]22.628.431.736.139.240.160.766.968.845.9R-CAGCN⋄ [46]22.128.131.335.438.339.060.266.668.345.3RelDN‡ [57]--32.7--36.8--68.4-Seq2Seq-RL‡ [26]22.130.934.434.538.339.060.366.468.546.3RU-Net⋄22.928.732.037.239.840.961.667.869.846.6RU-Net ‡22.631.334.838.241.242.161.968.170.148.0VTransE∗ [38]23.029.734.335.438.639.459.065.767.645.9VCTREE∗ [39]24.731.536.237.040.541.459.866.268.147.3RX-101MOTIFS∗ [52]25.132.136.935.839.139.959.566.067.947.0SGGNLS∗ [60]24.631.836.336.540.040.858.765.667.447.0RU-Net∗25.732.937.538.742.443.361.267.769.648.9IMP ⋄ [10]4.86.010.5FREQ⋄ [52]7.18.516.0MOTIFS ⋄ [52]6.68.215.3KERN⋄ [6]7.310.019.2VCTREE [39]8.010.819.4R-CAGCN⋄ [46]8.811.119.9MOTIFS∗ [38]6.88.515.8VCTREE∗ [38]6.97.916.1Transformer∗ [13]8.810.217.5RU-Net⋄10.113.924.7RU-Net∗10.814.624.2-0.31-0.40+0.20+6.10+5.70-1.20+14.00+1.40+7.40+7.90+7.10+10.10+4.10+12.80+4.40+8.70+4.00+6.00+11.10+10.10+3.60+5.50+3.10+6.60+1.80+3.50+19.20+5.10+6.20+2.30+14.80+3.90+2.70+4.20-2024681012141618202224onhaswearingofinnearwithbehindholdingabovesitting onwearsunderridingin front ofstanding onatattached tocarryingwalking onoverbelonging toforlooking atwatchinghanging fromparked onlaying oneatingandcoveringusingbetweencovered inR@100 Improvement(%) 194620表1. 在VG数据集上与最先进方法的性能比较。我们计算R@50和R@100上的平均值。�，‡和�分别表示使用与[ 52 ]，[ 57 ]和[ 38]相同的Faster-RCNN检测器。0SGDET SGCLS PREDCLS 模型 mR@100 mR@100mR@1000表2. VG数据集中所有50个关系类别的平均召回率（%）性能比较。0其中 R 代表关系类别集合。04. 实验04.1. 数据集和评估设置0Visual Genome（VG）：我们遵循最近的研究中广泛使用的相同数据清洗策略[ 10]。我们使用最常出现的150个物体类别和50个关系类别进行评估。我们进一步采用三种常规评估协议：（1）场景图检测（SGDET）：给定一张图像，模型检测物体并预测每对物体之间的关系类别。（2）场景图分类（SGCLS）：给定物体的地面真实位置，模型预测物体和关系类别。（3）谓词分类（PREDCLS）：给定物体的地面真实位置和类别，模型仅预测关系类别。所有算法都使用召回率@K（Recall@K）指标进行评估，其中K分别为20、50和100。考虑到VG中关系的分布高度不平衡，我们进一步利用平均召回率@K（mR@K）来评估关系的平均性能[ 6 ]。OpenImages（OI）：我们在Open Images V4和V6上进行实验。我们遵循[ 19，22，57]中使用的相同数据处理和评估协议。结果如下：0图3. RU-Net在VG数据集上相对于R-CAGCN [ 46]在PREDCLS中的绝对R@100改进。我们使用与[ 39]相同的主干网络和评估指标。根据出现频率选择前35个关系类别。0RelDN [ 57 ] 74.9 35.5 38.5 44.6 V4 BGNN [ 19 ] 75.537.8 41.7 46.9RelDN [57]74.935.5 38.544.6V4BGNN [19]75.537.8 41.746.9RU-Net78.338.9 42.448.2V6RelDN [57]73.132.2 33.440.8VCTREE [39]74.134.2 33.140.2G-RCNN [47]74.533.2 34.241.8MOTIFS [52]71.629.9 31.638.9GPS-Net [22]74.832.9 34.041.7194630Daraset模型 R@50 WmAP得分 wtd rel phr0BGNN [ 19 ] 75.0 33.5 34.2 42.10RU-Net 76.9 35.4 34.9 43.50表3.在OI上与最新技术方法的比较。我们采用与[57]中相同的评估指标。0通过计算Recall@50 (R@50)，关系的加权平均AP (wmAPrel) 和短语的加权平均AP (wmAP phr)进行评估。最后一个指标由得分wtd = 0.2 × R@50 + 0.4× wmAP rel + 0.4 × wmAP phr给出。请注意，wmAPrel要求预测和实际边界框之间的IoU对于两个对象都大于0.5。wmAPphr指标类似，但只需要主语和宾语的预测和实际联合框之间的IoU大于0.5。视觉关系检测（VRD）：我们采用[25]中使用的相同数据集划分和[57]中的相同目标检测器。评估指标与[57]中的指标相同，该论文报告了关系检测和短语检测的R@50和R@100。实现细节：为了与大多数现有工作进行公平比较，我们在OI基准测试中使用ResNeXt-101-FPN[21，44]作为主干。我们进一步采用ResNeXt-101-FPN[21，44]和VGG-16[34]作为VG基准测试的主干。对于VRD基准测试，我们使用VGG-16[34]作为主干。在训练期间，我们冻结ROIAlign层之前的层，并使用第3.4节中描述的损失函数优化模型中的剩余层。我们使用带有动量的随机梯度下降法（SGD）优化RU-Net，初始学习率为10^-3，批量大小为6。每个图像中选择前64个对象提议，使用IoU为0.3的每类非最大抑制（NMS）。此外，在训练期间，未具有任何关系（背景对）和具有关系的对之间的采样比率设置为3:1。在所有实验中，ϵ设置为0.5。04.2. 与最新技术方法的比较0Visual Genome:如表1所示，RU-Net在各种指标上相对于当前最新技术方法取得了卓越的性能。更详细地说，RU-Net0关系检测短语检测模型 R@50 R@100 R@50 R@1000VTransE [ 54 ] 19.4 22.4 14.1 15.2 KL distilation [ 51 ]19.2 21.3 23.1 24.0 Zoom-Net [ 50 ] 18.9 21.4 24.828.1 CAI + SCA-M [ 50 ] 19.5 22.4 25.2 28.9 GPS-Net[ 22 ] 21.5 24.3 28.9 34.0 MF-URLN [ 53 ] 23.9 26.831.5 36.1 RelDN [ 57 ] 25.3 28.6 31.3 36.4 HetH [ 42 ]22.4 24.8 30.6 35.5 Seq2Seq-RL [ 26 ] 26.1 30.2 33.439.10RU-Net 27.4 31.4 33.8 39.50表4. 在VRD上与最新技术的比较。0模块 SGCLS PREDCLS Exp U-MP GDE R@50 R@100R@50 R@10001 � � 40.3 41.2 66.0 67.8 2 � � 40.7 41.6 67.3 69.2 3 � �42.2 43.1 66.3 68.104 � � 42.4 43.3 67.7 69.60表5.提出方法的消融研究。我们使用与[38]中相同的目标检测主干。0在三个协议上，RU-Net的R@50和R@100平均超过最新的基于GMP的SGG模型R-CAGCN[46]分别提高了1.3%。在SGDET、SGCLS和PREDCLS的Recall@100上，它还分别比R-CAGCN[46]提高了0.7%、2.2%和1.5%。此外，RU-Net还通过1.3%、1.9%和1.5%的Recall@100分别超过了具有相同ResNeXt-101-FPN主干的VCTREE[39]的SGCLS、SGDET和PREDCLS。此外，为了展示RU-Net对VG中类别不平衡问题的鲁棒性，我们还使用平均召回率指标将其性能与最新技术方法进行比较。如表2所示，RU-Net在性能上取得了显著的绝对增益，表明它在处理SGG中的类别不平衡问题方面具有优势。为了更生动地说明这个优势，我们在图3中呈现了与R-CAGCN[46]相比在PREDCLS设置下每个谓词类别的R@100改进。对于少数关系类别，这些改进要大得多。我们归功于GDE模块的强大功能。OpenImages：我们在表3中将RU-Net与最新技术方法进行了性能比较。使用相同的目标检测器，RU-Net在OIV4和V6的整体指标得分wtd上分别比RelDN[57]提高了3.6%和2.7%。具体而言，在OIV4中，RU-Net在R@50、wmAP rel和wmAPphr上分别比RelDN提高了3.4%、3.4%和3.9%。此外，当4.4. Conclusion and Limitations19

下载后可阅读完整内容，剩余1页未读，立即下载