没有合适的资源?快使用搜索试试~ 我知道了~
163931 23一种简单的弱监督场景图生成基线荆石1钟亦武 2徐宁3尹莉2徐 晨亮11罗切斯特大学2威斯康星大学麦迪逊分校3Adobe Research{j.shi,chenliang.xu}@ rochester.edu{yzhong52,yin.li}@ wisc.edunxu@adobe.com摘要我们研究了弱监督场景图的生成,这是一个具有挑战性的任务,因为没有对应的标签和对象提供。以前的工作把这样的对应关系作为一个潜在的变量,这是迭代更新,通过嵌套优化的场景图生成目标。然而,我们进一步降低了复杂性,通过解耦到一个有效的一阶图匹配模块,通过对比学习优化,以获得这种对应关系,这是用来训练一个标准的场景图生成模型。大量的实验表明,这样一个简单的管道可以显着超过以前的国家的最先进的30%以上的Visual基因组数据集,无论是在图形匹配精度和场景图形质量。我们相信这项工作为未来的研究提供了强有力的基础。代码可在https://github.com/jshi31/WS-SGG上获得。1. 介绍给定图像,场景图生成(SGG)是生成场景图[17,44],由检测到的对象和对象之间的可能关系组成。这种抽象模仿了语言的结构化表示[33,42],促进了各种下游视觉推理任务,例如。VQA [38,12,13],图像捕获[46,59],图像生成[15]。然而,目前大多数SGG模型都是用场景图注释进行监督训练的,这受到两个限制。首先,它们依赖于对象位置和关系的昂贵注释。其次,它们很难推广到域外对象或下游任务所需的关系,例如VQA数据集,其中问题查询场景图数据集域之外的新对象和关系。为了克服上述限制,我们研究了弱监督场景图生成(WS-SGG)问题,如图所示。1.一、我们放松了SGG的注释要求,仅考虑未接地的场景图,仅由图像级对象和关系标签组成,而不知道确切的对象位置。训练对测试输出对骑对骑对对对对街街滑板自行滑板自行人人人人图1.演示了WS-SGG的任务。在训练过程中,只提供图像对和未接地的场景图。对于测试阶段,给定图像,模型应输出全场景图。也就是说,边界框这种弱监督学习设置有效地缓解了与数据注释相关的困难。对于泛化问题,可以通过语言解析器[42]从图像的标题中获得未接地场景图标签,并且未接地场景图可以与标题所描述的图像配对。由于社区已经收集了非常大的图像标题数据集[34],它为WS-SGG任务提供了大量的训练数据,并缓解了泛化问题。因此,WS-SGG具有重要的意义。我们不是第一个处理这项任务的国家。通常,可以将从图像中提取的区域提议视为视觉图的节点,并且将未接地的场景图视为标签图。在SGG的优化过程中,必须识别这两个图之间的节点对齐因此,WS-SGG的一个主要挑战是图匹配,因为我们应该考虑节点及其关系的相似性。之前的一项工作VSPNet [52]将标准场景图(其中对象是节点,关系是边)转换为具有一部分对象节点和另一部分关系节点的二分图,其中角色(主体,对象)成为边。它迭代地匹配节点的每个部分,这不适用于16394i=1i,j=1标准场景图结构已经被广泛研究[21,53,14,45,11,29,56,3,22,37,因此,在标准场景图结构上直接寻址WS-SGG可以容易地利用先前的研究成果。因此,我们在标准场景图结构上处理WS-SGG任务,并提出一个简单的基线,将问题解耦为两个部分:弱监督图匹配(WSGM)模块,其学习对齐视觉和标签图;以及标准监督SGG模型,其生成场景图。我们选择了高效的一阶图匹配算法(FOGM)(仅通过节点相似度进行匹配),采用具有对比学习目标的多实例学习(MIL)机制来训练图匹配模块,并使用匹配的场景图作为伪地面真值来训练标准SGG模型。解耦允许基线适应任何标准SGG模型,从而产生通用模型。令我们惊讶的是,我们发现简单的基线已经可以实现比VSPNet更高的性能,目前最此外,我们试图回答与我们的模型相关的以下核心问题。(1)图匹配的想法比接地模型更好吗[16]?(2)选择负样本和损失以实现WSGM的这种对比学习(3)高阶图匹配(考虑关系相似性)更好?总之,我们的贡献是,我们提出了一个非常简单的基线,versatiely工作标准场景图,但可以显着优于复杂的国家的最先进的方法。本文的其余部分组织如下。在第二节中,我们二、我们制定的问题,并介绍了我们的模型管道。3 .第三章。实验设置和结果分析见第2.2节。4.第一章最后,对本文的工作进行了总结。五、2. 相关工作场景图形生成。场景图是场景的结构化抽象[17,44],可以服务于各种下游视觉推理任务,例如VQA[13]、图像标题[59]、图像生成[15]、动作识别[30]。一个主流是基于递归神经网络(RNN)的SGG [53],包括树结构中的SGG [37,41]。另一个流是基于图卷积网络(GCN)的SGG [21,14,45,11,29,56,3,22]。的上述方法仅将图像视为具有作为节点的对象的完全连接的可视图然而,我们的图编码器需要能够编码标签图,其中关系类型被指定,使得标签图部分连接。[7]将关系视为跨图变换节点特征的函数,允许前关系特征显式编码但它是计算昂贵的,因为它需要保持所有的关系函数和饲料的节点功能,所有的关系函数的每个消息传递,而我们提出的边缘注意力消息传递是能够编码的关系特征,以更便宜的方式为视觉和标签图。弱监督场景图生成。因此,WS-SGG任务只需要描述对象和关系类型的图像级标签,而不需要分配框位置。困难在于将关系三元组分配给图像。 [55]使用弱监督对象检测框架WS-DDN [2]解决了该任务,但它是用每个关系三元组单独训练的。[28]仅用简单的线性回归模型考虑了全局的三重监督。[1]仅使用关系标签而没有主体和对象标签来处理SGG,但依赖于预先训练的对象检测器。VSPNet [52]使用复杂的迭代图匹配过程将标签图与节点匹配,这可以处理高阶关系。然而,我们的论文提出了一个更简单的图匹配过程,并解耦的场景图生成过程中的图匹配。我们的方法也取得了更好的结果比所有以前的方法。最近,[47,58]试图通过语言监督来解决SGG,我们的方法可以作为他们的重要模块。图形匹配。图匹配根据一元节点结构(一阶)、成对关系(二阶)或甚至高阶关系在两个图之间建立对应。一阶图匹配可以通过匈牙利算法[18]以立方时间复杂度有效地解决。更多的工作集中在二阶图匹配上,它被公式化为二次整数规划[23]。这被称为NP难,因此近似解被导出[9,20,6,60,49]。最近,研究人员还通过可微求解器将深度学习与图匹配算法相结合,从而形成了端到端的训练方式[51,39,48,8,57]。然而,上述深度图匹配方法仅适用于有监督的图匹配,而在本文中,我们面临的是无监督的情况。[40]提出了基于分级分配的无监督图匹配[9]。或者,我们尝试将二阶或高阶关系减少为一阶表示,并解决高效匈牙利算法中的无监督问题3. 方法3.1. 问题公式化给定图像I,目标是生成视觉图G=(N,E),其中每个节点是与实体类ci ∈Ce配对的边界框bi,并且每个边是连接主题节点i和对象节点j,i的谓词类p ij ∈ Cp。例如,Nv={(bi,ci)}ne ,Ev={pi j}ne. 在火车上16395i=1i,j=1我.Σ∈2−N{}E{}2- --图2.展示我们的管道。整个模型由弱监督图匹配模块和有监督SGG模型组成。在图匹配模块中,应用一阶图匹配,并且通过对比学习来学习F中的参数。在WS-SGG的初始化阶段,可视化图中包含未知实体和谓词类。 我们定义了一个标号图G′=(N′,E′)来表示不接地的场景图la-我们使用两个嵌入函数F,F ′分别对节点特征e,e′进行编码,从而将节点i嵌入到G中作为hi,将节点j嵌入到G′中 作为h′j。我们的苏-贝尔,在哪里′=cin′e和′=皮杰涅. 标签图不包含每个实体节点的位置信息因此,必须将视觉图和标签图对齐,以实现SGG的训练。为了解决这个具有挑战性的任务,我们提出了一个简单的基线,将问题分解为两个步骤。第一步是制定为一个弱监督图匹配(WSGM)之间的视觉和标签图,以获得类标签的节点和边缘的视觉图。第二步是从第一步获得的伪场景图标签学习标准SGG模型。这种解耦设计的优点是,它可以工作于任何标准的SGG模型,只需一个简单的图匹配模块插件。总体管线如图所示。二、3.2. 弱监督图匹配解决方案是先进行图匹配,然后按照MIL的思想,并通过对比学习学习F和F′中的参数,如图2中的棕色框所示。 对于图匹配,二阶图匹配(匹配节点和边)算法通常重新排序为渐进分配[9,40]技术,这是耗时的。因此,我们选择只匹配节点的一阶图匹配(FOGM)。准确地说,我们首先计算两个节点之间的余弦相似度为sij= cos(hi,h′j);(1)那么我们期望找到两个图I=(i,j)|i ∈ {1. . . n e},j ∈ {1. . .n′e},(2)使得图匹配过程是弱监督的,因为我们只知道G和G′是一对匹配图,而不知道它们的确切的节点对应关系。到*= argmax 我(iΣ,j)∈Isij。(三)首先,输入视觉节点特征e是RoIPool。ing [31]连接多层感知器(MLP)处理的空间特征b的特征,其中bR9由归一化坐标(x1 ,y 1,x 2,y2)、中心坐标(x 1,y 1,x2,y2)、中心坐标(x 1,y2,x2,y 2)和中心坐标(x 1,y 2,y 2)组成(x1+x2,y1+y2),大小(x2x1,y2y1)和面积(x2x1)(y2y1)。输入标签节点特征e’是对象类的GloVe [27]嵌入。标记图弱监督图匹配图匹配对骑对对F'嵌入函数Fcos(,)F匈牙利算法对骑对对Visual Graph节点嵌入 相似性图形匹配最佳匹配标准SGG模型SGG模型伪标签街滑板自行车人人街人滑板自行车人人......我16396O我得到最佳配置*使用匈牙利算法求解-rithm [18],其复杂度仅为(n3)。请注意,尽管FOGM算法仅关注节点而不是边缘的相似性,但我们的直觉是,如果我们可以让节点嵌入函数F编码边缘上下文,则FOGM算法仍然可以用于高阶图匹配。F的选择将在后面的章节中讨论。三点四分。16397我IJ我C∈∈IJ··IJIJIJIJIJIJIJj,j我ΣIJ我我我.∈接下来,为了学习嵌入函数F,遵循MIL [16]的思想,我们采用三元组损失来通过强制匹配节点的相似性和远离不匹配节点来增强这种对齐。因此,图匹配损失Lgm表示为Lgm= max(0,si′j−sij+ ∆),(4)(i,j)∈I*,i i′其中∆为正裕度。负片对象是从当前标签的不匹配对象(来自当前帧和其他帧)绘制的节中4.4我们然而,两个节点之间可能没有有效的关系类型,因此我们用边置信度增强谓词注意力,使得它可以关注背景类,并且从增强的注意力获得关注的谓词表示为α(k)=[1−β(k);β(k)α(k)],p(k)=α(k)Dp.(七)然后,每个节点通过主体FC层和对象FC层聚合邻居m(k)=Σ。β¯(k)fs([h(k);p(k)])+β¯(k)fo([h(k);p(k)])Σ,观察来自其它帧的负样本可以显著地提高性能。伊伊季j,j i伊季吉杰纪(八)其中β¯(k)=β(k)/Σβ(k)。请注意上面的集合-在通过图匹配获得伪场景图标签之后,我们进一步训练标准的全监督SGG模型以从输入图像输出场景图(图1B中的蓝色虚线框)。2)的情况。任何标准的SGG模型都可以应用到这个流水线中。最终的对象和谓词类别使用交叉熵损失Lsgg进行训练,遵循[53]。因此 , 最 终 损 失 L 是 图 匹 配 损 失 和 SGG 损 失 的 组 合L=Lgm+Lsgg。3.4.节点嵌入FF的最直接选择是MLP,它用作我们的默认设置。在这种情况下,没有边缘信息被编码到节点表示。 因此,很自然地会问我们是否可以使用图神经网络-还考虑了谓词类型,使消息-sage传递过程中意识到的关系类。最后,采用GRU [5]将节点特征更新为h(k+1)=G RU(h(k),m(k))。(九)在K次迭代之后,具有边类型上下文的细化节点特征被获得为hK。上述消息传递是通过对谓词类型的轻微关注来制定的由于标签图已经确定了关系类型,我们采用硬注意代替软注意。因此,等式中的βij(5)将变更为工作(GNN)以将边上下文编码到节点中。为了回答这个问题,我们需要一个GNN,它可以将标签图的分类边信息编码到节点表示中β(k)=0如果pij=背景,否则,(十)怨恨然而,标准SGG模型[44,53]无法做到这一点,因为它们仅接受对象特征,而不知道它们的关系类型。因此,我们提出了一个名为边缘注意力消息传递(EAMP)的GNN的消息传递方案,允许边缘类型特征显式编码到节点表示。对于EAMP,初始节点状态是输入节点嵌入h(0)=ei。在第k次迭代时,我们定义一个分数来衡量一致性。如果存在从节点i指向j的边,则为fidence:和α(k)R| CP|由方程式(7)改变为指示p i j的谓词cat e g ory的 独 热 向 量。 因此,我们可以增加消息传递的数量以将边上下文编码到节点中,并准备使用匈牙利算法进行高阶图匹配。4. 实验4.1. 数据集和度量(k)(k)(k)数据集。我们评估我们的方法在视觉基因组(VG)βij = Sigmoid(f β([hi ;hj]))、(5)其中[i]表示两个向量的级联,并且f表示MLP。然后D pR| CP| ×d是p中所有谓词的嵌入字典,其中第一个谓词是背景类。 和一个有效的谓词字典DpR(|CP|−1)×d是没有背景嵌入的D p。 为了强制消息传递过程意识到边缘类型,我们计算从成对节点特征到有效字典的注意力得分为数据集[17],由108,077张带有场景图注释的图像组成在VSPNet [52]之后,我们使用不同的标签预处理策略在两个常见的分割[44,55[44]保留了最频繁的150个对 象 类 别 和 50 个 谓 词 类 型 , 训 练 / 测 试 集 为 75 ,651/32,422张图像。 而[55]选择200个对象类别和100个谓词类型,训练/测试集为73,801/25,857张图像。公制。我们首先介绍度量(k)(k)(k)ˆ⊺√图形匹配性能 请注意,在标签图中,ij =Softmax(fα([hi;hjDp/d).(六)即使两个节点属于同一对象类别,3.3. SGG生成16398方法SGGen SGCls表1.VG分裂训练集上图匹配精度的比较[44]。是两个不同的实例,由于不同的邻居上下文,如图中的1.一、因此,我们设计了以下度量:(1)实例级召回率(R_inst):如果框与标签图中的正确节点匹配并且被正确定位(与地面实况(GT)框具有超过50%的交并(IoU)),则框被召回率被计算为每个图像的正确匹配的框与所有GT框的比率,随后是所有图像的平均值。(2)对象级召回(Robj):如果框与正确的对象类别相同,并且正确定位,则框正确匹配。 然后以与Rinst相同的方式计算召回率。4.2. 实现细节我们遵循与VSPNet [52]相同的方式来提取视觉特征。每个图像的20个顶部区域提案是从在Open Image数据集[19]上预训练的RoIPooling [31]特征中提取的我们使用200维GloVe嵌入[27]来表示标签图中的对象和谓词特征。当用作SGG模型时,EAMP的消息传递迭代被设置为1。WSGM和SGG模型一起训练,而SGG学习损失经受12k次迭代的线性预热,以确保FOGM已经被良好地训练。我们设置∆ = 0。1,并为背景分配折扣权重0.1注意,Robj比Rinst宽松,因为尽管一个盒子分配了正确的类别,则可以将其匹配到对象和0.01用于LSGG由于标签图中具有正确对象类别的错误节点实例。(3)谓词级召回(Rprd):如果谓词的主语和宾语框在实例级中正确匹配,则谓词被正确匹配。接下来,我们描述了常见的评价度量场景图生成。(1)同品种器械分类(PredCls):给定GT盒和对象标签 , 预 测 对 象 对 的 关 系 类 型 。 (2) 场 景 图 分 类(SGCl):给定GT对象框,预测对象类别和关系类型。(3)场景图检测(SGGen):在给定图像的情况下,预测框、区域提议的类别和对象对的关系类型。只有当主体-关系-客体三元组的标签被正确分类,并且主体和客体的框与GT具有超过50%的IoU时,它才被计数为正确检测到的实体。(4)短语检测(PhrDet)[55]:给定一个图像,用一个包含对象和主体的联合边界框预测关系三元组。如果三元组的标签是正确的并且并集盒与具有大于0.5的IoU的GT并集盒匹配,则是正确的。针对每个图像计算上述度量的召回,然后在数据集上平均,得到召回@K度量(K = [20,50,100])。此外,在三元组排名过程中,我们有一个图形约束,即在我们的默认设置中,同一对象对不能预测多个谓词。如果禁用此类约束,则将在[53]之后指示无图约束调用@K。数据平衡我们通过SGD优化模型,学习率为0.002,动量为0.9。批量为32。4.3. 主要结果比较方法。我们将我们的系统与WS-SGG的以下方法进行比较:• PPR-FCN[55]:它扩展了WSDDN [2]的结构以检测关系三元组。• VTransE-MIL[55]:它遵循与VTransE [54]相同的流水线,但使用NoisyOR MIL [24]作为对象和关系检测的损失函数。• VSPNet[52]:它将场景图转换为实体节点和谓词节点的二分图,其中节点的每一部分迭代地进行一阶匹配以近似二阶图匹配。由于空间限制,我们将VG split [55]的结果移动到Appx。A,其中比较PPR-FCN和VTransE-MIL。图形匹配性能。我们首先将我们的方法与VSPNet进行了比较,结果如表1所示。1,表明我们的简单FOGM框架优于进行二阶图匹配(SOGM)的VSP-Net虽然直观上SOGM比FOGM好,但考虑到WSGM,这可能不是真的,其中不准确的匹配将夸大节点嵌入学习的噪声影响匹配精度的因素很多,包括损失函数、网络消息 传 递 复 杂 度 等 。 我 们 怀 疑 我 们 的 简 单 FOGM 比VSPNet中使用的嵌套优化具有更少的错误传播我们的对比损失可能更有效-RinstRobjRprdRinstRobjRprdRinstRprd上限39.6539.6527.32100.00100.00100.00100.00100.00VSPNet 2.754.500.7859.8971.8650.3170.9463.54WSGM(Ours)9.0713.151.8767.6177.9358.9974.2268.8316399GMΣ方法监督SGGen SGCls PredCls表2.与VG分裂的其他方法的比较[44]。最佳改进是基于WSGM的方法中相对于VSPNet的最佳相对改进* 表示重新评估的编号。额定R@20 R@50 R@100 R仪器GM探测器现在可用。默认情况下,按照MOTIF [53],频率先验适用于所有SGG模型。GM梳齿通用汽车公司3.77 4.84 5.39原始VSPNet [52]论文的数量并不严格满足场景图约束,因此为了公平比较,表3.不同结构对比剂在不同组织中的消融研究SGGen的设置损失R@20R@50R@100RinstLogistic1.231.732.012.33NCE1.211.802.172.46三重2.843.954.568.77表4. SGGen设置中不同图形匹配损失的消融研究有效损失函数,然后是VSPNet的损失,因为制定对比损失和负样本选择的方式将显着提高性能(第二节)。4.4)。最后,通过假设所有匹配都是正确的来计算上限,除非区域建议不能覆盖所有GT框。我们可以看到SGGen设置的上限图匹配重新调用非常低(实例召回率为39.65%,谓词召回率为27.32%),严重限制了匹配性能,表明OpenImage [19]预训练的RPN与VG数据集仍然存在很大的语义差距。SGCl和PredCl的上限是100%,因为它们使用地面实况框作为区域建议。SGG性能。为了显示WSGM对SGG任务的影响,我们使用从WSGM计算的伪标签来训练现有的标准SGG模型,即迭代消息传递(IMP)[44]、神经基序(MO-TIF)[53]和所提出的EAMP作为我们的SGG模型。由于IMP和MOTIF都需要儿子,我们重新评估的VSPNet保持顶部predicate从一个独特的对象-主题对。此外,我们还比较了无约束图中VSPNet的原始数量(五)。我们观察到,基于FOGM 的 SGG 模 型 都 大 大 优 于 VSPNet ( SGGenR@100:54%相对改进,SGCls R@100 37%),证明了我们算法的有效性。我们可以看到,不同的SGG模型具有相当的性能。MOTIF并不总是比IMP好,因为对象标签功能被禁用,这与监督设置不同。定性可视化如Appx所示。C.此外,弱监督性能仍然远远落后于SGGen的全监督设置,而对于SGCl和PredCl,差距较小,表明良好的对象支持对于WS-SGG至关重要。4.4. 消融研究由于篇幅的限制,我们将EAMP作为SGG模型的迭代次数的研究B.1,以及对Appx. B.2.所有消融研究均在VG分割中完成[44]。不同的方法来学习对比。我们发现,构建正反对比的方法是很重要的。我们研究了三种不同的对比结构第一个例子是Eq。其中锚点是标签节点,并且正样本和负样本是视觉节点,因此我们让Lvis表示等式(4)。(四)、但是,如果视觉节点是锚点,而标签节点用于构造对比度,则损失变为在框对的联合中,这在我们的建议设置中不可用,我们用主体和对象特征的级联以及随后的FC层来替换它另外,我们禁用lblgm =(i,j)∈I<$,j<$=j′max(0,sij′−sij+ ∆);(11)对于MOTIF的输入中的对象标签特征为无对象,并且两个方向的组合为L梳=Lvis+通用汽车公司LLR@20R@50R@100R@20R@50R@100R@20R@50R@100[53]第五十三话25.4832.7837.1635.6338.9239.7758.4665.1867.01VSPNet*[52]-4.014.17-23.4323.50-44.5944.77WSGM+IMP弱3.875.065.7325.0930.0431.8548.2261.3765.83WSGM+Motif4.125.596.4523.5429.1631.3944.1059.0764.60WSGM+EAMP4.195.436.0225.3230.3832.1046.5759.1964.22最佳改善- 百分之三十九百分之五十四-百分之三十百分之三十七-百分之三百分之四十七Lvis4.195.436.0210.12比较了有、无场景图约束的SGG算法的性能Llbl3.614.795.439.71应变显示在选项卡中。2、Tab。5所示。注意16400GM·-logΣ.Σ方法监督SGGen SGCls PredClsR@20R@50R@100Rinst接地3.264.074.486.57FOMP4.195.436.0210.12子图10%3.514.404.799.13子图50%4.205.295.819.18表6.比较SGDet设置中的接地和不同子图率。Llbl.三种情况的比较如表1所示。3 .第三章。我们观察到,视觉节点中的对比度比标签节点的对比度更与替代对比损失的比较。我们将三重态损失与其他两种常用的对比损失进行比较:逻辑损失[26]和NCE损失[35,43],它们已广泛应用于无监督学习文献[4,25]。为了使比较公平,对于所有损失,锚是标签节点,并且从与正样本相同的图像中的不匹配的视觉节点中提取在三重损失和逻辑损失中与Eq相同的符号。(4)、物流损失写为:在我们的例子中,建议特征是由现成的RPN [32]提取的,与SimCRL [4]中使用的ResNet50 [10因此,我们的嵌入必须保持RPN特征的原始语义,并且可能无法在负对上形成正对的大的相似性增益。从这个角度来看,三元组损失是最合适的,因为相似性的裕度可以调整得更小,而NCE损失和逻辑损失将稳步扩大相似性增益,导致难以协调原始RPN特征。高阶图匹配是否更好?在我们的标准设定中,图匹配过程采用MLP只对目标特征进行编码,而不考虑预测特征。因此,我们尝试性地研究了一种消息传递模型,如EAMP可以将预测信息编码到节点特征中,使得仍然可以应用简单的一阶图匹配来实现更高阶的匹配。由于EAMP可以将关系特征编码为视觉图和标签图的节点特征,因此我们将MLP替换为EAMP并调整消息传递迭代次数结果显示在选项卡中。7,0次迭代使EAMP降为MLP。我们可以看到,对于SGGen,MLP产生最好的结果,并且增加迭代次数将相反地恶化-(i,j)∈IΣ*,i=i′,jlog(σ(sij))+log(σ(−si′j))(12)j′匹配精度我们猜测,由于实例召回率较低(只有10%左右),模型将强制相似性其中σ()是sigmoid函数。对比损失将在denominator上的图像中采取所有负面建议,其被给出为其余90%的不匹配节点,已经引入了匹配过程中的噪声很大。进一步涉及将关系上下文嵌入到节点中可能会触发更多的噪声,因为关系也容易出错。另一个原因是我们没有Σexp(sij)(i,j)∈I*i′ exp(si′j)(十三)视觉图形,因此它最初被假设为完全一致。连通图,导致更高的图匹配难度它们的性能如表1所示。4.第一章我们发现,在图匹配问题的三重损失是显着优于其他两个替代品。这并不是说这种发现与NCE损失优于三重态损失的常见观察结果不同[4]。不同的特征提取设置可能导致这种差异。而不是所有图都有拓扑图匹配哎呀。然而,正如我们所看到的,对于实例噪声小于SGGen的SGCl和PredCl,更多的消息传递迭代将带来一定的好处。图形匹配是否比基础模型更好我们首先强调我们的WSGM与R@20R@50R@100R@20R@50R@100R@20R@50R@100[53]第五十三话27.0436.5843.4340.5848.4851.9866.3981.0288.24VSPNet [52]-4.705.40-30.5032.70-57.7062.40WSGM+IMP弱3.915.266.3127.0334.5738.8951.1369.5780.19WSGM+Motif4.165.746.9425.1733.1237.8546.7666.8678.46WSGM+EAMP4.255.706.7027.4035.0939.4349.6067.1277.74最佳改善- 百分之二十二百分之二十八- 百分之十五百分之二十一- 百分之二十一百分之二十九表5.与其他方法在无约束图中的比较16401→→方法SGGen SGCls表7.EAMP迭代次数作为训练集上图匹配的嵌入函数的消融研究损失R@20R@50R@100Rinst充分4.195.436.0210.12无交叉匹配2.843.954.568.14不含HardNeg3.634.745.318.48表8.在SGDet环境下对不同反面例子挖掘策略的消融研究。硬→简单4.30 5.50 6.14 9.88无课程表9.在SGDet环境中进行课程学习培训接地模型,例如,DVSA [16]。在标准的基础模型中,每个名词都将独立地查询其最相似的对象尽管如此,我们使用图形监督的标签图是一个整体的结构,我们不把标签节点作为独立的查询,但应用一对一的映射约束,使两个查询将不匹配相同的对象。选项卡. 6表明WSGM优于接地设置,表明一对一映射约束对我们的模型是必不可少的,而纯接地模型是不够的。图监督的重要性。一对一映射也可能导致错误,因为一个不匹配将触发其他不匹配的节点。因此,我们进一步将原始场景图切割成子图,这可以减少这种失配传播。注意,这样的随机切割在每次训练迭代时发生,以确保所有标签节点都有机会被训练。选项卡. 6给出了保留50%和10%节点的子图,表明较少的节点将降低性能,并进一步主张一对一映射约束比其失配传播的关注更重要。不同的负样本挖掘。在这里,我们研究选择阴性样本的重要性。默认情况下,对于锚标签节点,其负样本来自当前图像和其他图像中其他标签节点的匹配视觉节点。交叉匹配:表示负对象可以来自其他图像。硬阴性:指示否定对象必须由其他节点匹配。在没有HardNeg的情况下,负样本可以是当前标签节点的任何不匹配对象标签。图8示出了交叉匹配可以带来显著的改进,因为模型可以看到更多的负样本,从而导致更好的对比度用于学习。此外,HardNeg是必不可少的,因为与其他标签节点匹配的视觉节点比背景对象具有更好的语义意义;因此,其他对象与当前标签节点的这种语义差异将有助于对比学习。什么可能没有帮助。手工制作的课程学习。出于具有较少节点的标签图可能比具有更多节点的标签图更容易学习的直觉,我们根据标签图中的节点数量从容易到困难将训练集分成四个部分。从Tab。9、简单的硬意味着训练从易分到硬,而硬简单意味着相反。我们观察到,无论我们使用哪个方向,性能都有轻微的变化;因此,对标签图的复杂度进行排序不会影响模型性能。5. 结论总之,我们将WS-SGG任务解耦为WSGM模块和标准SGG模型,其中引入了基于高效一阶图匹配的对比学习框架。该方法比以前的方法简单得多,同时在图匹配精度和SGG性能上都有显著的提高。我们进一步实证说明了图匹配比接地模型更好,提供了选择负样本和损失的良好实践。我们相信,这项工作作为一个简单而强大的基线,为未来的发展WS-SGG问题。致谢。 这项工作得到了美国国家科学基金会(NSF)的部分支持,资助号为1741472、1813709和1909912,并得到了Adobe的研究礼物。 YZ和YL感谢所提供的支持由威斯康星大学麦迪逊分校副校长研究和研究生教育办公室与WARF的资金。本文仅反映作者的观点和结论,而不是资助机构。RinstRobjRprdRinstRobjRprdRinstRprdEAMP iter 09.0713.151.8767.6177.9358.9974.2268.83EAMP iter 18.3912.181.6364.3980.0053.6474.3669.05EAMP iter 27.1910.751.0063.3178.9753.0074.5169.50课程R@20R@50R@100Rinst简单→困难4.215.446.089.5216402引用[1] Federico Baldassarre,Kevin Smith,Josephine Sullivan,and Hossein Azizpour.图网络视觉关系的基于简化的弱监督学习。在ECCV,第612-630页中。Springer,2020年。2[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在CVPR,第2846-2854页,2016年。二、五[3] Long Chen,Hanwang Zhang,Jun Xiao,Xiangnan He,Shil- iang Pu,and Shih-Fu Chang.用于场景图生成的反事实评论家多智能体训练。在ICCV,第4613-4623页,2019年。2[4] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,第1597PMLR,2020年。7[5] KyunghyunCho,BartVanMerrieenboer,DzmitryBahdanau,and Yoshua Bengio.关于神经机器翻译的特性:编码器-解码器方法。arXiv预印本arXiv:1409.1259,2014。4[6] Minsu Cho,Jungmin Lee,and Kyoung Mu Lee.图匹配的加权随机游动参见ECCV,第492施普林格,2010年。2[7] ApoorvaDornadula , AustinNarcomey , RanjayKrishna,Michael Bernstein,and Fei-Fei Li.作为功能的视觉关系:启用少数镜头场景图预测。在ICCV研讨会,第0-0页,2019年。2[8] Matthias Fey , Jan E Lenssen , Christopher Morris ,Jonathan Masci,and Nils M Kriege.深度图匹配共识。arXiv预印本arXiv:2001.09621,2020。2[9] 史蒂文·戈尔德和阿南德·兰加拉詹。一种图匹配的分级PAMI,18(4):377-388,1996. 二、三[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。7[11] Roei Herzig、Moshiko Raboh、Gal Chechik、JonathanBe rant和Amir Globerson。用置换不变结构化预测将图像映射到场景图。NeurIPS,31:7211-7221,2018。2[12] Drew A Hudson和Christopher D Manning Gqa:一个用于真实世界视觉推理和组合问题回答的新数据集。在CVPR中,第6700-6709页,2019年。1[13] Drew A Hudson和Christopher D Manning 学习抽象:神经状态机。arXiv预印本arXiv:1907.03950,2019。一、二[14] Seong Jae Hwang、Sathya N Ravi、Zirui Tao、HyunwooJ Kim、Maxwell D Collins和Vikas Singh。Tensorize、fac- torize和regularize:强大的视觉关系学习。在CVPR中,第1014-1023页,2018年。2[15] 贾斯汀·约翰逊,阿格里姆·古普塔,李飞飞。从场景图生成图像。在CVPR中,第1219-1228页,2018年。一、二[16] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在CVPR,第3128-3137页,2015年。二四八16403[17] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson , Kenji Hata , Joshua Kravitz , StephanieChen , Yannis Kalantidis , Li-Jia Li , David AShamma,et al.可视化基因组:使用众包密集图像注释连接语言和视觉。IJCV,123(1):32-73,2017。一、二、四[18] 哈罗德·库恩。指派问题的匈牙利方法。海军研究后勤季刊,2(1-2):83-97,1955年。二、三[19] Alina Kuznetsova,Hassan Rom,Neil Alldrin,JasperUijlings , Ivan Krasin , Jordi Pont-Tuset , ShahabKamali , Stefan Popov , Matteo Malloci , AlexanderKolesnikov,et al.打开图像数据集v4。IJCV,第1-26页,2020年。五、六[20] 马里斯·里奥迪努和马夏尔·赫伯特使用成对约束的对应问题的谱技术。2005. 2[21] Yikang Li , Wanli Ouyang , Bolei Zhou , JianpingShi,Chao Zhang,and Xiaogang Wang.可因式分解净值:一个有效的基于子图的场景图生成框架。在ECCV,第335-351页,2018年。2[22] Xin Lin , Changxing Ding , Jinquan Zeng , andDac
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功