混洗然后组装：学习与对象无关的视觉关系特征

105 浏览量更新于2023-10-13 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

混洗然后组装：学习与对象无关的视觉关系特征徐阳，张汉旺，蔡剑飞南洋理工大学s170018@e.ntu.edu.sg，{hanwangzhang，asjfcai} @ntu.edu.sg抽象。由于完全地注释视觉关系（即，（obj1，rel，obj2）三元组，关系模型不可避免地偏向于有限的成对模式的对象类因此，我们有兴趣学习对象不可知的可视化功能，以实现更高的模型。通过“无为了减轻这种偏差，我们提出了一种新的Shuffle-Then-Assemble预训练策略。首先，我们丢弃图像中所有的三元组关系标注，留下两个不成对的对象域，而没有obj1-obj 2对齐。然后，我们的特征学习是恢复可能的obj 1-obj 2对。特别是，我们设计了一个循环的残余transformations之间的两个域，捕捉共享的，但不是特定于对象的视觉模式。在两个视觉关系基准上的大量实验表明，通过使用我们的预训练特征，朴素关系模型可以得到持续改进，甚至优于其他最先进的关系模型。代码已在以下网址提供：https://github.com/yangxuntu/vrd。1介绍由于中级视觉解决方案的成熟，如对象分类和检测[19，41，15]，我们更雄心勃勃地追求更高级别的视觉语言任务，如图像字幕[13，14，5，31]，视觉问答[22，27，18]和视觉聊天机器人[7]。不幸的是，我们逐渐意识到许多最先进的系统仅仅捕获训练集偏差，而不是潜在的推理[49，22，65]。最近，一种有前途的方法是使用视觉组合，如场景图[23，53]和关系上下文[21，62]进行可解释的视觉推理。因此，视觉关系检测（VRD）[60，61，28，57] --在图像中被称为“图像上的文本”和“图像上的加载”的预处理元素的测试--是一种能够构建视觉与语言的双向关联的方法尽管与对象检测相比，VRD处于相对初级的阶段，但VRD的主要挑战是注释（obj1，rel，obj2）三元组的高成本，如图所示第1（a）段。与标记图像中的对象不同，标记视觉2徐阳，张汉旺，蔡剑飞图1：（a）图像中的视觉关系的三元组注释。(b)所提出的Shuffle-Then-Assemble策略的关键思想是丢弃任何关系的配对注释，并留下两个未配对的对象域。(c)从基本CNN（中间）获得的原始特征图与通过我们的预训练（在所有通道上平均）获得的对象不可知特征图（底部）之间的比较。我们可以看到，我们的特征图更多地关注对象的重叠区域。由于需要对三个条目进行组合检查，因此这种关系非常昂贵。因此，现有VRD数据集[32，26]中的关系是长尾的，并且由此产生的关系模型不可避免地偏向于占主导地位的obj 1-obj 2组合。例如，如在开创性工作[60，32]中所报道的，看不见的三联体组合物的识别率显著低于所看到的三联体组合物。这一缺陷显然限制了VRD在成分推理中的潜力。虽然它可以通过利用外部知识来缓解，如语言先验[32]和大规模弱监督[61]，但我们仍然缺乏视觉建模角度的原则性解决方案。无监督特征学习（或预训练）可以说是用小数据训练深度模型的最流行的方法[64，36，10，39，11，47]。因此，我们受到启发，学习对象不可知的卷积特征图，这些特征图不太可能偏向于某些obj 1-obj 2组合。这样的特征应该对关系中涉及的对象部分1一种合理的方法是将额外的conv层附加到原始的基础CNN（例如，，VGG 16 [44]或ResNet-150 [19]），以去除从图像分类预训练数据集（例如，，ImageNet [8]）。例如，如图2所示1（c），与基本CNN的特征图相比，对象不可知的特征因此，我们提出一个问题：如何学习对象不可知的特征图，而不需要额外的关系标注成本？在本文中，我们提出了一种新的洗牌然后组装特征学习算法。就像在电影里一样。在图1（b）中，1这些部分可以是像素级，也可以是感受野级。混洗后组装3通过在两个未配对域之间转移感兴趣区域（ROI）特征来解决配对恢复问题。我们的直觉动机是双重的：1）如果从所得特征图提取的ROI特征仍然编码对象特定信息，则特征不太可能在两个域之间转移异构对象;2）无监督的方式鼓励探索更多可能的关系，这些关系通常在注释中缺失。如图 1（a）中，一些简单的空间关系如“椅子在包旁边”被遗漏，并且等价关系通常被忽略，即，“椅子在椅子下”被认为是“椅子上的椅子”。根据无监督域转移方法[66，24，20，56]的最新进展，我们设计了一个转换循环来建立两个域之间的转移：任一转移方向将RoI从域A（或B）映射到域B（或A），然后使用对抗网络将该映射与域B（或A）中的RoI混淆。特别是，我们使用残差结构的转换网络，其中的身份映射鼓励的特征图捕捉共享的，但不是特定于对象的视觉模式和残差允许功能转换。我们在两个基准上证明了所提出的混洗然后组装策略的有效性：VRD [32]和VG [26]。我们观察到针对各种消融基线和其他最先进的方法使用我们的预训练特征的一致改进例如，与没有预训练的特征图相比，我们可以将监督、弱监督和零镜头关系预测的Recall@100分别提升绝对4.74%、4.42%、4.04%VRD组为4.41%，VG组为4.2%，VG组为5.81%2相关工作视觉关系。建模对象的相互作用，如动词[16，3]，动作[17，40，54]，和视觉短语[55，1，43，9]已在文献中广泛研究特别是，我们的关系模型在本文中使用的建模通用的视觉关系，即最近的进展。，在图像中检测到的（obj1，rel，obj2）三元组[32，60]。最先进的关系模型分为两类：1）两个对象特征之间的消息传递[57，28，52]，以及2）利用主体-对象统计数据，如语言先验[32，29，67]和数据集偏差[59，63，6]。然而，由于组合注释的复杂性，它们仍然局限于训练三元组不足的固有问题，导致所得的关系模型对于罕见或看不见的组合物是脆弱的。虽然弱监督方法[61，38，50]可以降低标记成本，但与监督模型相比，其性能仍远未达到实用水平与以前的方法不同，在本文中，我们提出解决这一挑战的成对建模的关系，即，给定两个区域，我们要提高谓词分类没有额外的对象信息和额外的监督。我们相信，通过用我们的方法替换它们的成对建模对应物，改进可以提高上述大部分无监督特征学习通过利用大规模的未标记数据，无监督特征学习方法[2]学习更可推广的中间4徐阳，张汉旺，蔡剑飞图2：所提出的Shuffle-Then-Assemble预训练策略（红色箭头）和关系检测模型（蓝色箭头）的概述。预训练阶段的目标是使用Shuffle-Then-Assemble目标学习对象不可知（OA）conv层。然后，传统的监督训练的关系模型可以被认为是微调阶段，使用所需的OA特征图。用于解决其他一些机器学习任务的数据表示。我们对视觉关系特征学习的动机遵循常见做法：Fetransferintoday的计算[ 5 - 8 ]，其中finetunes是已经在其他数据集和任务上预先训练的基础工作。与流行的自动编码器时尚[64，11]不同，我们的策略更类似于最近的自监督训练工作，其中学习目标是发现固有的数据组成，例如预测图像块的上下文[10，36，37，33，34，45]。特别是，我们建议发现RoI对的对齐，并将此发现应用于使用对抗学习的无监督域转移任务[66，24，20，56]。受它们的启发，我们使用一个转换周期来消除模式崩溃引起的琐碎对齐，从而在成对的ROI之间建立非平凡的连接。3方法图2示出了使用混洗然后组装来增强关系模型的概述。特征学习过程的目标是预训练对象不可知（OA）的conv层，从而得到所需的OA特征图，以实现更好的关系建模。我们将首先介绍广泛使用的关系建模框架及其局限性，然后详细介绍如何使用所提出的特征学习方法来克服它们。3.1视觉关系模型视觉关系模型的输入是具有一对对象边界框的图像，并且输出是“obj 1-rel-obj 2”三元组，其中“obj 1”和“rel-obj 2”是“obj 2”混洗后组装5不“o b j 2”是作为两个绑定框的对象绑定类，而“re l“是关系类。在本文中，我们采用了[ 32，60 ]中的常见做法，即我们不直接将三元组组合作为一个整体[43，6]进行建模，这要求C对象和R关系类的复杂性为O（C2 R）;相反，我们分别对对象和关系进行建模，以将复杂度降低到O（C + R）。因此，不失一般性，我们将关系模型称为R路分类器.假设Xi和Xj是任何一对对象边界框（i，j）的RoI特征（例如，图中的红色和蓝色立方体2通过RoI池化[12]），第r个关系得分通过softmax分类器获得，其输入是两个特征的简单. TΣexp wrMLP（[xi， xj]）S（i，j，r;θ）=，（1）ΣRt=1exp.ΣwT MLP（[xi， xj]）其中，t∈θ是函数的一部分，MLP（·）的概念如图所示。二、注意，虽然Eq.（1）是一个朴素模型，在文献中组合x i和x j的方法是富有成效的，例如为每个RoI附加独立的MLP [60]，联合RoI [28]，甚至与文本特征融合[21]，我们的特征学习可以无缝地融入其中任何一个。我们将把应用这些调整的评估留给未来的工作。关系模型可以通过最小化交叉熵损失来训练等式（1）对所有关系对求和。然而，由于LIM-然而，由于关系三元组的有限注释，在这些极长尾注释上训练的关系模型不可避免地偏向于主要对象类。人们可能想知道为什么它是对象偏置的Eq。（1）不使用任何对象类信息吗原因在于CNN的基本功能--真地图几乎所有最先进的视觉识别系统都部署了在ImageNet [8]或ImageNet+MSCOCO [30]上预训练的基础CNN [46，44，19因此，用于提取RoI的所得特征图将自然地有利于对对象类别的敏感性一一每个RoI特征编码RoI内的对象的区别性信息（参见图10）。图2的原始特征图），并导致等式2中的参数。（1）过度拟合以适合特定的接合。对于示例，如果“stand d on”的大多数规则是“pe r s on s t and don s t r e t“，则”s t and d on s t r e t“和”s t t ret“之间的连接将是一个非常复杂的问题，并且”p e r s on s t and d on s t re t“或“d o g s t and d on s t r e t“也会出现故障。3.2混洗-组装特征学习为了减轻偏见，我们详细介绍了我们提出的洗牌然后组装策略，以预训练对象不可知（OA）的conv层，以获得OA特征图。如上所述，偏差主要是由于训练数据中占主导地位的对象对，因此，我们的关键思想是丢弃原来的一对一6徐阳，张汉旺，蔡剑飞图3：（a）用于混洗-然后-组装的无监督域转移的概述。它包含一个变换循环F：A›→B和G：B›→A，以及一对判别器DA和DB来度量质量的转移。(b)定性转移结果。有向箭头指示目标域中与来自源域的RoI最近的邻居RoI。(c)变换网络的剩余结构。(d)鉴别器的体系结构成对注释，即，“shuffle”，留下“obj1”和“obj2”的RoI的两个未对齐域，然后我们尝试恢复一对一对齐，即，，请注意，这种预培训策略不需要额外的监督成本。如图3（b），我们设法调整潜在的关系，没有任何一对一的监督，e. G. 因此，对于“保持”而言，可能需要更长的时间来保持，并且可能需要更长的时间来保持。在Shuffle-Then-Assemble中使用的无监督域转移方法遵循对抗域转移的最新进展[66，24，20，56，4]。值得注意的是，使用对抗域转移的动机更多地强调无监督比对，而不是传统域转移应用中的特征转移，如[48]，其中域转移用于缩小方便可用的合成数据和真实数据之间的差距。在这里，我们的想法更类似于[39]，其发现了非常微小差异的图像之间的对齐，例如“带点的袋子”和“带点的鞋子”，或“正面”和“正面”。如图3（a）所示，我们希望通过学习域A和B之间的映射函数来指导OA卷积层的预训练，其中每个混洗后组装7它们由从暂定OA特征图中提取的RoI特征a∈A和b∈B组成。为了域转移的目的，我们有两个映射的循环：F：A›→B和G：B›→A，以发现A和B之间的潜在关系。回想一下，在两个域之间存在一对一的监督，我们采用对抗目标Ladv，使得映射的特征{F（a）}和{G（b）}分别与B和A不可区分;特别地，不可区分性由两个鉴别器DA和DB测量：Ladv（A，B;φ，F，G，DA，DB）=用F和G联系我们Ea[logDA（a）]+Eb[logDB（b）]+Eb[log（1−DA（G（b））]+Ea[log（1−DB（F（a））]，联系我们DA和DB最大化（二）其中φ是生成A和B的OA conv层， DA是试图对 DA（a）→1和 DA（F（b））→0进行分类的二元分类器，并且DB被类似地定义。通过这种对抗性的方式，我们最终将获得F和G，它们发现了两个域之间的隐藏对齐，即不能被鉴别器区分。为了鼓励更多地探索这两个领域中ROI之间的潜在关系对齐，例如：，避免在A中映射多个RoI对于B中关于诸如“on”和“by”的平凡空间关系的仅一个RoI，我们针对由G和F来最小化的“cycle-c_on”操作来简化：Lcycle（A，B; φ，F，G）= Ea[a− G（b）1]+ Eb[b− F（a）1]。（3）损失惩罚两个不同的ROI，例如，a和a′，映射到相同的RoI b因为很难同时满足a≈G（b）和a′≈G（b）。把Eq。（2）和Eq。（3）总之，用于预训练OA conv-layer的全部目标是：φ*=arg min min maxφF，G DA，DBLadv（A，B;φ，F，G，DA，DB）+λLcycle（A，B;φ，F，G），（四）其中λ>0是折衷超参数。然后，我们可以使用φ*来获得xi和xj，并使用现有的三元组监督来微调更好的关系模型θ，如等式2所示。（一）.接下来，我们将介绍F和G的拟议实现3.3实现细节网络架构。对于基本CNN，我们采用Faster RCNN（VGG 16）[42]，它采用短宽度为600，并输出原始的1/ 16×1/ 16×512特征图。如图2所示，我们的OA conv-layer有1个大小为1 × 1的过滤器，步幅为1，后面是Leaky Relu [51]。变换网络在图3（c）中详细描述。每个变换包含两个残差网络块的8徐阳，张汉旺，蔡剑飞应用剩余结构的动机是双重的。1)快捷方式鼓励找到两个RoI的共享区域，因为共享RoI特征将直接经由快捷方式通过。这使得优化不仅权重更轻，而且更容易找到内在的相互关联的视觉模式作为关系。2)如果任何特定于对象的信息仍然被编码在RoI特性中，则快捷方式将使实现最终域传输变得更加困难，因为域A和B通常包含不同的对象。鉴别器网络在图3（d）中详细描述，其由两个完全连接的层组成，然后是Leaky Relu。它以50，176-d（两个7× 7× 512 RoI特征）矢量化RoI特征作为输入，并输出0和1之间的S形标量。训练在特征预训练阶段，为了在每个域中收集足够的ROI，我们通过使用区域建议网络[42]提取的IoU大于0.7的附加边界框来增加原始边界框的数量。对于每个原始边界框，对10个RoI进行采样。稳定对抗训练的Eq。（4）、我们采取三种做法：1）我们应用最小二乘GAN[35]用最小二乘损失代替负对数似然。2)用于训练DA和DB的优化器被设置为SGD，并且用于G、F和Φ的优化器被设置为Adam [25]。两个优化器的初始学习率都设置为1 e-42)与G、F和φ相比，DA和DB的训练量是G、F和φ的三倍。等式2中的折衷λ（4）被设置为10。每个小批是一个图像，随机选择128个三元组。用于训练这些网络的时期在VRD数据集上被设置为20，并且在VG数据集上被设置为5。在用于训练关系分类器的微调阶段，短宽度图像的分辨率仍然设置为600。每个小批是一个图像，其中包含128个随机选择的三元组。优化器是Adam，在所有实验中初始学习率设置为1 e-5。在VRD数据集和VG数据集上，历元分别设置为50和30。4实验我们通过在两个基准数据集上执行视觉关系预测来评估我们的Shuffle-Then-Assemble方法。我们在广泛的设置下进行实验：监督、弱监督和零激发，每种方法都有各种消融基线和最先进的方法。我们还可视化了定性对象不可知的特征图与其他人相比4.1数据集和指标我们使用了两个公开可用的数据集：VRD（视觉关系数据集[32]）和VG（视觉基因组V1.2数据集[26]）。VRD数据集。它包含5，000个图像，100个对象类别和70个关系。总共，VRD包含37，993个关系三元组注释，每个对象类别具有6，672个唯一三元组和24.25个关系我们遵循与[32]中相同的训练/测试划分，即，4，000个训练图像和1，000个测试图像，其中1，877个三元组仅在用于零拍摄评估的测试集中混洗后组装9图4：我们使用四种不同的实验设置来评估关系预测任务：监督，监督（Det），弱监督和零射击。“是吗？”去注释要预测的关系。值得注意的是，在所有的实验设置下，对象类别是不知道的，我们只使用视觉特征来预测对象对之间的关系。VG数据集。我们使用Zhang[60]提供的修剪版本，因为原始版本非常嘈杂。结果，VG包含99，658个图像，其中200个对象类别和100个谓词，1，174，692个关系注释，其中每个对象类别有19，237个唯一关系和57个谓词。我们遵循相同的73，801/25，857列车/测试分割。这个数据集包含2,098个在训练集中从未出现过的关系，这些关系可以用于零次评估。指标.作为惯例[32，60]，我们使用Recall@50（R@50）和Recall@100（R@100）作为评估指标。R@K计算在图像中的前K个置信关系预测中预测4.2设置在我们的实验中，我们只关注关系预测任务，即。将任意两个对象区域分类为关系类。原因有两方面.首先，关系预测在关系检测中起着核心作用，关系检测是一项更全面的任务，也需要检测两个对象。其次，我们可以排除对象检测性能的影响，因为对象检测的改进可以提高关系检测分数[60]。为了给关系预测的应用领域提供一个测试平台，我们根据不同的成对建模方式设计了以下4个设置：监督。此设置是标准的监督关系预测。如图4（a）所示，为了训练，所有对象都被提供有地面实况框，并且对象之间的关系被给出;为了测试，给出具有边界框的一对对象，并且预测它们的关系。10徐阳，张汉旺，蔡剑飞原图库+ OASTA(a)：关系“站立”原始图像基础基础+ OASTA（b）：关系“骑行”图5：VRD数据集上两种关系的定性特征图。对于每一个，通过在512个通道上求平均来可视化三种特征图。我们可以看到，通过使用所提出的混洗然后组装（STA），RoI特征不太可能偏向于对象，并且更专注于两个对象的交互区域。此外，观察结果与不同的关系表现一致。监督（Det）。上述设置假设在测试时有一个完美的对象边界框检测器然而，如图4（b）所示，更实际的设置是使用使用现成的对象检测器来使用检测到的对象边界框我们使用Faster RCNN [42]来检测图像中的大约100个对象。监督不力。与监督设置相比，我们丢弃了关于关系的一对一配对对象注释如图4（c）所示，在训练时，给定具有框的对象，我们不知道哪个对象与哪个对象相关因此，我们使用平均池化图像级关系损失：ΣNL弱=−ΣN ΣR[yijrlogS（i，j，r）+（1-yijr）log（1-S（i，j，r））];（5）i=1j =1r =1混洗后组装11图6：在监督设置中使用不同方法的四种关系类型的关系分类的性能（R@100%）其中N是对象集合，如果对象集合对（i，j）是第r个关系，则yijr是，并且S（i，j，r）是等式（1）中的关系得分。（一）.请注意，此设置的测试阶段与监督设置的测试阶段相同零射击该设置与监督设置相同，除了在测试时，我们希望预测其三元组组合在训练期间不可见的对象对。如图4（d）所示，虽然对象羊、道路和关系在测试中总是可见的，但是组合物“在道路上的羊”对于测试来说是新颖的。比较方法。我们比较了所提出的洗牌然后组装(STA)具有以下消融基线的训练前策略：基地我们直接使用从基础CNN中提取的RoI特征进行关系预测任务。碱+OA。我们不预训练OA conv-layersΦ（在等式2中）。（2））通过 Shuffle-Then-Assemble 算法和直接精确地确定Φ 和MLP（ · ）（在Eq.（1））通过最小化等式（1）的交叉熵损失来确定（一）.STA，不带FT。在通过混洗-然后-组装策略预训练Φ之后，Φ（在等式（1）中）的参数（2）固定。当通过mini-mizingEq训练网络时。（1），MLP（·）（在Eq. （1））在ed处被向上提升。STA w/o Res.图3中的变换网络不是剩余网络。其他设置与STA相同。我们还与最先进的视觉关系预测方法进行了比较，如VTransE[60]，Lu s - V [ 3 2 ]，L u s - V L K [ 3 2 ]和P e y r e s - A [ 3 8 ]。不是对于Lu的 VLK （其是多个模型）的最佳实例，这里比较的所有方法都是视觉模型。4.3结果和分析表1、2示出了在不同实验设置的两个数据集上比较的方法的性能正如我们所看到的，与其他基线和两个数据集上的最新技术相比，所提出的STA具有最佳性能。例如，与Base+OA相比，所提出的STA可以在VRD上分别将监督、弱监督和零激发关系预测的Re-call @ 100提升绝对4.75%、4.42%、4.04%，并且在VG上分别提升4.41%、4.2%、12徐阳，张汉旺，蔡剑飞表1：在监督设置和监督（Det）设置下，比较方法在两个数据集上的性能（召回率@K%）。数据集VRDVGVRD（Det）VG（Det）度量R@50 R@100 R@50 R@100 R@50 R@100 R@50 R@100基地39岁2539岁2552岁4852岁61 三十七83三十七8350块1250块31基础+OA四十三29四十三29五十八35五十八53四十78四十78 五十七03五十七31STA，不带FT44. 30 44. 30五十八14五十八3241岁1241岁12 五十六88五十七02不含保留的STA46.8346.83 62. 08 62. 32 44. 85 44. 8561岁1261岁30STA48.03 48.03 62.71 62.94 45.65 45.65 61.27 61.51[ 32 ]第三十二话7 .第一次会议。117 .第一次会议。11−−−−−−Lu四十七87四十七87−−−−−−VTransE [60] 44. 76 44. 76 62. 63 62. 87−−−−[ 38 ]第38话四十六岁。30四十六岁。30−−−−−−表2：在弱监督设置（WS）和零触发设置（ZS）下，比较方法在两个数据集上的性能（召回率@K%）。数据集VRD（WS）VG（WS）VRD（ZS）VG（ZS）度量R@50 R@100 R@50 R@100 R@50 R@100 R@50 R@100基地29岁3629岁36四十五78四十六岁。01十四岁10十四岁1011个国家。0411个国家。04基础+OA31岁4731岁47四十七46四十七72十六岁53十六岁53十三岁09十三岁09STA，不带FT三十二84三十二84四十七23四十七39十八岁24十八岁24十三岁72十三岁72不含保留的STA三十五10三十五1050块8951岁1319号。0119号。01十八岁03十八岁03STA35.89 35.89 51.73 51.92 20.57 20.57 18.90 18.90[ 38 ]第38话三十四03三十四03−−十六岁10十六岁10−−将Base+OA与Base的结果进行比较，可以看出，通过增加OA conv-layers，性能得到了改善。这一观察结果基本上与预期一致，因为参数的数量增加了，从而提高了整个网络的表示能力。通过比较STAw/o FT和Base+OA的性能，我们可以发现，即使OA转换层没有微调，通过Shuffle-Then-Assemble预训练的特征仍然具有与Base+OA相当的性能并且，当进一步微调预训练的OA转换层（STA w/o Res，STA）时，性能将有相当大的提升。这样的观察表明，所提出的方法的成功不仅是由于添加的小网络（OA conv-layers），而且还由于所提出的Shuffle-Then-Assemble预训练策略。图6示出了比较级、介词、动词和空间的由此，我们可以看出，所提出的STA在两个数据集上的每种关系类型中具有最佳性能。特征图的分析。图5示出了由三个不同的特征提取区域生成的特征映射的六个定性示例。通过比较STA的fe at u rem ap与B为e和B为e + O A的feat u rem ap，我们可以发现S TA的fe at u rem ap更多的是关于主体和客体之间的重叠区域。比如在混洗后组装13表3：两种特征图数据集OA基本CNN 数据集OA基本CNNVRD50.27 四十二45VG48.5041岁32因此，STA的featuremap将更多的任务放在peple的fee上，这将为Σ predict（Σ predict）在“stand”上显示的Σ i g h t r e l at ion提供一个过程。在表3中，将（i∈Roverf（i））/（i∈Rjointf（i））作为我们的改进版可在上一个应用程序区域上使用什么。其中，f（·）是主体和客体区域的归一化联合特征图，Rover和Rjoint分别表示该特征图的重叠区域和联合区域。我们比较了OA特征和Base CNN特征在VRD和VG数据集上计算的比率。从实验结果可以看出，提出的Shuffle-Then-Assemble预训练策略可以帮助关系模型在主体和对象之间的共享区域上捕获更多的注意力。零冲设定分析从表2中，我们可以看到，与其他基线和一个最先进的相比，所提出的STA在两个数据集上都具有最佳性能。该结果进一步验证了所提出的Shuffle-Then-Assemble预训练策略的有效性。从图中7，我们可以证明STA实现更好性能的原因是由于学习的OA特征图。分析对象偏置关系。图8示出了每个关系的准确度，根据它们对特定主体-客体配置的偏差以NR（r）/NC（r）以升序、左-右顺序列出，其中NC（r）是配置的数量，NR（r）是第r个关系的训练样本的数量。请注意，较小的偏差表示更灵活的配置（例如“触摸”），反之亦然（例如，、“穿”）。我们可以发现，对于不太偏向特定配置（左和中间部分）的关系，我们的STA更好，因为它专注于对象不可知的特征。失效模式当一段关系严重依赖于具体的物体组合。例如，对于图1的右侧部分中列出的一些关系。8（像关系“读”一样，主语和宾语通常是“p e r s on”和“b o k”），我们的模型将不会在该基线处被定义。在这种情况下，对象类别将有助于预测关系。请注意，这种故障可以通过从数据集统计数据中挖掘的规则轻松恢复。5结论提出了一种新的Shuffle-Then-Assemble视觉关系特征学习策略来改进视觉关系模型。其关键思想是丢弃原来的一对一配对对象对齐，然后尝试恢复它们在无监督的对发现方式中，通过使用周期一致的对抗器，简单域转移法以这种方式，对象对中的对象类信息被排除，并且因此所得到的特征图不太可能偏向于14徐阳，张汉旺，蔡剑飞地面实况基础+OA错误的预测STA正确的预测图7：VRD数据集上的四个零激发关系的定性特征图对于每一个，通过在512个通道上求平均来可视化具有错误预测的Base+OA和具有正确预测的STA的两个特征图。我们可以看到，通过使用所提出的混洗然后组装（STA），RoI特征不太可能偏向于对象，并且更专注于两个对象的交互区域。图8：VG数据集中每个关系的准确度（%）。在水平轴中，关系以它们对特定对象组合的偏置的升序（从左到右）列出。纵轴是每个关系的准确度（%）。我们可以看到，对于对特定组合（左部分）偏置较少的关系，我们的STA方法通常具有更好的性能。特定对象组合物。在两个视觉关系基准测试中，我们发现使用预训练的OA特征图的朴素关系预测模型得到了一致的改进。致谢。这项研究得到了NTU-CoE Grant，Alibaba-NTU JRI和数据科学人工智能研究中心@NTU（DSAIR）的部分支持。沙发上的狗狗-沙发旁边沙发上的狗滑雪板-保持-头盔滑雪板-穿戴-头盔滑雪板-保持-头盔童装-T恤-猫 -旁边-电脑儿童-在-T恤猫-使用-电脑童装-T恤猫-计算机旁混洗后组装15引用1. Atzmon，Y.，Berant，J.，Kezami，V.，Globerson，A.，Chechik，G.：学习在图像理解中对新作品进行一般化。在：EMNLP（2016）2. Bengio，Y.，Courville，A.Vincent，P.：表征学习：回顾与新观点。TPAMI（2013）3. Chao，Y.W.，王志，他，Y.，王杰，Deng，J.：Hico：用于识别图像中的人-对象交互的基准In：ICCV（2015）4. Chen，L.，中国地质大学，张洪，肖，J.，刘伟，Chang，S.F.：使用语义保持对抗嵌入网络的零镜头视觉识别。来源：CVPR（2018）5. Chen，L.，中国地质大学，张洪，肖，J.，涅湖，加-地邵，J.，刘伟，Chua，T.S.：Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在：CVPR（2017）6. Dai，B.，张玉，Lin，D.：使用深度关系网络检测视觉关系。在：CVPR（2017）7. Das，A.，Kottur，S.，古普塔，K.，Singh，A.，Yadav，D.，Moura，J.M.，Parikh，D. Batra，D.：可视化对话框。在：CVPR（2017）8. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR（2009）9. Desai，C.，Ramanan，D.：使用关系短语集检测动作、姿势和对象。In：ECCV（2012）10. Doersch，C.Gupta，A.，Efros，A.A.：无监督的视觉表示学习通过约束预编码。In：ICCV.pp. 142211. 别这样，杰， Kr¨ahenb u¨hl，P.，达尔尔，T. ：一个设计师的一个特殊的感受（2017）12. Girshick，R.：快速R-CNN。In：ICCV（2015）13. 顾，J.，蔡杰，Wang，G.，陈T：堆栈标题：图像字幕的从粗到精学习。In：AAAI（2018）14. 顾，J.，Wang，G.，蔡杰，陈T：语言cnn应用于影像字幕之实证研究In：ICCV（2017）15. 顾，J.，王志，Kuen，J.，马，L.，Shahroudy，A.，帅湾Liu，T.，小王，X. ， Wang ， G. ，蔡杰，等：卷积神经网络的最新进展。模式识别（2017）16. Gupta，A.，Davis，L.S.：超越名词：利用介系词与比较级形容词学习视觉分类词。In：ECCV（2008）17. Gupta，A.，Kembhavi，A.，Davis，L.S.：观察人与物体的交互：使用空间和功能兼容性进行识别。TPAMI（2009）18. Gurari，D.，李，Q.，Stangl，A.J.，Guo，A.，Lin，C.格劳曼K.罗，J.，毕汉，J.P.：Vizwiz大挑战：回答盲人的视觉问题CVPR（2018）19. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）20. Hoffman，J.，Tzeng，E.，Park，T. Zhu，J.Y.，Isola，P.，Saenko，K.埃夫罗斯，匿名戒酒会Darrell，T.：苏铁：周期一致的对抗域适应。arXiv预印本arXiv：1711.03213（2017）21. 胡河Rohrbach，M.，Andreas，J.，Darrell，T.，Saenko，K.：使用组合模块网络对引用表达式中的关系进行建模在：CVPR（2017）22. Jabri，A.，Joulin，A.，van der Maaten，L.：重新审视视觉问答基线。In：ECCV（2016）23. Johnson，J.，克里希纳河斯塔克M. Li，L.J.，Shamma，D. Bernstein，M.李菲菲：使用场景图进行图像检索。参见：CVPR（2015）16徐阳，张汉旺，蔡剑飞24. 金，T.，Cha，M.，Kim，H.李，J.，Kim，J.：学习发现跨域关系与生成对抗网络。在：ICML（2017）25. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法arXiv预印本arXiv：1412.6980（2014）26. 克里希纳河Zhu，Y.，格罗斯岛Johnson，J.，Hata，K.，Kravitz，J.，陈淑仪，Kalantidis，Y.，Li，L.J.，夏玛地方检察官等：Visual genome：Connectinglanguageandvisionusingcrowdsourceddenseimageannotations.IJCV（2017）27. 李，Q.，陶Q Joty，S.，蔡杰，罗杰：Vqa-e：解释，阐述和增强您对视觉问题的回答。arXiv预印本arXiv：1803.07464（2018）28. 李，Y.，欧阳，W.王，X.，等：Vip-cnn：视觉短语引导卷积神经网络。在：CVPR（2017）29. 李，Y.，欧阳，W.Zhou，B.，（1991年），中国地质大学，Wang，K. ， Wang ，X. ：从对象、短语和区域字幕生成场景图In ： ICCV（2017）30. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：Microsoft coco：上下文中的公共对象In：ECCV（2014）31. Liu，D.，中国科学院，Zha，Z.J.，张洪，张玉，Wu，F.：用于序列级图像字幕的上下文感知视觉策略网络。在：ACMMM（2018）32. 吕，C.，克里希纳河Bernstein，M.李菲菲：具有语言先验的视觉关系检测In：ECCV（2016）33. 马，L.，Jia，X.，太阳，Q.，Schiele，B.，Tuytelaars，T.，古尔，L.V.：Pose guided personimagege neratio n.In：NIPS.pp. 40534. 马，L.，太阳，Q.，Georgoulis，S.，Gool，L.V.，Schiele，B.，Fritz，M.：分解的人物形象生成。来源：CVPR（2018）35. 毛泽东，李，Q.，谢，H.，Lau，R.Y.，王志，Smolley，S.P.：最小二乘生成对抗网络。In：ICCV（2017）36. Noroozi，M.，Favaro，P.：通过解决拼图游戏进行视觉表示的无监督学习。In：ECCV（2016）37. Pathak，D.，Krahenbuhl，P. Donahue，J.，Darrell，T.，Efros，A.A.：上下文编码器：通过图像修复进行特征学习。见：CVPR（2016）38. Peyre，J.，拉普捷夫岛施密德角Sivic，J.：视觉关系的弱监督学习。In：ICCV（2017）39. Radford，A.梅斯湖Chintala，S.：深度卷积生成对抗网络的无监督表示学习（2016）40. Ramanathan，V. Li，C.，Deng，J.，汉，W.

下载后可阅读完整内容，剩余1页未读，立即下载