场景图预测的生成合成增强算法

165 浏览量更新于2023-10-13 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15827用于场景图预测的生成合成增强算法BorisKn yaze v*，1，2 HarmdeVries3CatalinaCangea4Graham W.Aaron Courville5，6 EugeneBelilovsky5，71圭尔夫大学工程学院2Vector Institute for Artificial Intelligence3Element AI4剑桥大学5Mila6蒙特利尔大学7康考迪亚大学摘要从场景图形式的图像推断对象及其关系在视觉和语言的交叉处的许多应用中是有用的。我们考虑一个具有挑战性的问题，合成泛化，出现在这个任务中，由于长尾数据分布。当前的场景图生成模型是在与最常见的成分相对应的分布的一小部分上训练的，例如。.然而，测试图像可能包含零和少数拍摄的对象和关系的组成，例如。<杯子，上，冲浪板>.不管每个宾语范畴和谓语（例如。‘on’)为了提高泛化能力，自然会尝试增加训练分布的多样性。然而，在图域中，这是不平凡的。为此，我们提出了一种方法来合成罕见的，但似是而非的场景图通过扰动真实的。然后，我们提出并实证研究了一个基于条件生成对抗网络（GANs）的模型，该模型允许我们生成扰动场景图的视觉特征，并以联合方式从中学习。在Visual Genome数据集上进行评估时，我们的方法在零和少数镜头指标方面产生了边际但一致的改进。我们分析了我们的方法的局限性，表明有前途的未来研究方向1. 介绍根据对象和它们之间的关系对世界进行推理是人类和机器认知的一个重要方面[21]。在我们的环境中，我们经常可以观察到诸如“冲浪板上的人”或“狗旁边的人”之类的频繁组合。当我们面对一个罕见的或以前看不见的组成，如[2]本书部分是作者在Mila实习时完成的。联系地址：bknyazev@uoguelph.ca女人有头发狗穿衬衫冲浪板上的女人冲浪板上的狗冲浪者（一）汗衫男冲浪板上的杯子带花召回率=41%召回率=4.5%狗耳（b）第（1）款三胞胎数据集其他似然三胞胎熊有头盔狗躺在滑板所有可能不太可能三胞胎滑板上的轮子熊的尾巴熊有腿图1.（a）视觉基因组[38]中的三联体分布是极长尾的，具有许多少数和零拍摄组合（分别以红色和黄色（b）训练集包含所有可能的三元组的一小部分（3%），而存在许多其他可能的三元组。我们的目标是回忆结果来自[67]。在冲浪板上”，为了理解场景，我们需要理解“人”、“狗”、“冲浪板”和“在……上”的概念。虽然这种对概念的无偏见推理对人类来说很容易，但对于机器来说，这项任务仍然极具挑战性[3，32，4，35，40]。基于学习的模型倾向于在训练数据中捕获虚假的统计相关性[2，52]，例如，在冲浪板上总是出现“人”而不是“狗”。当评估明确关注成分概括时-– such models then can fail remarkably [从图像预测对象的组成以及它们之间的关系是场景图生成（SGG）任务的一部分。SGG是重要的，因为准确推断的场景图可以改善任务中的下游结果，例如VQA [83，29，7，41，63，26，12]，图像覆盖[83，29，7，41，63，26，12[2019 - 07 - 19 00：00：00][2019 - 07 - 19 00：00：00][2019 - 07-19 00 ： 00][2019- 01 ： 00][2019 - 01 ：00][2019 - 01：00然而，准确地推断场景图是不可能的。15828分布= 0.99相关性整个测试集零次测试集相对于IMP+的回忆变化（%）男人人树窗户衬衫腿建筑物妇女头标志杆手桌子头发汽车叶裤耳人鞋轻臂门板栅栏0.30.20.10.00.10400.08200.0600.04200.02400.006080图2. Visual Genome中前25个谓词（左）和对象（右）类别的分布[38]（[74]的拆分）。由于长尾数据分布和在测试时间不可避免地出现对象和关系的零激发（ZS）组合（三元组）而具有挑战性，例如，使用最近的总直接效应（TDE）方法[67]的SGG结果显示ZS回忆的严重下降，突出了组成一般化的极端挑战这可能看起来令人惊讶，因为整个场景图数据集中的边缘分布（例如，Visual Genome [38]）和ZS子集非常相似（图11）。2）的情况。更具体地说，在整个数据集中频繁出现的谓词和对象类别例如，“冲浪板上的杯子”和“熊有头盔”都是由常见的实体组成的，但代表了极其罕见的成分。①的人。这强烈表明，正确预测ZS三联体的挑战性本质并不直接源于谓词（或对象）的不平衡，如在先前的SGG工作中通常看到的那样，其中模型试图改善平均（或谓词归一化）召回指标[9，18，68，85，67，10，80，44，81，76]。因此，我们专注于合成泛化和相关的零和少数镜头的指标。尽管最近在SGG任务中的成分概括方面有所改进[67，36，65]，但零镜头回忆的最新结果仍然是4.5%，而全镜头回忆的结果是41%（图3）。为了解决组合泛化问题，我们考虑将模型暴露于大量多样性的训练示例中，这些训练示例可以导致涌现泛化[27，58]。为了避免额外数据的昂贵标签，我们提出了一种基于条件生成对抗网络（GANs）的组合增强方法[19，49]。我们的总体思路是通过扰动场景图和图像的相应视觉特征来增强数据集，使得它们一起表示新颖或罕见的情况。总的来说，我们做出了以下贡献：我们提出了场景图扰动方法（§3.1.1）作为基于GAN的模型（§3.1）的一部分，以增加具有代表性不足的成分的训练集;我们提出了基于自然语言和数据集的方法来评估（扰动）场景图的质量（§3.2）;我们广泛地评估了我们的模型，并在零次、少量和全部回忆中表现出色（§4）。我们的代码可以在 https://github.com/bknyaz/sgg上找到。100IMP+频率NM科恩VCTree TDE IMP++我们的2017 2018 2018 2019 2019 2020 2020[74个国家][八十二][八十二][9]第一章[67个][67][36]图3.在这项工作中，我们提出的成分增强改进零杆（ZS）以及所有镜头召回。2. 相关工作场景图形生成。 SGG [74]扩展了早期的视觉关系检测（VRD）任务[45，60]，从而能够生成图像的完整场景图（SG）。这刺激了视觉和语言交叉点的更多研究，其中SG可以促进高级视觉推理任务，如VQA[83，29，63]和其他[1，75，55]。后续SGG工作[43，77，82，85，23，68，46，47]在所有镜头召回方面显着提高了性能（图）。（3）第三章。虽然在VRD任务[84，79，73]中已经积极探索了零射击（ZS）泛化的问题，但在更具挑战性的SGG任务和现实数据集（如Visual Genome [38]）中，这个问题最近才在[67]中通过提出总直接效应（TDE），在[36]中通过规范化图损失，以及在[65]中通过基于能量的损失以前的SGG作品没有解决合成罕见的SGs的合成泛化问题。也考虑生成方法的最接近的工作是[73]解决VRD任务。与之相比，我们的模型遵循标准SGG管道和评估[74，82]，包括对象和谓词分类，而不是仅对谓词进行分类。我们还对SGs而不是三胞胎进行GAN，这组合地增加了可能的增强的数量。为了提高SG谓词不平衡和平均召回。最近的SGG工作集中在谓词不平衡问题[9，18，68，85，67，10，80，44，81，76]和平均（超过谓词）召回作为对频繁谓词的优势不敏感的度量然而，正如我们在第1节中讨论的，组合泛化的挑战并不直接源于谓词的不平衡，因为频繁的谓词（例如 2）的情况。此外，[67]表明平均召回率相对容易通过标准的重新加权/重新采样方法提高，而ZS召回率则不然。使用GAN进行数据增强。数据增强是改进机器学习模型的标准方法[57]。典型地，这些方法依赖于领域特定的知识，诸如将已知的几何变换应用于整个测试集零次测试集分布之间的相关性=0.76全镜头召回零镜头召回分数分数关于穿着在近与在后握着上面坐在下面在前面骑着站着附属于属于在走在携带超过看挂在为···15829波附近对人们对来自前k个邻居的样本男人女人人孩子...冲浪板波附近对房间随机对象类对冲浪板波附近对犬对“波”不太可能在谁/什么附近？前k个邻居谁/什么是冲浪板不太可能在冲浪板D∈C--∈----GG∈R--D{G}C--C·∈G{}DGG →→----DG--G →GDG GGG||D{G}训练场景图波附近兰德Neigh GraphN对人对冲浪板全景图及对应图像图4.我们考虑不同的扰动方案的说明性例子为了清楚起见，仅示出子图图像[17，11]。在SGG的情况下，我们需要更通用的增强方法，因此在这里我们将探索基于GAN的方法作为其中之一。GANs [19]在w.r.t.训练的稳定性和生成样本的质量[6，34]，最近的作品考虑了它们用于数据增强[58，64，61]。此外，最近的工作表明，通过干预底层图[37，8，66，13，20]，可以产生以看不见的标签组合为在这项工作中，我们可以直接访问SG形式的图像的底层图，这允许我们像[8，13]中那样对OOD组合物进行调节。3. 方法我们考虑N个元组的数据集=（I，B）N，其中I是具有对应场景图的图像[33]和边界框B。场景图=（0，R）由η个对象0=〇1，…n和m之间的关系R=r1，...，r m.对于每个对象oi，存在相关联的边界框biR4，B=b1，.， b n.每个对象o i被标记为特定的类别o i，而每个关系r k=（i，e k，j）是一个三元组，其中有一个主题（开始节点）i，一个对象（结束节点）i，一个对象（开始节点）i，一个对象（结束节点）i。j和谓词e k得双曲余切值.是所有predicate类的集合。为了进一步方便起见，我们定义了一个范畴三元组（组成）r~k=（oi，ek，oj），由以下组成：对象和谓词类别的集合，R〜=r〜1，...， r~m。一个在图4中呈现了场景图的示例，其中对象0={人，冲浪板，波浪}并且关系R={（3，近，1），（1，上，2）}并且分类关系R = {（3，近，1），（1，上，2）}。R~={（ wave ， near， person ），（ per son ， on ，surfboard）}。3.1. 生成合成增强在给定的数据集中，如Visual Genome [38]，三联体的分布是非常长尾的，其中一小部分是占主导地位的三联体（图10）。①的人。为了解决长尾问题，我们考虑基于GAN的方法来增强3.1.1场景图扰动我们提出了三种方法来对数据集中代表不足的三元组进行合成上采样（图1）。4）.我们的目标是构建多样化的组合，避免对象和谓词的非常可能（在数据集中已经很丰富）和非常不可能（“不可能”）的组合，以便合成的分布将类似于真实分布的尾部。为了构造，我们扰动现有的，因为从头开始构造图更困难：我们只关注在允许的情况下扰动节点创造高度分散的组合物，所以=（O≡，R），其中O=o2011，.， on是替换对象类别。我们只扰动Ln个节点，其中LR[0，1]，所以oi=oiforn（1L）nodes. We样本Ln节点的扰动的基础上，他们的总和在和出度。每个场景图通常具有密集连接到其他节点的几个因此，通过扰动枢纽，我们引入了更多的新颖的组合物，具有更少的扰动。R AND（random）是最简单的策略，其中对于节点i，我们均匀地采样一个猫图ofrom，使得oi=o。NEIGH（语义邻居）利用可用于每个对象类别的预训练GloVe词嵌入[54]。因此，给定类别〇i的节点i，我们使用余弦相似性来检索嵌入空间中的〇i的前k个邻居。然后，We从前k个均匀地采样o邻居用o替换oi。图结构语义邻居（ graph-structured semanticneighbors）RAND和NEIGH不考虑图结构或数据集统计，导致不太可能或不够多样化的组成。为了缓解这种情况，我们提出了GRAPH N方法。给定图中类别oi的节点i，我们考虑所有的三元组R~i=r~k，i在包含i作为开始或结束节点，即 r~k，i=（oi，ek，oj）或（oj，ek，oi）。例如，在图4中，如果〇i是“人”，则R〜 i=（人，在冲浪板上），（波，近，人）。对于每个r~k ， i，我们找到数据集中的所有三元组R~c匹配（oc，ek，oj）或（oj，ek，oc），其中ocoi是候选人人为地增加稀有成分的样本我们的模型是基于一个高层次的想法，设置（I？，B？）N？. 典型的场景图到图像生成流水线是[31]BI. 我们相应地描述了我们的模型，首先构建和B（§3.1.1），然后生成I（在我们的例子中，特征）（§3.1.2）。整体流水线见图5替换为i。对于每个候选者o c，我们对匹配的三元组nc=R~c进行计数，并基于n c的i n verse定义未归一化概率pc，即pc=1/nc。这样我们可以定义一组可能的替换oc，pc用于节点i。我们的一个关键观察是，根据评估-由于数据集中的评估度量和噪声量，我们可能想要一个具有非常高的pc（l 〇 wnc）的void采样候选。15830平均池实时数据转发和向后传递基于盒子的并集生成的数据正向和反向传递RoIAlign狗波预先计算的视觉特征损失冲浪板全局场景和局部图分类鉴别子阳离子模型损失损失数据集统计+语言模型视觉特征波近场景近图马克思主义人穿孔狗在…上冲浪板Σ∼·GD{G}GG--波人sur纤维板图5.我们的生成式场景图增强流水线，其主要组件包括：鉴别器D、生成器G和场景图分类模型F。有关我们的流水线和模型架构的详细描述，请参见附录中的§3和§A.1因此，为了控制这一点，我们引入了一个额外的超参数α，允许<通过将它们的pc设置为0来过滤掉具有n c α的候选。这样，我们可以在上采样罕见和频繁三元组之间进行权衡然后我们对pc进行归一化以确保pc=1并且采样o′pc。为了进一步增加差异，最终的o节点是从o′的前k个语义邻居中选择的，如在NEIGH中，包括o′本身。GRAPHN是顺序扰动过程，其中对于每个节点，扰动以当前图形状态为条件相比之下，RAND和NEIGH并行地扰动所有Ln边界框。由于我们只扰动了几个节点，对于为了简单起见，我们假设受扰动的图具有相同的边界边界B：B=B。虽然可以合理地认为，对象大小和位置根据环境而变化很大类别，即“大象”比“狗”大得多，我们经常能找到反证的例子如果存在玩具根据经验我们发现这种方法很好地工作请参见附录中的§ B.3，了解以G？为条件预测B？的实验。3.1.2场景图到视觉特征在扰动（，B）的情况下，我们基于GAN的流水线中的下一个步骤是生成视觉特征（图5）。为了训练这样的模型，我们首先需要从数据集中提取真实的特征=（一、，B）N. 在[74，82]之后，我们使用预训练和冻结对象检测器[59]从输入图像中提取全局视觉特征H然后，给定B和H，我们使用RoIAlign [24]分别提取节点和边的视觉特征（V，E）。为了提取一对节点之间的边缘特征，使用它们的边界框的并集[82]。由于我们不更新检测器，所以我们不需要像在scene-graph-to-image模型[31]，只是中间特征H，V，E。主场景图分类模型F. 给定extracted（V，E），主模型F预测场景图=（0，R），即它需要正确地分配对象标签O将节点要素V和谓词类R连接到边要素E.我们的流水线不限于F的选择。发电机G. 我们的场景图到特征生成器G遵循[31]的架构首先，场景图由图卷积网络（GCN）处理以在节点和边之间交换信息我们发现将所有节点的输出GCN特征与视觉特征V’连接是有益的，其中V’从集合V〇i中采样并且〇 i是节点的类别I.通过在视觉特征上调节生成器，G的主要任务变得简单地对齐和平滑特征，我们相信这比从分类分布生成视觉特征此外，该采样步骤的随机性注入噪声，提高了所生成特征的多样性。生成的节点fea-结构和边界框B¨用于构造布局，然后进行特征细化[31]以生成H¨ 。在-（V，E）是以与（V，E）相同的方式从H中抽取的。鉴别器D. 我们有节点和边的独立鉴别器，D节点和D边，根据CGAN [49，56]，将真实特征（V，E）与以其类别为条件的fak特征（V？，E？）我们添加一个全局鉴别器D全局作用于特征图H，这鼓励节点和边缘之间的全局一致性。因此，D节点和D边缘被训练以匹配边缘分布，而D全局被训练以匹配联合分布。这些鉴别器之间的正确平衡D和G的详细架构请参见附录中的§A.1。损失为了训练我们的生成模型，我们定义了几个发生器预训练对象检测器15831LDGGGG=LAdvAdv∅D`x`x+L Adv损失这些包括基线SG分类损失（1）和特定于我们的生成流水线的分类损失（ 2 ） - （ 5 ）。后者是由CycleGAN [86]驱动的，并且类似地，由重建和对抗性损失（2）-（5）组成。我们使用来自[36]的改进的场景图分类损失，其是节点交叉熵损失L〇和图密度归一化边缘交叉熵损失LR的总和：LCLS= L（F（V，E）， G）==L0（F（V，E），0）+LR（F（V，E），R）。（一）R是基于批处理中前景（注释）与背景（未注释）边缘的比率来计算的场景图[36]。通过训练来提高F增广特征（V，E），我们定义了重构（循环一致性）损失类似于（1）：LREC=L（F（G（G，B，V′）），G）==LO（F（V，E），O）+LR（F（V，E），R）.（二）我们不向G更新此损失，以防止其与F的潜在不良协作。相反，为了训练G和D，我们优化了条件对抗损失[49]。我们首先以一般形式分别写出D和G的这些因此，对于一些特征x和它们对应的类y：LA DV（x，y）=Expdat a（x）[logD（x）|y）]+订单）。然后，我们屏蔽掉三元组中的一个扰动节点（在的情况下）或一个随机节点（在的情况下），以便BERT可以返回屏蔽令牌的对象类别的（未归一化的）似然分数。我们还考虑使用这种策略来创建SG扰动，作为GRAPH N的替代方案。然而，我们没有发现它有效地获得罕见的场景图，因为BERT不是基于视觉概念，不知道什么是被认为是“罕见”在一个特定的SG数据集。对于定性评估，当BERT分数在许多样本上取平均值时，我们发现它们仍然可以作为SG质量的粗略测量。关于基于BERT的场景图质量估计示例，请参见附录中的§B.2命中率。对于扰动的SG，我们计算一个额外的定性指标，我们称之为假设我们对所有训练SG总共扰动了M个三元组，该度量计算与评估测试子集（零次、少数或全部射击）中的实际符号匹配的三元组的百分比4. 实验4.1. 数据集、模型和超参数我们使用公开可用的SGG代码库1进行评估和基线模型实现。对于模型 F ，我们使用迭代消息传递（IMP+）[74，82]和神经网络。EGpGL（y）=E（G）[lo g（1−D（G（G））|y）]（3）[log D（G（G|y）]。（四）基序（NM）[82]。IMP+显示出强大的成分生成能力[36]，因此在本工作中进行了更多探索。我们使用[36]中（1）的改进损失，因此AdvGpG（G）我们计算这些损失的对象和边缘视觉fea-通过使用鉴别器D节点和D边缘来鉴别。还使用Dglobal针对全局特征H计算该损失，使得总鉴别器和生成器损失为：我们将我们的基线表示为IMP++和NM++。公司现采用国际没有GAN的基线模型和我们有GAN的模型的默认超参数和相同的设置我们使用VGG 16主干D D D DLAD V=LADV（V，O）+LADV（E，R）+LADV（H，R）在[82]的Visual Genome（VG）上进行预训练，并将其用于LADVGAdv （O）+LG（R）+LG（）、（5）我们所有的实验我们根据一个标准来VG的分裂[38]，有150个最常见的对象类其中，为了简单起见，表示我们的全局鉴别器是无条件的因此，要最小化的总损失为：[74]中介绍的50个谓词类。训练集有57723张图像，测试集有26446张图像。类似地L=LCLS+LREC−γ（LADV更新F更新DGu`pdatexG）、（6）到[36，73，67，65]，除了全拍摄（所有测试场景图）的情况外，我们定义了零拍摄，10拍摄和100拍摄测试其中失重γ=5在我们的实验中工作良好与[73]的类似工作相比，在我们的模型中，其所有组件（F，D，G）都是端到端联合学习的。3.2. 场景图语言模型。为了直接评估扰动的质量，期望具有除下游SGG性能之外的一些定量测量。我们发现，实现这一目标的一种廉价（相对于人类评估）且有效的方法15832是使用语言模型。特别地，我们使用预训练的BERT[14]模型并估计地面真实和扰动的子集对于每个这样的子集，我们仅保留场景图中在训练期间出现0、1-10或11-100次的那些三元组，并且移除没有这样的三元组的样本，这分别导致4519、9602和16528个测试场景图（和图像）。我们使用一个5000张图像的验证集来调整超参数。基线。除了IMP++和NM++基线外，我们还评估了RESAMPLE，R EWEIGHT 与IMP++联合使用时的TDE[67]。RESAMPLE基于谓词/三元组的逆频率对训练图像进行采样[67]。REWEIGHT增加罕见谓词类的softmax分数（详细信息请参见附录中的§B.4）。TDE对SGG场景图如下。我们创建一个文本查询通过连接所有三元组（以随机方式）来从场景图1https://github.com/rowanz/neural-motifs15833表1.使用基于IMP++ [36]的模型的Visual Genome [38]结果。每列中的top-1结果以粗体显示（忽略ORACLE-ZS）。0RACLE-ZS结果是通过直接使用ZS测试三元组进行扰动而获得的ZS召回的上限估计。GAN+GRAPHN，α= 59.62±0.2929.18±0.3322.24±0.1143.74±0.1041.39±0.2669.11±0.0550.14±0.2178.94±0.0327.98±0.23GAN+GRAPHN，α = 109.84±0.1728.90±0.4622.04 ±0.3343.54±0.3641.46 ±0.1569.13±0.2450.10 ±0.2379.00±0.0927.68±0.37GAN+GRAPHN，α = 209.65±0.1528.68±0.2821.97 ±0.3043.64±0.2041.24 ±0.0869.31±0.1749.89 ±0.2878.95±0.0427.42±0.36烧蚀模型GAN（无扰动）2019 - 05- 25 10：00：0043.66 ±0.2941.58±0.2069.16 ±0.1650.38±0.2879.05±0.0828.17 ±0.08GAN+RAND9.71±0.0928.71±0.4021.89 ±0.2143.33±0.1841.01 ±0.3268.88±0.2349.83 ±0.3278.84±0.1027.45±0.48GAN+NEIGH9.65±0.0428.68±0.4021.86±0.2343.77±0.1541.25±0.3569.07±0.0950.00±0.3678.94±0.1027.41±0.51其他基线REWEIGHT9.58±0.1428.27±0.2222.19 ±0.0942.98±0.1740.00 ±0.0165.27±0.1348.13 ±0.1074.68±0.1330.95±0.05RESAMPLE-同品种器械9.13±0.0627.77±0.1021.35 ±0.0542.14±0.1639.69 ±0.0666.74±0.0148.23 ±0.1076.59±0.0528.44±0.38RESAMPLE-三联体8.94±0.1627.66±0.1421.65 ±0.1042.60±0.1739.39 ±0.0866.44±0.0647.77 ±0.1076.38±0.1427.56±0.10TDE9.21±0.2127.91±0.0921.20±0.1641.61±0.3239.72±0.1065.40±0.2148.35±0.0876.22±0.1728.25±0.21ORACL E扰动GGAN+ORACLE-ZSGGAN+ORACLE-ZSG？+B？10.11±0.3429.27±0.1022.05±0.3843.78±0.0941.38±0.5069.06±0.1650.19±0.3679.00±0.0827.91±0.5610.52 ±0.3129.43±0.4221.98 ±0.3943.03±0.1341.12 ±0.1968.73±0.1750.05 ±0.3578.65±0.0927.52±0.46(a) 零杆命中率（b）10杆命中率（c）100杆命中率（d）全杆命中率3.83.63.43.23.02.8 0 1020304050阈值参数1614121086010203040 50阈值参数252015105010203040 50阈值参数6050403020010203040 50阈值参数图6.使用我们的扰动方法，在四个不同VG测试子集上的三重态命中率（§3.2）与阈值α模型我们使用总效应（TE）变量，等式6在[67]中，因为将TDE应用于IMP++并不简单，这是由于在对IMP++中的边进行预测时不存在对节点标签的条件化。REWEIGHT和TDE/TE不需要再培训IMP++。乾为了训练GAN的生成器G和鉴别器D，我们通常遵循SPADE [53]建议的超参数。特别是，我们使用Spectral Norm [50]用于D，Batch Norm [30]用于G，TTUR [25]分别为G和D的学习率为1 e-4和2 e-4。扰动方法（§3.1.1）。我们发现，扰动L=20%的节点在我们所有的实验中使用的方法中效果很好。对于NEIGH，我们使用top-k=10作为过于有限的多样性和可扩展性之间的折衷。对于G_RAPH_ N，我们设置top-k=5，因为该方法即使在非常小的top-k的情况下也能够实现更大的分集。为了用GRAPH N训练基于GAN的模型，我们使用频率阈值α=[2，5，10，20]。除了提出的扰动方法，我们还考虑所谓的ORACLE-ZS扰动。这些是通过直接使用来自测试集的ZS三元组来创建的（所有获得的三元组与ZS三元组相同，使得零射击命中率为100%）。我们还评估了ORACLE-ZS+B（），其除了利用测试ZS三元组之外，还使用来自对应于所得ZS三元组的测试样本的边界框。基于ZS的结果是ZS回忆的上限估计，突出了任务的挑战性。评价根据之前的工作[74，82，36，67]，我们将评估集中在两个标准SGG任务上：场景图分类（SGCl）和谓词分类（PredCl），使用召回（R@K）度量。场景图生成（SGGen）结果见附录中的§B.6。除非另有说明，否则我们报告SGCl的K=100和PredCl的K=50的结果，因为后者对于K=100的饱和结果，这是一项更容易的任务。我们在没有表1中的图约束的情况下计算召回率，因为它是噪声较小的度量[36]。我们强调性能指标，重点是识别罕见和新颖的视觉关系组成的能力[36，67，65]：零镜头和10镜头回忆。在表1和2中，报告了3次运行（随机种子）的平均值和标准偏差。4.2. 结果主要SGG结果（表1）。首先，我们将基线IMP++与我们的基于GAN的模型进行比较，该模型在没有和使用扰动方法的情况下进行训练。即使没有任何扰动，基于GAN的模型也明显优于IMP++，特别是在100次射击和所有射击召回方面。具有简单扰动策略的GAN，RAND（如[73]）和NEIGH，在零射击方面有所改善，但在100射击和所有射击召回方面有所下降具有GRAPH N的GAN进一步提高了ZS和10次射击的召回率，但与RAND和NEIGH相比，在100次射击和所有射击上也显示出高召回率。对于GRAPHN，SGG和RAPHN之间存在连接。命中率（%）命中率（%）命中率（%）命中率（%）MODELZ ERO-射击回复呼叫SGCls PredCls10杆回复呼叫SGCls PredCls100-射击回复呼叫SGCls PredClsA LL-S HOT回复呼叫SGCls-mR基线（IMP++）9.27±0.1028.14±0.0521.80±0.1942.78±0.3240.42±0.0267.78±0.0748.70±0.0877.48±0.0927.78±0.10GAN+GRAPH N，α= 29.89±0.1528.90±0.1421.96±0.3043.79±0.2741.22±0.3369.17±0.2450.06±0.2978.98±0.0927.79±0.48跑内格DHGraPHN15834- -∼表2.使用图约束评估的VG上的ZS召回结果。†结果是用更高级的特征提取器获得的，因此不能直接比较。ODELSGCls PredClszsR@50 zsR@100 zsR@50 zsR@100F要求 [82] 0.0 0.0 0.1 0.1KERN [9] 1.5 3.9VCTree†[67] 1.9 2.6 10.8 14.3[82] 1.1 1.7 6.5 9.5[67] 2.2 3.0 10.9 14.5NM，TDE† [67] 3.44.514.4 18.2NM，EBM† [65] 1.3−4.9−NM++[36]1.8 ±0.12.3 ±0.110.2±0.1 13.4±0.3NM++，GAN+G RAPH N2.5 ±0.13.1 ±0.114.2±0.0 17.4±0.3表3.使用两个分布X和Y之间的相同的保留的真实测试特征集（YV）用作所有情况下的参考分布上标中的百分比表示当从测试切换到测试-zs调节时平均度量的相对下降对于所有指标，越高越好。分配X现实主义（Realism）P精密度D强度多样性回复呼叫C过量AVG真正考验0.741.020.750.970.87真实测试-zs0.660.990.700.940.82-6%GAN：假测试假测试-zs0.550.470.770.600.420.410.820.750.640.56-13%REALNODEFEATURESVFAKENODEFEATURESV？IMP+[74，82] 2.5 3.2 14.5 17.2IMP+，EBM† [65] 3.7−18.6−IMP++[36]3.5 ±0.14.2 ±0.218.3±0.421.2±0.560 6040 4020 200 0IMP++，TDE3.5 ±0.14.3 ±0.118.5±0.321.5±0.320 2040 40IMP++，GAN+G RAPH N3.7 ±0.14.4 ±0.119.1±0.321.8±0.4IMP++，GAN+GRAPH N（最大值）3.8 4.5 19.5 22.46080100608010060402002040606040200204060人、食品、动物、车辆、建筑召回结果（表1）和三重命中率（图1）。6）对于dif-阈值α的值。具体地，具有较低α值的GRAPHN对更多的稀有组合物进行上采样，导致较高的ZS和10次射击命中率（图6a、b），并且因此，较高的ZS和10次射击召回率（表1）。具有更高α值的GRAPHN对更多的频繁成分进行上采样，从而导致更高的100次射击和所有射击命中率（图1）。6c，d），因此，更高的100杆和所有杆召回。与RAND和NEIGH相比，使用GRAPH N获得的组合物由于更好地尊重图结构和数据集统计而具有更高的三重态命中率。因此，GRAPHN在SGG中显示出总体更好的召回，甚至接近ORACLE-ZS模型（表1）。设计一个扰动策略普遍强大的所有指标具有挑战性。NEIGH可以被视为这样的尝试，其示出了所有测试子集的平均命中率，但是在所有SGG度量中的较低性能。在我们的GAN方法的替代方案中，REWEIGHT改善了零次、10次和平均召回率（SGCls-mR）（表1）。然而，它降低了频繁谓词的类得分，这直接降低了100次和所有镜头的召回。RESAMPLE在除SGCls-mR之外的所有度量RESAMPLE的主要限制是，当我们用罕见的谓词/三元组对图像进行重采样时，那些图像可能包含频繁谓词/三元组的注释。另一种方法，TDE [67]，仅与REWEIGHT和RESAMPLE-谓词类似地对谓词进行去偏。因此，在识别 ZS 三元组（诸如（ cup ， on ，surfboard））时可能没有什么益处，因为谓词“on”是频繁出现的一个。具有这种频繁谓词的ZS组合物在VG中是丰富的（图1）。①的人。因此，仅对谓词去偏置从根本上限制了TDE的性能。相比之下，我们的GAN方法不受此限制，因为我们扰动场景图图7.使用t-SNE绘制的真实与旨在增加成分多样性，而不仅仅是罕见谓词的频率。因此，我们的GAN方法改进了所有指标，特别是ZS（相对而言）。与其他SGG工程的比较（表2）。我们的GAN方法还提高了其他SGG模型（即NM++）的ZS召回率（zsR）例如，在PredCls中，GAN+GRAPH N将NM++的zsR提高了4个百分点。与表2中列出的其他先前方法相比，我们获得了与TDE [67]和最近的EBM [65]相当或更好的竞争性ZS结果。然而，由于不同的对象，很难直接与[67，65]检测器和潜在的实现差异。生成的视觉特征的评价。我们通过将生成的（假）特征与真实特征进行比较，来评估用GRAPH N训练的GAN生成特征的质量。为了获得f个节点特征，我们在测试SG上调节为了获得真实节点特征V，我们将预先训练的对象检测器应用于测试图像，如§3.1.2中所述。首先，对于节点特征的定性评估，我们基于对象类别的超类型对特征进行分组“人”包括“男人”、“女人”、“人”等的所有特征。当使用t-SNE[70]在2D空间上投影时，使用我们的GAN生成的fak e特征V与真实特征V类似地聚类（图7）。因此，定性地，我们的GAN生成现实的和不同的功能给定的场景图。其次，我们定量评估GAN功能。为此，我们遵循[15]并使用精度，召回[39]和密度，覆盖[51]指标。这些度量比较由真实和虚假特征跨越的流形，并且不需要任何标签。我们考虑两种情况：调节我们的GAN测试SG和测试零杆（测试-zs）SG。动机-M158351在（5）在（5）在（6）在（6）在（6）批量0（V '）987654图9.0 10 20 30 40 50阈值参数语义似然性（根据BERT）取决于α。图8.我们的GAN模型在SGG和特征质量指标上的消融误差条表示标准偏差。对于特征质量，使用来自表3的test-zs SG上的平均度量。vation类似于[8]：理解新的组合物是否混淆GAN并导致不良特征，这在我们的上下文中可能导致主模型F的不良训练。实际上，与测试SG相比，以测试zs SG为条件生成的特征在质量上显著降级，特别是在保真度方面（表3）。这一结果表明，为限制我们方法的更罕见成分生成逼真特征更具挑战性（讨论见附录中的§B.8）。同样的定性和定量实验对于边缘特征（E，E）和全局特征（H，H），确认我们的结果：（1）当测试SG的条件下，所产生特点是现实性和多样性;（2）对更稀有的成分进行调节会降低特征质量（见§ B.7）。消融（图8）。我们还进行了消融，以确定所提出的GAN损耗（6）和其他设计选择对（i）SGG性能和（ii）生成特征的质量的影响。作为参考模型，我们使用我们的GAN模型，没有任何扰动。一般来说，所有消融的GAN都在（i）和（ii）中降级，并且在（i）和（ii）之间具有相关的下降。因此，通过在未来的工作中改进生成一个例外是（5）中没有全局项的GAN，其在零激发上表现更好，尽管具有较低的特征质

下载后可阅读完整内容，剩余1页未读，立即下载