受此启发,我们设计了一种新的自回归图扩展模
型,GEMS-场景图扩展模型,从[42]中汲取灵感,可
以生成各种长度的图(与[8,33,2]不同)。我们首
先将场景图扁平化为序列,其中序列中的每个节点通
过与序列中先前节点的关系连接我们提出的排序方法
试图确保场景图中连接的对象组在结果序列中发生接
近,这确保模型学习到基序的近似概念[44]。图扩展
然后变成顺序预测问题,其中节点生成先于边生成。
由于场景图中边类型的不平衡,我们使用类重新平衡
损失,通过避免退化边标签的预测来帮助产生更高质
量的图扩展此外,我们将来自语言领域的外部知识,
以更好地推广节点预测,以鼓励生成一组不同的相关
节点预测。然后,使用图合成任务的一组标准度量对
我们提出的方法进行彻底评估(如[10]中所述)。现
有的指标不提供vide场景图扩展质量的整体视图,我
们提出了新的指标,专门为这里考虑的任务量身定制
我们在下面总结了我们的主要贡献。
•
我们提出了一种新的场景扩展任务,该任务处理
通过添加 使得增强的图对应于丰富的场景。
•
我们设计了一个自回归模型,GEMS,用于连续
生成场景图,以依赖的方式分层生成节点和边缘
•
我们提出了一种新的图排序方法(感知BFS),
旨在捕捉对象的同现,我们随后说明了这种方法
的好处。
•
为了规避传统评估方法的缺点,我们提出了额外
的指标来评估生成的场景图,以捕捉预测的边缘
和节点的
相干性
通过对Visual Genome [21]和VRD [25]数据集的广泛
实验,我们表明我们的模型在大多数指标上都优于基
于GraphRNN的基线模型,并且与[9]竞争,后者引入
了我们的互补思想。
2.
相关工作
从以下两个方面介绍相关文献:(1)场景图提取
(2)图的生成模型。
2.1.
场景图提取
被称为场景图
生成
[34,26]的标准任务涉及构建一
个图,其中节点作为对象及其属性,边是它们之间的
关系。这个任务涉及到从图像输入中生成一个图,在
本文的其余部分中称为“提取”。概括地说,场景图提
取方法分为两类。首先,在本文中被称为内部知识,
是指其中被利用以仅从感兴趣的图像产生图的特征的
作品[22,5,45,20]。在高级别上,场景图提取通过
检测图像内的对象及其区域来操作,随后是标记对象
之间的连接的关系标识模型子组件。随后的工作试图
解决由不经常发生的关系的长尾引起的训练数据的偏
倚性质所引起的问题[7,35]。场景图提取中的第二条
工作线利用外部知识,以词嵌入的形式[25]将对象和
关系类名作为语言域的先验。结合图像内部信息和外
部知识的场景图提取方法显示出更高的准确性[43,
13]。
我们的工作不同于这两行的作品,因为我们不能访
问输入图像来提取视觉特征。也就是说,我们的输入
是以场景图的形式,而不能访问图像模态。因此,与
第二条工作线类似,我们利用外部知识我们调用图的
最先进的生成模型(接下来描述)来扩展给定的种子
图。
2.2.
图的生成模型
在许多应用程序设置中,图表是数据的强大而自然
的表示。而且,与许多其他领域一样,在一组观察图
上训练的生成模型最近受到了广泛关注[14]。大多数
现有的工作考虑分子图,其中从训练模型中采样允许
产生新分子,这是药物设计的核心目标。变分自动编
码器(VAE)是这类模型中的一种流行方法[12,33,
17,32],生成式广告网络(GAN)也是如此[1]。在
本文中,我们考虑从图像中导出的场景图,其中稀疏
性[6]需要特别解决,因为大多数对象-对象对之间没有
关系。此外,场景图往往是多样化的,这是它们与其
他几个领域的图共享的特征[24,42]。
与 我 们 的 工 作 最 接 近 的 是 SceneGraphGen [9] 和
VarScene [37],它们都引入了一些互补的想法。我们
的工作主要有三个方面:(1)