16362无条件场景图生成Sarthak Garg1,*Helisa Dhamo1,*Azade Farshad1Sabrina Musatian1Nassir Navab1Federico Tombari1,21TechnischeUniv ersitaütMuünchen 2Google摘要尽管最近在单域或单对象图像生成方面取得了进步,但是生成包含不同的多个对象及其交互的复杂场景场景图由作为对象的节点和作为对象之间的关系的有向边组成,提供了比图像更有语义基础的场景的替代表示。我们假设场景图的生成模型可能能够比图像更有效地学习现实世界场景的底层语义结构,从而以场景图的形式生成逼真的新场景。在这项工作中,我们ex-plore一个新的任务,无条件生成的语义场景图。我们开发了一个称为SceneGraphGen的深度自回归模型,它可以使用分层递归架构直接学习标记和有向图上的概率分布该模型将种子对象作为输入,并在一系列步骤中生成场景图,每个步骤生成对象节点,随后是连接到先前节点的关系边序列我们表明,场景生成的场景图形GraphGen是不同的,并遵循真实世界场景的语义模式。此外,我们展示了应用程序的生成的图形在图像合成,异常检测和场景图完成。1. 介绍场景图包含描述场景的表示,其中节点是分类对象实例,并且边描述它们之间的分类关系。这种表示允许对场景的扩展的高级理解,这超出了对象级推理。计算机视觉社区已经探索了用于从图像生成场景图的各种方法[38,27]以及其中这种表示已被证明是合适的任务,诸如图像检索[18]和*前两位作者对这项工作的https://SceneGraphGen.github.io/图1. 方法概述。a)SceneGraphGen从随机采样的种子对象无条件地生成场景图。b)左中的应用:使用现成的图到图像网络将生成的场景图转换为图像VQA [11]。场景图允许对图像组件进行模块化,指定和高级语义控制,这使其成为语义驱动图像生成[17]和操作[7]的良好表示。一个较少探索的领域是场景图的无条件生成,即在没有任何输入图像的情况下,而是根据随机输入来生成场景图。这样的场景图建模可以帮助从真实场景学习模式,诸如对象共现、相对放置和相互作用。本文在生成模型的指导下对场景图的生成进行了研究,目的是无条件地生成新颖、逼真的场景图实例。最近的工作探索了为特定领域设计的关系图[35]或概率语法[19]的生成。据我们所知,我们是第一个研究使用生成模型来生成语义的,基于语言的场景图的人[18,21]。16363由于场景图描述场景,因此可以使用最先进的专用模型将生成的图转换到另一个域,例如,在图形到图像任务中[17]。在无条件图像生成的上下文中,最近的作品展示了令人印象深刻的结果,主要是在以对象为中心的图像,包含一个主要的主题,或单峰分布,如人脸或汽车的数据集。另一方面,包含多个对象的复杂多样的场景更难以由这些模型捕获。我们在我们的实验中表明,通过场景图建模无条件图像场景生成反而导致更可区分的对象实例,因为它能够理解复杂且通常抽象的语义概念,例如对象,它们的相互作用和属性。此外,这种生成模型可以检测分布外场景图和完整的部分场景图。最近,已经为图形数据提出了深度生成模型[41,12,9,30,3],其目的是在捕获图形模式(例如度分布和聚类)的同时合成某个域的真实图形。然而,每一种型号都带有警告,使其不适合某些应用。场景图的大小通常变化很大,对象和关系类别本质上是不平衡的,并且边缘是定向的。为此,我们开发了一个名为Scene-GraphGen的专用模型(图1)。整体自回归结构受到GraphRNN [41]的启发,因为它适应不同的图大小,与[9,30,4]不同。具体地,该模型适于消费节点和边的类别,以及支持边的方向。在该自回归公式中,场景图被表示为序列的序列序列的历史使用门控递归单元(GRU)[5]在隐藏状态中进行,该门控递归单元用于在每个步骤处生成节点和边缘上的分类分布,可以从该分类分布中采样节点和边缘类别。使用多层感知器(MLP)生成节点,并且使用GRU顺序地生成边由于无条件场景图生成是一个新的任务,指标来评估所生成的图形的质量还没有提出因此,在[41]之后,我们杠杆化最大平均差异(MMD)度量,其适应于随机游走图核和节点核,其适合于场景图结构。我们使用损坏的数据集集验证这些内核的有效性。我们的贡献可归纳如下:• 我们引入SceneGraphGen来解决无条件语义场景图生成的未开发任务我们采用图自回归模型,使处理场景图结构。• 我们演示了学习场景图的使用模型在三个应用中,即图像生成、异常检测和场景图完成。• 我们提出并验证了一个MMD指标来评估生成的场景图,它在节点和图形级别上操作。我们在Visual Genome [21]上评估了我们的模型,并表明它可以生成语义上合理的场景图。我们展示了这些场景图如何转换为新的图像,使用最先进的场景图到图像模型[17]。此外,我们表明,该模型可用于检测不寻常的场景图和扩展不完整的场景图。2. 相关工作场景图和应用[18]中提出的场景图以对象及其关系的语义标签的形式提供了图像的语义描述。大规模数据集,例如Visual Genome [21]注释了场景图,支持深度学习任务。一系列作品探索了以图像[38,27,39,23,42]或点云[34,37]为条件的场景图预测大多数作品首先检测场景中的对象,然后推理它们之间的关系。相比之下,我们的工作重点是无条件图生成不依赖于测试时的输入场景图可用于各种任务。Johnson等人[17]提出从场景图生成图像,在交互式设置中进一步探索生成[2]和语义操作[7]。Wang等人[35]探索室内场景规划的关系图。其他作品将场景图用于图像和域不可知检索[18,34]。场景图通常与语言相结合,例如在视觉问答(VQA)[11,40]或给定查询位置的对象类型预测[43]中。图上的生成模型传统方法[8,36,22,1]被设计为捕获一些特定的模式,通常是特定于域的,并且它们在推广到所有图模式方面存在不足。用于图生成的深度自回归模型[24,25,41,15]通常在节点数量上是灵活的,但需要施加节点排序。GraphRNN [41]将图表示为序列的序列,并使用分层GRU架构来对节点和边缘依赖性进行建模。该模型是可扩展的,复杂度为O(N2)可以输出可变大小的图形。 他们首先搜索(BFS)排序以显著减少可能的排序。然而,该文件只解决生成的无标签图。另一条工作线使用变分自动编码器(VAE),其将图嵌入到节点簇的向量[30]、连接树[16]中,或者将VAE与自回归方法[26]相结合。这些模型通常支持图形16364EO∈ E ∈ EYp(Oi|X