5213基于场景图的[1] Helisa Dhamo1,ZhaoAzade Farshad1,ZhaoIro Laina1,2Nassir Navab1,3 Gregory D.Hager3Federico Tombari1,4ChristianRupprecht21TechnischeUni versit aétMuénchen2Uni versityofOxford3JohnsHopkinsUni versity4Google图1:语义图像操作。给定一个图像,我们预测一个语义场景图。用户通过在节点和边上进行更改来然后,我们生成源图像的修改版本,该修改版本尊重修改图中的星座。摘要图像操作可以被认为是图像生成的特殊情况,其中要产生的图像是对现有图像的修改。图像生成和操作在很大程度上是对原始像素进行操作的任务然而,在学习丰富的图像和对象表示方面的显着进展为主要由语义驱动的文本到图像或布局到图像生成等任务在我们的工作中,我们解决了新的问题,从场景图,其中用户可以编辑图像,通过仅仅应用变化的语义图的节点或边缘,从图像中生成的图像操纵我们的目标是在给定的星座中编码图像信息,并从那里生成新的星座,例如替换对象甚至改变对象之间的关系,同时尊重原始图像的语义和风格。我们引入了一个空间语义场景图网络,不需要直接监督星座变化或图像编辑。这使得可以从现有的真实世界数据集训练系统,而无需额外的注释工作。*前两个作者对这项工作的贡献相等项目页面:https://he-dhamo.github.io/SIMSG/1. 介绍图像理解的目标是从图像中提取丰富的、有意义的信息。基于深度表示的最新技术正在不断推动识别对象[37]及其关系[27]或生成图像描述[18]的性能边界。理解对于图像合成也是必要的,e.G.从抽象的语义画布[4,44,57]或甚至从语言描述[11,24,36,53,55]生成看起来自然的图像。然而,高层次的图像处理受到的关注较少。图像处理通常仍然是通过照片编辑软件和底层工具(如in-painting)在像素级完成的。更高层次的操作通常是以对象为中心的,例如面部修改或重演。一种从语义(包括对象、它们的关系和属性)操纵图像的更抽象的方法可以使图像编辑更容易,用户的手动工作更少。在这项工作中,我们提出了一种通过修改场景图来执行图像语义编辑的方法,场景图是图像中对象,属性和交互的表示(图1)。正如我们后面所展示的,这个公式允许用户在不同的编辑功能中进行选择例如,代替手动分割、删除和在假日照片中修补不需要的游客,用户可以在假日照片中创建一个或多个不需要的游客。5214可以直接操作场景图和删除选中的
nodes.类似地,图节点可以很容易地用不同的语义类别替换,例如用替换。也可以通过交换图像画布上的人物或对象节点来重新排列图像的空间组成据我们所知,这是第一种图像编辑方法,也可以改变语义关系,例如将“一个人在日落前行走”改为“一个人在日落前慢跑”,推理和操作场景图的能力不仅对照片编辑有用。机器人领域也可以从这类任务中受益,例如。负责整理房间的机器人可以在行动之前通过将对象移动到它们的指定空间,改变它们的关系和属性来操纵感知场景的场景图:从“衣服躺在地板上“到“叠好的衣服放在架子上“,以获得房间的现实未来视图。以前的许多工作都集中在从图像[25,29]或从图[1,16]生成场景图在这方面,我们面临着这一综合问题所特有的挑战。例如,如果用户改变了一个关系,例如.<从“boy,sitting on,grass”到"