没有合适的资源?快使用搜索试试~ 我知道了~
1GEMS:使用生成模型的图的场景扩展4*Rishi Agarwal酒店,伊斯坦布尔:马上预订; 2* Tirupati Saketh Chandra酒店,伊斯坦布尔:马上预订;3*Kuldeep Kulkarni酒店,伊斯坦布尔:马上预订; 5* VishwaVinay酒店,伊斯坦布尔:马上预订;美国斯坦福大学1印度孟买IIT2美国查珀尔希尔3美国卡内基梅隆大学4印度Adobe Research5rishia@stanford.edutsaketh@iitb.ac.inadobe.comamahapat@andrew.cmu.eduvaidehi@cs.unc.edu摘要基于图像检索的应用程序需要在中间空间中进行编辑和关联,这些中间空间表示对象及其关系等高级概念,而不是RGB图像或语义标签映射等密集的像素级表示我们专注于这样的表示,场景图,并提出了一种新的场景扩展任务,我们丰富了输入种子图添加新的节点(对象)和相应的rela- tionships。为此,我们制定场景图扩展作为一个顺序的预测任务,涉及多个iterations的第一次预测一个新的节点,然后预测的一组关系之间的新预测的节点和以前选择的节点在图中。我们提出并评估了一个排序策略,保留节点之间的聚类模式。此外,我们利用外部知识来训练我们的图生成模型,从而实现节点预测的更大泛化。由于现有的最大平均差异(MMD)为基础的度量标准的效率低下的图生成问题,我们设计了新的指标,全面评估不同方面的节点和关系的预测。我们进行了广泛的实验,视觉基因组和VRD数据集,以评估扩展的场景图使用标准的MMD为基础的指标,以及我们提出的指标。我们观察到,与GraphRNN等基线方法相比,我们的方法GEMS生成的图更好地代表了场景图的真实分布。1. 介绍有创造力的摄影师有能力想象一组概念-物体和物体间的关系-在照片中捕捉然而,他们花了昂贵的时间到达的种类*前四位作者对这项工作的贡献相当,并且是在作者在AdobeResearch工作时完成的。这些场景包含了他们希望出现在照片中的一系列概念因此,期望向他们授权包含这些种子概念的各种各样的多样且丰富的合理场景的推荐我们希望设计算法,该算法可以被利用来向用户提供对场景的有效推荐,该场景对种子概念进行子分类,同时确保它们比种子表示它们自己更丰富。为此,我们以场景图的形式表达种子概念[41,19],并将生成更完整场景的任务转换为生成包含输入种子图的合理新颖场景图的具体来说,我们提出了一个新的场景扩展问题-给定一个种子图,我们是否可以通过添加对象来增强它,以便新的图对应于丰富的场景,同时满足以下要求:(a)建议的添加尊重在训练集中观察到的对象同现模式;(b)增强的场景图相对于现有的图集合是新颖的;以及(c)可以为同一种子生成不同的图扩展。分子图无条件生成的生成模型空间[12,33,17,32,1]近年来受到广泛关注。具体来说,已被证明适用于分子图生成的然而,在这些作品中考虑的图的复杂性往往在不同类型的节点和关系边的数量方面,比场景图小几个数量级。此外,这些方法隐式地要求要连接的图,这不一定是我们处理的场景图的特征。此外,场景图往往比分子图更多样化。由于这些原因,上面提到的被提出用于图生成的自回归模型不能原样用于我们处理的场景图扩展157158受此启发,我们设计了一种新的自回归图扩展模型,GEMS-场景图扩展模型,从[42]中汲取灵感,可以生成各种长度的图(与[8,33,2]不同)。我们首先将场景图扁平化为序列,其中序列中的每个节点通过与序列中先前节点的关系连接我们提出的排序方法试图确保场景图中连接的对象组在结果序列中发生接近,这确保模型学习到基序的近似概念[44]。图扩展然后变成顺序预测问题,其中节点生成先于边生成。由于场景图中边类型的不平衡,我们使用类重新平衡损失,通过避免退化边标签的预测来帮助产生更高质量的图扩展此外,我们将来自语言领域的外部知识,以更好地推广节点预测,以鼓励生成一组不同的相关节点预测。然后,使用图合成任务的一组标准度量对我们提出的方法进行彻底评估(如[10]中所述)。现有的指标不提供vide场景图扩展质量的整体视图,我们提出了新的指标,专门为这里考虑的任务量身定制我们在下面总结了我们的主要贡献。• 我们提出了一种新的场景扩展任务,该任务处理通过添加 使得增强的图对应于丰富的场景。• 我们设计了一个自回归模型,GEMS,用于连续生成场景图,以依赖的方式分层生成节点和边缘• 我们提出了一种新的图排序方法(感知BFS),旨在捕捉对象的同现,我们随后说明了这种方法的好处。• 为了规避传统评估方法的缺点,我们提出了额外的指标来评估生成的场景图,以捕捉预测的边缘和节点的相干性通过对Visual Genome [21]和VRD [25]数据集的广泛实验,我们表明我们的模型在大多数指标上都优于基于GraphRNN的基线模型,并且与[9]竞争,后者引入了我们的互补思想。2. 相关工作从以下两个方面介绍相关文献:(1)场景图提取(2)图的生成模型。2.1. 场景图提取被称为场景图生成[34,26]的标准任务涉及构建一个图,其中节点作为对象及其属性,边是它们之间的关系。这个任务涉及到从图像输入中生成一个图,在本文的其余部分中称为“提取”。概括地说,场景图提取方法分为两类。首先,在本文中被称为内部知识,是指其中被利用以仅从感兴趣的图像产生图的特征的作品[22,5,45,20]。在高级别上,场景图提取通过检测图像内的对象及其区域来操作,随后是标记对象之间的连接的关系标识模型子组件。随后的工作试图解决由不经常发生的关系的长尾引起的训练数据的偏倚性质所引起的问题[7,35]。场景图提取中的第二条工作线利用外部知识,以词嵌入的形式[25]将对象和关系类名作为语言域的先验。结合图像内部信息和外部知识的场景图提取方法显示出更高的准确性[43,13]。我们的工作不同于这两行的作品,因为我们不能访问输入图像来提取视觉特征。也就是说,我们的输入是以场景图的形式,而不能访问图像模态。因此,与第二条工作线类似,我们利用外部知识我们调用图的最先进的生成模型(接下来描述)来扩展给定的种子图。2.2. 图的生成模型在许多应用程序设置中,图表是数据的强大而自然的表示。而且,与许多其他领域一样,在一组观察图上训练的生成模型最近受到了广泛关注[14]。大多数现有的工作考虑分子图,其中从训练模型中采样允许产生新分子,这是药物设计的核心目标。变分自动编码器(VAE)是这类模型中的一种流行方法[12,33,17,32],生成式广告网络(GAN)也是如此[1]。在本文中,我们考虑从图像中导出的场景图,其中稀疏性[6]需要特别解决,因为大多数对象-对象对之间没有关系。此外,场景图往往是多样化的,这是它们与其他几个领域的图共享的特征[24,42]。与 我 们 的 工 作 最 接 近 的 是 SceneGraphGen [9] 和VarScene [37],它们都引入了一些互补的想法。我们的工作主要有三个方面:(1)159SESS--Ei=1EE {E}SSΣΣΣ我们定义了一个自定义的排序函数,它试图确保场景图中连接的对象组在序列中靠近。(2)与最近从图像中提取场景图的工作类似,我们展示了如何使用关于对象-对象相似性的外部信息来引导模型朝向更连贯的场景图。(3)我们详尽的实验评估还提出了新的度量场景图扩展任务。3. 问题描述和模型我们给出了一组观察到的场景图G={G},其中每个G对应于一个图像,并且表示为由G=(V,E)-一组顶点V∈V和di-随机顺序的子图序列。在级联之前跨子图进行随机化旨在引入相对于输入种子图的鲁棒性。如前所述,(G)可以被认为是一个序列,其中行i保存关于vi及其与序列中先前出现的对象的关系的信息(在i之前的行中)。对于图G,我们用简写i表示序列中第i个节点的所有信息,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功