没有合适的资源?快使用搜索试试~ 我知道了~
6182基于深度卷积生成模型的快速灵活室内场景合成Daniel Ritchie王凯林 裕安布朗大学{Daniel ritchie,Kai Wang,Yu-anlin@brown.edu}卧室客厅办公室浴室图1.通过我们的方法生成的合成虚拟场景。我们的模型可以生成各种各样的这样的场景,以及完整的部分场景,在两秒内每个场景。这种性能是通过多个深度卷积生成模型的流水线实现的,这些模型分析场景的自顶向下表示。摘要我们提出了一个新的,快速和灵活的管道,室内场景合成,是基于深度卷积生成模型。该方法采用自顶向下的图像表示方法,通过预测对象的类别、位置、方向和大小,使用独立的神经网络模块迭代地将对象插入到场景中。我们的管道自然支持部分场景的自动完成,以及完整场景的合成。我们的方法比以前的基于图像的方法要快得多,并且生成的结果在对训练数据的忠实性和感知视觉质量方面优于它和其他最先进的深度生成场景模型。1. 介绍人们一生中有很大一部分时间是在室内度过的:卧室、客厅、办公室、厨房和其他类似的地方。*同等贡献空间. 对这些现实世界空间的虚拟版本的需求游戏、虚拟现实和增强现实体验通常发生在这样的环境中。建筑师经常创建建议建筑的虚拟实例,他们使用计算机生成的渲染和漫游动画为客户可视化。希望重新设计生活空间的人们可以从越来越多的在线虚拟室内设计工具中受益[25,21]。宜家和Wayfair等家具设计公司越来越多地通过渲染虚拟场景来制作营销图像,因为这样做比展示真实世界场景更快,更便宜,更灵活[10]。最后,也许是最重要的,计算机视觉和机器人研究人员已经开始转向虚拟环境来训练用于场景理解和自主导航的数据饥渴模型[2,3,8]。考虑到最近对虚拟室内环境的兴趣,内部空间的生成模型这样的模型将为学习代理提供比3D场景的结构和组成更强的优先级。它可以6183还可用于自动合成各种视觉和机器人任务的大规模虚拟培训语料库。我们定义这样一个场景合成模型作为一个算法,给定一个空的内部空间界定的建筑几何(地板,墙壁和天花板),决定哪些对象放置在该空间和在哪里放置它们。任何解决这个问题的模型都必须考虑对象之间的存在和空间关系,以便做出这样的决策。在计算机视觉中,可用于这种推理的最灵活的通用机制是卷积,特别是以用于图像理解的深度卷积神经网络(CNN)的形式实现的卷积。最近的工作尝试使用深度CNN来执行场景合成,以构建场景中可能的对象位置的先验[13]。这一初步尝试虽然有希望,但有许多局限性。它局部地推理对象放置,并且可能难以全局地协调整个场景(例如,未能将沙发放入客厅场景)。它不能模拟对象的大小,导致对象选择不当的问题(例如,一个长得令人难以置信的衣柜挡住了一个门口)。最后,也是最关键的是,它非常慢,由于使用了数百个 CNN对每个场景我们相信,基于图像的场景合成是有前途的,因为它能够执行精确的像素级空间推理,以及利用现有的复杂机制来理解深度CNN。在本文中,我们提出了一种新的基于图像的场景合成管道,基于深度卷积生成模型,克服了先前基于图像的合成工作的问题。与前面提到的方法一样,它通过迭代添加对象来生成场景。然而,它将添加每个对象的步骤分解为不同的决策序列,这允许它(a)全局地推理要添加哪些对象,(b)除了它们的位置和方向之外,还对要添加的对象的空间范围进行建模最重要的是,它是快速的:比先前的工作快两个数量级,平均需要不到2秒来合成场景。我们通过使用它来生成合成卧室、客厅、办公室和浴室来评估我们的方法(图1)。我们还展示了如何,几乎没有修改的管道,我们的方法可以合成多个自动完成的部分场景使用相同的快速generative过程。我们将我们的方法与先前的基于图像的方法,另一种基于场景层次结构的最先进的深度生成模型以及人类创建的场景进行了比较,在几个定量实验和感知研究中。我们的方法与这些现有技术一样好或更好。2. 相关工作室内场景合成室内场景合成的研究已经投入了相当多的精力。这一领域的一些最早的工作利用室内设计原理[19]和简单的统计关系[31]来安排预先指定的对象集。其他早期工作尝试完全数据驱动的场景合成[6],但由于训练数据的可用性和当时可用的学习方法有限,因此仅限于小规模场景随着SUNC [28]等大型场景数据集的可用性,新的数据驱动方法已经提出。[20]使用有向图形模型进行对象选择,但依赖于对象布局的几何学。[23]使用概率语法对场景进行建模,但也需要关于场景中人类活动的数据(并非所有数据集都可用)以及重要对象组的手动注释。相比之下,我们的模型使用深度卷积生成模型来完全自动地生成所有重要的对象属性-类别,位置,方向和大小。最近的其他方法已经将深度神经网络用于场景合成。[33]使用生成对抗网络以属性矩阵形式生成场景(即,每个场景对象一列)。最近,GRAINS [16]使用递归神经网络对结构化场景层次进行编码和采样。与我们的工作最相关的是[13],它也使用了深度卷积神经网络,该网络可以对场景的自顶向下图像表示进行操作,并通过顺序放置对象来合成场景。我们的方法和他们的方法之间的主要区别是:(1)我们的方法用一个推理步骤对每个对象属性进行采样,而他们的方法执行数百个推理,(2)我们的方法除了类别,位置和方向外,还对对象大小的分布进行建模我们的方法还使用单独的模块来预测类别和位置,从而避免了他们的方法所展示的一些失败案例。深度神经网络越来越多地用于构建强大的模型,这些模型除了分析数据分布之外,还可以生成数据分布,而我们的模型利用了这一功能。深度潜在变量模型,特别是变分自编码器(VAE)[14]和生成对抗网络(GAN)[7],因其能够将看似任意的数据分布打包到行为良好的低维我们的模型使用这些模型的条件变体-CVAE [27]和CGAN [18]-来模拟对象方向和空间范围上的潜在多模态分布。深度神经网络也被有效地部署用于将复杂分布分解为一系列更简单的分布。这种顺序或自回归生成模型已被用于无监督分析6184当前场景图像表示下一个类别(§3.1)位置(§3.2)方向(§3.3)尺寸(§3.4)插入对象(§3.5)((CNNCNNFCN美国有线电视新闻网CNNCNNcos$,翻译啪?旋转类别计数1 1 0 1 0 1 00类别位置取向尺寸图2.我们的自动对象插入管道概述。我们提取场景的自上而下的基于图像的表示,并将其馈送到四个决策模块:要添加的对象类别(如果有的话)、对象的位置、方向和尺寸。图像中的对象[5],生成具有顺序视觉注意力的自然图像[9],解析手绘图的图像[4],通过基元的顺序装配生成3D对象[34],以及控制过程图形程序的输出[24],以及其他应用。我们使用自回归模型来生成室内场景,逐个对象地构建它们,其中每一步都以迄今为止生成的场景为条件。虚拟室内场景的训练数据虚拟室内场景正在迅速成为计算机视觉和机器人系统训练数据的重要来源。最近的几项工作表明,室内场景理解模型可以通过对来自虚拟室内场景的大量合成生成图像进行训练来改进[32]。对于室内3D重建[2]以及定位和映射[17],也显示了相同的情况。在视觉和机器人技术的交叉点上,从事视觉导航的研究人员通常依赖于虚拟室内环境来训练自主代理,以完成交互/具体问题回答等任务[3,8]。为了支持这些任务,近年来出现了无数的虚拟室内场景仿真平台[26,29,1,15,30,22]。我们的模型可以通过自动生成新的环境来训练这种智能视觉推理代理来补充这些模拟器。3. 模型我们的目标是构建一个深度的场景生成模型,该模型利用精确的基于图像的推理,速度快,并且可以灵活地生成各种看似合理的对象排列。为了最大限度地提高灵活性,我们使用顺序生成模型,迭代地每次插入一个对象,直到完成。除了从空房间生成完整的场景之外,该范例自然地通过简单地用部分填充的场景初始化该过程来支持部分场景完成图2显示了我们的管道的概述。它首先提取输入场景的自上而下的平面图像表示,如在基于图像的场景合成的先前工作中所做的那样[13]。然后,它喂这个将表示转换为四个决策模块的序列,以确定如何选择对象并将对象添加到场景中。这些模块决定哪类对象添加到场景中,如果有的话(第3.1节),该对象应该位于哪里(第3.2节),它应该面向什么方向(第3.3节),以及它的物理尺寸(第3.4节)。这是一个不同于以前工作的因式分解,我们将证明这会导致更快的合成和更高质量的结果。 本节的其余部分将介绍 高水平;精确的结构细节可以在补充材料中找到,并且我们的系统的源代码可以在https://github.com/brownvc/comFast-synth上获得。3.1. 下一个对象类别我们流水线的第一个模块的目标该模块需要推理已经存在哪些对象、数量以及房间中的可用空间。为了允许模型也决定何时停止,我们用一个额外的该模块使用Resnet18 [11]对场景图像进行编码。它还提取场景中所有类别的对象的计数(即,一个“类别袋”表示),如在先前的工作[ 13 ],并编码这与一个完全连接的网络。最后,该模型将这两个编码连接起来,并通过另一个全连接网络将它们馈送到类别上,以输出类别的概率分布。在测试时,该模块从预测的分布中抽样,以选择下一个类别。图3显示了一些示例部分场景和我们的模型为它们预测的最可能的下一个类别。从一个空场景开始,下一个类别分布由一个或两个大的、经常出现的对象(例如,床和衣柜,卧室场景)。其他类别的概率随着场景开始填充而增加,直到场景变得足够填充并且基于图像的场景合成中的先前工作联合预测类别和位置[13]。正如作者所指出的,这导致了一个缺点,即很可能是6185| |××||××预测下一类别概率0.60.50.40.30.20.10.0双人床衣柜单人床书桌架双人床衣柜床头柜图4.我们的全卷积网络模块预测的不同对象类型位置的概率密度预测下一类别概率0.250.200.150.100.050.00梳妆台设备沙发椅咖啡桌落地灯(a)(b)(c)(d)图5。床头柜的概率分布,无(a)&(c))和(b)(d))正则化。0.250.200.150.100.050.00预测下一类别概率<停止>落地灯台灯沙发椅搁架每像素调用一次深度卷积网络,场景的像素[13]。相比之下,我们的模块使用通过全卷积编码器-解码器网络(FCN)的单次前向传递来一次预测整个分布。该模块使用Resnet34编码器,后面是上卷积解码器。解码器输出64 64C图像,其中C是类别的数量。然后,该模块通过以下方式分割出与感兴趣的类别相对应的通道,并将其视为2D概率分布:重新规范它。我们还尝试了使用单独的图3.要添加到的下一个对象类别上的分布正如我们的模型所预测的那样空的场景主要由一个或两个大的,频繁的对象类型(顶部),部分填充的场景有一系列的可能性(中间),非常满的场景可能会停止添加对象(底部)。在一个位置发生的事件可以重复发生(即,错误地)采样,例如,在床的左边放置多个床头柜。相比之下,我们的类别预测模块的原因是全球范围内的场景,从而避免了这个问题。3.2. 对象位置在下一个模块中,我们的模型采用输入场景和预测类别来确定该类别的对象应该放置在场景中的何处。我们将此问题视为图像到图像的翻译问题:给定输入的自上而下的场景图像,输出“热图”图像,其包含在那里出现的对象的每像素概率。这种表示是有利的,因为它可以被视为(潜在的高度多峰)2D离散分布,我们可以对其进行采样以产生新的位置。这种像素离散分布与先前的工作类似,除了他们组装了分布像素-预测64的每个类别的FCN641概率密度图像,但发现它不工作,以及。 我们怀疑训练相同的网络来预测所有类别为网络提供了关于不同位置的更多上下文,例如,它不仅可以知道它不应该预测某个位置的衣柜,还可以知道这是因为床头柜更有可能出现在那里。在重新规范化之前,模块将任何落在房间边界之外的概率质量归零当预测第二层类别的位置时(例如,台灯),它还将落在未被观察为数据集中该类别的支撑表面的对象顶部的概率质量归零。 在测试时,我们从该离散分布的缓和版本中采样(我们使用温度τ=0。8、本文中的所有实验)。图4示出了不同场景的预测位置分布的示例。床和衣柜的预测分布避免了将概率质量放置在会挡住门的位置。床头柜的分布是双峰的,每个模式都紧紧集中在床头周围。为了训练网络,我们使用像素交叉熵损失。与之前的工作一样,我们用一个“空空间”的类别来6186床头柜台灯扶手椅图6.由我们的CVAE方向预测器采样的高概率对象方向(可视化为面向前方的矢量的密度图)。对象通常捕捉到一个方向(左)或多个方向模式(中),或者具有围绕单个模式聚集的一系列值(右)。去推理物体不应该在哪里,以及它们应该在哪里。在训练损失计算中,空空间像素的权重是占用像素的10倍。 由于每个训练示例的地面真值标签是单个位置而不是分布,因此我们的模型有可能过拟合到该确切位置。这在图5a和图5c中示出,其中预测的discovery折叠到单点位置。在第二种情况下,网络可能会尝试将输入房间与几个记忆的房间进行匹配,但这些房间都没有意义。为了解决这个问题,我们通过应用L2正则化和dropout来限制网络的容量,迫使它学习一个结构相似的场景靠近在一起的潜在空间。这导致平均输出位置,即位置的连续分布(图5b和5d)。在进入下一个模块之前,我们的系统translates输入场景图像,使其以预测位置为中心。这使得随后的模块是不变性的。3.3. 面向对象给定一个转换的自上而下的场景图像和对象类别,方向模块预测如果将该类别的对象放置在图像的中心,该对象应该面向哪个方向我们假设每个类别都有一个规范的面向前方的方向。而不是预测旋转角度θ,它是圆形的,我们预测的是前方向,向量,即[cosθ,sinθ]。 这必须是一个标准化的向量-双人床电视架,图7。由我们的CVAE-GAN维度预测器采样的高概率对象维度(可视化为边界框的密度图)。在更多约束位置的对象具有较低的方差大小分布(右)。变量单位正态分布,然后馈送到全连接解码器以产生cosθ和sinθ的符号。在训练时,我们使用标准CVAE损失公式(即,具有额外的编码器网络)以学习潜在码上的由于室内场景经常被直立式建筑包围,因此其中的物体通常精确地对准基本方向。然而,CVAE作为概率模型,对噪声方向进行采样。为了允许我们的模块在适当的时候产生精确的对齐,这个模块包括第二个CNN,它获取输入场景并预测要插入的对象是否应该将其预测的方向“捕捉”到四个基本方向中最近的一个图6示出了不同输入场景的预测取向分布的示例。床头柜卡扣到一个单一的方向,高度限制其关系的床和墙壁。台灯通常是对称的,这导致具有多种模式的预测取向分布。一把扶手椅被放置在房间的角落里是最自然的对角方向相对于角落,但一些变化是可能的。在进入下一个模块之前,我们的系统将输入场景图像旋转预测的旋转角度。这将图像变换到要插入的对象类别的局部坐标系中,使得子对象模块旋转不变(除了已经是平移不变之外)。3.4. 对象尺寸2tor,即sin θ的大小必须为1−cos θ。因此,在本发明中,我们的模块预测cosθ以及布尔值giv-求sinθ的符号。在这里,我们发现每个类别使用单独的网络权重是最有效的。这组可能的方位具有多模态的潜力:例如,房间角落里的床可以靠在角落的任一面墙上。为了允许我们的模块对这种行为进行建模,我们使用条件变分自动编码器(CVAE)实现它[27]。具体来说,我们使用CNN对输入场景进行编码,然后将其与从多个采样的潜在代码z给定一个场景图像转换为本地坐标,在特定对象类别的基本框架中,维度模块预测对象的空间范围。也就是说,它预测要插入的对象的对象空间边界框。这也是一个多模态问题,甚至比定向(例如,许多不同长度的衣柜可以靠在同一面墙上)。同样,我们使用CVAE来实现:CNN编码场景,将其与z连接,然后使用全连接解码器来产生边界框的[x,y]维度。6187∼∼∼∼人眼对尺寸误差非常敏感,例如,一个物体太大,因此穿透了旁边的墙。为了帮助微调预测结果,我们还在CVAE训练中加入了对抗性损失项。该损失使用卷积卷积编码,其将输入场景逐通道地与预测边界框的带符号距离场(SDF)级联。与定向模块一样,该模块也对每个类别使用单独的网络权重。图7显示了不同对象放置场景的预测大小分布预测的分布捕获不同对象类别的可能大小的范围,例如,电视架可以具有高度可变的长度。然而,在诸如图7右的情况下,其中搁脚凳将被放置在床头柜和墙壁之间,由于该高度约束的位置,预测的分布是较低方差的3.5. 物体插入为了选择一个特定的3D模型插入给定的预测类别,位置,方向和大小,我们通过我们的数据集执行最近邻搜索,以找到与预测对象尺寸紧密匹配的3D模型。当存在多个可能的候选模型时,我们倾向于那些在数据集中经常与房间中已经存在的其他对象共同出现的模型,因为这稍微改善了生成的房间的视觉风格(尽管它远非风格感知场景合成问题的通用解决方案有时,插入的对象会与房间中的现有对象发生碰撞在这种情况下,我们选择同一类别的另一个对象在非常罕见的情况下(小于1%),不存在可能的插入。如果发生这种情况,我们将从预测的类别分布中重新采样不同的类别,然后再试一次。4. 数据训练我们使用SUNC数据集训练我们的模型,SUNC数据集是由在线室内设计工具的用户设计的超过四万个场景的集合[28]。在本文中,我们将实验集中在四种常见的房间类型上:卧室、起居室、浴室和办公室。我们从SUNC中提取这些类型的房间,执行预处理以过滤掉不常见的对象类型、错误标记的房间等。经过预处理,我们获得了6300个卧室(40个对象类别),1400个客厅(35个类别),6800个浴室(22类)和1200间办公室(36类)。有关我们的数据集和预处理程序的更多详细信息,请参见补充材料。为了为我们所有的模块生成训练数据,我们遵循相同的一般程序:从我们的数据集中取一个场景,从中删除一些对象子集,并将预测要添加的“下一个”对象(即,移除的对象之一)。这个过程需要对每个场景中的对象进行排序。我们推断对象之间的静态支持关系(例如,lamp supported by table),并且我们保证所有支持的对象都在其支持的父对象之后。我们进一步保证,所有这些支持的“第二层”对象都在所有“第一层”对象之后(即,由地板支撑)。对于类别预测模块,我们进一步根据对象的重要性对其进行排序,我们将其定义为类别的平均大小乘以其在数据集中的出现频率。这样做会对场景中的对象施加一个稳定的规范排序;如果没有这样的排序,我们会发现每一步都有太多有效的可能类别,我们的模型很难在多个对象插入中构建连贯的场景对于所有其他模块,我们使用随机排序。最后,对于位置模块,FCN的任务不是预测单个下一个对象的位置,而是预测从训练场景中移除的所有缺失对象的位置我们为不同的房间类别分别训练管道中的每个模块。根据经验,我们发现类别模块在看到300,000个训练示例后表现最好,而位置模块在看到1,000,000个示例后表现最好。由于方向和维度模型解决的问题更局部,因此它们的行为在不同时期更稳定在实践中,使用2,000,000个示例训练定向模块,使用1,000,000个示例例子.5. 结果评价完整的场景合成图1显示了由我们的模型合成的完整场景的示例,给定初始房间几何形状。我们的模型为每种房间类型捕获了多种可能的对象排列模式:带书桌的卧室与那些有额外座位的,客厅的谈话与。看电视等等。场景完成图8显示了部分场景完成的示例,其中我们的模型将不完整的场景作为输入,并建议多个下一个对象 来 填 充 场 景 。 我 们 的 模 型 样 本 的 各 种 不 同 的complement- tions相同的开始部分场景。这个例子还突出了我们的模型对象类别分布对于一个场景生成模型来说,要想很好地捕捉训练数据,一个必要的条件是,6188||输入部分场景合成完成方法ACC方法ACC谷物[16]96.56无输入对齐(定向)94.10[13]第十三话84.69无输入对齐(Dims)76.60我们58.75联合类别+地点81.70不安(1%)50.00分类[13]89.30不安(5%)54.69位置[13]83.60不安(10%)64.38Orient + Dims来自[13]67.30表2.通过不同方法(左)和我们的方法生成的场景的真实与合成分类准确度,通过改变一些组件的设计或用来自先前作品的类似组件替换它们(右)进行修改。更低(接近50%)更好。图8.给定一个输入部分场景(左列),我们的方法可以生成多个自动完成的场景。这不需要对该方法的采样过程进行修改方法卧室客厅浴室办公室制服0.6202 0. 8858 1. 36750. 7219[13]0.2017 0.4874 0.2479 0.2138粮食[16]0.2135 0.3217--我国的表1.合成结果中对象类别的分布与训练集越低越好。统一形式是对象类别的均匀分布。其综合结果应与训练集的结果非常为了评估这一点,我们计算合成场景的类别分布和训练集的类别分布之间的Kullback-Leibler散度DKL(PsynthPdataset)请注意,我们无法计算对称化的詹森-香农散度,因为我们比较的一些方法对于某些类别的概率为零,使得散度无限大。表1显示了不同方法的类别分布KL分歧。我们的方法生成的类别分布比其他方法更忠实于训练集。场景分类准确性除了类别之外,为了评估我们生成的场景的分布与训练场景的分布匹配得有多好,我们训练 了 一 个 分 类 器 , 其 任 务 是 区 分 分 类 器 是 一 个Resnet34,它将我们的模型使用的相同的自上而下的多通道图像表示作为输入分类器使用1,600个场景进行训练,一半是真实的,一半是合成的。我们评估分类器性能-图9.纠正[13]、图14中的失效案例。(左)我们的模型没有省略沙发的座位。(右)我们的模型选择了一个不挡住门的橱柜。第320章测试场景表2显示了不同基线的性能。与以前的方法相比,我们的结果是显着更难的分类器区分。 事实上,将我们的场景与真实训练场景区分开来稍微困难一些,因为对于每个对象都被小的随机量(对象边界框尺寸的10%的标准偏差)扰动的我们的设计选择的有效性我们使用相同的分类设置来调查我们的个人设计选择的有效性。如表2所示,将我们的模型组件替换为[13]的组件,省略方向和维度模块的输入对齐,以及联合预测位置+类别,所有这些都会导致比完整模型更差的结果。我们还在图9中定性地表明,我们的策略有助于避免先前工作中常见的故障情况[13]。使用单独的类别模块,我们的模型可以为客厅(左)生成座位,引入尺寸模块可以防止使用过大的橱柜挡住办公室的门。速度比较表3显示了不同方法合成一个完整场景所需的时 间 。 我 们 的 模 型 在 NVIDIA Geforce GTX 1080TiGPU上生成一个完整的场景平均需要不到2秒的时间,这比之前基于图像的方法(Deep Priors)快了两个数量级。虽然比端到端方法(如[16])慢,但我们的模型还可以执行场景完成和下一个对象建议等任务,这两种任务在实时应用中都很有用。6189方法平均值 时间(s)[13]第十三话粮食[16]0.1027我们的1.858表3.不同方法生成单个场景的平均时间(秒)。越低越好。感知研究我们还对亚马逊机械土耳其人进行了两种选择的强迫选择(2AFC)感知研究,以评估我们生成的场景与其他方法生成的场景相比的合理性。参与者被并排展示两个自上而下渲染的场景图像,并被要求选择他们认为更可信的一个。对于每个对象类别,使用纯色渲染图像,以排除材料或纹理外观的任何影响对于每个比较和每个房间类型,我们招募了10名参与者,这足以产生强95%的置信区间。每个参与者进行了55次比较;其中5次是我们过滤掉那些没有通过所有警惕性测试的参与者。表4显示了本研究的结果。 在所有房间类型中,我们生成的场景明显优于GRAINS生成的场景(GRAINS不提供浴室或办公室结果)。由于格式的差异,我们重建的GRAIN房间几何是不完美的。我们手动删除了对象与墙壁相交的房间,但应该注意的是,重建的房间可能仍然与他们的工作中呈现的结果略有不同。与Deep Priors方法相比,我们的场景更适合卧室和浴室,并被判断为可用于客厅。然而,我们生成的办公室场景不太受欢迎。我们假设这是因为办公室训练数据是高度多模态的,包含个人办公室、团体办公室、会议室等。在我们看来,由深层先验方法生成的房间大多是个人办公室。我们还始终如一地创造高质量的个人办公室。然而,当类别模块尝试对其他类型的办公室进行采样时,该意图没有很好地传达给其他模块,导致无组织的结果,例如。一张有十把椅子的小桌子最后,与SUNC的人类创造的场景相比,我们的结果对卧室和浴室没有区别,对客厅几乎没有区别,对办公室也不太喜欢。6. 结论在本文中,我们提出了一种新的管道室内场景合成使用基于图像的深度卷积生成模型。我们的系统分析场景的自顶向下视图表示,以决定哪些对象我们的与表4.强制选择比较的百分比(±标准误差),其中我们的方法生成的场景被判断为比其他来源的场景更合理。越高越好。粗体表示我们的场景是首选,置信度>95%;灰色表示-表示我们的场景不受欢迎,置信度>95%;ular文本表示无首选项。 - 表示结果不可用。添加到场景中,在哪里添加它们,它们应该如何定向,以及它们应该有多大。结合起来,这些决策模块允许快速(2秒以下)的合成各种似是而非的场景,以及现有的部分场景的自动完成。我们通过统计生成的场景,分类器检测合成场景的能力,以及人们在被迫选择感知研究中的偏好来评估我们的方法。我们的方法在所有情况下都优于先前的技术。在自动室内场景合成领域仍有许多未来工作的机会。我们想解决前面提到的我们的方法生成具有多种强变化模式的房间类型的能力中的限制,例如,单一办公室与授予办公室。一个可能的方向是探索整合我们的基于图像的模型与更高层次的场景结构的模型,编码为层次结构的颗粒,或者作为图形或程序。无论是我们的方法,也没有任何其他先前的工作在自动场景合成,我们知道,解决了如何生成风格一致的室内场景,如室内设计应用程序所需的问题。最后,为了使自动场景合成最大限度地用于训练自主代理,生成模型必须知道室内空间的功能,并且必须合成支持进行感兴趣活动的环境致谢我们感谢匿名评论者的帮助建议。本文中显示的场景渲染是使用Mitsuba基于物理的渲染器创建的[12]。这项工作得到了NSF奖#1753684和Nvidia硬件捐赠的部分支持引用[1] S. Brodeur,E. Perez,A. Anand,F. 戈莱莫湖切洛蒂F.作者:J. Larochelle,和A. C.考维尔家庭多模式环境。CoRR,arXiv:1711.11017,2017。3房型谷物[16][13]第十三话SUNG卧室82岁7± 3。6五十六1± 4。1四十八0±4。7生活74岁1± 3。852岁7 ±4。5四十五0±4。5浴室-68岁6± 3。950块0±4。56190[2] A. Dai,D.Ritchie,M.Bokeloh,S.Reed,J.斯特姆,和M.尼斯纳扫描完成:3d扫描的大规模场景完成和语义分割。在Proc.计算机视觉和模式识别(CVPR),IEEE,2018。第1、3条[3] A.达斯,S。达塔湾Gkioxari,S. Lee,D. Parikh和D.巴-特拉。具体化的问题回答。在CVPR,2018年。第1、3条[4] K. Ellis,D.里奇,A.Solar-Lezama和J.B. 特南鲍姆学习从 手 绘 图 像 推 断 图 形 程 序 。 CoRR , arXiv :1707.09627,2017。3[5] S. M. A. Eslami,N.Heess,T.Weber,Y.Tassa、D.塞佩斯瓦里K. Kavukcuoglu和G. E.辛顿参加、推断、重复:快速场景理解与生成模型。在NIPS 2016,2016。3[6] M. 费希尔,D.Ritchie,M.Savva,T.Funkhouser和P.汉-拉汉。基于实例的三维物体排列合成。SIGGRAPHAsia2012,2012. 2[7] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS 2014,2014。2[8] D. Gordon,A. Kembhavi,M. Rastegari,J. Redmon,D.Fox和A.法哈迪。IQA:交互环境中的可视化问答在CVPR,2018年。第1、3条[9] K. 格雷戈尔岛Danihelka,A.Graves和D.维尔斯特拉DRAW : 用于 图像 生成 的递 归神 经网 络。 在ICML2015,2015。3[10] C.组把CGI 放在宜家:V-Ray如何帮助可视化完美 的家园。https://www.chaosgroup.com/blog/putting-the-cgi-in-ikea-how-v-ray-helps-visualize-perfect-homes,2018.访问时间:2018-10-13。1[11] K. 他,X。Zhang,S.Ren和J.太阳用于图像识别的深度残差在CVPR 2016,2016。3[12] W.雅各布Mitsuba renderer,2010. http://www.mitsuba-renderer.org. 8[13] 王凯,马诺利斯·萨瓦,天使X. Chang和Daniel Ritchie。用于室内场景合成的深度卷积先验。在SIGGRAPH2018,2018. 二三四七八[14] D. P.Kingma和M.威林自动编码变分贝叶斯。InICLR2014,2014. 2[15] E.科尔韦河Mottaghi,D. Gordon,Y. Zhu,中国茶青冈A. Gupta和A.法哈迪。AI 2-THOR:一个用于视觉AI的交互式3D环境CoRR,arXiv:1712.05474,2017。3[16] M. Li,长穗条锈菌A.G. Patil,K.Xu,S.乔杜里岛汗,A.沙米尔C.图湾Chen,中国粘蝇D. Cohen-Or和H.张某颗粒:室内 场 景 的 生 成 递 归 自 动 编 码 器 . CoRR , arXiv :1807.09193,2018。二七八[17] W. Li,S.放大图片作者:J. Clark,D.Tzoumanikas,Q.叶,Y。黄河,巴西-地Tang和S.罗伊特内格内部-净:大规模多传感器照片逼真的室内场景数据集。英国机器视觉会议(BMVC),2018年。3[18] S. O.迈赫迪·米尔扎 条件生成对抗网。CoRR,arXiv:1411.1784,2014年。2[19] P. Merrell,E. Schkufza,Z. Li,M. Agrawala和V. 科尔顿。交互式家具布局使用室内设计指南.在SIGGRAPH 2011,2011。26191[20] 诉F. 保罗·亨德森,卡蒂奇潜艇。约束家具布局的自动生成CoRR,arXiv:1711.10939,2018。2[21] Planner5d.主页设计软件和室内设计工具在线为家庭和平面图在2D和3D。https://planner5d.com,2017年。访问时间:2017-10-20 1[22] X. Puig,K. Ra、M. Boben,J. Li,T. Wang,S. Fidler和A.托拉尔巴虚拟家庭:通过程序模拟家庭活动。在CVPR,2018年。3[23] 齐、思远、朱、一心、黄、思远、姜、陈凡甫、朱、宋春。基于随机文法的以人为中心的室内场景合成。在CVPR 2018,2018。2[24] D. 里 奇 , A. Thomas , P. Hanrahan , and N. D.Goodman.神经引导手术模型:使用神经网络的过程图形程序的分期推理。在NIPS 2016,2016。3[25] RoomSketcher。视觉家园。http://www.roomsketcher.com的网站。访问日期:2017-11-06. 1[26] M. Savva,A.X. Chang,A.Dosovitskiy,T.Funkhouser和V. Koltun. MINOS:用于复杂环境中导航的多模式室内模拟器。arXiv:1712.03931,2017年。3[27] K. Sohn,H.Lee和X.燕. 使用深度条件生成模型学习结构化输出表示在神经信息处理系统的进步28. 2015.二、五[28] S. 宋,F. Yu,中国茶条A. Zeng,中国茶青冈A. X.张,M。 Savva,以及T.放克豪瑟从单个深度图像完成语义场景。2017.二、六[29] Y. Wu,Y. Wu,G. Gkioxari和Y.田构建具有真实感和丰富3D环境的可生成代理。CoRR,arXiv:1801.02209,2018。3[30] C. Yan,杨氏D. K. Misra、A. Bennett,A. Walsman,Y.BISK,和Y.阿齐查利特:康奈尔学院代理学习环境。CoRR,arXiv:1801.07357,2018。3[31] L- F. 余 , S.- K. Yeung , C.- K. Tang , D.Terzopoulos,T. F. Chan和S. J. Osher让它回家:家具布置的自动优化。在SIGGRAPH 2011,2011。2[32] Y. Zhang,S.Song,E.Yumer,M.Savva,J.-Y. Lee,H.晋T.放克豪瑟使用卷积神经网络进行室内场景理解的基于物理的渲染。IEEE计算机视觉和模式识别会议(CVPR),2017年。3[33] Z. Zhang,Z.杨角,澳-地马湖,加-地Luo,中国茶条A.Huth,E.加,和Q. 煌通过混合表示进行场景合成的深度生成建模CoRR,arXiv:1808.02084,2018。2[34] C. Zou,E. Yumer,J. Yang,D. Ceylan和D.霍伊姆3D-PRNN:用递归神经网络生成形状基元。在ICCV2017,2017。3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功