没有合适的资源?快使用搜索试试~ 我知道了~
15203基于语义分割深度图像集的室内场景生成杨明佳*1,2郭玉晓2周斌1童昕21北京航空航天大学2微软亚洲研究院{yangmingjia,zhoubin} @ buaa.edu.cn{ yuxgu,xtong} @ microsoft.com摘要我们提出了一种用于创建3D室内场景的方法,该方法具有从从不同未知场景捕获的语义分割的深度图像的集合学习的生成模型。给定具有指定大小的房间,我们的方法从随机采样的潜在代码自动生成房间中的3D对象。不同于现有的方法,表示室内场景的类型,位置和其他属性的对象在房间里,并学习场景布局从一个完整的3D室内场景的集合,我们的方法模型每个室内场景作为一个3D语义场景体积,并学习体积生成对抗网络(GAN)从一个集合的2.5D部分观察的3D场景。为此,我们应用可区分的投影层将生成的3D语义场景体投影到语义分割的深度图像中,并设计了一种新的多视图鉴别器,用于从2.5D语义分割的深度图像中学习完整的3D场景体。与现有的方法相比,该方法不仅有效地减少了建模和获取三维场景的工作量,而且能够生成更好的对象形状及其在场景中的详细布局。我们评估了我们的方法与不同的室内场景数据集,并证明了我们的方法的优点。我们还扩展了我们的方法,用于从真实场景的RGB图像推断出的语义分割的深度图像生成3D室内场景11. 介绍由于不同的室内设计和生活活动,真实世界的室内场景表现出丰富的变化,其中放置在房间中的对象的数量、类型和布局不同生成逼真的3D室内场景是许多应用的重要任务,例如VR/AR、3D游戏设计和机器人导航。*这项工作是在杨明佳在MSRA实习时完成的1代码URL:https://github.com/mingjiayang/SGSDI在房间中手动建模具有变化和真实对象布局的室内场景是劳动密集型任务并且需要专业技能。自动场景生成技术试图模拟真实场景中物体的属性和分布,并通过两个步骤生成新的3D场景。 对于具有指定大小和形状的房间,这些方法首先确定布局(即,取向和位置)和性质(例如,类型和形状)。之后,他们基于对象的特性从3D对象数据库已经开发了一套方法来对室内场景中的对象的属性和分布进行建模。早期的方法使用手动定义的规则[12]或从场景实例计算的简单统计模型[27,4,2,5,11,17]来生成特定类型的场景,这难以推广到其他类型的场景。最近的基于深度学习的方法[8,29,25,18,24]从大量的3D场景实例中学习对象属性和布局的深度神经网络,这些3D场景实例难以由熟练的艺术家建模或从真实场景中捕获。通过简单地用它们的尺寸对对象几何形状建模,这些方法不能对具体的3D对象形状和由它们的形状确定的详细对象布局(诸如椅子,其座位在桌子下面或橱柜内的电视)进行在本文中,我们提出了一个生成对抗网络(GAN)的三维室内场景生成。与以前用对象属性和布局来表示场景的方法不同基于这种表示,我们设计了一个体积GAN模型,该模型以房间大小为输入,并从随机采样的潜向量中合成由不同对象及其布局组成的房间的语义场景体积。在此之后,我们的方法通过基于它们的类型和体积形状用从3D对象数据库检索的CAD模型替换体积中的每个体积对象实例来生成最终的3D室内场景。15204与以前用完整的3D室内场景集合训练网络的方法不同,我们从语义分割的深度图像集合中学习体积GAN模型,每个图像捕获未知3D场景的2.5D部分视图。为此,我们在生成器和渲染器之间应用可区分的投影层,其将生成的语义场景体投影到来自一组视图的语义分割的深度图像中。然后,我们将投影的假语义分割的深度图像和真实语义分割的深度图像两者馈送到鉴别器中以用于GAN训练。鉴别器的朴素设计是使用单视图鉴别器来从2D图像学习3D对象表示[14,6,9]。不幸的是,用该单视图鉴别器训练的GAN模型易于生成具有不自然对象布局的室内场景。因此,我们提出了一种多视图鉴别器,其将从生成的场景渲染的多个视图的组合用于GAN训练。由于训练图像是从不同的未知场景捕获的,并且我们没有每个图像的场景ID为此,我们根据经验计算出随机训练图像组合的视图的最佳数量和类型,其可以很好地近似底层场景布局并促进GAN训练。据我们所知,我们的方法是第一个ap-proach,学会从语义分割的深度图像的集合生成3D室内场景,这大大减少了训练数据采集和建模的工作量由于语义场景体积表示,我们的方法可以更好地建模对象的形状和它们的详细布局比现有的方法。我们评估了合成Structured 3D [30]和真实Matter-Port 3D [1]数据集的方法 , 并 证 明 了 我 们 方 法 的 优 势 。 借 助 现 有 的RGB2Depth方法,我们证明了我们的方法可以成功地从真实场景的RGB图像推断的分割深度图像中学习3D场景生成。2. 相关工作3D室内场景生成。 早期的方法使用手动定义的规则[12,2]、从3D场景实例[27,5,4,11]学习的简单统计模型或场景中所有有效对象分布的与或图(AoG)[17]合成特定类型的3D场景。基于学习的方法使用从注释的3D场景数据集学习的深度神经网络对3D场景中的对象属性所有这些方法都提取了对象及其属性(例如,位置、方向、类型和大小)作为具有属性的节点,并将3D场景表示为顶视图2D图像[25,18],节点图[24,10,29]或树[8]在场景布局生成。所有这些方法都需要一组3D注释场景进行训练。此外,这些方法中的大多数除了[29]将对象几何形状表示为其边界框,因此无法对对象形状和详细对象布局进行建模。与这些方法不同的是,我们从场景中捕获的语义分割的深度图像集合中学习GAN我们的方法将场景建模为语义场景体,并且可以生成具有更具体的对象形状及其详细布局的场景。室内场景完成与重建。已经开发了一组方法来从单个[20,7,21,28]或多个RGB和深度图像[3]完成或重建3D场景。一些对象布局重构方法[15,22,16]从单视图RGB图像恢复对象姿态、边界框所有这些方法被设计用于重建特定3D场景的几何和语义结构,并且需要收集完整的3D场景用于训练。相反,我们的方法旨在生成不同的3D场景布局,并从语义分割的深度图像的集合中学习从2D图像学习3D GAN。已经提出了一组方法[6,14,9与这些专注于从外部向内看的图像生成3D对象的几何形状或外观的方法不同,我们的方法专注于从内部向外看的图像生成室内场景布局。虽然我们的方法中的体积GAN是从HoloGAN [14]改编的,但这两种方法是不同的。通过用特征体积表示对象,Holo-GAN没有解开对象的形状和外观,因此无法在不同视图下生成3D对象的一致投影。相反,我们的方法模型的场景的几何形状和布局的语义体积,这保证了一致的投影从不同的意见,是至关重要的学习3D场景布局从图像captured从不同的未知场景。此外,不同于HoloGAN在训练中应用单个视图,我们为我们的任务提出了多视图。3. 方法概述在本节中,我们提供了方法的输入、输出和基本组件的概述在以下部分中,我们将讨论我们的方法和网络训练的每个组件的技术细节语义分割深度图像。我们的方法的输入是一个语义分割的深度im的集合15205我× × ××× ×图1.我们的方法概述。(a)容积式发电机;(b)在训练阶段中使用的投影层和鉴别器;(c)推理阶段的后处理和对象检索;(d)在我们的生成器中用于融合房间大小的条件输入的SpatialEmbed的详细结构。年龄I d,s,i = 1,2,. . . ,N,其中Id和Is是指深度图像及其语义标签图像。语义标签图像Is中的每个像素记录像素的可见表面点属于c〇、cl、cj、. . . ,cC,ce,其中ce是空白空间的标签,并且C是特定场景类别中的所有对象类的数量。对于输入语义分割图像,每个像素中的语义标签向量是二进制向量,对于像素的地面实况对象类为1,对于其他对象类为0对于所有输入图像,我们假设它们的相机由于我们没有关于输入图像的底层3D房间的信息,所以我们不知道是否从同一房间捕获两个图像。立体场景表示。我们用具有固定空间分辨率w的语义场景体积SV表示生成的3D室内场景Hd(323216),其每个体素存储其语义标签p0,p1,. . . ,pC,p e. 我们将场景的地板与体积的XY平面对齐,并将地板中心设置为底部体积层的中心(h/2,w/2,0)(在我们的实现中为(16,16,0)我们针对每个场景类别预定义并固定体素给定大小为Φ=(Rx,Ry,Rz)的房间,我们用语义体积SV表示房间中的对象的布局、类型和形状,其中房间边界之外的所有体素被标记为空。系统概述。我们的体积GAN由三个主要组件组成:发生器G、鉴别器D和连接发生器的可微分投影层和鉴别器。如图所示。1中,生成器G将潜在向量Zs和房间大小Φ作为输入,并且输出所生成的3D场景的语义场景体积SV。编码器网络EΦ将房间大小Φ编码成生成器的条件特征集合。在训练阶段中,投影层从不同视图渲染所生成的语义场景体积SV,并将渲染的语义深度图像馈送到CXD,以将它们与从训练数据集采样的真实图像在推理阶段,我们提取的对象实例从生成的语义场景体积中的后处理步骤,然后生成最终的3D场景,通过替换所有的对象实例与CAD模型,从对象数据库检索和最佳匹配的对象实例的形状和方向。4. 网络设计和培训4.1. 发生器我们采用HoloGAN[14]中的体积网络作为我们生成器的基本网络结构起始于2 2 1具有512个通道的恒定特征体积,我们的体积生成器由[14]中使用的四个去卷积块组成,每个去卷积块将特征通道的数量减少一半,并将特征的分辨率沿 每 个 维 度 的 体 积 。 我 们 在 前 三 个 块 中 使 用LeakyReLU作为激活函数,并在最后一个块中应用softmax激活来输出语义标签的概率。如在[14]中,我们使用AdaIn经由MLP将潜在代码z调制到每个块之后的特征体积中。为了控制所生成场景的房间大小,我们首先生成具有指定房间大小的二进制体积,其中房间内的所有体素都是标记为1,外部的其它体素标记为0。到用这个二进制卷控制发生器,我们编码通过具有4个卷积块的体积编码器EΦ来每个体积分辨率中的特征通道数量是体积分辨率的四分之一。15206·图2.我们的多视图鉴别器的设计。(a)我们设计的网络结构;(b)多个单视图鉴别器的朴素和。度量生成器层具有相同的体积分辨率,并且输出特征的长度zr与zs的长度相同。我们通过点积z=zs zr用房间控制特征z r调制潜在向量zs。同时,我们通过逐元素点积以相同的体积分辨率用E Φ的特征体积调制生成器中每个特征体积的1 / 4通道,如图1B所示。第1段(d)分段。有了这两个调制,我们的方法可以成功地限制场景生成的房间体积内指定的大小。4.2. 可微分投影层给定视点,我们应用可微光线一致性(DRC)[23]来从所生成的语义体积SV渲染深度和语义图像。具体地,我们将“空”标签的概率为了渲染每个像素中语义标签的概率向量,我们将每个对象类别的概率视为独立的体素属性,并通过DRC计算其像素值。然后,我们将所有对象类别的值和“空”标签的累积概率连接起来为了确保渲染的图像遵循训练图像的相同视图分布,我们使用相同的相机设置(即:内部参数、到可见房间墙壁的距离和姿态)作为训练图像的参数。4.3. 多视图鉴别器网络我们的鉴别器D将N个语义分割的图像Id ,s作为输入,并计算损失函数的分数。多视图鉴别器鉴别器的简单设计是将[14]中的单视图鉴别器或如[9]中的若干单视图鉴别器的总和应用于我们的任务。不幸的是,我们发现这种设计很容易图3.在不同数量的视图(列)和场景覆盖角(行)下,地面实况场景的对象共现图与随机视图组合的对象共现图之间的差异的可视化。暗红色表示由场景布局的较差近似引起的较大差异,而蓝色表示良好近似的较小差异任何大于1的差异。5e−2是由差的近似引起的,并映射到1。5e-2在这个可视化中。产生不良结果。可能的原因是场景生成需要解决比对象生成更大的深度变化,可微分光线一致性(DRC)倾向于驱动生成器创建具有更接近具有单视图鉴别器的视点的对象的场景。虽然生成的场景与GT不同,但它们的单视图渲染仍然匹配训练数据集中的一些图像有关详细讨论,请参阅补充资料。为了解决这个问题,我们设计了一个多视图识别器,在这里我们从一个场景中捕获的多个视图中提取特征给定多个语义分割的图像,我们使用两个特征提取器Ed和Es共享相同的网络结构,但独立的权重分别编码的深度和语义图像。每个网络由四个卷积块组成,每个卷积块包括一个卷积层,用于将图像分辨率降低到特征图的一半和两倍,一个频谱范数层和一个ReLU层。整形层输出长度为512的特征向量。之后,我们将所有输入图像的特征图2示出了我们的多视图鉴别器(图1)与多视图鉴别器(图2)之间的差异。2(a))和一个天真的组合,国家的单视图鉴别器(图。第2段(b)分段)。对于生成的3D场景,我们可以从一个场景中采样多个视图来覆盖场景,以便多视图鉴别器可以在训练中获得完整的场景布局信息然而,我们无法获得训练数据集中底层地面实况场景的布局,因为我们没有每个图像的场景信息。为了解决这个问题,我们使用训练图像的随机组合来近似底层地面实况场景的布局。为此,我们寻求一个最佳的15207Σ∼ΣΣ图4.对象检索步骤的图示。给定电视架的实例((在第一列中用红框突出显示),我们的方法从数据库中找到三个对象候选者及其旋转角度(在以下列中),其最佳匹配输入的形状和方向。注意,对于具有类似边界框但在不同行中示出的不同整体形状的电视架的两个实例,我们的方法可以为每个实例找到不同的CAD模型。视图配置(即,视图的数量和每个视图的覆盖率)的图像组合,其可以最好地近似地面实况场景布局。为了这个目的,我们渲染由艺术家从房间中心建模的一组3D房间的全景图像,然后将全景图像分成不同数量的视图,每个视图对应于视图覆盖设置。对于每个特定的视图覆盖,我们生成一组图像组合,其中每个组合包括从视图集合中随机挑选的特定数量的图像。之后,我们计算地面实况3D房间中的对象的同现图[8]与具有特定数量的视图和视图覆盖的图像组合中的对象的同现图之间的差异。因为共生图提供场景中的对象分布的一阶统计,所以它提供了图像组合可以多好地近似底层场景的对象分布的合理指示。图3示出了不同视图数量和覆盖配置的差异的热图,其中暗红色的视图配置导致底层场景布局的差的近似,并且蓝色和绿色的视图配置提供相对好的近似。基于在这种经验分析中,我们的方法将每个图像的视角设置为110°左右,并在一个图像组合中包括从训练数据集中随机挑选的4个图像,用于网络训练。4.4. 网络训练损失函数我们遵循[14]中的训练方案,使用为我们的任务定义的新损失函数来训练我们的体积GAN。具体来说,发电机的损耗定义为:LG(ZS,Ψ)=log(D(P(G(ZS,Ψ)zsZ S,ψΨ+(−M0(ψ)log(G(zs,ψ),(1)图5.对象实例容量对对象检索的影响.给定由我们的方法生成的输入语义场景体积(在第一列中示出),我们比较通过检索具有提取的对象实例体积的CAD模型生成的场景(第一行)和通过检索提取的对象实例的边界框生成的场景(第二行)。请注意,我们的方法可以成功地生成场景的详细对象布局(例如TV和TV支架在红色框中),而基于边界框的方法失败。其中第一项是生成损失,第二项是交叉熵损失,用于将所生成的场景体积中的房间边界之外的体素约束为“空”。这里P是可微投影层,并且M0是Φ的掩模体积中的空体素。鉴别器的损失定义为:LD(Y,Z,Ψ)=(1−log(D(P(G(z,Ψ)zZ,ψΨ+log(D(y))(2)yY其中,是从训练数据集中选择的真实联合视图图像的集合。5. 3D室内场景生成给定房间大小Φ和从潜在空间随机采样的潜在向量Zs,经训练的体积GAN可以生成存储房间中的对象实例的布局和粗略形状两者的语义场景体积。为了生成最终的3D场景,我们从语义场景体中提取对象实例,并将其替换为从3D对象数据库中检索到的CAD模型。为了从语义场景体中获取对象实例,我们首先将每个体素的语义标签设置为具有最大概率的语义标签。我们随机选取一个体素,并通过泛色填充算法将其相邻体素与对象实例具有相同的标签进行迭代之后,我们标记对象实例中的所有体素我们重复这个过程,直到处理完体积中的所有为了去除异常值,我们丢弃其大小小于3D对象数据库的相同对象类中的对象的最小大小的对象实例。我们的实验表明,只有约1%的对象实例被删除在这一步。15208我我我× ×××××表1.在我们的实验中使用的每个训练数据集中的场景,图像和对象类的数量对象检索和放置每一物件─从语义场景卷中提取的立场M,我们搜索3D对象数据库E(M)以找到3D对象Mi及其沿Z轴的旋转φ,使得Mi和Mφ属于相同的对象类并且旋转的Mθ最佳匹配M的形状与体积中的周围物体的碰撞最小i*,φ*=argminCD(M,M φ)+λw(M φ)(3)图6.地面实况场景的共现图和由GRAINS[8]、DeepPrior[25]和我们的方法生成的共现图。注意,我们的方法的同现图比由GRAINS和DeepPrior生成的同现图更类似于地面实况图,特别是对于由箭头指示的列中的值。第二行说明了GRAINS和DeepPrior生成的典型非自然场景,以及3D场景生成。i∈I,φ ∈Φici用我们的方法。请参考补充材料,了解通过不同方法生成的场景的所有共现图。其中CD是候选项之间的倒角距离实例M和旋转对象M φ。wc是惩罚我们将图像降采样到32×18。为此目的,空间碰撞术语,由放置在场景中的旋转模型M φ与具有其他对象类ID的周围体素之间的IoU定义。λ是标量(1.0)来平衡距离和碰撞项。图. 4说明了我们的对象生成的结果检索和放置算法。 注意,体积表示提供场景中的对象的粗略形状和取向,并且因此导致详细的对象布局(例如,对象的形状和取向)。电视和电视架),这些都是很难被建模的对象的边界框。6. 实验结果实现细节我们使用Tensorflow实现我们的算法,并在具有4个TESLA V100 GPU的机器上训练我们的GAN模型。我们通过Adam优化器训练网络。语义场景体和图像的大小为323216和3218分别。的学习率为2e-4,批量大小为128。培训在2,000个历元后收敛。训练数据集我们在Structured3D [29]和Matterport3D [1]场景集合中的语义分割深度图像数据集上测试我们的方法。我们还将我们的方法应用于语义深度图像推断RGB图像 [19]第二季第19集在所有实验中,我们使用ShapeNet数据集[26]来检索和放置CAD模型以生成最终的3D场景。对于Structured3D,我们在三个场景类别(卧室,客厅和厨房)上训练我们的模型对于每个场景类别,我们通过检查到房间中心的光线与图像的光轴之间的角度来收集图像,并选择扫描角度小于±45◦的所有图像。在那之后,我们首先将语义分割的深度图像投影回3D空间,然后将3D空间体素化为323216卷。最后,我们将体积渲染到32.从原始视点的18个语义分割的深度图像。对于每个场景类别,我们也将具有相似功能的对象类合并为一个并移除场景中不频繁出现的对象的类别。从被移除的对 象 渲 染 的 像 素 的 类 ID 被 设 置 为 空 。 对 于Matterport3D,我们遵循相同的过程来从我们的实验中的卧室猫屋收集图像对于NYUv2数据集,我们使用[13]中的方法为卧室场景类别中的所有未标记RGB图像生成深度和然后,我们手动删除噪声的结果,并选择1459图像相对较大的视图覆盖范围。之后,我们遵循上述过程以从推断的语义分割的深度图像生成训练图像集。我们实验中使用的训练数据集的统计数据列于表中。1.一、6.1. 方法评价为了验证我们的网络设计和我们的方法对其他现有解决方案的优势,我们使用从[8]中的地面真实数据集的相同场景类别渲染的语义分割深度图像来训练我们的模型,以进行公平的比较。我们首先比较了由我们的方法生成的场景中的对象的共现图[8]以及DeepPrior[25]和GRAINS[8]中的对于任何两个对象类,它们的同现图值是两个对象类一起出现的场景的数量与只有一个对象类出现的场景的数量数据集图像场景对象类结构化3D卧室1606452199结构化3D客厅6592221111立体厨房300914915Matterport 3D-卧室12171788NYUv 2-RGB-卧室14951191015209图7.在我们的用户研究中,参与者选择的方法的百分比在这两个实验中,参与者更喜欢我们的方法生成的结果,而不是GRAINS[8]和DeepPrior[25]将显示“对象类”(在行中显示)。如图6,我们的方法的共现图比DeepPrior和GRAINS的共现图更符合地面事实。特别是,GRAINS[8]在结果场景中生成的沙发比地面实况少得多,而DeepPrior[25]在结果中生成更多的看台(图中箭头所示的列)。(六)。我们进一步进行了两项用户研究,以比较我们的方法生成的场景与分别由GRAINS和DeepPrior生成的场景的视觉质量。在每项研究中,我们显示了从具有相同渲染设置的三个场景渲染的图像:一个由我们的方法生成,一个由现有方法生成,以及具有与所生成的对象类类似的对象类的地面实况引用。我们向20名参与者展示了相同的30组图像。对于每组三张图像,我们要求每个参与者从两个生成的结果中选择一个,这些结果与参考更合理。对于GRAINS和DeepPrior,我们只渲染与我们的用户研究中的地面实况的共现图相匹配的场景的图像,如图7、用户更喜欢我们的方法生成的场景比其他现有的方法生成的场景。最后,我们评估我们的方法生成的三维场景的多样性和质量。对于多样性,我们实现了[ 24 ]中的相似性度量,并且生成的场景布局和GT的平均相似性为0。335(Gen)和0. 457(GT),这表明我们的方法很好地保留了训练数据集中场景布局的变化 对于质量,我们遵循[ 18 ]中的方法并评估真实与通过用从随机视点渲染的所生成场景的800个语义分割的深度图像和800GT语义分割的深度图像训练分类器,可以提高我们的方法的综合分类准确度。之后,我们用从另一组生成的场景渲染的320个语义分割的深度图像计算准确度分数,结果是60。9%,这说明我们的结果很难被归类为真或假。表2.消融研究的结果,其中数字是由不同网络配置生成的场景的接收比。6.2. 消融研究我们对Structured 3D-Bedroom数据集进行了一组消融研究,以验证我们的网络设计,并在表中列出了所有结果。2,其中由于在不同的网络配置的结果的统计相似性,我们发现的同现图和用户学习度量中使用的Sec。6.1不能明确表示不同网络配置的区别。相反,我们要求5位经验丰富的用户,他们可以根据自己的先验知识来识别故障情况,从每个网络设置随机生成的50个场景中挑选故障情况,然后计算结果的接受率进行比较。单视图与多视图鉴别器为了验证我们的多视图鉴别器的优势,我们用图1所示的单视图鉴别器训练GAN模型。第1段(c)分段。与多视图鉴别器(我们的)相比,用单视图鉴别器(SV-D)训练的GAN的接受率从80. 0到710的情况。我们的方法使用不同的编码器来从多视图判别器中的语义和深度通道提取特征。替代解决方案是将语义通道和深度通道堆叠在一起,并且利用一个统一的编码器来提取特征。我们的方法优于该模型的替代编码器方案(USD-MV-D)与10。7.电容比间隙(80。0与 69岁。(3)第三章。统一与分离的多视图鉴别器代替用于深度和语义两者的一个统一的多视图鉴别器该设计(SD-MV-D)比我们的具有16. 0验收比差距(64。0与 八十0)。多视图鉴别器中的视图数量我们当前的网络应用了具有4个视图的多视图鉴别器进行GAN训练。为了分析我们的模型在多视图鉴别器中使用不同数量的视图时的性能在我们的模特训练中如表中所示。2,我们的方法取得了最好的性能,而较少的视图(2 view-D)或更多的视图(6view-D和8view-D)的模型产生较差的结果。方法SD-MV-DUSD-MV-DSV-D我们Acc. 比64.069.071.080.0方法2View-MV-D6View-MV-D8View-MV-DAcc. 比70.772.070.315210××图8.通过我们的方法生成的三维场景的不同场景类别。第一行显示了从Structured 3D-Bedroom数据集生成的结果。第二行中左边的三个结果是从Structured 3D-Livingroom数据集生成的结果,右边的三个结果是从Structured 3D-Kitchen数据集生成的结果。第三行和最后一行分别显示了从Matterport 3D-Bedroom和NYUv 2-RGB-Bedroom数据集生成的结果。每个结果的语义场景体积在每个图像的右上角示出。体积表示和分辨率语义体积表示成功地模拟了粗糙的物体形状和它们的详细布局。如图4和图5所示。5,它为对象检索和放置提供了比对象的边界框更好的输入,并且生成了难以通过现有方法建模的对象的详细布局。低分辨率语义卷32 32 16在我们目前的实现中使用该方法在模型能力和计算成本之间实现了良好的平衡。我们训练一个GAN模型,64×64×32体积,结果相似。6.3. 视觉结果图8可视化了由我们的方法从不同场景类别和数据集 生 成 的 3D场 景 , 包 括 Structured 3D- 卧 室 ( 第 一行)、Structured 3D-起居室(第二行中的前三个)、Structured 3D-厨房(第二行中的后三个)、MatterPort3D- 卧 室 ( 第 三 行 ) 和 NYUv 2-RGB- 卧 室 ( 第 四行)。对于所有这些场景类别,我们的GAN模型成功地学习并生成了两个大型(例如,机柜和床)和小物体(例如,天花板灯、照片)。此外,我们的方法是强大的合成场景和真实场景,以及从真实RGB图像推断的语义分割的深度图像。由于语义场景体表示,我们的方法可以生成非立方体曼哈顿布局和详细的场景布局,如不同方向的椅子,桌子下的椅子更多视觉效果可以在补充中找到。7. 结论我们提出了一个从语义分割的深度图像学习的GAN模型,用于3D场景生成。为此,我们建模的场景布局与语义场景体积,并提出了一个新的多视图鉴别器有效的GAN训练。我们的方法大大减少了捕获或建模三维场景的工作量,并产生了良好的结果,包括详细的场景布局,是很难被模型使用以前的方法。我们的方法仍然有一些局限性。由于语义场景体积不具有家具实例信息,因此我们的方法需要后处理以将家具实例从体积中分离以用于对象检索。探索一种新的场景布局表示,可以很好地建模场景中的家具实例是有趣的。此外,我们的方法仍然需要后处理和对象检索生成的3D场景。在这一领域的一个有前途的方向最后,从RGB图像集合中学习3D场景的生成模型是有趣的。致谢我们要感谢匿名审稿人的建设性意见和建议,以及Yue Dong和Nathan Holdstein对校对论文的帮助15211引用[1] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niebner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d:室内环境中rgb-d数据的学习。在2017年3D视觉国际会议(3DV),第667-676页,2017年。二、六[2] AngelChang , WillMonroe , ManolisSavva ,Christopher Potts和Christopher D Manning。文本到3D场景生成,具有丰富的词汇基础。在ACL,2015年。一、二[3] Angela Dai,Christian Diller,and Matthias Nießner. Sg-nn:用于rgb-d扫描的自监督场景完成的稀疏生成神经网络。在IEEE Conf. Comput.目视患者记录,第849-858页,2020。2[4] Matthew Fisher 、 Daniel Ritchie 、 Manolis Savva 、Thomas Funkhouser和Pat Hanrahan。基于实例的三维物体排列合成。ACM事务处理图表,31(6):1-11,2012. 一、二[5] Qiang Fu,Xiaowu Chen,Xiaotian Wang,Sijia Wen,Bin Zhou,and Hongbo Fu.通过活动相关对象关系图的室内场景自适应合成。ACM Trans.Graph. ,36(6):1-13,2017. 一、二[6] Matheus Gadelha,Subhransu Maji和Rui Wang。从多个对象的2D视图的3D形状归纳。在2017年3D视觉国际会议(3DV),第402-411页,2017年2[7] 郭玉笑和童欣。用于从单个深度图像完成语义场景的视体积网络在IJCAI,第726-732页,2018年。2[8] Manyi Li , Akshay Gadi Patil , Kai Xu , SiddharthaChaudhuri,Owais Khan,Ariel Shamir,Changhe Tu,Baoquan Chen , Daniel Cohen-Or , and Hao Zhang. 颗粒:生成递归自动编码器的室内场景 . ACM Trans.Graph. ,38(2):1-16,2019. 一、二、五、六、七[9] 小李、岳东、皮特·皮尔斯、心彤。使用多投影生成对抗网络从剪影图像集合合成3D形状在IEEE会议Comput. 目视模式识别,第5535二、四[10] Andrew Luo,Zhoutong Zhang,Jiajun Wu,and JoshuaB.特南鲍姆场景布局端到端优化。在IEEE Conf. Comput.目视模式识别,第37542[11] Rui Ma , Akshay Gadi Patil , Matthew Fisher , ManyiLi,SoürenPirk,Binh-SonHua,Sai-KitYeung,XinTong,Leonidas Guibas,and Hao Zhang.从场景数据库中提取三维场景。ACM事务处理图表,37(6):1-16,2018.一、二[12] Paul Merrell , Eric Schkufza , Zeyang Li , ManeeshAgrawala,and Vladlen Koltun.交互式家具布局使用内部设计准则. ACM事务处理图表,30(4):1-10,2011.一、二[13] Vladimir Nekrasov 、 Thanuja Dharmasiri 、 AndrewSpek、Tom Drummond、Chunhua Shen和Ian Reid。使用非对称注释的实时联合语义分割和深度估计在2019年国际机器人与自动化会议(ICRA)上,第7101-7107页,2019年。6[14] Thu Nguyen-Phuoc,Chuan Li,Lucas Theis,ChristianRichardt,and Yong-Liang Yang. Hologan:无监督15212从自然图像学习3D表示。 在Int.确认补偿目视,第7588-7597页,2019年。二三四五[15] Yinyu Nie , Xiaoguang Han , Shihui Guo , YujianZheng,Jian Chang,and Jian Jun Zhang.全三维理解:从 单 幅 图 像 中 进 行 室 内 场 景 的 联 合 在 IEEE Conf.Comput.目视模式识别,第55-64页,2020。2[16] Stefan Popov , Pablo Bauszat , and Vittorio Ferrari.Corenet:从单个rgb图像进行相干3d场景重建以Eur. Conf. Comput. 目视,第3662[17] Siyuan Qi , Yixin Zhu , Siyuan Huang , ChenfanfuJiang,and Song-Chun Zhu.以人为中心的室内场景合成使用随机文法。 在IEEE会议Comput. 目视模式识别,第5899-5908页,2018年。一、二[18] Daniel Ritchie,Kai Wang,and Yu-an Lin.通过深度卷积生成模型进行快速灵活的室内场景合成在IEEE Conf.Comput.目视模式识别,第6182-6190页,2019年。一、二、七[19] Nathan Silberman 、 Derek Hoiem 、 Pushmeet Kohli 和Rob Fergus。室内分割和支持从rgbd图像推断。以Eur.确认补偿目视,第746-760页,2012。6[20] Shuran Song 、 Fisher Yu 、 Andy Zeng 、 Angel XChang、Mano-lis Savva和Thomas Funkhouser。语义场景完成从一个单一的深度图像。在IEEE Conf. Comput.目视模式识别,第1746-1754页,2017年。2[21] Shuran Song,Andy Zeng,Angel X Chang,ManolisSavva , Silvio Savarese 和 Thomas Funkhouser 。Im2pano3d:在视野之外对360结构和语义进行外插。在IEEE Conf. Comput.目视模式识别,第3847-3856页,2018年。2[22] Shubham Tulsiani,Saurabh Gupta,David F Fouhey,Alexei A Efros,and Jitendra Malik.从3d场景的2d图像分解形状、姿态和布局。在IEEE会议Comput. 目视模式识别,第3022[23] Shubham Tulsiani,Tinghui Zhou,Alexei A Efros,andJi-tendra Malik.通过可微分光线一致性进行单视图重建的多视图监督在IEEE会议Comput. 目视模式识别,第26264[24] Kai Wang , Yu-An Lin , Ben Weissmann , ManolisSavva,Angel X Chang,and Daniel Ritchie.Planit:利用关系图和空间先验网络规划和演示室内场景ACM事务处理图表,38(4):1-15,2019. 一、二、七[25] Kai Wang , Manolis Savva , Angel X Chang , andDaniel Ritchie.用于室内场景合成的深度卷积先验。ACM事务处理图表,37(4):1-14,2018. 一、二、六、七[26] Zhirong Wu,Shuran Song,Khosla Aditya,LinguangZhang , XiaoouTang , andJianxiongXiao.3dshapenets:体积形状的深度表示。 在IEEE会议Comput.目视模式识别,2015年。6[27] Lap Fai Yu,Sai Kit Yeung,Chi Keung Tang,DemetriTerzopoulos,Tony F Chan,and Stanley J Osher. 使ithome:自动优化家具布置。ACM事务处理图表,30(4),2011. 一、二[28] 张平平,刘伟,雷银杰,卢沪川,杨晓云.用于全分辨率3d语义场景完成的级联上下文金字塔。在国际会议计算中目视,第7801-7810页,2019年。215213[29] Zaiwei Zhang,Zhenpei Yang,Chongyang Ma,LinjieLuo , Alexander Huth , Etienne Vouga , and QixingHuang.通过混合
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功