智能家居3D设计：基于语言描述的自动生成房屋平面和纹理

5 浏览量更新于2023-10-25 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12625智能家居3D：仅基于语言描述的自动3D房屋设计陈琦1、2吴琦3唐睿4王玉涵4王帅4谭明奎1<$1华南理工大学2中国广州实验室3澳大利亚阿德莱德大学澳大利亚机器人视觉中心4酷家乐公司sechenqi@mail.scut.edu.cn{ati，daishu，luorui}@qunhemail.comadelaide.edu.aumingkuitan@scut.edu.cn摘要家居设计是一项复杂的工作，通常需要建筑师完成他们的专业技能和工具。这将是迷人的，如果一个人可以产生一个房子计划，在没有太多的知识，家居设计和经验，使用复杂的设计工具，例如，通过自然语言。在本文中，我们制定了它作为一个语言条件下的视觉内容生成问题-(a) 用户语言要求(b) 3D房屋设计LEM被进一步划分为地板平面生成和内部纹理（例如地板和墙壁）合成任务。生成过程的唯一控制信号是用户给出的描述房屋细节的语言表达。为此，我们提出了一个房屋平面图生成模型（HPGM），首先将语言输入转换为结构图表示，然后用图条件布局预测网络（GC-LPN）预测房间的布局，并用语言条件纹理GAN（LCT-GAN）生成室内纹理。经过一些后期处理，这个任务的最终产品是一个3D房屋模型。To train and evaluate ourmodel, we build the ﬁrst Text–to–3D House Model dataset,whichwillbere-leasedat:https://github.com/chenqi008/HPGM.1. 介绍每个人都想要一个梦想中的家，但不是每个人都能自己设计家.家居设计是一项复杂的任务，通常由认证建筑师完成，他们必须接受多年的设计，规划和使用特殊设计工具的培训。为了设计一个家，他们通常从收集建筑布局的要求列表开始。然后，他们使用试错法结合直觉和先前的经验来生成布局。这*作者贡献均等。†通讯作者。图1：在文本到3D房屋模型数据集上使用HPGM生成的3D房屋描述的示例。从需求生成3D房屋旨在根据给定的语言描述自动设计3D建筑。一般需要几天到几周的时间，对专业知识要求很高。如果我们能自己设计自己的家，那就太棒了。我们可能没有设计知识，也不知道如何使用那些复杂的专业设计工具，但我们有很强的语言能力来表达我们的兴趣和愿望。因此，为了节省时间并允许没有专业知识的人参与设计，我们建议使用语言表达作为指导来生成家居设计方案（图1）。由于深度学习的快速发展[6，9，11，45，46，51，52，53，55]，特别是生成对抗网络（GAN）[3，4，8，10]和视觉语言研究[13，29，38，47，50]，我们可以把这个问题转化为一个文本到图像生成问题，这个问题已经在[22，30，32，43，44]中研究过了。然而，将这些方法直接应用于我们的新任务并非易事，因为存在两个新的技术挑战：1）一个文本平面图是一个结构化的布局，它更注重不同块的大小、方向和连接的正确性，而传统的文本到图像任务更注重像素级的生成精度。2）室内纹理，如地板和墙壁，需要比一般图像更整洁和更稳定的像素生成，这幢楼有两间卧室、一间卫生间、一个阳台、一间客厅和一个厨房。卧室2是在东南与10平方米。卧室2楼是白色的木材单板和墙壁是蓝色的墙布.起居室1在卧室1的旁边卧室1与阳台112626与所给出的描述一致。为了解决上述问题，我们提出了一个房屋平面图生成模型（HPGM）生成家庭计划从给定的语言描述。HPGM首先使用Stan-ford Scene Graph Parser [33]将语言解析为结构图布局，其中节点表示与大小，房间地板（墙壁）颜色和材料相关的房间类型。节点之间的边指示房间是否连接。然后，我们将房屋平面图生成过程分为两个子任务：建筑布局生成和纹理合成。它们都是以上述前结构图为条件的。具体来说，我们设计了一个图形条件布局预测网络（GC-LPN），它应用图形卷积网络[20]将图形编码为特征表示，并通过边界框回归预测房间布局。所预测的房间布局被发送到地板平面后处理步骤，其输出具有门、窗、墙等的特色地板平面。为了生成地板和墙壁纹理，我们设计了一个语言条件纹理GAN（LCT-GAN），它将编码的文本表示作为输入，并生成具有三个设计的对抗性，材料感知和颜色感知损失的纹理图像。生成的房屋平面图和纹理图像被发送到自动3D渲染系统以产生最终渲染的3D房屋平面图。对于从语言描述生成3D房屋，我们构建了第一个我们评估房间布局- 我们的模型的输出生成和纹理生成能力分别。基于预测的房间边界框和地面实况注释之间的IoU（Intersection over Union）来评估房间布局精度。生成的内部纹理使用流行的图像生成度量进行评估，例如Fre'chetInceptionDistance（FID）[12]和多尺度结构相似性（MS-SSIM）[39]。我们提出的GC-LPN和LCT-GAN在很大程度上优于基线方法。此外，对LCT-GAN的泛化能力进行了评估。我们还对最终产品- 3D房屋平面图进行了人为评估，结果显示39。41%通过。我们强调我们的主要贡献如下：我们提出了一种新的架构，称为房屋平面生成模型（HPGM），这是能够生成3D房屋模型与给定的语言表达。为了降低难度，我们将生成任务分为两个子任务，分别生成地板平面图和内部纹理。为了实现从文本合成3D建筑模型的目标，我们收集了一个新的数据集，包括建筑布局，纹理图像，以及它们相应的自然语言表达。• 大量的实验表明，我们的有效性，提出了定性和定量指标的方法。我们还研究了所提出的方法的泛化能力，通过生成看不见的数据与给定的新文本。2. 相关工作建筑布局设计。已经提出了几种用于自动生成建筑布局的现有方法[1，5，24，28，40]。然而，这些方法中的大多数仅通过调整给定建筑物轮廓中的内部边缘来生成建筑物布局。具体而言，Mer- relet al. [24]使用在建筑程序中训练的贝叶斯网络生成住宅建筑布局。基于初始布局，Baoet al. [1]制定一个约束优化来优化局部形状空间，然后将它们链接到门户图以获得目标布局。Peng等[28]设计一个框架，通过在一个任意形状的建筑轮廓上铺设一套可变形的模板。Wu等[40]开发一个框架，生成具有高级需求的建筑内部。最近，Wuet al. [41]提出了一个数据驱动的基于数千个样本的布线方案生成系统。然而，上述方法需要给定的建筑轮廓或详细的结构化表示作为输入，而我们用人类的口头命令生成房间布局。纹理合成。在纹理生成方面，许多现有的工作集中在将给定图像转换为新的纹理风格[16，21，36]或基于输入纹理合成新的纹理图像[7，35，42]。与此不同的是，我们的目标是解决问题，生成纹理图像与给定的语言表达式。我们任务的最佳替代方案是从随机噪声生成纹理[2，15]。具体来说，Jetchevet al. [15]提出了一种基于GANs的纹理合成方法，该方法可以从给定的示例图像中学习生成过程。最近，为了获得更令人印象深刻的图像，Bergmannet al. [2]在生成模型中加入了周期信息，使模型具有无缝合成周期纹理的能力。即使这些方法有很强的能力产生合理的图像，他们有有限的现实世界中的应用，由于不可控的和随机产生的结果。我们使用自然语言作为纹理生成的控制信号。文本到图像生成。为了从文本生成图像，在该领域提出了许多基于GAN的方法[17，23，30，32，43，44，48，49，54]。Reed等人[32]将给定的句子转换为文本嵌入，然后在提取的嵌入上生成图像条件。此外，为了产生更逼真的图像，Zhangetal. [49]提出了一个分层网络，称为StackGAN，它生成不同大小的图像（从粗到粗）。··12627文本输入文本表示邻接矩阵AGC-LPN图GCNْ�………布局特征X…LCT-GAN纹理特点五…G…平面图后期处理输入层1层2斯坦福场景图解析器∈图2：HPGM概述我们使用Stanford Scene Graph Parser来解析给定的文本输入，并获得结构化文本表示X，V和A。基于X和A，GC-LPN使用图卷积网络生成粗略的建筑布局，然后进行后处理以细化生成的建筑平面图。LCT-GAN根据V.最后，使用三维场景生成方法生成目标三维房屋平面图。Fine）。同时，引入了一种条件增广的方法来避免文本嵌入的隐流形的不连续性。基于StackGAN，Xuet al. [43]开发注意力机制，确保生成的细粒度图像与相应的单词级条件之间的对齐。最近，为了保持语义的一致性，Qiaoet al. [30]同时考虑文本到图像和图像到文本的问题。3. 该方法在本文中，我们专注于3D房屋生成的要求，旨在设计一个3D建筑自动条件下给定的语言描述。由于3D房屋设计的内在复杂性，我们将生成过程分为两个子任务：建筑物布局生成和纹理合成，其产生地板平面和相应的房间特征（即，每个房间的纹理）。为了完成上述两个任务，我们提出了一个房屋平面生成模型（HPGM），以自动生成一个3D家居设计的条件下，给定的描述。如图2所示，拟议的HPGM由五个部分组成：1）文本表示块，2）图形条件布局预测网络（GC-LPN），3）底层平面后处理，4）语言条件纹理GAN（LCT-GAN），以及5）3D场景生成和渲染。在图 2 中，文本表示是使用 Stanford Scene GraphParser [33]从给定文本中捕获结构文本信息。基于文本表示，GC-LPN被设计用于产生粗略的建筑布局。为了获得真实世界的2D地板平面图，我们将生成的布局发送到地板平面图后处理步骤，以细化粗略的建筑物布局，从而产生具有窗户和门的地板平面图。为了合成每个房间的内部纹理，我们进一步设计了一个语言条件纹理GAN（LCT-GAN）生成符合语义文本表示的可控、整洁的图像。最后，我们将生成的具有房间特征的房间平面图馈送到3D渲染系统中，用于3D场景生成和渲染。每个组件的详细信息如下所示。3.1. 文本表示建筑的语言描述包括房间数量和房间类型的描述，房间之间的联系，以及每个房间的设计模式。虽然它遵循弱结构化格式，但由于语言描述的多样性，直接使用基于模板的语言解析器是不切实际的。相反，我们使用斯坦福场景图解析器[33]进行一些后处理和合并，将语言描述解析为结构图。对于这样构造的图，每个节点是具有某些属性的房间（例如，房间类型、大小、内部纹理）。节点之间的边表示两个房间的连通性。场景图解析器的更多细节可以在补充资料中找到。由于建筑布局生成和纹理合成需要不同的语义信息，我们使用不同的表示作为输入。在建筑布局生成中，我们将输入向量定义为XRN×D，其中 N是指节点的数量（即，房间），D表示特征尺寸。每个节点要素xi={αi，βi，γi} ∈RD是三元组，其中αi是房间的类型（例如，卧室），β i是尺寸（例如， 20个正方形）和γ i是位置（例如，西南）。所有特征都被编码为独热向量，除了大小是实值。此外，委员会认为，为了更好地利用拓扑信息，在[20]之后，我们通过引入邻接矩阵A∈RN×N将输入特征X转换为无向图G。在纹理合成任务中，对于给定的文本，我们trans.感知器层3D场景生成12628（c）第（1）款（d）其他事项（e）∈·∼∈(a)（b）第（1）款图3：地面平面图后处理流程。将语言表达式形成向量VR2N×M，其中2N表示每个布局中的纹理数量，M表示每个特征vector.对于v∈RM，我们设计v={p，q}，其中p边界框回归。在使用GCN对图进行推理之后，我们获得了一组嵌入向量，其中每个向量聚合了相邻房间的信息。为了生成建筑布局，我们必须将这些矢量从图形域转换到图像域。因此，我们将每个房间定义为一个粗略的2D边界框，可以表示为bi=（x0，y0，x1，y1）。通过这种方式，我们将问题转化为从给定的房间嵌入向量生成边界框在实践中，我们首先将精心设计的特征S馈送到一个双层感知器网络h（）中，并预测每个节点的相应边界框bi=h（Si） =（x0，y0，x1，y1）。然后，我们对所有预测的框进行积分，并得到相应的建筑布局。训练提出的模型，我们最小化的目标函数1公斤2我我LB=bi−bi2，（3）表示材料（例如，原木、马赛克或石砖），Q1是指颜色。我们从训练数据中预先构建材料和颜色词汇表，以便我们可以将解析的属性分类到材料或颜色集中。3.2. 图条件布局预测网络为了生成满足要求的建筑布局，我们提出了一个图条件布局预测网络（GC-LPN）。我们通过GCN将相邻信息合并到提取的特征中，这有利于生成目标布局时的性能。图卷积网络。为了以端到端的方式处理上述图，我们使用Ni=1其中B1是第i个节点的真实边界框（即，覆盖房间的边界框）。3.3. 平面图后期处理为了将边界框布局转换为真实世界的2D布局平面，我们提出了一个布局平面后处理（如图3所示），它由五个步骤组成，即，(a)（e）. 具体来说，在步骤（a）中，我们首先提取所有生成的边界框的边界线，然后在步骤（b）中将相邻的分段合并在一起。在步骤（c）中，我们进一步将线段彼此对齐以获得闭合多边形。在步骤（d）中，我们基于权重函数来判断每个闭合多边形的归属：图卷积网络由两个图卷积组成旋转层具体来说，我们取特征矩阵∫∫W=1IJexp∫−（xj— cxi2yj）-（、— cyi）2 dx dy，X∈RN×D作为输入并产生新的特征矩阵，我爱你JJ我（四）其中每个输出向量是局部相邻向量的聚合，其对应的输入向量的边界。通过这种方式，我们获得了一个新的特征矩阵，它引入了输入的局部邻域的信息。注意，由于我们只关注于生成住宅建筑物的布局，因此相应图的顺序和大小都很小。因此，在引入相邻房间的信息时，利用两层GCN模型（如图2所示）就足够了。从数学上讲我们有Y =g（X， A）= Softmax（AReLU（AXW）W），其中i = 1，2，…n是第i个原始盒子（房间），而j=1，2，...，m是第j个对齐的多边形。Wij表示属于房间i的第j个多边形的权重。 cxi和cyi表示中心位置，而wi和hi是第i个边界框的半宽和半高。xj和yj是对齐的多边形中的坐标。我们根据相应的原始边界框为第j个多边形分配房间类型，该边界框具有最大权重W。最后，在步骤（e）中，我们应用一个简单的基于规则的方法来在房间中添加门和窗。具体来说，一扇门或其中W0∈RD×D 且W1∈RD×D0 1（一）是权重在起居室和任何其他房间之间增加了一面开放的墙。我们把窗户设在每个房间把入口设在最大客厅的墙上两个图形卷积层。请注意，矩阵A仅包含1和0，这表示节点（房间）对是否相邻。YRN×D是结构特征。然后，将提取的特征Y与输入特征X相加，得到特征S ∈RN×DS=XY，（2）其中，“我们发现这些规则在大多数情况下都有效，并且足以设置合理的位置，但是基于学习的方法可以改善这个过程，我们将其作为未来的工作。3.4. 语言条件纹理GAN为了更好地控制纹理的细节，我们将纹理图像分为两个场，即，的选材及H12629N∈∈×|L LL∈|H图4：LCT-GAN的架构。发电机Gtrans-我们将λ1和λ2默认设置为1。我们将在下面的章节中详细说明导致这些损失对抗性损失。为了合成自然图像，我们遵循传统的GAN[8]，其中生成器G和GAND在两个玩家的极大极小游戏中竞争。具体地说，生成器G试图欺骗CIDD，而D试图区分给定的图像是真实的还是虚假的/生成的。在此基础上，对于我们的任务，当优化CJD时，我们将损失最小化LDAdv=−ER<$Pr[logD（R）]−EZ′<$Pz[logg（1−D（G（Z）]，其中Pr和Pz分别表示实际样本和噪声Z指的是G的输入，如人-′由噪声Z和条件p组成，将条件噪声Z形成为RGB图像G（Z），完全卷积层。鉴别器D，用于为了区分假数据和真数据，馈送假图像G（Z）或真图像R。在D之上添加了两个分类器（φ和φ），分别用于将图像强加到正确的材料和颜色类别中。颜色通过这种方式，我们设计了一个语言条件纹理GAN（LCT-GAN）（图4），它可以生成与给定表达式对齐的纹理图像。′纹理生成器。我们首先得到输入噪声Z高斯分布下的R_w×h×d_1（0，1）。之后，为了包含条件信息，我们扩展了上述材料和颜色矢量p∈R1×1×d2Q. 另一方面，当优化网络G时，我们使用LAdv=−EZ′<$Pz[logD（G（Z））]。（七）材料感知损失。为了保持生成的纹理和给定文本之间的语义对齐，我们提出了一种材料感知损失，它对细粒度的材料类别敏感。具体来说，如第3.1节所述，我们将语言描述转换为结构形式，其中包括每个节点的标签，以指示其地板/墙壁材料类别。然后，我们在D的顶部添加一个材质分类器，称为φ，它将生成的纹理强制放入正确的类别。这样，我们得到了后验概率φ（cm|·）每个条目图像，其中cm是指材料类别。因此，我们最小化且q∈R1×1×d3′与噪声Z的大小相同和G和D的训练损失为然后将它们连接在一起以获得客观输入ZRw×h×（d1+d2+d3）.以输入张量Z为条件，通过G（Z）生成相应的纹理图像.RW×H×3，其中W 和H分别表示所生成的图像的宽度和高度。注意，为了生成任意大小的纹理，我们设计了具有全卷积网络（FCN）的生成器G，其允许在推断时输入具有不同大小的Z。在实践中，我们建立的FCN模型只有五个块，每个块由一个LM=−ERPr[logφ （ cm|R ） ]−EZ′<$Pz[logφ （ cm|G（Z））]。（八）颜色感知损失。与上述材料感知损失类似，颜色感知损失更关注颜色类别，而不是关注材料。基于给定的纹理颜色的表达式，我们将颜色对齐作为一个分类问题。具体来说，我们重用判别器D作为特征提取器，并将最后一层替换为颜色分类器。然后，在G和D中，我们试图将损失2上采样插值，一个卷积层，一个批标准化[14]和激活函数。另一方面，要从表达式生成纹理LC=−E RPr [对数单位（ccc|R）]− EZ′Pz [log（ccG（Z））]，（九）因此，生成器G必须：1）确保生成的图像是自然和真实的;以及2）保持给定文本和纹理图像之间的语义对齐。为了满足上述要求，我们提出了一种优化机制，由三个损失Adv，M和C组成，分别表示对抗性损失，材料感知损失和颜色感知损失。总的来说，纹理生成器G的最终目标函数是LG=LAdv+λ1LM+λ2LC，（5）其中λ1和λ2是折衷参数。在实验中其中，f（ccR）是条件下的后验概率给定纹理图像R.3.5. 3D场景生成和渲染为了更好地可视化所生成的地板计划与纹理，我们介绍了一个3D场景生成器，然后与照片般逼真的渲染过程。给定生成的地板平面和纹理，如图5所示，我们从具有固定高度和厚度的房间边界生成墙壁。我们将墙的高度设置为2.85米，内墙的厚度设置为120毫米。外部的厚度fdvZG（Z）HGDɸfDWDagdvWpφfMQRFCZY N（0，HDɸWφ（六）12630×∈厨房1客厅1阳台1底壁[39]进一步验证。较低的分数表明产生的图像的更高多样性（即，更少的模型崩溃）。请注意，按照[ 48 ]中的设置，为了公平比较，我们将所有图像调整为6464be-在计算FID和MS-SSIM之前。对于我们的最终产品3D房屋地板计划，我们进行了一项人体研究…平面图纹理3D房屋平面图图5：3D房屋平面图生成和渲染。墙设置为240 mm，门的长度为900 mm，高度为2000mm。我们只是简单地将窗口的长度设置为它所在墙的长度的百分之三十。此外，我们还基于Intel Embree [37]开发了一个照片级真实感渲染，这是一个用于x86 CPU的高性能光线跟踪内核的开源集合。采用蒙特卡罗路径跟踪技术实现了真实感绘制.通过遵循渲染方程[18]，路径跟踪器模拟真实世界的效果，如逼真的材质外观，柔和的阴影，间接照明，环境遮挡和全局照明。为了使合成场景可视化，我们在每个场景的前顶部部署了一个虚拟相机，并捕获一个俯视渲染图像。4. 实验4.1. 实验设置数据集。为了从自然语言描述中生成三维建筑模型，我们收集了一个新的数据集，它包含2000个房屋，13478个房间和8731个纹理图像，以及相应的自然语言描述。这些描述首先是从一些预先定义的来评估它们。实作详细数据。在实际应用中，我们将LCT-GAN的输入ZRW×h×（d1+d2+d3）设为h=5，w =5，d1=100，d2= 19，d3= 12. 模型（GC-LPN和LCT-GAN）的所有权重都是从零均值和标准差为0的正态分布初始化的。02. 在训练中，我们使用Adam [19]，其中β1=0。5更新GC-LPN和LCT-GAN的模型参数。我们优化了LCT-GAN，以生成尺寸160× 160，小批量大小为24，学习率为0。0002.4.2. 建筑布局生成结果比较方法。我们评估生成的布局，并比较结果与基线方法。然而，目前还没有现有的工作，我们提出的文本引导布局生成任务，其重点是直接从给定的语言描述生成建筑布局。因此，我们的比较主要是我们提出的网络的消融版本。比较的方法是：MLG：在“手动布局生成”（MLG）中，我们直接使用程序绘制建筑布局，根据给定的输入属性（如房间的类型、位置和大小），具体来说，我们首先粗略定位每个房间空调的中心坐标。在那之后，我们随机挑选不同房间的长宽比ρ∈（2，3），然后模板，然后由人类工人进行改进。平均3 2描述的长度为173。73个，有193个独特的词。在我们的实验中，我们使用了1600对用于训练，而400对用于测试建筑布局生成。对于纹理合成，我们使用503个数据进行训练，370个数据进行测试。我们把更多的数据集分析作为补充。评估指标。我们从三个方面定量评估我们的模型并与其他模型进行比较：布局生成精度、纹理合成性能和最终3D房屋地板平面图。我们通过Intersection-over-Union（IoU）来衡量生成的布局的精度，它指示生成的框和地面实况框之间的重叠，其中值从0到1。评价在测试中，我们使用Fre'chetInceptionDistance（FID）[12]。通常，该值越小，该方法的性能越好。此外，为了测试生成的图像的成对相似性并可靠地识别模式崩溃[26]，我们使用多尺度结构相似性（MS-2000）。1某些房间具有相同的纹理，因此此数量小于房间总数。通过考虑的大小得到准确的高度和宽度每个房间。最后，我们画出了这样的中心，高度，宽度和每个房间的类型的建筑布局。C-LPN：在“条件布局预测网络”（C-LPN）中，我们简单地删除了我们提出的模型中的GCN。这意味着，在生成建筑布局时，简化模型只能考虑输入描述，而忽略来自邻域节点的信息。RC-LPN：在“循环条件布局预测网络”（RC-LPN）中具体来说，我们用LSTM替换GCN，并通过跟踪迄今为止生成的历史来预测建筑布局。定量评价。我们通过计算生成的建筑布局的平均IoU值来评估我们提出的GC-LPN的性能。从表1中可以看出，与基线方法相比，GC-LPN方法在IoU上获得了更高的值，这意味着GC-LPN方法比其他方法具有更精确地定位布局轮廓的能力。没有我们基于图形的表示的模型厨房1卧室1卫生间1客厅1房2阳台1房312631L LLL LLMLGC-LPNRC-LPNGC-LPN（我们的）IOU0.72080.80370.79180.8348表1：文本到3D房屋模型数据集的IoU结果。表2：生成纹理的FID和MS-SSIM结果。图6：GC-LPN和基线之间的目视比较。“Text1” and“Text2” are the input descriptions, where “Text1” isrelatively simple while “Text2” is more木材单板黑色大理石黄石砖灰ACGANStackGAN-v2PSGANLCT-GAN地面实况图8：LCT-GAN和基线的视觉结果。图7：生成的2D地面平面图和地面实况对应物的示例，分别为例如C-LPN和RC-LPN，具有较低性能。定性评价。此外，我们调查的性能，我们的GC-LPN的视觉比较。在图6中，我们提供了两个布局示例，分别对应于结果表明，与基线方法相比，无论是简单的还是复杂的，GC-LPN方法都能得到更精确的布局。我们还在图7中展示了后处理后生成的2D地板平面图和相应的地面实况。4.3. 纹理合成结果比较方法。对于条件纹理生成任务，我们将我们提出的方法的性能与几个基线进行了比较，包括 ACGAN[26] ， StackGAN-v2 [48] 和 PSGAN [2] 。请注意，PSGAN只能从随机噪声中生成图像。因此，为了以受控的方式生成图像，我们设计了PSGAN的变体，它在合成目标纹理时引入了条件信息，如[25]。定量评价。在这一部分中，我们比较了FID和MS-SSIM的不同方法在我们提出的数据集上的性能。在表2中，我们的LCT-GAN在FID中实现了最佳性能，这意味着我们的方法能够产生比传统方法更逼真的图像。2这幢楼有一个洗手间，一间卧室，一间客厅和一间厨房。具体来说，洗手间1在东北方向有5个正方形一号卧室东14平方米。此外，客厅1占地25平方米，位于中心。kitchen1在西边有12个正方形。卫生间1、厨房1、卫生间1和起居室1是连通的。厕所1在厕所1旁边。3由于篇幅所限，我们将“正文2”的内容他人此外，对于MS-SSIM，与PSGAN相比，我们的LCT-GAN获得了具有竞争力的结果，PSGAN也是专门为纹理生成而设计的。这表明我们的方法有能力在保持真实感的同时保证合成图像的多样性。定性评价。为了进一步评估LCT-GAN的性能，我们提供了生成的纹理的几个视觉结果。从图8中可以看出，与基线相比，我们的合成图像包含更多细节，同时保留了与条件描述的语义对齐。实验结果表明，LCT-GAN能够在语义上对齐给定的文本，并捕获比其他方法更详细的信息。消融研究。为了测试每种拟议损失的影响，我们进行了一项消融研究，以通过去除一些损失来比较生成的结果，并在表3中显示了定量结果。注意，仅使用对抗损失LAdv的模型不能产生可控图像。因此，我们将Adv与其他两个损失（即，M和C）来调查性能。实验结果表明，基于Adv的M和C都能很好地提高算法的性能。当使用所有三个损失到我们的模型，我们获得了最好的结果在FID和MS-SSIM。概括能力。在本节中，我们进行了两个实验来验证我们提出的方法的泛化能力。我们首先研究潜在空间的景观。根据[31]中的设置，我们在两个输入嵌入之间进行线性插值，并将它们馈送到生成器G中。如图9所示，当输入语义（即，材料或颜色）不同。另一方面，为了进一步评估我们的LCT-GAN的泛化能力，我们将一些在现实世界中不太可能看到的新颖描述输入生成器G。从图-方法列车组FID MS-SSIM测试集FID MS-SSIMACGAN [26]198.070.4584220.180.4601StackGAN-v2 [48]182.960.6356188.150.6225PSGAN [2]195.290.4162217.120.4187LCT-GAN（我们的）119.330.3944145.160.3859MLG C-LPN RC-LPNGC-LPN（ours）GTText1Text2我们的GT我们的GTText1Text212632HPGM（我们的）人类铁选择（%）39.4147.9412.65表3：条件纹理生成中损失的影响。表4：HPGM与人类“Tie” refers to the confusing results,which can not be clearly图9：生成的纹理图像的插值结果。图11：我们生成的3D房屋平面图与地面实况（人造）对应物的比较。的双曲正切值。然后，我们要求20名人类受试者（大学生）区分哪些是由人类设计的。最后，我们计算选择率，并获得最终的指标。从表4，39。41%的生成样本通过了考试，这意味着与手动去木材单板，白色原木，绿色花岗岩，粉红色木纹，橙色机器生成的样本精致到足以让评估者感到困惑。图10：使用新的材质颜色场景生成纹理，这在现实世界中是不可能存在的。如图10所示，即使在这样具有挑战性的语义设置下，我们提出的方法仍然能够生成有意义的纹理图像。这两个实验都表明，LCT-GAN可以很好地推广到新的/看不见的图像，而不是简单地记住训练集中的现有数据。4.4. 3D房屋设计定性结果。为了进行质量评估，我们展示了由HPGM生成的3D房屋平面图（如图11所示）和带有条件文本4的地面实况对应物，其中，地板平面图和相应的房间纹理由建筑师绘制。我们的方法有能力产生有竞争力的视觉效果，甚至与人工计划相比。人类研究。由于自动度量不能完全评估我们的方法的性能，我们对房屋计划进行了人性化研究。受[23，27]的启发，我们使用100个房屋平面图及其相应的4建筑布局包括一个卫生间，一个书房，一个客厅和一个卧室。具体来说，1号卫生间的地板是蓝色大理石的，墙壁是白色的。洗手间1在东南方，面积11平方米。另外，书房一有木色原木地板，也有黄色的墙布墙.研究1在西部有8个正方形客厅1是在中心与21平方米。客厅1墙是大地色的墙布，而使用黑色原木的地板。此外，展厅1位于西北部，占地10平方米。卧室1的地板是原木色的，有橙色的纯彩色木墙。起居室1与洗手间1、卫生间1、书房1相邻研究1旁边是研究1。5. 结论由于内在的复杂性，从语言描述生成3D房屋是不平凡的。在本文中，我们提出了一种新的房屋平面图生成模型（HPGM），将生成过程分为两个子任务：建筑布局生成和纹理合成。为了解决这些问题，我们提出了两个模块（即，GC-LPN和LCT-GAN），其专注于根据给定的描述生成地板平面图和相应的内部纹理。为了验证该方法的有效性，我们进行了一系列实验，包括定量和定性评价、消融研究、人体研究等。结果表明，我们的方法优于竞争对手，这表明我们的方法的价值。我们相信，这将是一个实际的应用与进一步完善。致谢本工作得到国家自然科学基金广东省科技基金2018B010107001、2019B010155002的部分资助（国家自然科学基金委）61836003（重点项目），中央大学基础研究基金D2191240，2017ZT07X183广东省创新创业团队引进项目，JR 201902腾讯人工智能实验室犀牛鸟孵化研究项目，广东省科技特派员基金2016TQ03X445计划青年科技创新人才项目，广州市科技计划项目201904010197 ，广东省自然科学基金资助项目2016A030313437。黑色木材颜色黑色木材颜色我们地面实况木质饰面花岗岩木质饰面花岗岩L高级LMLC列车组FID MS-SSIM测试集FID MS-SSIMLCT-GAN√√√√√√√134.06134.61119.330.41890.43100.3944157.01158.20145.160.41910.42630.385912633引用[1] Fan Bao ，Dong-Ming Yan ，Niloy J Mitra ，and PeterWonka. 生成和探索良好的建筑布局。 ACMTransactions on Graphics（TOG），32（4）：122，2013。2[2] Urs Bergmann，Nikolay Jetchev和Roland Vollgraf。学习- ING纹理流形与周期性的空间gan。在procInt. Conf. 马赫学习. ，第469二、七[3] 曹杰章，郭勇，吴庆耀，沈春华，黄俊洲，谭明奎.使用局部坐标编码的对抗学习。在Proc. Int. Conf.马赫学习. ，2018年。1[4] Jiezhang Cao，Langyuan Mo，Yifan Zhang，Kui Jia，Chunhua Shen，and Mingkui Tan.多边缘沃瑟斯坦干在Proc.神经信息进展。过程系统，第1774- 1784页，2019年。1[5] 斯坦尼斯拉斯·谢卢Archigan：一个用于公寓建筑设计的生成堆栈。2019. 2[6] Peihao Chen，Chuang Gan，Guangyao Shen，WenbingHuang，Runhao Zeng，and Mingkui Tan.时间动作定位的关系IEEE Trans. Multimedia，2019. 1[7] Leon Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成在Proc.神经信息进展。过程系统，第2622[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Proc. Advancesin Neural Inf. 过程系统，第2672一、五[9] Yong Guo ， Jian Chen ， Jingdong Wang ， Qi Chen ，Jiezhang Cao，Zeshuai Deng，Yanwu Xu，and MingkuiTan. 闭环问题：单图像超分辨率的对偶回归网络。在proc IEEE会议Comp. 目视帕特识别，2020年。1[10] 郭勇，齐尘，剑尘，武青瑶，石清风，谭明奎。用于高分辨率图像合成的自动嵌入生成对抗网络。IEEETrans.多媒体，2019年。1[11] 郭勇，尹正，谭明奎，陈奇，剑尘，赵沛林，黄俊洲。Nat：神经架构Transformer，用于精确和紧凑的架构。在Proc.神经信息进展。过程系统，第7351[12] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在proc 神经信息学进展过程系统，第6626-6637页二、六[13] 黄登，陈培豪，曾润浩，杜青，谭明奎，甘闯。用于视频问答的位置感知图卷积网络在proc Conf. AAAI，2020年。1[14] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。程序国际会议马赫学习. ，2015年。5[15] Nikolay Jetchev，Urs Bergmann，and Roland Vollgraf.空间生成对抗网络的纹理合成。arXiv预印本arXiv：1611.08207，2016。 2[16] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在proc EUR. Conf. Comp.目视，第694施普林格，2016年。2[17] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像在proc IEEE会议Comp. 目视帕特识别，第12192[18] 詹姆斯·T·卡吉亚渲染方程。在ACM SIG-GRAPH计算机图形学中，第20卷，第143ACM，1986年。6[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。Proc. Int. Conf. 学习. Representations，2015. 6[20] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类 Proc. Int. Conf.学习. 代表，2017年。二、三[21] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成在proc EUR. Conf. Comp.目视第702-716页施普林格，2016年。2[22] Wenbo Li ， Pengchuan Zhang ， Lei Zhang ， QiuyuanHuang，Xiaodong He，Siwei Lyu，and Jianfeng Gao.通过对抗训练实现对象驱动的文本到图像合成。正在进行IEEE会议Comp. 目视帕特识别，第121741[23] Yitong Li，Zhe Gan，Y

下载后可阅读完整内容，剩余1页未读，立即下载