没有合适的资源?快使用搜索试试~ 我知道了~
1使用3D-Craft数据集的顺序感知生成建模Zhuoyuan ChenXiang,Demi GuoXiang,Tong XiaoXiang,Saining Xie,Xinlei Chen,Haonan Yu,Jonathan Gray,Kavya Srinet,Haoqi Fan,Jerry Ma,Charles R.Qi,ShubhamTulsiani,Arthur Szlam,and C.Lawrence ZitnickFacebook AI Research,加州草人类砂岩雪光栅扫描冰铁示例砖橡木栅栏梯子图1.我们介绍了3D-Craft,这是一个由人类玩家在Minecraft游戏中从头开始建造的不同房屋的新数据集。第一行和第二行示出了所记录的人类动作序列与用于建造房屋的预定义光栅扫描顺序之间的差异人类订单信息使我们能够学习订单感知生成模型,以更直观,更人性化的方式预测动作摘要对2D和3D生成模型的研究通常集中在创建的最终工件上,例如,图像或3D结构。与2D图像生成不同,现实世界中3D对象的生成通常受到构造对象的过程和顺序的约束。例如,在建造积木塔时需要考虑重力。在本文中,我们探讨了预测有序的行动,以构建3D对象。我们建议通过观察人类行为来学习,而不是根据物理约束来预测行动。为了实现大规模的数据收集,我们使用Minecraft1环境。我们介绍了3D-Craft,这是一个新的数据集,包含2,500个Minecraft房屋,每个房屋都是由人类玩家从头开始依次建造的。为了从这些人类动作序列中学习,我们提出了一种名为VoxelCNN的顺序感知3D生成模型。与其他3D生成模型相比,这些模型要么没有明确的顺序(例如,使用3D-GAN整体生成[35]),或者遵循简单的启发式顺序(例如,光栅扫描),VoxelCNN被训练成模仿人类平等贡献1Minecraftfeatures:MojangSyner giesAB包括礼貌Mojang AB用空间意识建立秩序。我们还将顺序转移到其他数据集,如ShapeNet[10]。3D-Craft数据集,模型和基准系统将公开提供,这可能会为未来的研究探索带来新的方向。https://github.com/facebookresearch/VoxelCNN.1. 介绍生成式建模是机器学习中的一个基本问题,在计算机视觉领域有着悠久的历史。已经提出了许多用于2D图像生成的方法,包括自回归模型[32,31,25]和生成对抗网络(GANs)[40,6]。随着2D模型的成功,视觉界对3D对象的生成建模越来越感兴趣,其中有许多应用,如多视图3D重建[29],3D编辑[23]和概率生成建模[35]。与2D图像生成模型不同,3D生成模型的潜在目标是创建真实世界的物理对象。通常的情况是,一个物理对象的创建不仅需要对象的最终设计,而且还需要用于创建它的顺序和过程,以确保它可以1764百分之十百分之二十百分之五十百分之七十百分百1765在世界的物理限制下是可行的例如,建造宜家家具需要知道组装顺序,建造房屋必须符合重力,例如,需要在屋顶之前建造墙壁。3D打印技术还对物体的构造施加了排序和限制。这自然会引出以下问题:我们如何学习构建3D对象所需的排序,以及它们对生成建模有何用处?学习排序的一种另一种方法是从观察中学习:我们可以模仿人类的行为,因为人类的秩序隐含地符合世界的物理约束。不幸的是,收集大量的人类观察结果可能非常困难。本文遵循第二种方法,在Minecraft平台上探索了订单感知的3D生成模型。虽然Minecraft是一个简化的合成环境,但我们假设研究这个领域的问题可能会揭示通过观察人类来学习构建的有效方法与现实世界的物体类似屋顶、墙壁、门、窗等。我们收集了一个大的房屋数据集,每个房屋都是由人类从头开始建造的。房屋由不同材料(木材、石头、玻璃等)的粗糙3D块或体素构成。我们的数据集被称为3D-Craft,包含2,500多个房屋,其中包含由200多个独特的人类玩家使用256种材料的280万个建筑步骤建造的物体据我们所知,这是第一个具有顺序信息的3D体积数据集。作为一个每月拥有超过9100万玩家的流行游戏使用3D-Craft,我们不仅关注最终建造的房屋,更重要的是,了解如何以自然顺序生成3D对象,以及如何在最终3D对象中恢复自然顺序。受用于生成2D图像的成功自回归方法(例如PixelRNN [31]和PixelCNN[32])的启发,我们提出了Voxel-CNN来为我们的序列3D生成问题构建逐体素的3D对象。根据先前的构建序列,我们的模型恢复了部分3D对象,采用卷积神经网络(CNN)对空间结构进行编码,并预测下一个要放置的体素的分布,包括体素的位置和材料。与以预定义的光栅扫描顺序生成像素的[31,32]相比,我们的VoxelCNN被训练来模仿自然的人类建筑顺序,我们通过实验证明这改进了学习的生成模型。我们提出了几个指标来评估体素CNN。不像许多其他生成任务中使用的定性评估,其中只有最终产品是感兴趣的,有订单信息,我们的指标定量测量模型预测与人类行为的匹配程度,在犯错误之前可以放置多少vox-els,以及如果要建造整个房子,人类需要纠正模型这些指标帮助我们更好地理解顺序生成过程。2. 相关工作3D数据集。已经建立或收集了许多3D数据集用于对3D对象的研究。 这些包括使用CAD模型[10,37],与具有锚点的图像对齐的3D对象[39],模板对齐[38]和3D打印模型[41]。我们的工作也是相关的尝试对3D场景建模的数据集,例如SUNC [27]和Matterport3D[9]数据集。这些已用于各种具体的QA [11,8,19]和导航任务[26,36,8]。在本文中,我们探讨了构建三维环境的任务。3D-Craft数据集的独特之处在于它包含了人类创建3D房屋的顺序,每个块都有一个相关的类型(岩石,木材,玻璃等)。然而,3D-Craft在视觉上不如SUCG [27]和Matterport 3D [9]数据集真实。3D建模。在过去的几十年里,3D合成和重建已经取得了令人印象深刻的进展,主要是基于参数变形模型[5,2]或基于部分的模板学习[12,20]。深度学习的最新进展已经在各种3D视觉模型和应用中显示出有希望的改进,包括合成[35],重建[34,42],基于部分的分析[28]和交互式编辑[23]。自回归模型已经有许多2D自回归方法,如[22,30,31,32,25,17]。尽管这些方法灵活且富有表现力,但由于其顺序执行依赖性(需要宽度×高度步长),这些方法往往很慢,并且在三维域(宽×长×高)。我们的方法使使用3D占用的稀疏性并且仅预测被占用体素上的内容。订单感知数据集。已经有具有生成顺序注释的数据集,包括手写字符[21]和建筑物[24];[21]记录了一笔一笔的人类顺序,而[24]包含了用于构建模型的自上而下的语法。有序感知生成模型。[33]表明,数据组织的顺序在序列到序列(seq2seq)建模中非常重要最近有一系列的作品提出了在白色上生成笔画canvas,如贝叶斯程序学习[21],递归VAE [14],3D-PRNN [42]和强化学习-1766[13].在[14,13]中,没有严格的约束来遵循人类的命令,并且在生成结束时的最后一步评估生成的质量。由于提供了动作级监督,因此这些方法往往更一般,但也更复杂且更难训练。[24]设计了一个CG建筑过程建模的形状语法,它建立了粗略的结构,然后是细节,如窗户和门。AI的游戏平台近年来,已经提出了一系列用于AI代理的游戏平台。这些专注于各种任务,如推理和具体的问题推理[11,19,36,16],强化学习-设定目标[4,7,1,18,16],并进行视觉控制[2019 - 03 - 16][2019 - 03 - 16][2019 - 03 - 16]我们在Minecraft设置中构建任务。与同样基于Minecraft的Malmo项目类似,我们认为Minecraft是研究开放式创意任务的有吸引力的平台。3. 三维工艺数据集在本节中,我们将介绍Minecraft游戏和3D-Craft数据集。3.1. MinecraftMinecraft是Mojang2开发的一款流行的开放世界沙盒游戏。游戏允许玩家探索和操纵程序生成的世界。玩家可以在3D网格中放置和摧毁不同材料类型的块。Minecraft,特别是在其创意模式设置中,没有获胜条件,并鼓励玩家发挥创意。《我的世界》是一款闭源游戏,但也有一些开源社区开发的项目,包括游戏的克隆版(例如《我的世界》)。立方体3和工艺4)。 使我们-将Minecraft用于人工智能研究,Project Malmo [16]提供了一个建立在Minecraft之上的平台,允许研究人员控制Minecraft机器人。在我们的论文中,我们利用Cuberite服务器来收集数据。Cuberite是一个开源的Minecraft兼容游戏服务器,为玩家和开发者提供了广泛的插件3.2. 数据收集我们使用众包来收集人类在Minecraft中建造房屋的例子。每个用户都被要求在固定的时间预算(30分钟)内建造一所房子,没有任何额外的指导或指示。用户的每一个动作都使用Cuberite服务器记录下来。数据收集是在Minecraft的创作模式下进行的2https://github.com/cuberitehttps://mojang.com/category/minecraft/4https://github.com/fogleman/Craft在游戏世界中(例如,在空中飞行)。因此,环境的动作空间是直接的:在x-y-z维度中移动、选择块类型以及放置或断开块。任何放置的块必须连接到相邻的块,即,积木不能放在空中。值得注意的是,人们可以使用数百种不同的块类型来建造房屋,包括不同种类的木材,石头,泥土,沙子,玻璃,金属,冰等。我们在图1中显示了一些材料。空体素被认为是特殊块类型我们使用以下格式记录每个用户的原子构建操作序列[t,userid,[x,y,z],[块ID,元ID],“P”/“B”]其中时间戳t总是单调递增的顺序;[x t,y t,z t]是相对于Minecraft中世界原点的绝对坐标;“P”和“B”指的是放置一个新的块并破坏(摧毁)一个现有的块;每个房子都是由一个玩家在我们的数据收集过程中使用唯一的用户ID建造的。3.3. 数据清洗为了鼓励我们的数据收集渠道的多样性和创造性,我们有意对房屋制作任务不施加任何限制,除了允许建造的时间然而,从人类玩家收集的原始数据需要基于一些观察进行预处理。首先,玩家可能在设计房屋时改变主意,并且通过移除现有的块来“撤销”建造动作,例如,把墙上的木块搬开,腾出地方来装窗户。其次,少数建筑物是洞穴或通过破坏地面或山腰上的块而建造的地下掩体。最后,玩家可以在《我的世界》的开放世界中建造任意大的房子,或者在大面积上建造不相交的建筑。我们通过以下预处理步骤清理3D-Craft中的原始数据:1)如果在同一位置执行多个操作,我们只保留具有最大时间戳的操作。2)我们从我们的数据集中删除洞穴房屋、地下掩体或其他挖掘出的房屋。3)对房屋进行连通分析,只保留最大连通结构以下章节中的所有统计数据、实验设置和评价结果均使用清理后的数据进行报告3.4. 数据集统计数据在本节中,我们将介绍3D-Craft数据集的统计数据。具体来说,我们分析了几个属性的完全建成的房屋和球员的行动序列,创造他们。这些房子是由大约200名独特的人类玩家创建的。每个玩家建造的房屋数量如图2(f)所示。1767总计:120N(0.25,0.13)N(10.90,4.98)PDF百分百80%67.9%百分之六十百分之四十百分之二十百分之八十三点一 88.8%91.9%93.7%百分之十五点二百分之五点八3.0%3003200210010%12百分之一点八3 4 5015004776020%百分之四十60%80%百 分 百(a) 相邻街区之间的曼哈顿距离百分之二十0.10(b) 建造房屋(c) 房屋长方体百分百40百分之十五百分之十百分之五0%的百分比0 20 400.050.00010 20 302000 50 100150百分之七十五百分之五十百分之二十五0%的百分比200(d) 前50个最常用的数据块类型(e) 用于建造房屋的(f) 顶级注释器图2.数据集统计。(a) 67岁所有区块中有9%的区块被放置在与先前放置的区块相距1个区块的范围内。(b)平均每栋房子有635个街区,但有120栋房子是用1,500多个街区建造的。(c)房屋块在3D空间中是稀疏的。平均而言,房屋中只有25%的立方体体素被人类建造的街区占据(d)最常用的区块类型。在所有150万座人工建造的街区中,有20%使用木板。(e)平均而言,每栋房屋由10.9种不同的街区类型建造。(f)大约有200名注释者为2500所房屋做出了贡献。最多产的注释者建造了40多座房屋。我们首先检查需要多少块从零开始制作一个完整的房子。我们在图2(b)中示出了由块的数量表示的房屋大小的直方图。我们可以观察到分布是单模和重尾的,平均值为635,中位数为526。我们还观察到,玩家倾向于使用多种类型的积木来建造房屋,平均每个房屋使用10.9所用的嵌段类型也具有重尾分布,如图2(d)所示。块类型,如木板和石头是常用的,而栅栏,楼梯,铁等。使用较少。最后,我们在图2(a)中示出了顺序块放置的特性。在L1(曼哈顿)距离下,大约70%的块被放置在1个块内,4. 顺序感知的3D生成建模在本节中,我们将对3D-Craft对象的顺序感知生成建模问题进行形式化,并引入我们的VoxelCNN模型来解决这个问题。4.1. 问题定义房子A由T个动作A={a1,a2,.,a T},其中每个动作a t={λ t,b t}使用块类型b t将新块放置在位置λ t={x t,y t,z t}处。我们用t:t+k表示动作子序列{a t,a t+1,. . . ,a t+ k}。我们的目标是预测下一个行动at+1给定a1:t。4.2. VoxelCNN与自然人类秩序VoxelCNN将动作在A上的联合分布建模为条件分布的乘积,其中动作ai是单个块(位置和块类型):TY−1之前放置的块。 九十三7%的区块被放置5个街区内这与我们的直觉是一致的:人p(A)=t=0p(a t+1|a1:t)(1)倾向于在移动到另一个之前完成完整的和结构化的子部分,例如大的跳跃一般只发生在玩家在一个子部分到另一个子部分之间跳跃时,从屋顶移到窗户读者可以参考我们的补充材料中的视频,以记录房屋建筑动作序木板石材、混凝土、玻璃、石英、...楼梯,栅栏,铁,...(累积)概率所有使用PDF的房屋注释的房屋1768列。这种空间局部性属性使3D-Craft成为有序生成任务的合适测试平台,如下一节所述。因此,每一块都取决于放在它前面的所有块,在自然的人类秩序中。对于每个动作a t+1,我们让块类型b t+1取决于位置λ t+1,如下所示:p(a t+1|a1:t)=p(λ t+1,b t+1|a1:t)⑵=p(λt+1|a1:t)p(bt+1|λt+1,a1:t)直觉是什么取决于哪里,这受到2D图像上的条件PixelCNN [32]的启发1769256一烫������-���3D转换BN-ReLUdim位置预测1交叉熵损失2升 +1argmax中心在0/1有无阻塞Concatenate1x1x1转换dim指数选择4×t+13D转换BN-ReLU↓dim2微克+1块类型预测交叉熵损失加1(别,别,别4×Lt+1���(���t+1)图3.VoxelCNN架构。 以最后一个动作为中心,局部分支的输入是过去k+1个历史动作的256 ×(2D l+1)3个独热向量的级联,而全局分支的输入是1 ×(2Dg +1)3个二元张量。 我们将两个输入通过4层3D卷积-BatchNorm-ReLU模块,然后将它们连接并转换为特征张量Ct+1。位置p(λt+1)的(2Dl +1)3概率|a1:t),然后预测材料的256-d概率p(bt+1|λt+1,a1:t)被预测为最可能的位置。其 中 三 个 通 道 R 、 G 、 B 被 连 续 地 建 模 。 然 而 ,PixelCNN遵循启发式光栅扫描顺序,而VoxelCNN的目标是学习自然的人类顺序。我们对p(a t+1|a1:t)通过具有参数θ的CNN f θ。如图3所示,网络首先恢复网络的状态。基于动作序列a1:t的体素中的3D对象st。然后以最后放置的块为中心,对多分辨率空间上下文进行编码,并预测p(λ t+1|a1:t)而p(b t+1|λ t+1,a1:t)。 注意p(λ t+1|a1:t)是分布-相对于最后一个体素λt的邻域上的距离。为了同时捕获全局设计和详细的局部结构,提出了一种双流框架来编码多分辨率空间上下文。输入状态st由两个3D片组成-如图3所示,通过后期特征融合分别从st,l和st,g中本地编码。 用256 ×(2Dl +1)3张量表示st,l的3D局部邻域,该张量由在时间t建立的最后一个块的Dl邻域内的所有体素的块类型的独热向量组成.然后,我们应用多个3D卷积层以获得大小为f dim×(2D l+1)3的最终局部表示L t +1。全局编码。 为了捕捉的整体设计,在House中,我们用比局部状态st,l大得多的半径Dg对全局状态st,g进行编码(在我们的实验中,我们设置Dg=10和Dl=3)。与局部上下文st,l相比,全局上下文st,g仅包含二元占用(空气/非空气),其关注房屋的整体几何形状并有助于避免训练期间的过拟合应用ad-最大池化层以减小全局表示Gt+1到fdim×(2Dl +1)3。后期功能融合。然后,我们沿着特征通道连接局部表示L t+1和全局表示G t+1,并应用1×1×1 3D卷积层以获得f dim×(2D l+1)3的最终上下文表示C t +1。时间信息。这也是一个有趣的前-在编码中明确地对长期时间信息建模,因为连续的动作往往是空间相关的。 我们建议连接局部房子状态st,l,st-1,l,.。 . . ,st−k,l一起转换为st,l,然后将st,l作为本地编码模块的输入。因子化预测基于最终表示Ct+1,我们在顶部应用1×1×1 3D卷积层来预测位置p(λ t+1|a1:t)作为(2D l+1)3的张量,然后是softmax层。 对于块类型b t+1,我们取Ct+1中的f dim向量,其在任一基础真值处位置(训练)或通过argmax(测试)的贪婪预测位置,并使用线性层来获得256-D向量,随后是softmax层。我们应用交叉熵损失来训练这两个预测。注意,当前预测可以被限制在最后块的局部邻域内。然而,设置DI=3已经覆盖了所有地面实况情况的90%以上。它可以通过设置更大的DI或使用金字塔状分层预测来扩展。5. 评估指标定量评估生成模型是众所周知的。然而,地面实况序列顺序-1770在3D-Craft中使用1:T允许我们使用四个量化指标评估顺序预测a(1:T),测量最终房屋和生成过程的质量1)下一个方块放置的准确性; 2)动作顺序的困惑; 3)犯错误前连续正确动作的次数;以及4)为了完成一所房子而需要纠正的错误的数量。下一步的准确性(ACC@N):我们衡量一种方法可以预测下一个与自然人类顺序相匹配的块(位置和由于在某些情况下人类行为也可能是模糊的,我们重新-放松度量以评估预测块是否在人类做出的下一个N∈ {1,5,10}移动中。这允许在块放置的局部排序中具有一定的灵活性。 例如,我们测试预测a(t+1)是否匹配任何一个真实动作a(t+1):t + N。复杂度:我们也可以通过复杂度(ppl)来衡量生成模型的性能:lo g2ppl =E[−log(p(at+1=at+1|a1:t)]困惑度衡量的是直接行为的质量-克隆,只有当一个行为严格遵循人类的行为顺序时,它才被认为是正确的。连续正确动作(CCA)的数量:从房屋X%完成开始,我们记录模型可以放置的连续块的数量{a(t+1,a(t+2,…在它犯错误之前如果放置的块属于完工的房屋,则动作at+1被认为是I.E. at+1∈at+1 :T.对于每个房子,我们将X设置为10,25,50,75,90,并将所有可能的X值和房子的平均值作为最终指标。完成错误数(MTC):从房子X=10%完成开始,我们记录完成房子之前所犯的错误数。当模型出错时,我们通过一个“oracle”块来纠正错误的预测,这是来自地面真实数据的最早的块,尚未被放置。由于不同的房屋可能需要非常不同数量的块来完成,因此我们进一步考虑将错误的数量除以每个房屋的块的数量,并且在所有房屋上平均为归一化MTC度量。6. 实验在本节中,我们详细介绍了实验设置,将所提出的VoxelCNN与几种基线方法进行比较,以实现订单感知生成,订单恢复和可转移性。6.1. 基线我们提出了几个基线来评估我们的模型如何模仿人类的行为顺序,并衡量整体生成性能。LSTM。对于顺序预测任务,一种常用的基线方法是长短期记忆[15]。我们将之前的动作a1:t嵌入到512-d嵌入空间中,并使用一层LSTM来预测下一个动作。详细的体系结构可以在补充材料中找到。在我们的问题中,LSTM利用了顺序信息,但没有显式地对3D对象的空间结构进行建模。此外,我们观察到人类的建筑顺序可能遵循某些模式,例如,在一条线上继续建造相同类型的块我们还注意到类似的局部结构可能频繁出现,例如窗户、门和楼梯。因此,我们基于这些观察提出了两个直观的非学习基线:天真的惰性。 在每一步t +1,将块放置在λt+1<$2λ t−λ t−1,并保持与b t+1<$b t相同的块类型。最近的邻居我们为训练集中的所有时间步长创建3D二进制占用补丁对于每种占用模式,我们记录其最可能的下一步行动。在测试时,对于一个新的局部补丁,我们找到它的最近邻居在L2距离和复制的下一步行动。受PixelCNN和PixelRNN用于生成2D图像的启发,我们提出了另外两个基线,使用光栅扫描顺序,而不是自然的人类顺序,来生成3D房屋和对象。3D PixelCNN 。 我 们 将 PixelCNN [32]扩 展 到 3D场景,通过强制模型在3D网格上以光栅扫描顺序预测块我 们 通 过 使 用 掩 蔽 的 3D 卷 积 层 来 改 变 我 们 的VoxelCNN框架,移除位置预测头,但添加额外的块类型学习光栅扫描。给定人类顺序At的部分建造的房子,我们训练VoxelCNN来预测光栅扫描顺序而不是人类顺序at+1的下一个未放置的块。6.2. 实现细节数据集被随机拆分成70%的数据(1750栋房屋; 1,074,647步)进行培训,10%(250房屋; 159,787步)用于验证,20%(500房屋; 313,265步)用于测试。我们设置超参数Dl=3和Dg=10。我们使用四个卷积层,fdim=16,内核大小为3×3×3。 为了对时间信息进行编码,我们堆叠先前步骤的k = 3个状态。我们的网络使用SGD进行训练学习率0.01,Nesterov动量0.9,20个epochs的小批量大小为64,我们选择基于验证数据集上最佳ACC@1的模型进行最终测试评估。17716.3. 订单感知生成我们首先评估不同的模型的任务,订单意识的生成(第4.1节)与各种指标提出在第5节。与基线比较。在表1中,我们将VoxelCNN与两组基线方法进行了比较。第一组(行1-3)示出了启发式算法的结果rithms或基于自然人类顺序的常规顺序模型。而第二组(行4-5)由基于光栅扫描顺序的模型我们提出的Voxel-CNN比所有其他基线都有很大的优势,下面将进行更详细的分析。在第一组中,我们可以看到LSTM的表现与其他两种启发式算法相当,甚至更差。百分之二十五百分之二十百分之十五百分之十百分之五13.311.02.0MTC在未来10%的行动CCAAvg. GT动作10% 20% 30% 40% 50% 60% 70% 80%90%(a) 给定房屋完工23.72.46.81.00.80.60.40.2麻烦如第6.1节所述,LSTM是为一般的顺序预测任务而设计的。在我们的问题中,它以蛮力的方式利用建筑顺序信息,0 10 20 30 40 50(b) CCA给予10%房屋完工0.0这种方法没有明确地对3D房屋的空间结构进行然而,VoxelCNN同时考虑了空间结构(局部和全局)和时间顺序,这导致了更好的结果。此外,将VoxelCNN与3D PixelCNN或从光栅扫描中学习进行比较,我们可以看到,从不同的顺序学习在我们的数据集中,许多块的块在语义上是有意义的,例如形成墙、墙、门等。我们假设,光栅扫描将打破语义连续性生成,使预测不太准确。附加分析。研究任务难度如何在不同的构建进度百分比条件下变化是很有意义的。如图4(顶部)所示,当房子刚开始(不到10%)和几乎完成(大于75%)时,这要困难得多,可能是因为前者提供的关于结构的信息太少,而后者留下了一些不完整的装饰工作,具有更大的不确定性和不可预测性。同样在图4(底部)中,我们示出了p.d. f的分布。 和C.D. F。CCA,这是重尾的。更多消融研究请参见补充资料。定 性 结 果 。 我 们 展 示 了 定 性 结 果 , 证 明 了VoxelCNN的顺序行为。对于测试集中的给定房屋,我们从完成50%开始让我们的模型预测另外50步,即使它犯了错误也不会中断它在这种情况下,不期望的错误步骤可能导致错误复合,并且结果可能显著偏离原始设计。在图5中,我们展示了半成品房屋的样本,并将模型结果与地面实况进行了比较。 第一排有五栋半完工的房子;我们显示了50步后模型的进展(中间一行)概率百分CDF1772图4.我们最好的VoxelCNN的评估结果(a)模型在建造房屋的最后阶段时犯了更多的错误。我们注意到,在地面实况中,朝向房子的最后阶段,连续块之间的距离的平均值和标准值都增加了,这与MTC曲线相关。(b)给定数据集上10%的完整房屋,CCA的概率遵循重尾分布。50步后的地面实况(第三行)。我们观察到模型的一些有趣行为,例如,它能够在墙的顶部添加屋顶(列1,2,3)。此外,它有时会模仿人类的设计方式,不仅仅是简单地复制上一步的相同材料,而是试图切换到不同的令人鼓舞的是,我们的模型在彼此非常不同的半成品房屋上表现得相当不错。诚然,有时它并没有表现得那么引人注目,如第5栏所示,它只是反复添加更多的6.4. 订单恢复和可转移性VoxelCNN能够以自然顺序逐体素生成合理的3D房屋。一个直接的扩展是探索模型是否可以用来恢复人类建筑的顺序,给出我们想要建造的最终3D房屋这个顺序恢复问题本身是有趣的,并且可能有助于诸如分割或推断零件基元之类的任务为此,我们在VoxelCNN中进行了轻微的修改我们展示了我们的VoxelCNN和最近邻基线的性能,该基线也被告知表2中的最终对象。1773方法ACC@1(%)ACC@5(%)ACC@10(%)CCAMTC标准化MTC(%)困惑LSTM32.141.343.5-278.350.64.60天真惰性38.747.048.31.8287.752.5-最近邻42.959.761.94.7209.237.9-Naive VoxelCNN---2.2†430.5†-3.79†学习光栅扫描31.549.052.82.4295.353.14.44VoxelCNN62.7±0.1777.2±0.1478.9±0.1511.7±0.42122.8±1.0723.2±.0023.24±.016表1.基线方法和VoxelCNN变体之间的比较。通过使用不同的随机种子运行我们的模型5次来测量标准偏差。评价指标的定义请参见第5节,每个基线的描述请参见第6.1节。半成品房屋模型构建(50个步骤)人体构造(50步)图5.由我们的最佳模型生成的示例结果。顶行:放置50%积木的房屋;中间一行:我们的模型中有50个新生成的块;底行:从地面实况数据与接下来的50个块的构造。方法ACC@1(%) ACC@10(%)困惑最近邻43.3 62.4VoxelCNN 69.3 88.0 1.41表2.从给定对象恢复订单的结果我们扩展了VoxelCNN,以房子最终状态的额外输入为条件,并测试它能在多大程度上恢复人类建造房子的潜在有趣的是,看看从3D-Craft学习的合成顺序是否可以转移到真实的3D对象,如ShapeNet [10]。 我们观察到,我们的模型倾向于逐部分构建对象,即使它是在不同的领域(房屋与房屋)上训练的。椅子/桌子/等)而没有任何部件信息。请参阅我们的补充材料,了解更多可视化和结果。7. 未来工作和结论今后的工作有几个可能的方向我们现在是一个街区一个街区地建房子。另一种方法是建造一部分房屋,例如,墙、屋顶、门等,一次。我们计划将这些语义标签添加到数据集中在未来我们的模型还假设要放置的下一个块位于最后一个块的局部窗口内。如果我们使用基于部分的构建,我们可能能够更好地预测块中的大跳跃,这虽然不常见,但对于整个房屋生成很重要。我们的数据集是基于一个合成的Minecraft世界。我们认为这是研究在现实世界中构建3D对象的问题的第一步。然而,我们的简化世界并不像许多现实世界的问题那样复杂。例如,用木块建造将导致更大的行动空间。在本文中,我们研究的新问题预测的顺序,其中3D对象的构建。我们引入了一个新的数据集3D-Craft,由人类玩家在Minecraft中建造的2500所房屋组成。除了组成结构的块的3D排列之外,我们还记录了块的放置顺序。我们提出了一个VoxelCNN模型,可以预测放置块的位置,材料和顺序。该模型可以以预定义的房屋为条件,或者可以在给定部分建造的结构的情况下生成新的块。除了3D对象生成之外,3D-Craft数据集还可能激发未来的室内布局和装饰研究,寻找3D图元以及人类-AI协作创建。1774引用[1] 开放宇宙。https://universe.openai.com/,2016年。[2] 布雷特·艾伦布莱恩·柯利斯和佐兰·波波维奇人体形状的空间:从距离扫描重建和参数化。TOG,2003年。[3] 查尔斯·比蒂,乔尔·ZLeibo ,Denis Tehrashin,TomWard , MarcusWainwright , HeinrichKuttler , AndrewLefrancq,Si-mon Green,Vctor Valds,Amir Sadik,Julian Schrittwieser,Keith Anderson,Sarah York,MaxCant,Adam Cain,Adrian Bolton,Stephen Gaffney,Helen King , Demis Hassabis , Shane Legg , and StigPetersen.深度思维实验室arxiv,2016.[4] Marc G Bellemare , Yavar Naddaf , Joel Veness 和Michael Bowling。街机学习环境:一个面向总代理的评估平台。JAIR,2013.[5] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型SIGGRAPH,1999年。[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。ICLR,2019。[7] Greg Brockman 、 Vicki Cheung 、 Ludwig Pettersson 、Jonas Schneider、John Schulman、Jie Tang和WojciechZaremba。开放健身房。arxiv,2016.[8] Simon Brodeur、Ethan Perez、Ankesh Anand、FlorianGolemo 、 Luca Celotti 、 Florian Strub 、 Jean Rouat 、Hugo Larochelle和Aaron Courville。家庭:一个家庭多模式的环境. ICLR研讨会,2018年。[9] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D:从室内环境中的RGB- D数据中学习3DV,2017.[10] 天使XChang,Thomas Funkhouser,Leonidas Guibas,Pat Hanrahan , Qixing Huang , Zimo Li , SilvioSavarese , Mano-lis Savva , Shuran Song , Hao Su ,Jianxiong Xiao,Li Yi,and Fisher Yu.ShapeNet:一个信息丰富的3D模型库。技术报告,2015年。[11] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。CVPR,2017年。[12] Thomas Funkhouser、Michael Kazhdan、Philip Shilane、Patrick Min 、 William Kiefer 、 Ayellet Tal 、 SzymonRusinkiewicz和David Dobkin。通过实例建模。TOG,2004年。[13] 放大图片作者:J. M. Ali Eslami和Oriol Vinyals。使用强化对抗学习合成图像程序。ICML,2018。[14] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。画图:一个用于图像生成的递归神经网络. ICML,2015.[15] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,1997年。[16] Matthew Johnson , Katja Hofmann , Tim Hutton , andDavid Bignell.马尔默人工智能实验平台。IJCAI,2016.[17] Nal Kalchbrenner 、 Aaron van den Oord 、 KarenSimonyan、Ivo Danihelka、Oriol Vinyals、Alex Graves和Koray Kavukcuoglu。视频像素网络。ICML,2017.1775[18] Michael Kempka、Marek Wydmuch、Grzegorz Runc、Jakub Toczek和Wojciech Jas 'kowski。Vizdoom:一个基于Doom的人工智能视觉强化学习研究平台计算智能与游戏,2016。[19] Eric Kolve、Roozbeh Mottaghi、Daniel Gordon、YukeZhu、Abhinav Gupta和Ali Farhadi。Ai 2-Thor:人工智能代理的真实感交互环境。arxiv,2017年。[20] 弗拉季斯拉夫·克雷沃伊丹·朱利叶斯和阿拉·谢弗由可互换组件组成的模型。PG,2007年。[21] 布伦登M. Lake,Ruslan Salakhutdinov,and Joshua B.特南鲍姆通过概率程序归纳的人类水平概念学习。Science,2015.[22] 雨果·拉罗谢尔和伊恩·默里神经元自回归分布估计量。AISTATS,2011年。[23] Jerry Liu,Fisher Yu,and Thomas Funkhouser.使用生成对抗网络的交互式3DV,2017.[24] PascalMüller,PeterWonka,SimonHaegler,AndreasUlmer,and Luc Van Gool.建筑物的程序建模。在TOG,第25卷,第614-623页中。ACM,2006年。[25] Tim Salim
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功