没有合适的资源?快使用搜索试试~ 我知道了~
16352图形到3D:基于场景图的3D场景端到端生成与操作Helisa Dhamo1,*Fabian Manhardt2,*Nassir Navab1Federico Tombari1,21TechnischeUniv ersitaütMuünchen 2Google摘要可控场景合成包括生成满足底层规范的3D信息。因此,这些规范应该是抽象的,即允许容易的用户交互,同时提供用于详细控制的足够接口。场景图是场景的表示以前的作品处理这项任务往往依赖于合成数据,并检索对象网格,这自然限制了生成能力。为了规避这个问题,我们反而提出了第一项工作,直接生成的形状从一个场景图在一个端到端的方式。此外,我们表明,相同的模型支持场景修改,使用各自的场景图作为接口。利用图卷积网络(GCN),我们在对象和边缘类别以及3D形状和场景布局之上训练可变自动编码器,允许对新场景和形状进行后期采样。1. 介绍场景内容生成(包括3D对象形状、图像和3D场景)在计算机视觉中具有很高的兴趣应用程序涉及通过自动生成的中间结果以及理解和建模场景来帮助设计人员的工作,对象星座和共现。此外,条件合成允许更可控的内容生成,因为用户可以指定他们想要让哪个图像或3D模型出现在所生成的场景中。常见条件包括文本描述[39]、语义图[34]和场景图。因此,场景图最近已经显示出为可控合成和操纵提供合适的接口[11,4,20],从而实现对所生成的场景的语义控制,即使对于复杂的场景。与密集语义图相比,场景图结构具有更高的层次和更大的扩展性。*前两个作者对这项工作的贡献相等图1. a)场景生成:给定场景图(顶部,实线),Graph-to-3D生成与之一致的3D场景。b)场景操纵:给定3D场景和编辑的图形(顶部,实线+虚线),Graph-to-3D能够生成根据图形操纵调整的3D场景的变化集合。显式的,简化了与用户的交互。此外,它们使得能够控制实体之间的语义关系,这通常不在语义图中被捕获。虽然有很多方法用于从图像[36,23]中进行场景图推断以及反向问题[11,2],但在3D域中,最近仅提出了一些关于从3D数据中进行场景图预测的有了这项工作,因此,我们试图填补这一空白,提出了一种方法,从场景图的3D场景的端到端的生成。一些最近的作品研究了从场景图生成场景布局的问题[32,20],从而预测一组顶视图对象占用区域或3D边界框。为了从该布局构造3D场景,这些方法通常依赖于从数据库的检索。相反,我们采用了一个完全生成的模型,能够合成新的上下文感知的3D形状的场景。虽然检索导致良好的质量结果,但形状生成是一种新兴的替代方案,因为它允许通过对象级别[8]和部件级别[22]的插值进一步定制此外,检索工作最多可以实现(子)线性复杂度16353∼时间和空间w.r.t.数据库大小。我们的方法本质上预测对象级3D边界框以及适当的3D形状,然后将其组合以创建完整的3D场景(图1,左)。利用图卷积网络(GCN),我们学习了场景图、3D形状和场景布局之上的变分自动编码器,使得能够对新场景进行后期采样。此外,我们采用图形操作网络来实现更改,例如添加新对象以及更改对象关系,同时保持场景的其余部分为了模拟对象标签的一对多问题,我们在3D边界框上引入了一种新的关系描述符,该关系描述符不限制有效输出到注释框的空间为了避免引起任何人为偏见,我们希望从真实数据中学习3D场景预测。然而,这些真实数据集(诸如3RScan)通常呈现附加的限制,诸如信息漏洞,并且通常缺乏针对规范对象姿态的注释。我们通过基于来自3DSSG [31]的语义关系细化地面实况3D框来克服前一限制对于后者,我们提取定向3D边界框和一个notate每个对象的正面,使用类级规则和手动注释的组合。我们在项目页面1上发布了这些注释以及源代码。我们的贡献可概括为:i)我们提出了用于从场景图生成3D场景的第一个完全学习的方法。因此,我们使用一种新的模型共享布局和形状生成。ii)我们还采用该生成模型以同时允许场景操纵。iii)我们引入了一个关系鉴别器损失,它比重建损失更适合,这是由于从类标签进行框推理的一对多问题iv)我们用规范的对象姿势标记3RScan。我们在3DSSG [31]上评估我们提出的方法,3DSSG是基于3RScan [30]的大规模真实3D数据集,包含语义场景图。因此,我们评估常见的方面的场景生成和操作,如质量,多样性和履行关系的约束,显示令人信服的结果,以及共享的布局和形状功能的两个任务的优势2. 相关工作场景图和图像场景图[12,14]是指为给定图像提供语义描述的表示。节点描述场景实体(对象),而边表示它们之间的关系。一系列工作集中在从图像[36,9,27,38,18,37,17,23]的场景图预测。其他工作探索场景图的任务,如图像检索[12],图像生成[11,2]和操纵[4]。1项目页面:https://he-dhamo.github.io/Graphto3D/3D中的场景图3D计算机视觉和图形学社区已经提出了一组不同的场景图表示和相关结构。场景通常通过分层树表示,其中叶子通常是对象,中间节点形成(功能)场景实体[16,19,40]。Armeni等人[1]提出一个大空间三维模型的分层映射,分为四层:相机、物体、房间和建筑物。Wald等人[31]介绍了3DSSG,一个具有密集语义图注释的大规模数据集。这些图形表示用于探索与场景比较[6]、场景图形预测[31]、2D-3D场景检索[31]、布局生成[20]、查询位置中的对象类型预测[41]以及改进3D对象检测[28]相关的任务3D场景和布局生成一系列作品生成基于图像的3D场景[29,24]。Jiang等[10]使用概率语法来控制场景合成。其 他 作 品 , 更 相 关 的 我 们 , 纳 入 图 形 结 构 。StructureNet [22]探索了一个对象级别的层次图,以在部件感知模型中生成形状。Ma等人[21]将文本转换为具有成对和组关系的场景图,以逐步检索3D合成的子场景。虽然生成方法最近被探索用于不同类型的布局[13],但一些方法专注于生成场景布局。GRAINS [16]探索分层图以生成3D场景,使用递归VAE生成布局,然后进行对象检索。Luo等人[20]生成一个3D场景布局的场景图的条件下,结合渲染方法,以提高图像生成。其他作品使用深度先验[33]或关系图[32]来学习室内场景的顶视图中的对象占用。与我们的工作不同,这些作品要么探索图像作为最终输出,使用基于检索的3D模型,要么在合成场景上操作。因此,这些方法不能完全解释实际的3D场景,或者不能生成上下文感知的真实构图。3. 数据准备我们的方法建立在3DSSG [31]之上,3DSSG [31]是3RScan [30]的场景图扩展,3RScan [30]是具有1.4k真实3D扫描的大规模室内数据集3RScan不包含对象的规范姿势,这对于学习对象姿势和形状以及许多其他任务至关重要。因此,我们实现了一个快速的半自动注释管道,以获得规范的严格边界框每个实例。由于大多数物体都是由水平表面支撑的,我们用7个自由度(7DoF)来建模定向盒,即。3表示尺寸,3表示平移,1表示绕z轴的旋转由于定向的边界框应该完全包围对象,同时拥有最小的体积,因此我们使用体积作为标准来优化边界框。16354不DDEEEEERRB{}S{}B S∈ N联系我们E∈ROR∈OEEEE我out,ij仁智我我我旋转参数首先,对于每个对象,我们提取点集p。然后,我们使用范围[0,90[度]内的角度α,以1度的步长,沿着z轴逐渐旋转点,pt=R(α)p。在每个步骤中,我们通过简单地计算沿着每个轴的极值来从变换的点集pt中提取轴对齐的我们估计在鸟瞰图中的2D边界框的区域然后将旋转标记为具有最小框自上而下视图区域的α(参见图1)。补充材料)。我们从这个盒子中提取最终的盒子参数:宽度w、长度l和高度h、旋转α以及质心(Cx,cy,cz)。提取的边界框仍然是模糊的,因为总是有四个可能的解决方案,关于面向方向。因此,对于具有两个或更多个垂直对称轴的对象,例如桌子,我们自动将最大尺寸组件定义为前端(与ShapeNet [3]一致对于所有其他对象,例如椅子或沙发,手动注释面向方向(总共4.3k个实例)。当从对象点云获得3D框时,我们观察到由于公正扫描而导致的未对准。对象对象移除,因为这可以通过消除给定节点的对应框和形状来容易地实现总体架构如图2所示 我们首先通过布局布局和形状编码器处理场景图,第4.2节。然后,我们采用一个共享的编码器,它结合了布局和形状的特征,第4.3节。 该共享嵌入被进一步馈送到形状形状和布局布局解码器以获得最终场景。最后,我们使用修改网络(sec-步骤4.5)以使模型能够在保留未改变的部分的同时并入场景中的改变。4.1. 图卷积网络在我们的模型中,每个构建块的核心都是一个具有剩余层的图卷积网络(GCN)[15],它使图的连接对象之间的信息流成为GCN的每个层Ig在有向关系三元组(out- p - in)上操作,并且由三个首先,将每个三元组ij馈送到多个三元组i j中。用于消息传递的层感知器(MLP)g1(·)通常不接触它们的支撑结构,例如,(ψ(lg),φ(Ig+1),φ(Ig))=gi(φ(Ig),φ(Ig),φ(Ig))。(一)一把缺腿的椅子导致一个out,ijp,ijin,ijout,ijp,ijin,ij从地板上因此,我们使用来自[31]的支持关系来检测不一致性如果物体与其支撑物的距离超过10cm,则我们将相应的3D第二,聚合步骤组合来自每个节点的所有边的信息:框,使其到达父对象的上一级对于诸如地板的平面支撑,我们采用RANSAC [5]来ρ(lg)=lg。Σψ(lg)+Σψ(lg)Σ(2)在对象周围的邻域中拟合平面,并延伸对象框,使其接触拟合平面。4. 方法在这项工作中,我们提出了一种新的方法,从一个给定的场景图生成完整的3D场景,在一个完全学习 和 端 到 端 的 方 式 。 具 体 地 , 给 定 场 景 图 G=(、),其中节点o i是语义对象标签,而边r_ij是语义关系标签其中i1,…N和j1,…N,我们生成对应的3D场景S。在本文中,我们将使用符号ni来更一般地指代节点。我们将3D场景S=(,)表示为一组对象边界框为b0,…bN和形状=s0,…,s N. 受[20]关于图像合成的布局生成的启发,我们将我们的模型基于变分场景图自动编码器。 ”[20]故,“信”字为“信”。在形状检索上,我们通过共享的潜在嵌入来共同学习布局和形状,因为这是两个相互强烈支持的固有的凝聚任务。此外,我们使场景操作在同一个学习模型,使用-ING场景图作为接口。特别地,给定场景及其场景图,可以通过与图交互(诸如添加新节点或改变关系)来将改变应用于我们不需要学习其中,Mi是节点i的边的数量,并且out、in是作为出(入)界对象的节点的边的集合所得到的特征被馈送到最终更新MLPg2(·)φ(Ig +1)= φ(Ig)+g2(ρ(Ig))。(三)4.2. 编码3D场景我们分别利用两个并行的图卷积编码器布局,和形状,布局和形状。布局编码器布局是GCN,其采用扩展图Gb,其中节点ni=(oi,bi)用每个对象的3D框b的集合来丰富,并且针对每个节点n i生成输出特征f b,i,其中f b=布局(G b)。虽然可以独立地对形状进行从场景图来看,它可能导致不一致的配置。例如,我们会期望一把办公椅与一张桌子同时出现.因此,我们建议杠杆年龄的另一个GCN推断一致的场景设置。虽然直接在边界框上的损失效果很好,但类似地,在形状上学习GCN自动编码器。点云由于其不连续的输出空间,是一个更加困难的任务。为了避免这个问题,我们建议代之以学习如何使用潜在的规范形状空间 该规范形状空间可以通过具有编码器Egem(·)的各种生成模型来实现。Mij∈Routj∈R在16355D·我D^^^{|}ER^RRDRDTOR我我我LEO R不R^O图2. 图形到3D管道。给定场景图,我们生成一组边界框和对象形状。我们采用基于图形的变分自动编码器与两个并行的GCN编码器共享潜在的盒子和形状信息,通过一个共享的编码器模块。给定来自所学习的底层分布的样本,最终3D场景经由组合来自用于3D框和形状的各个GCN解码器的预测来获得我们进一步使用GCN操纵器在飞行中将用户修改的场景图。和解码器gen(),例如,通过训练自动编码器/解码器[8,26]。 我们创建具有节点ni=(oi,es)的扩展图Gs,其中es=gem n(si). 该公式使得图形到3D对于所选择的形状表示是不可知的。在我们的实验中,我们使用AtlasNet [8]和DeepSDF [26]作为生成模型展示了有关Atlas- Net和DeepSDF的更多详细信息,请参阅补充资料。 同样在这里,我们采用GCN作为形状编码器E形状,我们向其馈送Gs以获得每个节点形状特征fs=Eshape(Gs)。4.3. 形状和布局通信由于布局和形状预测是相关的任务,我们希望鼓励两个分支之间的沟通。因此,我们引入共享编码器Eshared,其GCN之后是一个MLP,产生最终的形状编码es=Dshape(z,O,R)。为了获得最终的3D场景,每个对象形状编码被解码为相应的i个形状ge n(es). 然后使用获得的边界框将每个形状si从规范姿势转换为场景坐标。4.5.场景图形交互为了实现感知当前场景的场景操纵,我们用另一个GCN来扩展我们的模型,直接对共享潜图Gl=(z,z)进行操作。、)的方式如从编码器获得的。首先,我们增加G=(z,O,R)的变化。因此,O由原始节点O和新节点O’组成,其中取每个编码器的级联输出特征并计算共享特征fs,i i(1,…,N)。此外,我们将共享特征馈送到MLP 网络,以计算高斯先验下的共享后验分布(μ,σ)我们从该分布中采样zi,并将结果馈送到相关联的布局和形状解码器。由于采样是不可微的,我们在训练时应用常用的重新参数化技巧来获得zi。4.4.解码3D场景布局解码器布局再次是具有与编码器相同的结构的GCN。最后一个GCN层之后是两个MLP分支,其分别从角度αi预测盒范围和位置b-α,i。在学习的分布以及语义场景图,布局G. 然后,它生成对应的对象3D框((b-α,α()=Dl ayout(z,O,R)。形状解码器Dshape遵循与Dlayout类似的结构,不同之添加到图表中。 同样地,由原的新的出边和入边。另外,根据来自用户的输入来修改一些边缘。最后,由于我们没有任何对应的潜在表示’,我们用零填充zi′来计算zi。 注意可以有无限可能的输出反映给定的变化为了捕获这个连续的输出空间,如果节点是操作的一部分,则我们将z i与来自具有零均值和单位标准差的正态分布的样本zn 然后,T网络给出转换后的潜势为zT=(z如图3所示。Af-因此,受影响节点的预测延迟为插入到原始潜在场景图G1中。最后,我们将改变的潜在图馈送到相应的解码器以根据改变的场景图生成更新的场景。在推断期间,用户可以直接在图的节点和边中进行改变。在训练时,我们通过创建真实图的副本来模拟用户输入,该真实图展示了随机增强,例如16356NSE不LNGD我我我我我LΣ节点添加、关系标签损坏,或者可替换地,保持场景不变。4.6. 培养目标在未改变的节点上训练Graph-to-3D的损失,即。生成模式和加工过程中不变的零件组成的重构项01-02||ˆb-b|| +CE(α,α)+||es−es||)的方式RNi=1-α,i-α,i1i i i i1(四)和Kullback-Leibler散度项LKL= D KL(E(z|G、B、e)|p(z|G))、(5)其中p()表示高斯先验分布,并且()是完整的编码网络。CE表示用于对角度进行分类的交叉熵,离散化为24个类。4.6.1修改的自监督学习为了训练Graph-to-3D变化,需要适当的场景对,即互动前后。不幸的是,记录这样的数据是非常昂贵和耗时的.此外,直接监督具有L1损失的改变的节点不是用于每个关系的一对多映射的适当建模因此,我们提出使用一种新的关系鉴别器D盒,它可以直接学习从数据中解释关系和布局,并确保偶尔的关系变化或节点添加正确地反映在3D场景中。我们用两个盒子、类标签和它们的关系来填充D盒子。然后训练D框以强制生成的框将遵循来自关系的语义约束。为此,我们向鉴别器馈送真实成分或生成的(假)成分,I.E.修改后的盒子然后优化D盒,使得它学会区分真实和虚假设置,而生成器试图通过在操纵下产生正确的组合来欺骗鉴别器损失遵循[7]并优化以下GAN目标图3. 修改场景图形。 给定一个场景图,我们在节点(对象添加)或边(关系更改)中进行更改。网络相应地更新潜在图。包含变化的所有边被传递到关系鉴别器以增强约束在节点和边标签上的框预测。因此,除了真/假判定之外,D形状还预测给定潜在形状编码的类别,以确保所生成的对象表示它们的真实类别。I.E. aux利用真实的〇 i类与来自D形状的预测类之间的交叉熵损失。因此,鉴别器可以学习底层形状分布的边界,并确保重建的形状源于这种分布。总而言之,我们最后的损失变成了L total =Lr+λKLLKL+λD , bLD , b+λD , sLD , s( 八)其中λ是指相应的损失权重。我们参考补充材料了解实施细节。5. 结果在本节中,我们描述了我们用来评估所提出的方法在合理布局和形状生成方面的性能的评估,以满足要求。D,b=最小最大[G D(i,j)∈R'Eoi,oj,rij,bi,bj[l〇gDbox(oi,oj,rij,bi,bj)]由输入场景图施加的约束。5.1. 评价方案+Eoi,oj,rij[lo g(1−D bo x(oi,oj,rij,bi,bj))]]。(六)我们评估我们的方法上的官方分裂的3DSSG请注意,此鉴别器损失将应用于包含更改的所有边。出于类似的动机,我们针对改变的形状采用辅助判别器[25],其除了GAN损失之外,还根据下式利用分类损失Laux:LD,s=Laux+minmax[ΣEo,es[logDshapee(es)]+i=1数据集[31],有160个对象类和26个关系类。由于我们期望对于相同的输入有多个可能的结果,典型的度量,例如 L1/L2范数或Cham- fer损失是不合适的,这是由于预测和地面事实之间的严格比较。在[20]之后,我们依赖于几何约束来测量输入关系是否正确地反映在生成的布局中。我们在预测的每一对上测试约束度量Eo[lo g(1−Dshap e(es))]]。与以下关系连接的框(七)16357D方法形状表示左/权前端/背后更小/较大低/更高相同总3D-SLN [20]-0.740.690.770.851.000.81进步-0.750.660.740.830.980.79图形到方框-0.820.780.900.951.000.89图形到3DAtlasNet [8]0.850.790.960.961.000.91图形到3D[26]第二十六话0.810.810.990.981.000.92表1.场景图约束生成任务(越高越好)。总准确度被计算为各个边缘类别准确度的平均值,以最小化类别不平衡偏差。方法形状表示模式左/权前端/背后更小/较大低/更高相同总3D-SLN [20]0.620.620.660.670.990.71渐进式图形到方框-0.810.650.770.660.760.730.840.741.000.980.840.75Graph-to-3D w/oTGraph-to-3DAtlasNet [8]变化0.640.730.660.670.710.820.780.790.961.000.750.80Graph-to-3D w/oTGraph-to-3D[26]第二十六话0.710.730.710.710.800.820.790.790.991.000.800.813D-SLN [20]0.620.630.780.760.910.74渐进式图形到方框-0.910.630.880.610.790.930.960.801.000.860.910.76Graph-to-3D w/oTGraph-to-3DAtlasNet [8]此外0.640.650.620.710.850.960.840.891.001.000.790.84Graph-to-3D w/oTGraph-to-3D[26]第二十六话0.700.690.730.730.851.000.880.910.970.970.820.86表2. 操纵任务上的场景图约束(越高越好)。总准确度被计算为各个边缘类别准确度的平均值,以最小化类别不平衡偏差。顶部:关系更改模式。底部:节点添加模式。方法形状模型形状表示大小一代位置角形状大小操纵位置角形状3D-SLN [20]检索3RScan数据0.0260.06411.8330.0880.0010.0020.2900.002进步-0.0090.0111.494-0.0080.0081.559-图形到方框图形到形状AtlasNet [8]0.0090.0241.8690.0000.0070.0192.9200.000图形到3D0.0970.49720.5320.0050.0370.06114.1770.007图形到方框图形到形状[26]第二十六话0.0090.0241.8950.0110.0050.0193.3910.014图形到3D0.0910.48519.2030.0150.0150.0359.3640.016表3.生成任务(左)和操作任务(右)的多样性结果(std)比较,计算为位置和尺寸(以米为单位)以及角度(以度为单位)的标准差对于形状,我们报告连续代之间的平均倒角距离左、右、前、后、小、大、低、高和相同(c.f.补充材料,以了解更多详情)。作为一种方法来定量评估生成的场景和形状,我们进行了一个周期一致性实验。给定从我们的模型生成的形状,我们使用来自[31]的最先进的场景图预测网络(SGPN)来预测场景图。然后,我们比较地面实况场景图(即输入到我们的模型)与来自SGPN的预测图进行比较。我们将这种比较基于[31]的对象,谓词和关系三元组的标准top-k召回度量(见补充)。这是由如下期望激发的:合理的场景应当导致与输入图相同的图。类似的方法已经用于从语义[34]生成图像,使用从生成的形象此外,在增刊中,我们报告了一项用户研究,以评估全球的正确性和风格的健身。5.2. 基线3D-SLN由于SunCG不可用,我们使用他们的官方代码库在3DSSG上训练[20]由于我们不关注图像,因此省略了渲染组件。为了获得3D-SLN的形状,我们遵循他们的检索方法,其中对于每一个,我们从3RScan检索来自相同类别的具有最高相似性的对象渐进生成自然支持3D生成和操纵的模型在每一步中,GCN(与布局相同)接收当前场景,连同新节点na到16358节点添加关系更改图4. Graph-to-3D(DeepSDF编码)对3D场景生成(中间)和操作(底部)的定性结果,从场景图(顶部)开始。虚线反映新的/更改的关系,而空节点表示添加的对象。图5. 场景上下文在场景生成中的作用。上图:与桌子连接使椅子看起来像办公椅。下图:沙发上的枕头数量会影响沙发的大小和风格。添.我们建议读者参阅补充资料,了解有关渐进基线的更多详细信息。消融为了消融使用GCN用于形状生成的相关性,我们直接基于AtlasNet利用变分自动编码器我们在附录中提供了更多细节。此外,我们通过训练具有用于形状(图形到形状)和布局(图形到框)的单独GCN-VAE的模型来消除布局和形状的共享,其如下相同的架构选择,除了E共享。 我们也运行我们的方法而不修改网络T。5.3. 布局评估表1报告了生成任务的约束准确度度量我们观察到Graph-to-3D在所有指标上都优于基线以及变体解耦布局和形状Graph-to-box。表2评估了操纵任务的约束准确度度量我们分别报告了节点添加实验和关系改变实验。我们观察到渐进式模型在节点添加方面表现最好(表2,底部),而我们的模型在变化方面相当不错。这是很自然的,因为渐进式模型被明确地训练用于加法。操纵一代变化图16359不不布局模型形状模型形状表示召回对象前1前5前10召回同品种器械前1前3前5回忆三胞胎前1前50前1003D-SLN [20]进步检索检索3RScan数据0.560.350.810.660.880.790.500.410.820.700.860.820.150.090.570.400.820.70图形到方框AtlasNet VAE0.410.740.830.570.800.880.080.460.77‡图到框图形到方框‡图形到形状图形到形状AtlasNet [8]0.390.510.680.810.770.860.550.570.790.800.880.880.050.230.350.630.690.84图形到3D0.540.840.900.600.820.900.210.650.85图形到方框图形到形状[26]第二十六话0.470.740.830.570.800.870.140.570.81图形到3D0.510.800.880.580.800.890.190.590.833RScan数据0.530.820.900.750.930.980.180.610.83表4. 3DSSG上的场景图预测准确度,使用来自[31]的SGPN模型,测量为对象、谓词和三元组预测的前k个召回率(越高越好)。‡使用非规范对象训练的模型,结果明显更差。使用的模型比3D-SLN或不使用的相应模型表现更好这是预期的,因为这些方法明确地对支持这种改变的体系结构建模。此外,我们测量的多样性作为标准偏差之间的10个样本,在相同的输入下产生的。我们在每个边界框参数上分别计算该度量,并计算尺寸、以米为单位的平移和以度为单位的角度的为了测量形状多样性,我们报告了这10个样品之间的平均倒角距离。结果如表3所示进化世代的遗传多样性和变异多样性都是最低的另一方面,其他模型,表现出更多的可解释的多样性的结果,具有较大的值的位置比对象的大小。尽管如此,这两种共享模式在布局的多样性方面都更胜一筹 。 至 于 形 状 , 这 两 个 共 享 模 型 再 次 优 于 manip-ulation,但我们的表现有点差的一代。5.4. 形状评估图4示出了来自Graph-to-3D的定性结果我们首先采样一个场景图(上图),然后在图中应用一个变化,然后反映出来在场景中。该模型理解不同的关系,如支持(躺在),接近(左,前)和比较(大于)。例如,模型能够在床上放置枕头,或者根据边缘标签改变椅子尺寸。此外,对象形状和大小很好地表示输入图中的类别。在图5中,我们说明了场景上下文对形状生成的影响。例如,当连接到桌子时,椅子倾向于具有办公室风格(中间),而当连接到餐桌时,椅子倾向于具有更标准的风格(左),或者当没有明确连接到桌子时(右)。此外,沙发上有许多枕头有助于其风格和更大的尺寸。从数据中学习的这些模式显示了所提出的基于学习形状的图驱动方法的另一个有趣的优点。3D形状和完整3D场景如表4所示。对象和谓词重调用度量主要与形状生成和布局生成质量相关三重回忆测量所有成分的组合影响。该表比较了不同的形状模型,例如AtlasNetVAE,Graph-to- Box/Shape和我们的共享模型Graph-to-3D。作为参考,我们提出了地面实况场景(3RScan数据)的场景图预测结果。正如预期的那样,后者在谓词预测中具有最高的准确性。有趣的是,在依赖于形状的指标上,它与我们的图形到3D模型相当。基于GCN的形状生成模型优于不考虑对象间关系的简单AtlasNet VAE比较共享模型和非纠缠模型,我们观察到布局生成和形状的一致性能增益,这意味着这两个任务受益于联合布局和形状学习。最后,我们还使用非规范姿势中的形状运行我们的基线图形到框/形状。该模型的性能显著下降,证明了我们的注释的相关性6. 结论在这项工作中,我们提出了Graph-to-3D一种新的模型,用于端到端的3D场景生成和交互使用场景图,并探讨了联合学习的形状和布局的优势。我们表明,相同的模型可以用不同的形状表示进行训练,包括点云和隐函数(SDF)。我们对质量、语义约束和多样性的评估在这两项任务上都显示出令人信服的结果。未来的工作将被指定为生成对象纹理,结合场景图属性描述视觉属性。7. 确认这项研究工作得到了德国研究共同体(DFG)项目381855581的支持。我们感谢用户研究的所有参与者。16360引用[1] 放大图片作者:Iro Armeni,Zhi-Yang He,JunYoungGwak,Amir R.扎米尔,马丁·菲舍尔,吉滕德拉·马利克,西尔维奥·萨瓦雷塞.3D场景图:统一语义、3D空间和相机的结构。在国际计算机视觉会议(ICCV),2019年。[2] 奥伦·阿舒尔和里奥·沃尔夫。在交互式场景生成中指定对象属性和关系在IEEE计算机视觉国际会议论文集,第4561-4569页[3] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[4] 放 大 图 片 作 者 : Helisa Dhamo , Azade Farshad , IroLaina,Nassir Navab,Gregory D.作者声明:by J.使用场景图的语义图像操作。在计算机视觉和模式识别(CVPR),2020年。[5] Martin A Fischler和Robert C Bolles。随机样本一致性:一个范例模型拟合与应用程序的图像分析和自动制图。Communications of the ACM,24(6):381[6] 马修·费舍尔马诺利斯·萨瓦和帕特·汉拉汉使用图形核描述场景中的结构关系。ACM Trans. Graph,2011.[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS。2014年[8] 放 大 图 片 作 者 : David G. Kim , Bryan Russell ,andMathieuAubry. AtlasNet:一个学习3D表面生成的方法。IEEE Conf.计算机视觉和模式识别(CVPR),2018。[9] Roei Herzig、Moshiko Raboh、Gal Chechik、JonathanBe rant和Amir Globerson。用置换不变结构预测将图像映射到场景神经信息处理系统(NeurIPS),2018年。[10] Chenfanfu Jiang , Siyuan Qi , Yixin Zhu , SiyuanHuang,Jenny Lin,Lap-Fai Yu,Demetri Terzopoulos,and Song-Chun Zhu.可配置的3D场景合成和2D图像渲染与每像素地面真理使用随机- tic文法。国际计算机视觉杂志(IJCV),2018年。[11] 贾斯汀·约翰逊,阿格里姆·古普塔,李飞飞。从场景图生成图像在计算机视觉和模式识别会议,2018年。[12] J. 约翰逊河,巴西-地克里希纳,M。斯塔克湖Li,D.A.莎玛M. S. Bernstein和L.飞飞使用场景图进行图像检索。计算机视觉与模式识别会议(CVPR),2015年。[13] Akash Abdu Jyothi,Thibaut Durand,Jiawei He,LeonidSi-gal,and Greg Mori.Layoutvae:从标签集随机生成场景布局在IEEE/CVF国际计算机视觉会议(ICCV)的会议记录中,2019年10月。[14] Ranjay Krishna 、 Yuke Zhu 、 Oliver Groth 、 JustinJohnson、Kenji Hata、Joshua Kravitz、Stephanie Chen、Yannis Kalan-ditis 、 Li-Jia Li 、 David A Shamma 、Michael Bernstein和Li Fei-Fei。视觉基因组:使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志(IJCV),2017年。[15] Guohao Li ,Matthias Mller ,Ali Thabet ,and BernardGhanem. DeepGCNs:GCNs能像CNN一样深入吗?在2019年计算机视觉国际会议(ICCV)[16] Manyi Li , Akshay Gadi Patil , Kai Xu , SiddharthaChaudhuri,Owais Khan,Ariel Shamir,Changhe Tu,Baoquan Chen,Daniel Cohen-Or,and Hao Zhang.生成递归自动编 码器的室内场景。ACM Transactions onGraphics(TOG),2018年。[17] Yikang Li,Wanli Ouyang,Bolei Zhou,Jianping Shi,Chao Zhang,and Xiaogang Wang.可分解净值:一种高效的基于子图的场景图生成框架在欧洲计算机视觉会议(ECCV),2018。[18] 李益康,欧阳万里,周波磊,王坤,王晓刚.从对象、短语和区域字幕生成场景图。在计算机视觉和模式识别会议,2017年。[19] Tianqiang Liu,Siddhartha Chaudhuri,Vladimir Kim,Qixing Huang,Niloy Mitra,and Thomas Funkhouser.使用 概 率 语 法 创 建 ACM Transactions on Graphics(TOG),2014年。[20] Andrew Luo,Zhoutong Zhang,Jiajun Wu,and JoshuaB.特南鲍姆场景布局端到端优化。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2020年6月。[21] Rui Ma , Akshay Gadi Patil , Matthew Fisher , ManyiLi , Sren Pirk , Binh-Son Hua , Sai-Kit Yeung , XinTong,Leonidas Guibas,and Hao Zhang.语言驱动的场景数据库三维场景合成。SIGGRAPHAsia,Techni- calPapers,2018。[22] Kaichun Mo , Paul Guerrero , Li Yi , Hao Su , PeterWonka,NiloyMitra,andLeonidasGuibas.StructureNet:用于三维形状生成的层次图网络。ACMTrans- actions on Graphics(TOG),2019年。[23] Alejandro Newell和Jia Deng。通过关联嵌入将像素转换为图形神经信息处理系统会议(NeurIPS),2017年。[24] Yinyu Nie , Xiaoguang Han , Shihui Guo , YujianZheng,Jian Chang,and Jian Jun Zhang.全三维理解:从单幅图像中进行室内场景的联合IEEE/CVF计算机视觉和模式识别会议,2020年6月。[25] Augustus Odena,Christopher Olah,and Jonathon Shlens.辅助分类器gans的条件图像合成。在ICML,第2642-2651页[26] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功