3D室内场景增强：神经消息传递方法的应用与优势

98 浏览量更新于2023-10-12 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7384……………SceneGraphNet：用于3D室内场景增强的神经消息传递杨舟Zachary而Evangelos Kalogerakis马萨诸塞大学阿默斯特{yangzhou，zwhile，kalo}@ cs.umass.edu摘要在本文中，我们提出了一种神经消息传递方法，以增加输入的三维室内场景与新的对象匹配的环境。给定一个输入的、可能不完整的3D场景和一个查询位置（图1），我们的方法预测一个适合该位置的对象类型的概率分布。我们的分销通过在密集图中传递学习到的消息来预测，密集图的节点表示输入场景中的对象，边缘表示空间和结构关系。通过关注机制对消息进行加权，我们的方法学会关注最相关的周围场景上下文，以预测新的场景对象。我们发现，我们的方法显着优于国家的最先进的方法，在正确预测的基础上，我们在SUNC数据集的实验在场景中丢失的对象方面我们还展示了我们的方法的其他应用，包括基于上下文的3D对象识别和迭代场景生成。1. 介绍随着在线存储库中可用的3D模型和场景数量的增加，对有效地回答3D场景中的对象查询的需求变得比以往任何时候都大。场景查询的常见类型是预测与输入3D场景的周围上下文很好地匹配的似然对象类型。例如，如图1所示，给定靠近电视机架和房间角落的查询位置，要添加到该位置的对象的可能选择可以是扬声器，或者不太可能是植物。我们设计了一种神经消息传递方法来预测场景中给定查询位置的对象类型的概率分布我们预测的分布可用于各种视觉和图形任务。首先，我们的方法可以通过考虑场景上下文来增强场景中的3D对象识别（图2）。其次，它还可以用于通过评估场景中不同位置的概率分布来自动填充具有更多对象的3D场景（图3）。另一个相关的应用是在交互式地对3D场景建模时向设计者提供对象类型建议。图1. SceneGraphNet通过密集图中的迭代消息传递来捕获输入3D场景中对象之间的关系，以在查询位置进行对象类型预测。我们的方法模型的场景作为一个图形，其中节点表示现有的对象和边缘表示它们之间的各种空间和结构关系，如支持，周围，邻接和对象共现关系。边缘不仅限于相邻对象，而且还可以捕获场景中的长程依赖性，例如，在房间一侧的沙发的选择可以影响在房间相对侧的其它沙发、椅子或桌子的选择，以保持合理的对象设置和布置。我们的方法受到图神经网络方法的启发，该方法学习图中的消息传递[1，6，7]以推断节点表示和它们之间的交互。我们的方法学习消息传递来聚合来自不同对象的周围场景上下文。它解决了这一背景下的一些挑战。首先，场景对象之间可以具有多种类型的关系，床头柜可以靠近床，同时它相对于从两侧围绕床的另一个床头柜对称地放置。我们发现，通过专门针对每种类型关系的神经网络模块，可以更有效地捕获对象关系。此外，我们发现，当我们不仅对本地或严格分层的对象关系进行建模，而且还对密集图中捕获的远程关系进行建模时，由于我们事先不知道哪些关系对于预测查询位置处的对象最重要，因此我们设计了一种注意力机制来权衡不同的消息，即，我们发现哪些边对于进行对象预测更重要。最后，我们发现，从多个对象聚集消息更好地处理内存启用单元（GRU），而不是其他更简单的计划，如求和或最大池。查询位置什么对象类型可以去那个地方吗货架3%灯百分之九扬声器奥斯曼帝国1%植物百分之十五SceneG百分之七十关系7385……………..…………..基于MVCNN的3D形状百分之六十五基于MVCNNSceneGraphNet的&百分之九十三早期的方法大多局限于小场景。由于粗糙的场景关系、形状表示和在其浅层次或手工设计的统计模型中捕获的统计数据，它们的泛化能力有限。随着诸如SUNC [18]等大型场景数据集的可用性，更复杂的学习方法已经图2.基于上下文的对象识别。左：使用多视图CNN [19]进行对象识别，不考虑场景上下文。右图：通过融合基于场景上下文的多视图CNN和SceneGraphNet预测来改进识别。完整场景图3.迭代场景合成。给定一个不完整的场景，我们的方法用于在SceneGraphNet预测的最可能位置逐步填充更多对象。我们测试了我们的方法对几个替代品在一个大型数据集的基础上SUCG。我们评估了不同的方法如何准确地预测SUNC场景中故意忽略的对象类型。我们的方法改进了预测丢失的对象类型的一个大的标记，与此任务采用的先前最佳方法相比， Gin 为 16%（51%→67%）。我们的贡献是双重的：• 一种新的图形神经网络架构，用于对3D室内场景中对象之间的短程和长程关系进行建模。• 一个迭代的消息传递方案，加强了注意力机制，执行对象相关的预，场景中的措辞任务，包括空间查询应答、基于上下文的对象识别和迭代场景合成。2. 相关工作我们的工作涉及到通过预测新对象无条件地或以某些输入（如空间查询）为条件地放置在其中来合成室内3D场景的学习方法我们的工作也涉及到图神经网络和神经消息传递。室内场景合成。 3D场景建模的早期工作采用手工设计的内核和图遍历来从与输入场景的周围上下文兼容的3D模型数据库中检索对象[3，5]。或者，贝叶斯网络已经被提出来通过对对象共现和放置统计进行建模来合成3D对象的布置[4]。其他概率图形模型也被用于对对象之间的成对兼容性进行建模，以在给定场景的输入草图[23]或RGBD数据[2，10]的情况下合成场景。这些提出如Henderson等[9]提出了一种Dirichlet过程混合模型，用于根据共存和相对位移来模拟对象的高阶关系。与我们的方法更相关的是用于场景合成和增强的深度网络Wang等人。[21，15]使用基于图像的CNN对输入场景的自顶向下视图进行编码，然后将其解码为对象类别和位置预测。在一项并行工作中，Zhang et al.[24]使用与生成对抗网络耦合的变分自动编码器来生成以矩阵表示的场景，其中每列表示具有位置和几何属性的对象与我们的工作最相关的是GRAINS [12]，这是一种递归自动编码器网络，它生成表示为树结构场景图的场景，其中内部节点表示根据各种关系（例如，周围的、支持的）和叶子表示对象类别和大小。GRAINS在其树形结构体系结构中只直接编码同一组对象之间的局部依赖关系表示场景的树是通过手工设计的启发式分组操作创建的。与我们的工作同时，Wang et al.[20]提出了一种用于场景合成的图神经网络图中的边表示对象的空间和语义关系，然而，它们通过拓扑学被修剪。相反，我们的方法将场景建模为密集图，捕捉对象之间的短程和长程依赖性。我们的方法不是手工设计对象关系的优先级，而是学习参与最相关的关系来增强场景。图神经网络。已经提出了大量的方法来将图建模为神经网络[16，8，7，13，6，1，17]。我们的方法主要与沿着边执行消息传递以通过神经网络操作更新节点表示的方法有关[1，6，7]。在我们的图网络中，节点与多个边连接，允许在对象之间的多个结构关系上交换信息，并且我们还使用注意力机制来权衡场景对象预测的最相关消息。我们还调整了图结构，节点表示，消息排序和聚合在特定的设置的3D室内场景建模。3. 方法我们的方法的输入是一组布置在场景中的对象的3D模型。我们假设当前对象在枕头地毯22%奥斯曼百分之九玩具百分之三灯百分之一奥斯曼奥斯曼地毯百分之三枕头百分之一百分之一玩具1%灯百分之一…7386我k→iMSG我K图4.用于在卧室场景的SceneGraphNet中传递神经消息的图结构示例。左：输入3D场景。中间：我们建模的图结构和对象关系（一些关系，例如为了清楚起见，跳过了密集的“同现”和“相邻”）。右：对象“desk”从图中的其他节点接收到的所有不同类型关系的消息场景基于它们的类型被标记（例如，沙发、桌子等）。给定场景中的查询位置p（图1），我们的方法的输出是不同对象类型或类别的概率分布P（C|p，s），其表示来自这些类别中的每一个的对象有多大可能很好地适合于该位置并匹配场景上下文。的概率分布可以以各种方式使用，例如简单地从具有最高概率的类别中选择对象以放置在场景的查询位置从其他节点接收消息用于更新节点表示，使得这些表示反映在这些消息中捕获的场景上下文。新的消息从节点发出，这导致更多关于场景上下文的信息以这种方式，消息传递过程迭代地运行。在下面的段落中，我们将描述此消息传递过程的步骤。初始化。每个节点表示基于节点处的形状表示xi初始化增强任务，或呈现对象类型rec的列表对设计师的推荐，按其概率排序，h（0）=finit（xi;winit）（1）交互式场景建模任务。或者，对于对象识别任务，我们的分布可以与后验相结合，后验试图仅基于单个形状数据来预测对象类别。为了确定目标概率分布，我们的方法首先创建一个图，其节点表示场景中的对象，边缘表示对象之间的不同类型的关系（图4）。在这个图中，信息通过在通过边连接的节点之间迭代传递学习到的消息而流动。我们注意到，我们用于消息传递的图不应与用于图形文件格式中的场景图（通常以树的形式）混淆，该图形文件格式用于基于层次变换来表示场景中的对象。我们的场景图表示具有更丰富的结构，并且不限于树。在接下来的章节中，我们将解释消息传递（第3.1节），设计图结构的不同策略（第3.2节），目标分布预测（第3.3节）和应用程序（第3.4节）。其中f init是具有可学习参数的两层MLP，winit输出100维节点表示（细节在补充材料中提供）。在我们的实现中，形状表示由三个向量xi=[ci，pi，di]的级联形成，其中ci是表示其范畴的独热向量，pi∈ R3是它在场景中的质心3D位置，di∈ R3是它的比例（它的定向边界框长度）。充分和传播从节点k到节点i的消息对它们对应的形状之间的信息交换或交互进行编码。这条信息携带着基于对应的节点表示H（t）和H（t）并且还取决于两个节点之间的关系R的类型（例如，计算不同的消息，“围绕”关系或“支持”关系）。我们将在第节中讨论不同类型的关系3.2. 在步骤t，从节点k到另一节点i的消息m（r，t）被计算为：m（r，t）=f（r）（h（t），h（t）; w（r））（2）3.1. 消息传递k→imsgk iMSG图5说明了我们的消息传递和底层其中f（r）是具有可学习参数神经结构场景图中的每个节点i表示-（r）MSG（每个关系r的权重不同）输出表示三维对象。该节点内部携带一个矢量表示hi，它根据100维信息表示。消息的权重。有些信息可能比其他信息更重要，或者与预测更相关。W7387…k→i我k→ii、jGRU我相邻关系你知道吗，我是说，X��→��,GRU其他关系x��→��GRU日本+1共现MLP层你好，我是说，X��→��你好，我是说，XGRU更新表示关系��→��GRU串联聚合消息节点表示加权消息图5.概述我们的消息传递和底层神经网络架构。我们使用图4中的示例来说明单个消息传递迭代。因此，我们实现了一种形式的注意力机制，充分和传播在消息传递期间，每个消息m（r，t）用标量权重a k，i缩放（相乘），计算如下：ak，i=fatt（xk，xi; watt）（3）其中fatt是两层MLP，后面是具有可学习参数watt的S形层。注意，注意力权重是根据原始形状表示计算的。我们实际上发现，与使用形状和潜在表示更新它们相比，这种策略具有更稳定的收敛性（更好的收敛性）。此外，权重几乎为0意味着两个节点之间的交互可以忽略不计。这可以反过来用于在测试时丢弃边缘和加速消息传递，而不会牺牲性能。还应注意，形状代表-（删除最后一个索引j=| N（i）|在GRU序列中为清楚起见）。我们注意到，序列中的第一个GRU单元接收全零消息。消息的顺序还这一点，在网络中普遍存在在我们的实现中，从发送节点到节点i的消息根据它们对应的对象质心到节点i处表示的对象的质心的欧几里得距离（从最远到最近）进行排序。节点表示更新。最后，对于每个节点i，其潜在表示被更新以反映在跨所有不同类型的关系发送给它的所有消息中捕获的所传输的上下文。具体来说，聚合的ME-来自所有关系类型的数据g（r，t）被级联，并且其潜在表示被更新如下：h（t+1）=fupd（h（t），Concat（{gr，t}r∈R）;wupd）（5）表示包括对象的位置，因此权重为预期与物体距离相关。消息聚合。消息通过针对每种类型的关系学习的GRU模块具体来说，对于每个节点i，我们传递一个来自所有不同节点的消息序列{m（r，t）}k∈N（i）k∈ N（i）通过一系列GRU单元连接到它（其中N（i）表示发射到节点i的节点的集合）。每个GRU单元接收来自发射器的消息作为输入将节点k和序列中的前一个GRU单元连接起来，并产生聚合消息g（r，t）（j = 1，.， |N（i）|是每个GRU单元的索引）如下：其中fupd是一个具有可学习权重wupd的两层MLP，R是我们在下一节中讨论的关系集。3.2. 图结构和对象关系我们方法中的一个关键组件是用于消息传递的底层图结构。一个明显的策略是将场景中的每个节点（对象）与相邻节点（对象）连接，在它们之间的欧几里得距离上。然而，我们发现通过简单的相邻关系连接图会导致g（r，t）=f（r）（g（r，t），a·m（r，t）;w（r））（4）由于多种原因，对象预测性能差i、jGRUi，j−1k我k→iGRU首先，很难定义全局距离阈值或单个最接近的邻居的数量，以及为所有不同的工作其中w（r）是每种类型的可学习GRU参数场景第二，也是最重要的拉雷申河最后一个格鲁乌单位在序列亲-引入最终聚合消息，简单地表示为g（r，t）关系是粗糙的，而且常常是模棱两可的。例如，枕头和床头柜都………………………………..……7388MM它们相对于床的结构和空间关系可以完全不同即，枕头在床的“上面”，而床头柜在床的我们发现，在图中表示更细粒度的关系可以显着提高我们方法的预测性能。我们还发现，形成密集图捕捉场景对象之间的远程交互比使用稀疏图或将它们约束为树结构更好，如我们的结果部分所讨论的。下面我们讨论用于在节点之间形成消息传递连接的不同类型的关系。“支持”关系。如果由节点i表示的对象支持节点k处的对象或在节点k处的对象的“顶部”，则节点i经由该关系的有向边连接到节点k可以通过检查两个物体的边界框来检测这种关系（补充材料中提供了详细信息）。“支持者”关系这是与前一个相反的关系，即，如果节点i处的对象由节点k支持，则节点i经由该关系的边连接到节点k。注意，“然而，我们对这些关系使用不同的权重，即，节点i向通过MLP学习的k发送消息，权重不同于用于推断从k到i的消息的MLP。与使用对称消息相比，使用这种非对称拥有专门的“周围”的关系。如果有一组物体围绕另一个物体，即，该集合具有相同大小的对象，其边界框围绕中心对象以反射或旋转对称的方式放置，然后所有这些对象通过“环绕”关系类型的定向边连接到中心对象“被包围”的关系这是与前一个相反的关系。中心对象通过“相邻”关系类型的有向边连接到其周围的对象“仅次于”的关系如果节点i与节点k相邻并且位于相同的底层支撑表面上，则两个节点i和k经由“下一个”关系类型的无向边连接。注意，与前面的关系相反，这是对称关系，因此消息由相同的MLP在两个方向上推断。“共同发生”的关系。如果两个节点i和k的对象共存于同一场景中，则它们经由“共存”关系类型的无向边连接这种类型的关系显然会导致一个完全连接的图。如前面在介绍中所讨论的，要放置在位置中的对象的选择我们发现，捕捉这种长距离的我们注意到，通过检查图中的atten- tion权重，可以在消息传递过程中动态丢弃边，从而在测试时加速执行对于包含50-100个对象的场景，在我们的图中传递消息在测试时需要几秒钟。图4展示了我们的场景图结构，其中包含一个玩具场景示例的所有不同类型的关系我们注意到，在我们所有的训练和测试场景中，存在“地板”节点和“墙壁”节点，因为这些对象也是室内场景的组成部分并且对于进行预测是有用的当我们想要预测挂在墙上的物体时3.3. 预测给定场景中点p形式的查询位置，我们在我们的图中形成表示要预测的“丢失对象”的特殊将节点初始化为全零形状类别和大小表示向量，并将3D位置设置为p。我们根据前面部分讨论的关系（包括我们的有向关系，可以通过检查查询点与场景中其他对象的相对位置来推断）将其连接到图中的其他节点这个特殊的节点及其边基于输入场景和查询形成了我们最终的场景图然后我们在图中执行消息传递。节点表示在每个时间步同步地更新（即，所有的消息在它们被发送到其他节点之前都被计算），包括我们的特殊节点消息传递一直执行到t=T时间步长（在我们的实现中实际上T=3次迭代）。然后在我们的特殊节点中的表示是de-通过两层MLP和softmax编码来预测我们的目标概率分布：P（c）|p，s）= f pred（h（T）; wpred）（6）其中，fpred表示MLP，并且wpred 表示其可学习的参数。对于交互式建模任务，我们还发现有用的预测对象的大小Dm放置在场景中。这是通过从学习的节点表示回归到对象大小的另一个MLP来完成的训练我们网络中的所有MLP，包括GRU模块，都是联合培训的。为了训练我们的图网络，给定一个训练场景，我们从中删除一个随机对象（不包括“墙”和“地板”）。我们的培训目标7389完整场景沙发椅子图6.预测最有可能添加的对象类别场景和相关的放置分布。左：一个投入的场景. 中间：在场景中添加的前两个最合理的类别（沙发和椅子）以及每个场景位置的评估放置概率。右：沙发和椅子放在最可能的位置的结果场景。正确预测被移除对象的类别这意味着我们将一个查询放在它的位置，并执行我们的消息传递交互过程。基于空节点的预测分布，我们形成了丢失对象类别的类别交叉熵损失。为了训练回归到对象大小的MLP，我们还使用了地面真实大小和预测大小之间的L2实作详细数据。训练是通过Adam优化器[11]完成的，学习率为0。001，β系数为（0. 九比零。999），权重衰减设置为10−5。批量大小设置为350个场景。对于我们最大的房间数据集，该模型收敛约8K次迭代。我们挑选基于保持验证性能的最佳模型和超参数我们的实现在Pytorch中，并在以下位置提供：https://github.com/yzhou359/3DIndoor-SceneGraphNet.3.4. 应用场景中的物体识别。 3D场景中的对象可能并不总是基于其类别进行标记自动识别3D对象的一种方法是通过在体积上操作的标准3D形状处理架构单独地处理它们（例如，[22]）、多视图（例如，[19]），或基于点的表示（例如，[14]）。然而，这样的方法并不完美，并且容易出错，特别是如果存在其形状在不同类别中相似的对象。为了提高场景中的对象识别，我们还可以使用SceneGraphNet的上下文预测。具体来说，考虑到后分布-B组份P（C|o）对于由上述3D深度架构之一提取的对象，给定其原始形状表示o（体素、多视图图像或点），以及我们的后验从节点的位置处提取的分布对象P（C|p，s），我们可以简单地取这两个分布的乘积并重新归一化。在我们的实验中，我们使用了流行的多视图架构[19]，并发现所得到的分布产生与单独使用多视图对象预测相一致的更好的预测图2展示了一个典型的例子。增量场景合成。我们的后验分布的条件是在一个查询位置，以评估在该位置的对象类别的健身我们可以通过计算P（C）来使用我们的分布增量地合成场景|p，s）在场景中的查询位置p的网格上（例如，地板上的位置的2D规则网格，或场景中随机拾取的对象（例如桌子）的表面），拾取-计算位置和最大化分布的对象类别图6示出了最可能的对象预测和用于跨场景放置的评估的概率分布图3显示了迭代场景合成的示例。虽然一些用户监督最终需要调整放置，指定对象方向，并停止迭代过程，我们相信，我们的方法仍然可以提供有益的指导三维场景设计。4. 结果和评价我们从定性和定量两个方面对我们的方法进行了评价。下面我们将讨论我们的数据集、评估指标、与替代方案的比较以及我们的消融研究。数据集。在[21]之后，我们从SUNC数据集中试验了四种房间类型（6K卧室，4K客厅，3K浴室和2K办公室）。数量对象类别的数量从31到51不等。数据集统计数据见补充材料。为了确保与其他方法[12，21]进行公平比较，这些方法假设四面墙的矩形房间作为输入，我们排除了不具有这种布局的SUNC房间（我们注意到我们的方法没有这种限制）。分别针对四种房间类型中的每一种训练所有方法。我们使用80%场景的随机分割用于训练，10%用于保持验证，10%用于测试（相同的分割和超参数调整过程用于训练所有方法）。评估指标。对于以3D查询点位置为条件的场景增强任务，我们使用以下过程进行评估。给定一个测试SUNC场景，我们随机删除其中一个对象（不包括地板和墙壁）。然后，给定一个查询位置设置为该对象的质心，我们从下面讨论的所有竞争方法中计算对象类别预测分布。首先，我们测量分类精度，即，最可能的对象类别预测是否产生室内残缺场景位置概率侧视图沙发俯视图椅子7390与被移除对象的地面实况类别一致的方法。我们还评估了top-K分类准确性，它衡量了地面实况类别是否包含在由方法产生的K个最可能的预测中。使用前K精度的原因是来自一个类别的一些对象（例如，桌上的膝上型计算机）可以用来自另一类别的对象（例如，一本书）在一个场景中，而不牺牲场景的可解释性。因此，如果一种方法预测图书是最有可能的类别，那么笔记本电脑，前K个准确度（K> 1）将不受我们还评估了预测对象大小的准确性对象在SUCG中标注了物理尺寸，因此我们报告了所有测试查询中所有三个维度的平均误差（cm）比较。我们比较了两种最先进的场景合成方法：[12]王世文等。的基于视图的卷积先验[21]。Wang等人。[21]训练CNN模块，该模块将场景的自上而下视图作为输入，并输出以该视图中的2D位置为条件的对象类别预测为了与Wang等人进行比较。[21]，我们将输入的3D查询位置投影到场景自顶向下视图中的相应2D位置上我们使用他们的公开代码来训练他们的模块。为了与GRAINS [12]进行比较，我们首先基于其分类将输入场景编码为树（再次，我们使用他们的公开代码）。为了进行公平的比较（即，向GRAINS提供与我们的方法相同的输入信息），我们还包括一个节点具有与我们的方法中相同的全零类别和大小表示，并且其3D位置根据相对于其在树中的兄弟节点表示的查询位置来设置（GRAINS编码对象相对于兄弟节点的相对位置）。该树通过递归网络进行处理，然后将其解码为相同的树，目标是预测“空”节点的类别。为了训练GRAINS，我们使用了与我们的方法相同的损失。所有方法均使用相同的数据集和拆分。我们注意到GRAIN有5M个可学习的参数，Wang et al. 有42M，而SceneGraphNet的数量要少得多（1。5M）。结果表1示出了对于所有不同方法（K=1、3、5），在所有房间类型的整个数据集上平均的前K准确度。我们的方法优于其他两个竞争的方法，具有显着的利润率范围从10。前5名的准确率为2%，达到16。4%的top-1准确度。方法平均Top1Top3Top5谷物[12]44.263.973.6Wang等人[21日]50.970.779.3SGNet-tree61.179.787.0SGNet-sparse60.078.686.5SGNet-co-occurve56.575.483.3SGNet-sum57.777.685.1SGNet-max63.181.587.3SGNet-vanilla-rnn64.882.388.5SGNet-no-attention60.379.185.8SGNet-dist-weights63.881.687.9SceneGraphNet（完整模型）67.383.889.5表1.我们的场景增强任务的不同方法和SceneGraphNet变体的前K在对象大小方面，我们将我们的方法与GRAINS进行了比较，因为GRAINS还能够预测要添加到场景中的对象的定向边界框大小。我们发现GRAINS的平均预测误差为38cm，而我们的方法的平均误差为26cm。消融研究。我们还基于相同的数据集和分类评估指标（表1）评估了我们的方法与其他几种退化变体的关系。我们测试了以下变体。SGNet-tree：我们只使用支持、被支持、被包围和被支持的关系来构建场景图SGNet- sparse使用除了密集的“共现”关系之外的所有关系构建图，从而产生稀疏图结构。SGNet-co-occurse：我们建立了一个完全连接的图，其中只有边之间的“共现”关系。SGNet-sum使用完整的图形结构，但使用其表示的总和而不是GRU模块来聚集消息。SGNet-max则使用最大池化（max-pooling）对消息的表示进行聚集。 SGNet-vanilla-rnn 使用 vanilla RNN 聚合消息。SGNet-no-attention使用完整的图结构，但不使用消息的加权机制（所有消息具有相同的权重）。SGNet- dist-weights通过根据节点之间的欧几里得距离- -一种||dk，i||（权重设置为αk，i=c·expb，其中dk，i是在补充材料中，我们包括详细的评估-每个房间类型。图8显示了根据输入场景中的对象总数划分的每个房间类型我们观察到，我们的方法和其他方法之间的图7显示了SceneGraphNet、GRAINS [12]和Wang等人最有可能预测的类别。[21]对于两个输入场景和查询。对象质心之间的欧几里德距离k和i、c和b是通过保持验证设置的参数我们发现，我们的方法优于所有这些退化的变体。性能wrt迭代number.后完成消息传递的第一次迭代后，前5名的准确率为72。百分之七。在第二次迭代中，它增加到88。2%，在第三个，性能达到89。百分之五在第三次迭代之后，百分比在89%7391查询位置查询位置卧室浴室3DScene Ours GRAINsWang等人图7.两个3D场景的对象类别预测和不同方法的查询位置（红点）的比较。给定输入场景和查询（左），我们显示了预测的类别分布和渲染的场景，其中每个方法都从最有可能的预测类别中添加了对象。卧室Top‐3精度客厅Top‐3精度GREEN Wang et al.我们百分之一百百分之五十百分之一百百分之五十表2.单独使用MVCNN的对象识别准确性[19]和使用MVCNN与我们的ShapeNetGraph帖子-百分之零点零百分之零点零<2020‐303 0 ‐4040 ‐ 50>50浴室前3名精度<2020‐303 0 ‐4040 ‐ 50>50Office Top‐3准确度rior为我们测试场景中的对象进行了评估。百分之一百百分之一百3D场景中的物体识别。对于我们场景数据集中的每个对象，我们使用MVCNN [19]来预测其对象。百分之五十百分之零点零<2020‐3030‐40百分之五十百分之零点零<2020‐3030‐4040‐50大于50对象类别P（C|o）给定其多视图表示O.然后，我们将该预测分布乘以上下文感知的预测后验P（C|p，s）来自Scene-GraphNet。表2显示了平均分类ac-在结合和不结合SceneGraphNet的后验与MVCNN的情况下，对象识别的精确性。我们的方法显着提高了13%的准确性，在这个基于上下文的对象识别任务。时间在我们最大的房间数据集（卧室）中训练我们的网络需要30个小时，其中包含在GeForce 1080Ti GPU上测量的5K训练场景。在测试时，给定一个具有40个对象的平均大小的场景，我们的方法需要大约0。58秒来推断给定查询的分布。5. 讨论我们提出了一种神经消息传递方法，该方法在3D场景的密集场景图表示上操作，以执行场景增强和基于上下文的对象识别。今后的工作有几种途径我们的方法目前仅限于预测对象类别图8.分组房间的平均前3名分类准确度根据它们所包含的对象的数量。在一个给定的位置。它可以扩展到从头开始生成对象和整个场景。我们的消息传递更新方案不能保证收敛，也不能强制它成为收缩映射。振荡可以像在其他消息传递算法中一样发生，循环信念传播使用相同的迭代次数进行训练和测试有助于防止不稳定的行为。如果能研究一些修改，以保证理论上的趋同，将是富有成效的丰富场景图表示中的关系集也有助于提高性能。另一个限制是，我们的方法目前使用SUNC G中提供的粗粒度标签细粒度和层次分类也是有趣的未来方向。鸣谢。该研究由NSF资助（CHS-161733）。我们的实验是在马萨诸塞州GPU集群下获得的合作基金管理的马萨诸塞州技术合作。门窗椅百分之五十三百分之九百分地毯百分之三梳妆台百分之三地毯分区百分之一窗帘百分之一货架百分之一人0%的百分比百分之九十七电视挂画架开关百分之六十百分之三十百分之四百分之一交换机21%电视20%镜子钟架百分之九占7%室内灯地毯浴缸架厂百分之四十六百分之四十占7%百分之二百分之一卫生纸塔架吊架地毯式厕所百分之二十九百分之十百分占7%方法床生活浴办公室 AvgMVCNNMVCNN+我们的69.679.955.874.743.456.467.873.059.272.27392引用[1] Peter W Battaglia ， Razvan Pascanu ， Matthew Lai ，Danilo Rezavillo，and Koray Kavukcuoglu.交互网络，用于学习物体，关系和物理。神经信息处理系统进展，2016年。一、二[2] Kang Chen，Yu-Kun Lai，Yu-Xin Wu，Ralph Martin，and Shi-Min Hu.使用上下文信息从低质量rgb-d数据ACM事务处理图表，33（6），2014. 2[3] 马修·费舍尔和帕特·汉拉汉基于上下文的三维模型搜索。ACM事务处理图表，29（6），2010. 2[4] Matthew Fisher 、 Daniel Ritchie 、 Manolis Savva 、Thomas Funkhouser和Pat Hanrahan。基于实例的三维物体排列合成。ACM事务处理图表，31（6），2012. 2[5] 马修·费舍尔马诺利斯·萨瓦和帕特·汉拉汉使用图形核描述场景中的结构关系。ACM事务处理图表，30（4），2011. 2[6] Justin Gilmer、Samuel S Schoenholz、Patrick F Riley、Oriol Vinyals和George E Dahl。量子化学的神经信息传递。2017年国际机器学习会议）一、二[7] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习神经信息处理系统进展，2017年。一、二[8] William L. Hamilton，Rex Ying，Jure Leskovec.图上的表示学习：方法与应用。IEEE数据工程Bull. ，40（3），2017. 2[9] 保罗·亨德森和维托里奥·法拉利。公寓内3d物件布局的生成模型。CoRR，abs/1711.10939，2017。2[10] Zeinab Sadeghipour Kermani，Zicheng Liao，Ping Tan，and Hao（Richard）Zhang.从注释的RGB-D图像学习3D场景合成。计算机图形。Forum，35（5），2016. 2[11] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。6[12] Manyi Li ， Akshay Gadi Patil ， Kai Xu ， SiddharthaChaudhuri，Owais Khan，Ariel Shamir，Changhe Tu，Baoquan Chen ， Daniel Cohen-Or ， and Hao Zhang. 颗粒：生成递归自动编码器的室内场景 . ACM Trans.Graph. ，38（2），2019. 二六七[13] Yujia Li ， Daniel Tarlow ， Marc Brockschmidt ， andRichard Zemel. 门控图序列神经网络2015年，ICLR国际学习表征会议。2[14] Charles R Qi， Hao Su ，Kaichun Mo ， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在计算机视觉和模式识别会议上，CVPR，2017年。6[15] Daniel Ritchie，Kai Wang，and Yu-An Lin.通过深度卷积生成模型快速灵活地合成室内场景。在计算机视觉和模式识别会议上，CVPR，2019年。2[16] Franco Scarselli、Marco Gori、Ah Chung Tsoi、MarkusHa-genbuchner 和 Gabriele Monfardini 。图神经网络模型。IEEE Trans. on Neural Networks，20（1），2009。2[17] Kri s tofTSchütt， FarhadArbabzadah ， Ste f anChmiela ，KlausRMüller，andAl e xandreTkatchen k o.从深层张量神经网络中获得的量子Nature Communications，2017年8月。2[18] Shuran Song、Fisher Yu、Andy Zeng、Angel X Chang、Mano-lis Savva和Thomas Funkhouser。语义场景完成从一个单一的深度图像。在计算机视觉和模式识别会议上，CVPR，2017年。2[19] Hang Su，Subhransu Maji，Evangelos Kalogerakis，andErik G.学习米勒。用于三维形状识别的多视图卷积神经网络。在国际计算机视觉会议上，ICCV，2015年。二、六、八[20] 王凯，林宇安，Ben Weissmann，Manolis Savva，AngelX.Chang和Daniel Ritchie。Planit：利用关系图和空间先验网络规划和演示室内场景ACM事务处理图表，38（4），2019. 2[21] 王凯，马诺利斯·萨瓦，天使X. Chang和Daniel Ritchie。用于室内场景合成的深度卷积先验。ACM事务处理图表，37（4），2018. 二六七[22] 吴志荣，宋舒然， Aditya Khosla ， Fisher Yu ， Lin-guang Zhang ， Xiaoou Tang ， and Jianxiong Xiao. 3dshapenets：体积形状的深度表示。在计算机视觉和模式识别会议上CVPR，2015年。6[23] Kun Xu，Kang Chen，Hongbo Fu，Wei-Lun Sun，andShi-Min Hu. Sketch2scene：基于草图的3D模型的协同检索和协同放置。ACM事务处理图表，32（4），2013. 2[24] Zaiwei Zhang，Zhenpei Yang，Chongyang Ma，LinjieLuo ， Alexander Huth ， Etienne Vouga ， and QixingHuang.通过混合表示进行场景合成的深度生成建模ACMTrans. Graphics，将于2019年推出。2

下载后可阅读完整内容，剩余1页未读，立即下载