神经引导的形状解析器：基于文法的3D形状区域近似推理标注

131 浏览量更新于2023-10-25 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11614神经引导的形状解析器：基于文法的三维形状区域近似推理标注R.肯尼琼斯布朗大学阿利亚哈比卜布朗大学芝加哥大学丹尼尔里奇布朗大学摘要我们提出了神经引导的形状解析器（NGSP），学习如何分配细粒度的语义标签的3D形状的区域的方法。NGSP通过MAP推理解决了这个问题，利用学习的似然函数对以输入形状为条件的标签分配的后验概率进行建模。为了使这种搜索易于处理，NGSP采用了一个神经指导网络，学习接近后验。NGSP通过首先用指导网络对建议进行抽样，然后在全似然下评估每个建议来找到高概率的标签分配。我们评估NGSP的细粒度的语义分割的制造的3D形状从零件网，其中形状已被分解成区域，对应于部分实例过分割的任务。我们发现，NGSP提供了显着的性能改进比较方法，（i）使用区域分组每点的预测，（ii）使用区域作为自我监督信号，或(iii)在备选方案下为各区域分配标签此外，我们表明，NGSP保持强大的性能，即使有限的标记数据或嘈杂的输入形状区域。最后，我们证明了NGSP可以直接应用于CAD形状在网上知识库中发现，并验证其有效性与感性的研究。1. 介绍语义分割3D形状的能力对于视觉，图形和机器人技术中的许多应用都很重要：对对象的部分结构进行逆向工程以支持编辑和操作;为结构感知生成形状模型生成训练数据[10，14，24];帮助自主代理了解如何与环境中的对象交互[1];等等。这些应用通常要求检测到的部件是精细尺度的（例如，办公椅的轮子）和分层组织的（例如，橱柜门分解成把手、门和框架）。产生这样的分割已被证明是一个这是一项具有挑战性的任务，因为以这种粒度收集大量数据的成本很高; PartNet [25]是这种类型的唯一现有的大规模数据集。最近关于3D形状语义分割的工作主要集中在对形状原子进行操作的端到端方法（例如，网格面，点云点，占用网格体素），即输入表示中的最低级别几何实体[12，28，29，38]。虽然这些方法在许多任务上实现了令人印象深刻的性能，但它们通常不能很好地转移到具有细粒度标签的域或当对标记数据的访问受到限制时。我们假设，这种现象的一个原因是，试图标记形状原子直接在一个巨大的搜索空间的结果，允许基于学习的方法过拟合，除非标记的形状实例的标签集的复杂性的比例很高。解决这个问题的一种方法是设计利用形状区域的系统。当形状区域的数量变得明显小于形状原子的数量时，标签分配问题变得更容易。这样的框架可以允许方法在对标记数据的访问受限时学习细粒度的语义分割当提供形状区域时，它们可以以各种方式使用：（i）作为形状原子预测之上的后处理聚合，（ii）制定辅助自监督目标，或（iii）作为要标记的对象。在最后一种范例中操作的方法可以更直接地推理区域之间的关系，这可以通过更好地考虑整个形状中区域的上下文来帮助提高细粒度分割性能将形状分解为用于语义分割的区域的问题对于在线存储库中的CAD形状和场景，这种类型的区域分解通常作为建模过程的副产品产生，例如，每个部件实例将由一个或多个连接的网格组件构成[22，34，43]。在计算机视觉和图形学中，发现尚未提供它们的形状的区域分解是一个研究得很好的问题。最近在无监督技术上已经做出了相当大的努力，这些技术用基元近似3D形状[6，17，27，32，33]，11615并且通过纯几何分析对形状分割的研究有很长的历史[3，15，36]。甚至有理由相信，区域分解解决方案可以在形状类别中推广，即形状（特别是制造对象）分解为部件的方式在很大程度上是与类别无关的[11，44]。在本文中，我们提出了神经引导的形状解析器（NGSP），学习分配细粒度的标签从语义语法的3D形状的区域的方法。我们的方法是基于最大后验概率（MAP）的推理模型的标签分配到形状的区域是正确的我们的可能性由模块的混合组成，每个模块都对形状的某些区域进行操作。一组模块评估语义语法中每个标签的隐含几何形状和空间布局的有效性。另一个模块评估由标签分配形成的区域由于这个组合搜索问题太复杂，无法用穷举法求解，我们采用神经指导网络来近似后验。引导网络在本地进行推理，独立地预测每个区域的标签概率。使用由引导网络产生的每个区域概率，NGSP重要性对一组建议的标签分配进行采样。为了从这个集合中选择最佳方案，每个标签分配都在全似然下进行评估，并选择后验概率最高的样本。我们将NGSP与使用形状区域作为后处理、自我监督信号或将标签分配给具有不同搜索策略和相似性公式的区域的方法进行比较。我们评估了每种方法对PartNet中制造的3D形状进行细粒度语义分割的任务，其中每种方法都可以访问来自注释部件实例过分割的区域（例如，每个语义部件实例可能由多个区域组成）。NGSP实现了最好的语义分割性能，即使在范式中，访问标记的数据是有限的，或者当输入的形状区域是嘈杂的。为了验证我们的设计决策，我们进行了一项消融研究，测量每个似然项和神经指导网络的效果。最后，我们表明，NGSP可以找到良好的语义分割的我们的方法和实验的代码可以在https://github.com/rkjones4/NGSP上找到。总的来说，我们的贡献是：(i) 我们提出了神经引导的形状解析器（NGSP），学习如何分配标签从语义语法的3D形状的区域的方法NGSP执行近似MAP推理，使用引导网络在以输入形状为条件的标签分配的学习后验概率下找到高概率标签分配(ii) 我们证明，NGSP发现更好的细粒度的语义分割制造形状与使用形状区域的方法，在交替学习范例。2. 相关工作使用3D形状原子的语义分割用于3D形状语义分割的大多数基于学习的方法都使用形状原子（点、面、边、体素）作为它们的基本标记单元。这种做法可以追溯到在网格面上使用条件随机场的深度学习前工作[16]，并扩展到当今的神经网络方法，包括PointNet[28] ， PointNet++ [29] ， MeshCNN [12] 和 DGCNN[35]。一些方法被设计用于标记数据有限的设置，无论是在为每个形状提供的标签数量[23，40]还是包含任何标签的形状数量[5，8，30]方面虽然在这个范例中的方法实现了最先进的性能粗糙，非层次分割，我们的实验表明，他们不工作，以及在层次，细粒度的设置，更多的部分间的关系推理是有帮助的。图像和场景的基于区域的语义分割我们将3D形状分解成区域的方法在概念上类似于将2D图像分解成超像素;存在一些利用超像素来改进图像语义分割的现有工作。这些方法中的一些使用超像素或其他更大的图像区域来提高语义分割的计算效率[26]或产生具有临界边缘的分割掩模[9，41]。其中一些方法，像我们的方法一样，专注于用较少的训练数据实现高精度[2，19，42]。类似的想法也被提出用于分割3D场景。对于大规模场景，点已被分组为超级点，以使学习方法在计算上易于处理[13，20]。一些3D场景分割方法显式地计算每个形状区域的标签。一种方法对室内场景点云进行过度分割，然后使用递归去噪自动编码器来推断这些片段的分层组织[31]。另一种是通过基于动态编程的自下而上语法解析将过度分割的室内场景转换为一致的层次结构[22]。后一种方法与我们的方法类似，因为它也从数据中学习可能性;然而，所考虑的场景比我们考虑的形状更简单，更容易分解为一般来说，虽然场景可以用点云表示，但它们具有与3D形状不同的特征：场景包含的规则子结构要少得多，并且填充更稀疏3D形状语义层次结构将3D形状和场景组织成层次结构有着悠久的传统。这样的层级可以基于空间位置或与编辑和渲染的便利性相关的其他度量，如11616G∪⊂×∈∈S--LLGLS{}|SS图1.神经引导形状解析器（NGSP）学习将细粒度的语义标签（最右边）分配给形状区域（最左边）。指南网络生成一组建议的标签分配。标签分配通过评估每个建议的全局一致性这些术语被组合成后验概率，该后验概率确定最终标签分配。在经典的计算机图形学中。还可以基于其部件之间的连接性和对称关系将基于部件的形状排列成二进制层次结构[37];这样的层次结构可以是用于训练结构感知生成模型的形状数据的有用组织[21]。这种方法的一般化是考虑n元层次结构;这是PartNet [25]采用的数据表示，它支持更复杂的结构感知生成形状模型[14，24]。我们的语义分割方法是根据这些层次结构设计的，可以帮助为这种生成模型生成训练数据。具有3D形状区域的语义分割已经有一些学习将语义标签分配给3D形状区域的先前工作。一种方法首先学习如何将来自库存3D模型的过度分割形状区域分组为部分假设，然后通过CRF公式化找到每个部分假设的最佳标签分配[34]。然而，该方法不是为分层语法设计的，因为它不能分离共享相似边界框的语义部分，这对于我们期望的细粒度分割（例如，区分座椅框架和座椅表面）是必要另一种方法提出了一种MRF公式，其中一元势捕获每个区域的标签概率，配对势鼓励与语法层次结构相关的平滑项[43]。我们将通过实验证明NGSP在细粒度语义分割任务上优于此公式。相关地，一些方法已经利用形状区域分解来制定自监督学习目标。一种这样的方法训练PointNet++执行语义分割，但也会对每个点的嵌入进行对比损失，鼓励来自相同形状区域的点共享类似的嵌入[8]。当大量的无监督的图像被分割时，形状会增加标记的数据集。我们比较NGSP对这种方法，发现NGSP更好地利用形状区域的细粒度分割，即使有限的标记数据。3. 方法我们的方法的输入是一个形状，它已被分解成一组区域R，即。=Ri我们的方法还接收一个标签文法=（L，ω，P）作为输入，其中L是一组可能的语义标签，ω是根标签（文法的公理），P L L是文法的产生式规则集（指定哪些标签可以是其他标签的子标签）。标签集L可以分为末端标记LT（没有chil-chill的那些）和非末端标记LV，使得L=LTLV。我们假设存在从根到每个终端标签的唯一路径，即每个标签最多有一个父标签。这是形状标记的合理假设;所有PartNet [25]标签语法都具有此属性。给定这些输入，我们的目标是找到最大后验（MAP）标签分配A=ai，其中ai=A（Ri）是分配给区域Ri的标签。我们假设标签上的均匀先验分布，并对后验p（S|A）具有数据驱动的似然函数：L（S，A）=LG（S，A）·LL（S，A）·LR（S，A）（1）G和L推理了，而R的原因是由一个给定的分配所隐含的区域组的属性。由于对形状区域的标签分配的搜索空间很大，特别是对于细粒度的标签集，我们用一个学习局部近似后验的网络来指导我们的搜索：q（a）。图1概述了我们的方法。使用这个指导网络，我们对一组完整的标签分配进行重要抽样，我们称之为建议。这些建议可能性LLLLR最终标签分配LLLLRLLLLRargmax#��输入形状w/地区指南建议Likestival模型几何网络布局网络区域网络......11617区域图后框架标签区域网络后框架区域L R后表面背面标签区域网络输入形状带标签分配几何网LL输入形状带标签分配背面面积R（ |后表面BackFrameSe at（ |布局网络L输入形状w/地区（ |神经指南地区组语义标签相似度背面背面框架Sea布局利科几何形状空气返Ch航空座椅Ch椅背框架靠背框架L∈GLLLS∈SSS|S|SS后表面BackFrameSea图2.NGSP的模块设计几何和布局可能性消耗一个（形状，标签分配）对，并为语法中的每个语义标签计算（左）。每个几何网络都可以看到输入形状的哪些区域已被分配给其标签（例如椅背）。每个布局网络查看输入形状的哪些区域已被分配给其子标签（例如，椅背表面和椅背框架）。区域组似然项也将（形状，标签分配）对作为输入（右上）。对于标签分配所暗示的每个区域组神经指导网络在单个形状区域上运行，独立预测每个区域的标签（右下）.然后根据公式1进行评估，并选择返回最高可能性的建议作为最终的输出标签分配。在本节的剩余部分中，我们更详细地描述了该管道的不同组件：语义标签似然项（第3.1节），区域组似然项（第3.2节）以及我们的神经引导搜索程序的细节（第3.3节）。3.1. 语义标签相似词对于语法中的每个标签，语义标签似然项推理分配给该标签的形状区域的不同属性。具体地，对于每个l，我们学习用几何似然G识别l的几何属性，并用布局似然L识别l的语义布局属性。G的目的是捕获关于分配给给定标签的区域的典型几何属性的信息（例如，椅子座位通常有一个平坦的顶部表面）;L旨在捕捉标签的孩子之间的典型空间关系在椅子底座内，摇杆通常位于椅腿下方这两种可能性用相同的结构建模：通过在标签分配A中出现的标签的数量（例如，非单位乘积项的数量）来归一化这些概率我们使用PointNet++架构对几何网络pG（l：Al）和布局网络pL（l：Al）进行建模，其中每个输入点云包含来自l：A的表面样本（图2，左）。对l的条件作用是通过训练来实现的对于每个标签l，分离的pG和pL网络L.每个网络都在二元分类范式中进行训练，任务是评估l：A中的区域是否是具有标签l的语义部分的有效实例。正例来自训练数据集：标签l的网络从l出现的每个形状接收一个l：A负样本来自每个正样本的合成生成的损坏（即更改区域标签）。为了鼓励几何学和布局网络专注于它们命名的属性，我们引入了以下归纳偏差（补充资料中的详细信息）：几何网络：几何网络应该学会推理区域的联合形状是否在Sl中：A与标记l一致。因此，每一个负LG（ S，A）=.lY∈LpG（SI：A|l）1/（通过从正例中添加或移除区域来导出示例。布局网络：布局网络应侧重于LL（ S，A）=.lY∈LpL（Sl：A|l）1/（分配给L的区域的子标签之间的关系是否与该标签一致。为了实现这种推理，网络接收子标签作为附加标签。S1：A={R ∈ S s. A（R）=1}其中l：A是形状中被分配给分配A中的标签l的区域的子集。的指数连接到每个点的单热属性。每个否定示例都是通过修改来自肯定示例的至少一个区域的子标签分配来导出的。.........11618RRRRRRRLRR S∈R∈ S|}SYSLSL|SRRRRRRL|S|SLSS|SS|S|L（S，A）=. Yp（R|l）·p （R|（l）|S3.2. 区域组区域组似然项推理关于当标签被分配给输入形状时隐式地形成的区域组的特性。具体地说，它模拟了（，A）对相对于在A下形成的区域组有效的概率。对于每个lTA，区域组l被定义为{R iai=lT.R对每个l的两个属性进行推理：l是否是l的最佳标签，以及l中属于l的区域的百分比。我们用一个区域网络pR来模拟这些性质。它消耗一个区域组l，并预测l将l作为其多数标签的概率，即p标签，以及其中将l作为其真实标签的区域的百分比，即p面积。然后，这些预测在所有区域分组中进行组合和标准化：标签区1/|R|RRlRll∈L我们使用基于区域的图卷积网络对PR进行建模（图2，右上）。我们将每个l转换成一个全连通图，其中的节点对应于l的区域。我们使用预训练的点云自动编码器预测的嵌入初始化节点和边缘特征;补充中提供了详细信息。pR执行4轮门控图卷积，然后使用最大池化层为整个图创建单个潜在表示[4，7]。p标签用预测终端标签集上的概率分布的线性层来建模p面积以l为条件，并利用预测[0，1]中的标量值的线性层进行建模，其中0意味着l内没有一个面积属于l，1意味着l内的所有面积属于l。3.3. 神经引导搜索虽然区域上的搜索空间比原子上的搜索空间小得多，但在计算上仍然无法对区域的所有可能的标签分配进行穷举评估为了将我们的搜索过程引导到搜索空间的好区域，我们学习了一个引导网络q（a）来局部近似后验。我们用一个神经网络对q（a）建模，该神经网络被训练为预测形状的每个区域Ri的每个可能的标签分配ai的概率q（a）使用PointNet++架构[29]，其中输入点云包含来自整个形状的样本，但每个点都有一个额外的one-hot维度，指示它是否属于感兴趣区域（图2，右下）。我们在分类范例中训练q（a），其中数据集中的每个形状都然后，我们可以使用以下等式计算（，A）对的近似后验引导概率Q|S|LQ（S，A）= q（ai）i=1在推理时，我们的目标是找到给定形状的高似然标签分配A。为了实现这一点，我们的程序通过使用q（a）对前k个标签分配进行重要性采样，以低于Q，来创建一组建议的标签分配。然后，我们评估每个建议的分配，并在此集合中选择标签分配，最大化等式1。4. 实验在本节中，我们将评估NGSP为3D形状区域分配语义标签的能力。我们的实验使用来自PartNet数据集的CAD制造对象[25]（第4.1节）。我们在第4.2节中描述了培训计划的详细信息。在第4.3节中，我们比较了NGSP与区域感知比较方法在不同数量的标记训练数据下的语义分割任务我们在第4.4节中提供了NGSP组分的消融研究。我们研究了当输入形状区域被人为破坏（第4.5节）或由ACD方法产生（第4.6节）时，NGSP如何受到最后，在第4.7节中，我们在“野生”CAD形状上运行NGSP4.1. 数据我们考虑PartNet [25]中的六类制造形状我们使用PartNet每个类别的数据集我们使用PartNet中每个零件实例的网格组件对每个形状进行过度分割（零件实例可能由多个组件组成）。为了进行训练和推理，我们将每个网格转换为带有表面采样的点云。补充材料中提供了完整的详细信息。4.2. 培训详细信息布局，几何和区域标签网络是用二进制交叉熵训练的。区域网络使用L1损失进行训练引导网络是用焦点训练的。交叉熵损失[39]。我们使用Adam优化器[18]，指导网络的学习率为10−3，所有其他网络的学习率为10−4所有网络都使用验证集执行提前停止模型在一台配备GeForce RTX 2080 Ti GPU的机器上按顺序进行训练，i9- 9900 K CPU，消耗高达10 GB的GPU内存，需要1-2天的时间来训练类别，11619L|SLLL#火车方法平均椅子灯表花瓶刀存储PartNet（R）18.125.310.23.212.633.224.2BAE-NET（R）20.723.310.711.035.722.221.810LEL（R）20.131.114.38.612.627.426.8LHSS24.324.716.713.033.334.123.9NGSP33.636.624.716.358.829.335.9PartNet（R）31.639.424.519.144.925.536.0BAE-NET（R）26.530.519.013.142.427.925.940LEL（R）38.645.426.426.148.045.340.3LHSS35.435.723.320.150.044.339.1NGSP50.953.642.830.476.249.752.9PartNet（R）41.249.024.637.853.942.139.9BAE-NET（R）30.434.729.616.644.328.728.3400LEL（R）41.948.038.038.246.441.239.4LHSS36.343.729.031.245.033.136.0NGSP57.963.644.645.384.655.953.2表1.细粒度的语义分割结果跨越不同的PartNet类别。度量是mIoU（值越高越好）。NGSP显着优于其他方法，使形状区域的替代使用即使在有限的标记数据体系（# Train列）中，该趋势也保持一致更多语义标签有关网络体系结构的完整详细信息，请参阅补充资料4.3. 细粒度语义分割我们比较NGSP对替代区域标记方法的语义分割的任务。所有评价均在保留的测试集上进行。除非另有说明，否则来自指南网络的抽样建议的数量k被设置为10000。在PartNet之后，我们使用mIoU作为我们的评估指标：预测和地面实况每点标签之间的交集，对语法中的标签进行平均。我们将NGSP与以下方法进行比较。附加（R）的方法对每个点进行预测，这些预测通过平均运算被聚集到每个区域的预测中，以形成完整的标签分配。• PartNet（R）：用于细粒度语义分割的事实方法，其使用PointNet++来预测终端标签集[25]。• BAE-NET（R）：隐式场网络，联合学习语义分割和重建形状;设计用于有限的标记数据[5]。• LEL（R）：PointNet++骨干，其中形状区域分解制定了一个自监督训练目标，增加了分类损失;专为有限的标记数据而设计[8]。• LHSS：构建一个MRF，其中节点对应于形状区域。使用alpha扩展算法在学习的一元和基于语法的成对势上找到低成本的标签分配[43]。每种方法都是通过访问相同的标记形状实例来训练的另外还提供了BAE-NET和LELModel 10列车400列车无G无L无R32.7 48.0 54.0否29.3 43.0 51.6无q（a）11.7 13.3 13.0NGSP表 2.NGSP 在不同消融条件下的语义分割性能（指标为mIoU，跨类别平均NGSP的每个组件都帮助它找到良好的标签分配。每个类具有多达1000个形状实例，其缺少语义标签注释但包含区域分解。补充资料中提供了完整的详细信息结果：该实验的定量结果示于表1中。当标记的数据是丰富的（400个最大训练形状，底部行），NGSP优于COM的方法显着保证金。从各个类别的平均结果来看，NGSP比次优方法（LEL）提高了38%当对标记数据的访问受到限制时，NGSP也优于替代方案，当使用10%的训练数据时，NGSP的性能提高了31%，当使用2.5%的训练数据时，NGSP的性能提高了38%事实上，NGSP这一结果表明，NGSP可能是有用的语义分割的3D形状从不常见的类别，语义注释的实例的数据集是不容易获得的。我们在图3中提供了来自相同实验的一些定性比较，并在补充中提供了其他示例。NGSP能够找到更连贯的标签分配，并更好地反映地面实况标签，与其他方法相比依赖于区域对每个原子的预测进行分组的方法通常会产生缺乏全局一致性的分割。LHSS试图通过其成对势来推断全局一致性，但这会促使输出分割变得过于平滑，从而丢失细粒度的部分区别。4.4. 消融研究为了评价NGSP的设计，我们进行了一系列消融，其中每种制剂都去除了NGSP的一种组分：• 无LG：从L中删除几何可能性。• 无LL：从L中删除布局可能性。• 无LR：从L中删除区域组可能性。• 无L：选择LQ下的最佳方案• 无q（a| S）：L评估来自统一优先级的建议。我们在表2中给出了该实验的结果。正如我们在多个训练集大小上所展示的那样，11620|SL|SL|S输入区域PartNet（R）BAE-NET（R）LEL（R）LHSS NGSP GT图3.细粒度语义分割的定性比较。我们展示了输入形状区域（左），地面实况标签分配（右），以及由不同方法产生的标签分配（中）。每个语义标签由唯一的颜色表示NGSP预测最符合地面实况的标签分配我们在补充中提出了更多的定性结果方法1X注册2X注册4X注册PartNet（R）41.240.740.7BAE-NET（R）30.430.329.9LEL（R）41.941.741.3LHSS36.335.935.4NGSP57.949.045.3表3.我们评估的语义分割性能的不同方法在政权的形状区域已经经历了人工腐败（度量是mIoU，平均跨类别）。随着腐败的增加，NGSP（前3行）的分量导致更差的mIoU。“No q（a）“行表明了神经引导网络的重要性：搜索空间太大，无法以简单的方式进行然而，如在“否“行中所见由于q（a）仅局部地评估区域，因此它不能以与L相同的方式通过推理全局标签分配所隐含的部分到部分的关系而受益。4.5. 对区域腐败的我们分析如何敏感NGSP是腐败的部分实例过分割区域的输入形状。对于这种分析，我们构建了形状的数据集，这些形状的区域被人为地分割成更小的子区域。在2X（4X）范例中，每个区域被分割成2（4）个区域;这些分割是如何产生的细节在sup.xml中提供补充。对于每个腐败范例，神经指导网络在其区域经历了类似腐败的训练形状上重新训练。该实验的结果在表3中示出，其中我们跟踪语义分割性能相对于接收相同损坏区域的基线。随着区域腐败数量的增加，NGSP的性能下降，但在任何情况下，它都继续提供所有比较方法的性能改进。4.6. 非结构化数据由于NGSP需要一个区域分解作为输入，它虽然存在许多旨在将非结构化形状数据转换成一个合理的区域分解，所有现有的方法都有局限性，这仍然是一个难以解决的问题。然而，即使这些区域分解可能包含错误，NGSP仍然可以使用它们来提高语义分割性能时，访问标记的数据是有限的。我们在非结构化输入数据上运行了一个实验，将NGSP与替代区域标记方法进行比较，其中区域是由[8]中的ACD方法创建的我们报告了每种方法在训练超过10个训练形状时使用ACD产生的区域实现的平均类别mIoU（表4）。在此范例中，NGSP充分利用了ACD区域，但与使用PartNet提供的区域相比，所有方法的性能都较差（表1）。11621方法平均mIoUPartNet + NR0.155PartNet + ACD0.161BAE-NET + ACD0.180LEL + ACD0.206LHSS + ACD0.202NGSP + ACD0.244表4.非结构化输入数据的语义分割性能，ACD生成的区域和10个标记的训练形状（NR是没有区域）。NGSP与是说95% CIPartNet（R）79.1[66.1，92.1]LHSS79.6[68.1，91.1]表5.我们的感知研究的定量结果比较了不同方法对“野生”CAD形状产生的语义分割。NGSP4.7. 应用于作为CAD建模过程的副产品，许多“野生”3D形状都带有部分实例过度分割。NGSP可以分割这样的对象，通过处理每个网格连接组件作为一个形状区域。为了演示此应用程序，我们从ShapeNet的椅子类别中编译了一个由26个网格组成的小型数据集，其中每个形状我们在每个形状上运行NGSP和两种比较方法（PartNet（R）和LHSS），并记录每种方法由于我们缺乏这些形状的地面实况标签注释，我们用两种选择的强迫选择知觉研究来评估NGSP每个参与者都被展示了一系列的例子，每个例子都可视化了两种可以标记椅子部件的方式，并被要求选择更好地匹配给定形状的部件标记。补充资料中提供了更多详细信息结果我们在表5中给出了这项感知研究的结果。与会者对NGSP生成的零件标签有强烈的偏好。与PartNet相比，NGSP的平均首选率为79.1%，95%置信区间下限为 66.1% 。与 LHSS 相比， NGSP 的平均首选率为79.6%，95%置信区间下限为68.1%。5. 结论我们提出了神经引导形状解析器（NGSP），一种对区域分解的3D形状执行语义分割的方法。NGSP通过MAP推理将标签分配给形状区域，该MAP推理是在标签分配正确的概率的学习模型中进行的。形状的区域。通过近似推理方案使搜索变得易于处理，其中标签分配的探索受到神经指导网络的约束我们实验证明，NGSP优于（i）使用区域聚合点预测（ii）将区域纳入自监督训练目标或（iii）在基于搜索的替代公式中为区域分配标签的我们观察到，这些趋势与有限的标记数据和噪声形状区域保持一致。最后，我们将NGSP应用于一组“当呈现缺乏区域分解的非结构化形状时，NGSP必须依赖于其他方法来产生合适的区域。许多将表示为原始传感器输入（例如点云）的形状分解为原始部分的方法对于细粒度分割来说粒度太粗[6，17，27，32，33]。然而，NGSP的输入区域要求实际上可能比大多数这些方法的目标要弱：如第4.5节和第4.6节所示，NGSP即使在输入区域与目标零件实例不太接近时也具有优势开发无监督的方法来产生这种展望未来，我们相信NGSP将3D形状语义分割作为概率模型中的近似推理的框架，表明了如何将这项任务从精心策划的在未来，我们计划设计端到端方法无法轻松容纳的可能性术语;这些可能包括考虑功能部件关系（如相邻性、对称性或物理支撑（例如，椅子底座应物理支撑椅子座位））的难以区分的术语。这些术语可能由人通过明确的规则提供，或者提前提供，或者通过人在回路系统提供。允许将这种符号规则与数据驱动模型集成的范例可能是在少数或零拍摄场景中产生高质量语义分割致谢我们要感谢参与我们用户研究的参与者对我们研究的贡献我们还要感谢匿名评论者提供的有益建议。部分长方体和点云的渲染使用Blender Cycles渲染器生成。这项工作部分由NSF奖#1941808和布朗大学总统奖学金资助。丹尼尔·里奇是Geopipe的顾问，拥有该公司的股权。Geopipe是一家正在开发3D技术的初创公司，该技术可以构建现实世界的沉浸式虚拟副本，并在包括游戏和建筑在内的11622引用[1] Ben Abbatematteo Stefanie Tellex和George Konidaris。学习将运动学模型推广到新对象。在2019年第三届机器人学习会议上1[2] Iñigo Alonso和Ana C.穆里略基于多级超像素的稀疏标记语义分割。在2018年IEEE/RSJ智能机器人和系统国际会议上，第5785-5792页，2018年。2[3] Shmuel Asafi，Avi Goren和Daniel Cohen-Or。基于视线的弱凸分解在计算机图形论坛，第32卷，第23-31页Wiley Online Library，2013. 2[4] 泽维尔·布列松和托马斯·洛朗。残差门控图卷积网。arXiv预印本arXiv：1711.07553，2017。5[5] Zhiqin Chen，Kangxue Yin，Matthew Fisher，SiddharthaChaudhuri，and Hao Zhang. Bae-net：用于形状共分割的分支自动编码器。计算机视觉国际会议论文集，2019。二、六[6] Boyang Deng、Kyle Genova、Soroosh Yazdani、SofienBouaziz、Geoffrey Hinton和Andrea Tagliasacchi。东方网：可学习凸分解。2020年6月。1、8[7] Vijay Prakash Dwivedi ， Chaitanya K Joshi ， ThomasLaurent，Yoshua Bengio，and Xavier Bresson.对图神经网络进行基准测试。arXiv预印本arXiv：2003.00982，2020。5[8] MatheusGadelha ， AruniRoyChowdhury ， GopalSharma，Evangelos Kalogerakis，Liangliang Cao，ErikLearned-Miller，Rui Wang，and Subhransu Maji.使用近似凸分解在点云上进行标签有效学习。欧洲计算机视觉会议（ECCV），2020年。二三六七[9] Jun Gao ， Zian Wang ， Jinchen Xuan ， and SanjaFidler.Beyond fixed grid ： Learning geometric imagerepresentation with a deformable grid.在ECCV，2020年。2[10] Lin Gao，Jie Yang，Tong Wu，Yu-Jie Yuan，HongboFu，Yu-Kun Lai，and Hao（Richard）Zhang.Sdm-net：结构化可变形网格的深层生成网络。SIGGRAPHAsia，2019。1[11] Songfang Han，Jiayuan Gu，Kaichun Mo，Li Yi，SiyuHu，Xuojin Chen，and Hao Su.组成上可概括的三维结构预测。2020. 2[12] Rana Hanocka、Amir Hertz、Noa Fish、Raja Giryes、Shachar Fleishman和Daniel Cohen-Or。Meshcnn：一个有边缘的网络ACM Transactions on Graphics（TOG），38（4）：90，2019。一、二[13] Shi-Min Hu，Jun-Xiong Cai，and Yu-Kunlai.基于块上下文分析和多尺度处理的三维点云语义标注和实例分割IEEETransactionsonVisualizationandComputerGraphics，26（7）：2485- 2498，2020。2[14] R. Kenny Jones ， Theresa Barton ， Xianghao Xu ， KaiWang ， Ellen Jiang ， Paul Guerrero ， Niloy J.Mitra 和Daniel RitchieShapeassembly：学习生成3D形状结构合成程序。ACM Transactions on Graphics（TOG）Siggraph Asia 2020，39（6）：Article 234，2020. 第1、3条[15] Oliver Van Kaick 、 Noa Fish 、 Yanir Kleiman 、 ShmuelAsafi和Daniel Cohen-Or。形状近似11623凸性分析ACM Transactions on Graphics（TOG），34（1）：1-11，2014。2[16] Evangelos Kalogerakis ， Aaron Hertzmann 和 KaranSingh。学习3D网格分割和标记。ACM Trans- actionson Graphics，29（3），2010. 2[17] Yuki Kawana、Yusuke Mukuta和Tatsuya Harada。作为原始表示的神经星域。在NeurIPS 2020，2020。1、8[18] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。5[19] Suha Kwak，Seunhoon Hong，and Bohyung Han.基于超像素池化网络的弱监督语义分割。2017年AAAI人工智能会议2[20] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割在IEEE计算机视觉和模式识别会议上，第4558-4567页2[21] Jun Li，Kai Xu，Siddhartha Chaudhuri，Ersin Yumer，Hao Zhang，and Leonidas Guibas. GRASS：形状结构的生成递归自动编码器。 ACM Transactions onGraphics（TOG），36（4）：52，2017。3[22] 放大图片作者：刘天强Siddhartha Chaudhuri，VladimirG.放大图片作者：Kim，Huang Qixing， Niloy J.作者声明：Thomas Funkhouser.使用概率语法创建一致的场景图。ACM事务处理图表，33（6），2014年11月。一、二[23] Zhengzhe Liu ， Xiaojuan Qi ， and Chi-Wing Fu. Onething one click ： A self-training approach for weaklysupervised 3d semantic segmentation.在IEEE/CVF计算机视觉和模式识别会议论文集，第1726-1736页，2021年。2[24] Kaichun Mo，Paul Guerrero ，Li Yi，Hao Su，PeterWonka，NiloyMitra，andLeonidasGuibas.StructureNet：用于3D形状生成的分层图形网络SIGGRAPHAsia，2019。第1、3条[25] 莫开春，朱士林，天使X。放大图片作者：Chang，LiYi，Subarna Tri- pathi，Leonidas J.Guibas和

下载后可阅读完整内容，剩余1页未读，立即下载