没有合适的资源?快使用搜索试试~ 我知道了~
116505输出段输入(超级分段)PartGlot:从语言参考游戏中学习形状部分分割朱伊古1伊恩黄2帕诺斯Achlioptas2,3列奥尼达Guibas2 Minhyuk Sung1 KAIST2斯坦福大学3Snap Inc.0 1注意力地图后排座椅支腿臂(a)用于机器学习的(b)通过神经注意力的机器学习图1. 概况. 在左边,我们展示了区分目标几何形状(封闭在绿色框内)和两个干扰物对象的参考语言的例子。 使用这样的语言,我们提出的任务是直接预测三维对象的语义部分段。在右边,我们展示了分割结果的例子:给定形状和参考语言的无监督3D超片段,我们学习了一组与语义形状部分相对应的注意力图,这些注意力图仅通过解决识别目标形状的语言参考问题来发现。利用自然语言学习者的零拍摄学习能力,以及常见对象的共享部分组成,我们发现了桌子和灯对象上的零拍摄分割的例子,这些例子是从学习者和语言中提取的,只涉及基于椅子的比较(第二行和第三行)。摘要我们介绍了PartGlot,一个神经框架和相关的架构,用于学习语义部分分割的三维形状几何,完全基于部分引用语言。我们利用了这样一个事实,即形状的语言描述可以提供形状部分的先验知识-因为自然语言已经进化到反映人类对物体组成结构的理解,这对它们的识别和使用至关重要。对于训练,我们使用通过参考游戏收集的ShapeGlot我们的网络旨在解决这一目标多模态识别问题,通过仔细整合基于transformer的atten- tion模块,使输出注意力可以精确地突出语言中描述的语义部分。值得注意的是,该网络的运作没有任何直接的监督3D几何本身。此外,我们还证明,学习的部分信息是generaliz-能够在训练中塑造看不见的课程我们的方法打开了学习3D形状零件从语言单独的可能性,而不需要大规模的部分几何注释,从而促进注释采集。该代码可在https://github.com/63days/PartGlot上获得。1. 介绍对象感知通常基于结构抽象-将对象分解为各部分及其相互关系[10,11,16]。自然语言反映了人类对3D形状感知的这一方面-这意味着,与此同时,对象的语言描述可以提供对象几何结构的组成结构的先验信息,包括其组件或部件的身份。在这篇文章中,我们研究了这两种截然不同的形式--几何和语言--之间的相互作用,以及它如何引导“this chair has an oval目标“totally solid no目标116506学习形状结构和零件。ShapeGlot [3]探索了自然语言和物体几何之间的相互作用,以完成区分物体的任务。它提出了一种方法来设计一个众包任务,以引发更多的部分相关的参考语言(话语)的对象从用户,基于参考游戏。具体地,一个用户(说话者)被示出三个相关的对象(“然后,要求第二个用户(收听者)选择第一个用户所描述这项工作的一个有趣的方面是,即使在训练中,(参考)神经网络只被给予整体形状表示,而没有任何部分信息,它们也学会了严重依赖于与部分相关的单词和对象的相应视觉部分受这一初步观察的启发,并使用相同的数据,我们的工作研究了神经网络如何将话语中的部分名称与特定区域联系起来在3D形状的几何中。我们展示了一个值得注意的事实,即几何对象部分结构可以单独从语言中出现,而不需要对部分片段进行任何直接的几何监督,突出了语言和几何之间的深层联系。换句话说,我们可以发现语义部分段的几何形状,通过利用单独的参考语言数据。甚至我们使用的语言数据也是实用的,不像以前的工作那样由任何全面的局部性指导[17],而只是专注于描述形状差异。我们的框架基于ShapeGlot中神经listener管道的变体,采用语言话语加上点云格式的三个3D形状,并预测每个形状成为话语所描述的目标的可能性的概率。对于这个学习任务,我们探索了基于transformer的注意力模块[33]的应用然而,简单地插入注意力模块并不能产生任何与语义部分一致的有意义的区域因此,我们做了几个重要的改变,使网络学习有意义的部分分割掩码,作为学习识别目标形状的副产品。我们的实验结果表明,我们的网络中的基本架构组件显着提高了零件分割的性能。此外,在训练时给出完整的零件名称集的情况下,我们表明可以利用这些额外的信息来更好地检测和分割零件。此外,我们还证明了我们的网络可以推广到分布范围外的形状类别除了研究神经网络的能力,共同理解语言和形状,这项工作也提出了一种新的潜在的方法来收集数据的对象部分分割。对象或场景分割是许多视觉任务中的基本问题,但是基于学习的分割技术的进步由2D图像或3D模型的大规模人类分割注释的可用性来控制。特别是对于3D,在3D对象上收集手动注释需要大量的人力和成本。与此相反,说出一种语言描述是人们提供有关物体结构和几何形状的信息的一种更自然的方式。我们希望看到更多的工作如何3D分割可以改善使用语言描述的对象,没有直接的几何监督。2. 相关工作语言和形状探索语言和几何之间的交叉的作品有多种形式,从解决语言引用[2,3,31],到生成形状的语言描述[3,17],再到生成给定语言描述的形状[20,29]。与我们的工作最相关的是那些尝试语言参照游戏的人,其中任务是基于语言描述从一组潜在的候选人中选择目标形状,这些候选人要么在单个3D形状的集合中[3,31],要么在场景中[2,18,28,35,38,40]。虽然大多数这些作品将参考游戏视为候选集上的分类问题,[18]在场景上输出分割掩码。然而,与我们的方法不同,他们的工作1)适用于3D场景而不是单个形状,2)要求对分割任务进行全面监督据我们所知,我们的工作是第一个从空间注意力中获得部分级别的分割掩码,作为学习玩语言参考游戏的副产品Transformers不仅在几项任务中表现出卓越的性能[4,9,15,19,33,36],而且它们还具有注意力图的可解释性,并且可以发现不同模态之间有意义的对应关系[36]。除了应用于2D视觉领域[4,9,15]之外,变压器还用于3D空间领域的各种任务,最常见的是在点云上操作。已经引入了各种注意力机制[26]。例如,[37]采用Transformer架构来完成点云像[12,22,39]这样的作品通过包括在点云上使用自注意力的模块,在语义分割任务上表现出优异的性能。然而,在上述所有情况下,分割掩模都是在严格监督下开发的,并且不需要对空间域进行关注。此外,它们不试图利用其他模式的信息。在这里,不是用自我注意力116507··--- -只有空间域,我们使用多个模态之间的交叉注意-学习语言参考的副产品-用于分割任务。自监督 或 弱监督分割[41]提出了一种弱监督形状协同分割方法。两个关键要素是部分先验网络和低秩损失。它首先训练部分先验网络,通过从随机噪声中去除未标记的分割部分来学习部分先验。从这个预先训练的部分先验网络,协同分割网络被优化以通过低秩损失输出一致的分割。低秩损失正则化网络,通过最小化由所有测试形状的相同部件的部件特征组成[34]还利用[41]中引入的两个关键元素进行细粒度分割,而无需部分语义标记。这些网络以标签不可知的方式进行训练,但仍然需要分割信息来训练零件先验网络。我们的模型不需要任何零件,而是从语言中学习几何。形状分解最近,有许多工作[6,7,7,8,13,23,24,30,32]用于形状分解。[14,24,32]通过回归适合目标形状的图元的参数,将复杂形状抽象为多个几何体,长方体,超二次曲面或高斯。[6,8]将形状分解为凸的集合[7,23]学习一个隐式字段来表示形状。这些工作已经展示了将形状抽象为多个基元的方法,但是这些基元缺乏语义。因此,他们通常在测试时手动为每个图元分配标签3. 基于注意力的零件分割3.1. 背景和概述我们研究了一个神经网络(特别是一个注意力模块)的能力,学习一个3D对象的语义部分只从参考语言,它没有任何明确的监督,其部分分割。为了实现这一目标,我们部署了一个类似于ShapeGlot [ 3 ]的听力理解任务具体来说,给定一组形状和一个表达其中一个的话语,我们的主要任务是学习识别所指的目标形状(图2)。对于这项任务,可以设计各种可行的神经网络架构,为每个形状分配一个概率,指示其与底层话语的一致性。这项工作首次证明,通过在视觉刺激的3D空间域上仔细地结合注意力模块(例如,注意无序的3D点云集),我们的网络不仅可以学习识别目标形状,还发现了3D区域的部分描述的发言作为副产品解决的参考任务。我们在ShapeGlot中调整了原始的神经网络架构,以更好地促进我们仅用语言识别和分割对象部分的目标。首先,我们专注于仅在3D几何表示(其次,我们还探索了将输入点云划分为子组的效果,即超段(与2D中的超像素[1]类似),并将语义部分预测问题投射到这些较大的实体上。至关重要的是,可以使用自监督方法(在我们的实验中,我们使用BSP-Net的输出[6])导出超段(点组);因此,它们的使用不会影响我们的无注释3D零件分割目标第三,我们添加了一个基于transformer的[33]注意力模块,将话语或部分名称作为查询。我们还改变了几何编码器的架构,以使神经网络寻找适当的局部区域进行注意;更多细节在下面描述。我们调查了两种不同的设置的问题:在培训过程中,有和没有知识的部分名称的完整设置。3.2. 部件名称不可知学习我们首先描述了一个学习场景,其中在训练过程中没有给出部件名称集在这种情况下,必须仅从语句(单个或多个句子)和整个3D形状之间的连接来学习3D形状中的部分名称(单词)和区域之间的关联网络架构如图2所示。输入话语u被编码到两个编码器中:注意编码器fa(),其决定对于这两个编码器,我们使用了一个类似于ShapeGlot中使用的话语编码器;句子中单词的令牌代码被随机初始化,然后通过LSTM顺序处理,使用标准双线性单词注意力机制[21]。注意编码器的输出fa(u)成为后续Transformer [33]中的查询向量,分类编码器的输出fc(u)与Transformer的输出(超段特征的加权和)连接,并用于预测分类概率。对于三个输入形状o1,o2,o3,目标和两个干扰项,其中每个都表示一组超片段o=s i,我们使用PointNet [ 25 ]提取每个超片段s i的关键g k(s i)和值g v(s i)向量。在下面的单个交叉注意力层中,从话语u到每个超片段s i的注意力是通过取查询和键的点积来计算的-令x是向量,其中xi=fa(u)Tg k(si)-然后归一化116508Q_ryf#((k)f#((k)#$(si)重量)ik注意力图Q_ryf#((k)Q_ryf#((k)秒第3.3节Softmax基于transformer交叉注意(第二节)3.2)1#K&$我归一化f#((k)#$(si)f(()#重量)ikf#(u)#$(si)重量)ik重量wi0秒第3.2节Softmax密钥#$(si)级联目标概率操作中间输出PN感知中间输出正常化正常化加权和值#v(si)每超段编码器编号注意编码器f#分类编码器fc我--------·- -联系我们联系我们“has four thinnestu网络图2.对我们解决参考问题的架构的高级概述。有三种主要的编码器:分类编码器fc,注意力编码器fa和每超段编码器g。交叉关注模块基于查询聚合每超段特征以输出形状特征。分类编码器fc(u)的输出和形状特征的级联用于产生最终的分类概率。注意图包含与输入语言相对应的语义部分信息。在测试时,我们使用模板表达式的注意力图来获得部件段:使用softmax在超级段上进行:exiwi=σ(x)i=Σexi.(一)表达式被用作输入话语。在我们的实验中,我们专门使用了一个表达:给定一组部件名称,每个部件的分段是通过取其部件注意的概率高于其部件注意的概率的超分段来实现的。在超段wi上得到的概率分布变为预期指示话语u中描述的部分的注意力。然后,通过将概率wi作为加权平均值中的权重来聚合值向量gv(si),并与 分类编码器fc(u)的输出,并馈送到MLP以预测每个对象的分类得分。该架构中的一个关键细节是规范化查询fa(u)、键gk(si)和值gv(si)向量以具有单位范数。虽然错过该归一化不影响目标形状辨别的准确性,但是它在实践中极大地影响注意力并且帮助将注意力对准到语义部分,因为注意力中的权重可以根据值向量gv(s,i)的不同范数而变化。标准化的效果见第4.2节。请注意,在等式1中,我们也没有像在Transformer中通常做的那样将查询和键的点积除以向量维度的平方根,因为所有向量都是归一化的。一个更重要的观察是,用于处理集合数据的方法是至关重要的。继PointNet [25]之后,许多处理集合数据的神经网络使用将局部特征与全局特征相结合的思想,这是通过使用对称函数(如max-pool)聚合所有局部特征来创建的在我们的流水线中,我们发现全局特征与每个超段特征的连接导致完全无意义的注意,因为Transformer不需要关注特定区域,因为每个点都可以提供全局形状信息来完成参考任务。因此,所有超段都是用共享网络模块独立处理的。在测试时,我们通过使用与CLIP [27]类似的设置来获得部件的注意力;其他注意事项。3.3. 部件名称感知学习在训练时预先定义部件名称集合lk的情况下,我们利用该附加的监督来更好地将输出注意力对准给定的部件集合请注意,仍然没有零件分割监督,因为只给出了零件名称集在这个设置中,我们还假设每个话语描述给定集合中的一个且仅一个部分。从第3.2节中介绍的架构,我们首先改变注意编码器fa(),以不采用输入话语u,而是采用话语中描述的部分名称l因此,使用用于部件名称潜在令牌的单层MLP而不是LSTM。在测试时间内我们也不需要使用模板表达式;部件名称可以直接提供给注意编码器。此外,由于现在给出了部分名称的集合,因此我们建议联合规范化不同部分名称的注意力,这对于改进基于注意力的部分分割是必不可少的。我们专门收集查询的点积和所有部分名称lk和超段si的关键向量fa(lk)Tgk(si)。 设X是一个矩阵,Xik=fa(lk)Tgk(si)。然后,我们将softmax应用于X两次;首先沿着部件名称的集合(沿着k),然后沿着超段(沿着i):Yik=σ(Xi,:)k(2)Wik=σ(Y,k)i,(3)其中σ()是softmax,W=W ik是最终权重。第一个附加的softmax以及部件{back、座椅、手臂、腿部}Lk超级分段si116509·names(k)的作用是使Xik对于每个超段更尖,强制超段只属于一个部分名称。因此,这可以避免不同部分名称的注意力图之间的重叠。我们的经验发现,最终的注意力权重仍然应该在超段上进行归一化,以实现最佳性能。我们显示了在消融研究中应用softmax的不同病例之间的比较(第4.2节)。基于交叉熵的正则化为了进一步强制输出段的划分-确保一个点被分配给一个且仅一个部分名称-我们引入了基于交叉熵的正则化损失。给定Y(第一softmax的输出)并且对于每个超段si,我们找到给出最高概率Yik的部分名称lk,并且通过将该部分视为地面真值标签来计算交叉熵损失:LCE=100-1。k=argmax(Yik′)logg(Yik)(4)除了双softmax之外,正则化损失使Y更尖,并进一步避免不同部分名称的注意力图的重叠。我们实验中的消融研究分析了实践中的效果(第4.2节)。4. 实验4.1. 数据集和评价在我们的实验中,我们使用了在ShapeGlot [3]中引入的Chair in Context(CiC)数据集。CiC包括来自ShapeNet [5]的三个椅子的集合(一个目标和两个distractor)以及由人类说话者玩接地参考游戏创建的目标椅子的话语。话语预处理我们首先通过纠正拼写错误、将复数名词转换为单数名词以及将复合词划分为单个词来预处理CiC的话语,例如,“扶手”到“扶手”。对于PN-Aware设置,我们选择以下四个部件名称作为给定集合:靠背、座椅、腿部和手臂,它们也是ShapeNet [5]中注释的椅子部件分段。我们也只使用椅子三连词在CiC中,它们的相关话语只描述这些部分中的一个。经过预处理后,数据集包含40,660个集合和4,509个唯一形状。我们以80%- 10%-10%的比例将数据集分为训练、验证和测试数据集。由于描述每个部分的话语的数量是不平衡的,在训练期间,我们以与每个部分话语的数量成反比的概率对话语进行采样。图3.由BSP-Net的预训练模型生成的超段[6]。不同的颜色被随机分配给不同的超段。表1.超级细分统计。分钟最大是说超级分段数447.420.6超级分段中的患者数量01550090.3每个形状的超段由作者提供的预训练的BSP-Net [6]产生;参见图3中的示例。然后,每个超段用一小组点表示,这些点是通过在整个形状上随机采样2,048个点并基于邻近度将它们分配给超段而- 一个点被分配给一个且仅一个超段,该超段到该点的符号距离最小,因此超段划分点云。超段数和每个超段中的点数统计见表1我们进一步对每个超段的点进行采样,使得点的最大数量变为512。分割评估在测试时,我们获得四个部分的分割-背部,座位,腿和手臂-作为注意力。根据设置是PN感知还是PN不可知,第3.2节中提到的模板语句或部件名称本身被馈送到注意编码器fa()并用于生成注意。超段被分 配 给 在 注 意 力 中 概 率 最 高 的 部 件 名 称 。 根 据ShapeNet [5]中注释的地面实况部分分割对分割进行评估。使用标准mIoU作为分割的评估度量。平均mIoU表示对每个实例取平均值并对形状取平均值。4.2. 结果我们实验的定量和定性结果总结在表2和图4中。我们首先显示两个比较PN不可知(第3.2节)与PN感知(第3.3节),以及超段与点。然后,我们展示了管道中每个关键部件的消融研究结果。我们还展示了当假设地面实况部分片段以几种形状注释时,分析少镜头学习效果的结果。最后,我们还证明了我们的框架可以学习可以传输的一般零件信息ikk′116510GTPN-AgnosticPN-Aware(Ours)(我们的)点P→ Sp. -隔离区无单位标准σ(X)→i σ(X)→kσ(X)→i →kw/Global Feat.不含LCE图4.我们的方法的各种变体中预测部分分割的定性示例。紫色、蓝色、绿色和黄色分别表示预测为背部、座椅、腿部和手臂。根据ShapeNet [ 5 ]中的地面实况点云部分分割,计算地面实况列(GT)中分配给超级分段的颜色。请注意,我们的PN-Agnostic和PN-Aware设置产生了最好的分割掩码。详情请参阅正文到其它形状类别(例如,表和灯),我们还可视化话语编码中的注意力。我们首先比较第3节中描述的两种情况:在训练中利用部件名称集mIoU在表2的第1和第2行中报告。虽然PN不可知(第1行)在大多数情况下工作良好,但与使用部件名称学习的情况相比,它特别显示了手臂的低mIoU(40.6 vs 70.4)。手臂是一个可选的部分,在某些形状中可能不存在,并且根据mIoU的定义(在PointNet中使用[25]),当有甚至存在分配给ARM的单个超段,而ARM不存在。我们观察到,当在训练过程中没有利用完整的部件名称集时,会发生这种故障情况(参见图4中第二行和第八行 的 示 例 ) , 尽 管 在 网 络 中 使 用 部 件 名 称 ( PN-Aware)后,这些情况会大大减少在下文的消融研究中进一步分析了原因。注意,目标形状分类的精度对于两种情况几乎相同。跨部门mIoU在补充文件中报告。对于其余的实验,我们展示了PN-Aware在各种设置下的结果。116511表2.所有实验的定量结果:[Id 1,2]两个基线的比较; [Id 3-5]:输入颗粒度的比较;[Id 7-12]:消融病例;[Id 13-15]:少量学习结果。对于每个实验,在验证集上选择具有最高分类准确度的模型粗体表示最高mIoU,少数学习结果除外。ID方法分割mIoU(%)分类Acc.(%)回来座椅腿臂Avg.PN-Agnostic(Sec. 3.2)与PN感知(第3.3)1 PN-Agnostic(我们的)82.278.875.540.669.361.62PN感知(我们的)84.983.678.970.479.461.5点与超级分段(带PN感知)3点40.70.238.110.822.557.245P→ Sp. -隔离区Sp.-隔离区(我们的)39.284.9083.644.178.963.370.436.679.457.261.56上限 *89.888.985.292.389.1-消融研究(带PN感知)789101112无单位标准σ(X)→iσ(X)→k σ(X)→i→kw/全局特征不含LCE78.580.873.879.438.682.681.077.576.180.30.279.777.475.375.874.177.777.454.456.679.835.14.671.472.872.576.467.230.377.863.063.461.959.062.259.8少次学习(带PN感知)13k=185.583.578.473.280.159.414K=886.184.278.970.679.960.015K=3286.984.879.576.581.959.7我们还展示了在我们的管道中使用超段作为输入的优势。我们将我们的情况与两个基线进行比较:1)使用原始点云作为输入(表2中的第3行),以及2)使用点云,但在测试时间将预测结果投影到超段(表2中的第4行)。对于第二种情况,属于超段的每个点为部件名称投票,并且超段采用大多数的部件名称。表2中的行6示出了当基于底层点云的地面实况分割将部件名称分配给超段时当将我们使用超段的情况(表2中的第2行和第5行-这两个是相同的)与这两种情况进行比较时,mIoU显着改善,甚至我们的结果接近上限。第二种情况(将点结果投影到超段)的低mIOU示出了这些超段在训练过程中要使用的值,而不仅仅是在后处理步骤中使用。关于较差的定性结果,也可参见图4的第五列当使用超段代替点时,目标形状分类精度也有所提高。消融研究我们还通过消融研究证明,我们的网络管道中的细节对于部分分割性能。从表2中的第7行到第12行,我们报告了以下情况的结果(按顺序):1)当查询fa(u)、关键字gk(si)和值gv(si)向量未被归一化时,2)当softmaxσ仅跨超段应用时,3)仅跨部件名称应用时,4)首先跨超段然后跨部件名称应用时(逆序),5)当向每个超段的特征添加全局特征时,以及6)当不使用基于交叉熵的正则化损失时(等式4)。从表和图4中的结果,我们可以得出几个结论。首先,查询、键和值向量的规范化以及softmaxσ以及超段之前的部分名称改善了整体mIoU,特别是有助于准确地检测可选部分。 请参阅图4中第六列和第七列的手臂与第三列中我们的手臂的对比。有趣的是,利用这些,注意力被改善为更好地与语义部分对齐,而目标形状分类的准确性第二,按照部件名称优先,然后是超级段的顺序使用双softmax是至关重要的。切换顺序(第九列)或仅对部件名称应用softmax(第八列)时,分割的总体质量会变差;请参见图4第八列和第九列中的红色圆圈,以了解一些失败示例。第三,如第3节中所讨论的,当全局特征与超片段的局部特征相关联时,注意力根本不与语义部分对齐(图4中的第十列)。遵循PointNet的思想,通过最大池化局部特征来获得全局特征[25]。这个结果是显而易见的,因为网络可以从任何超段访问全局形状信息,而无需仔细关注特定区域。最后,基于交叉熵的正则化改进了mIoU,特别是对于座椅,其在训练数据集中具有最小的话语(32,600中的2,215),并且还提高了目标形状分类的准确性。少镜头学习我们进一步研究在少数形状上的部分片段注释是否可以提高少镜头学习设置中的分割准确性。在这里,我们只考虑PN感知的情况,并假设几个形状(1,8和32)与地面真实部分分割。请注意,与训练数据集中的4,509个完整形状相比,1,8和32是非常小的数字。我们测试利用额外的监督,通过学习每点分类与交叉熵损失和给定的注释形状后,每个时代的目标形状辨别任务学习的注意力。表2中的结果(第13-15行)显示了使用少量学习的mIoU的改进图5还示出了即使使用单次激发也细化分割边界的示例。116512→显示了桌面和桌腿段的边界。即使是关于椅子部件的信息也可以很好地推广到灯具,这是一个在几何上与椅子有很大不同的类别。表格的第二部分说明了灯座可以被检测为椅腿,并且灯罩也被区分为椅背和座椅。定性结果也显示在图6的第二行中。4.4.单词注意力可视化收件人桨编码器 f a:后面有六个板条Clsf。桨编码器 fc:背部有六条板条图5.使用一些标记示例的质量改进即使是非常少量的地面真值也可以消除模型在没有任何监督的情况下可能会混淆的东西,例如靠背和座椅之间的边界,以及将靠背的边缘预测为手臂。表3.分布外定量结果。我们的模型还可以分割分布外的形状。此表显示了mIoU以及使用椅子部件和ShapeNet中其他类的部件分段学习的注意力地图。语义上对应的部分具有更高的mIoU,例如,椅腿、桌腿、灯座.收件人桨编码器fa:两个长的东西腿细Clsf。桨编码器fc:两个长的东西腿细0 1图7.注意PN-Agnostic。两个编码器处理话语中的不同单词以扮演不同的角色:我们的话语编码器、注意力编码器和分类编码器(使用与Shape- Glot [3]相同的架构)也学习单词的注意力,并且我们将单词注意力可视化为图7中的一些示例。颜色从深蓝色变为黄色时,注意其他类椅子(带PN识别)臂单词的权重从0增加到1。有趣的是,注意编码器主要关注表示部件的名词(每行中的上面的句子),而分类编码器则关注一般上下文(下面的句子)。5. 结论我们提出了PartGlot,一个从语言描述中学习3D形状部分分割的框架。与-4.3. 分发外测试图6.泛化到看不见的形状类别。如图4所示,每个颜色指示每个预测部分。在每个类别中,模型将该部分预测为椅子中语义匹配的部分,将下部预测为腿。我们实验了从CiC数据集中的椅子中学习到的部分片段信息可以在多大程度上零次泛化到其他形状类别,即桌子和灯。表3显示了椅子部件以及桌子和灯部件的mIoU。结果表明,椅座和桌面以及椅腿和桌腿之间有很强的相关性。图6还清楚地在对零件分割没有任何直接监督的情况下,我们的网络对由给定语句描述的目标形状进行分类,通过注意模块来检测和分割零件区域。我们不仅首次提出了基于语言的3D零件分割方法,而且设计了一个网络策展,用于关注零件结构的出现。我们还提出了如何在训练中利用预定义的部件名称来实现最佳性能。我们最终证明了网络学习的部分信息可以转移到其他类型的形状。致谢本工作得到了韩国政府(MSIT)资助的NRF赠款(2021R1F1A1045604)和NST赠款(CRC 21011)、韩 国 政 府 ( MOTIE ) 资 助 的 技 术 创 新 计 划(20016615)以及Adobe和KT公司的赠款的部分支持 。 斯 坦 福 大 学 团 队 还 感 谢 ARL 资 助 W 911 NF2120104、Vannevar Bush和TUM/IAS教师奖学金以及Adobe和Snap公司的资助。GT我们的(PN感k=1K=8K=32腿座椅回来顶部11.078.21.23.5表腿连接器4.526.52.83.266.22.111.015.7基地2.01.044.69.8灯阴影冠层27.54.938.97.07.15.116.620.8管21.47.720.62.2116513引用[1] Radhakrishna Achanta , Appu Shaji , Kevin Smith ,Aurelien Lucchi,PascalFua和SabineSüsstrunk。SLIC超像素与最先进的超像素方法的比较。IEEE TPAMI,2012年。3[2] Panos Achlioptas , Ahmed Abdelreheem , Fei Xia ,Mohamed Elhoseiny,and Leonidas Guibas.ReferIt3D:用于在真实世界场景中进行细粒度3D对象识别的神经在ECCV,2020年。2[3] Panos Achlioptas , Judy Fan , X.D.Robert Hawkins ,D.Noah Goodman和J. Leonidas Guibas。ShapeGlot:学习形状区分的语言。在ICCV,2019年。一二三五八[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV,2020年。2[5] 天 使 X 作 者 : Thomas A. Funkhouser , Leonidas J.Guibas , Pat Hanrahan , Qi-Xing Huang , Zimo Li ,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,Jianxiong Xiao,Li Yi,and Fisher Yu. ShapeNet:信息丰富的3D模型存储库。CoRR,abs/1512.03012,2015。五、六[6] Zhiqin Chen,Andrea Tagliasacchi,and Hao Zhang. BSP-Net:通过二进制空间划分生成紧凑的网格.在CVPR,2020年。三、五[7] 陈志勤,尹康学,马特·费舍尔,悉达多·乔胡里,张浩。BAE-NET:用于形状共分割的分支自动编码器。在ICCV,2019年。3[8] Boyang Deng、Kyle Genova、Soroosh Yazdani、SofienBouaziz 、 Geoffrey Hinton 和 Andrea Tagliasacchi 。CvxNet:可学习的凸分解。在CVPR,2020年。3[9] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值16x16字:用于大规模图像识别的变形金刚。ICLR,2021年。2[10] 阿纳斯塔西娅·杜布罗茨,飞侠,帕诺斯·阿赫利奥普塔斯,米拉·沙拉,吉巴斯·列奥尼达斯.基于潜在空间分解的复合形状建模。CoRR,abs/1901.02968,2019。1[11] 佩 德 罗 ·F. 罗 斯 ? 费 尔 岑 斯 瓦 尔 布 Girshick , DavidMcAllester,and Deva Ramanan.使用区分性训练的基于部分的模型进行对象检测。IEEE TPAMI,2010。1[12] Mingtao Feng , Liang Zhang , Xuefei Lin , SyedZulqarnain Gilani,and Ajmal Mian.点注意力网络用于三维点云的语义分割。PR,2020年。2[13] 娜塔莎·盖尔方和列奥尼达斯·J·吉巴斯。使用局部滑移分析的形状分割。《小额赠款方案》,2004年。3[14] Kyle Genova 、 Forrester Cole 、 Daniel Vlasic 、 AaronSarna、William T Freeman和Thomas Funkhouser。使用结构化隐函数学习形状模板。在ICCV,2019年。3[15] Meng-Hao Guo,Jun-Xiong Cai,Zheng-Ning Liu,Tai-Jiang Mu,Ralph R Martin,and Shi-Min Hu. PCT:点云Transformer。在计算视觉媒体,2021年。2[16] 杰弗里·辛顿如何在神经网络中表示部分-整体层次结构CoRR,abs/2102.12627,2021。1116514[17] Yining Hong,Qing Li,Song-Chun Zhu,and SiyuanHuang. VLGrammar:视觉和语言的基础语法归纳。CoRR,abs/2103.12975,2021。2[18] 黄品浩,李汉鸿,陈焕宗,刘丁禄。用于参考3D实例分割的文本引导图神经网络。在AAAI,2021年。2[19] Drew A Hudson和C.劳伦斯·齐尼克。生成式对抗转换器。在ICML,2021。2[20] Faria Huq,Nafees Ahmed,and Anindya Iqbal.从自由形式的文本描述生成静态和模拟3D场景CoRR,abs/2010.01549,2020。2[21] Jin-Hwa Kim,Jaehyun Jun,and Byoung-Tak Zhang.双耳注意力网络。CoRR,abs/1805.07932,2018。3[22] 基 里 尔 · 马 祖 尔 和 维 克 多 · 伦 皮 茨 基 。 CloudTransformers:一种处理点云任务的通用方法ICCV,2021。2[23] DespoinaPaschalidou , AngelosKatharopoulos ,Andreas Geiger,and Sanja Fidler.神经部分:使用可逆神经网络学习表达性3D形状抽象。在CVPR,2021年。3[24] Despoina Paschalidou,Ali Osman Ulusoy,and AndreasGeiger. Superquadrics Revisited : Learning 3D shapeparsing beyond cuboids.在CVPR,2019年。3[25] Charles R Qi,Hao Su,Kaichun Mo,and Leonidas JGuibas.PointNet:用于3D分类和分割的点集深度学习。在CVPR,2017年。三、四、六、七[26] Shi Qiu,Yunfan Wu,Saeed Anwar,and Chongyi Li.研 究 三 维 点 云 目 标 检 测 中 的 注 意 机 制 CoRR ,abs/2108.00620,2021。2[27] Alec Radford、Jong Wook Kim、Chris Hallacy、AdityaRamesh 、 Gabriel Goh 、 Sandhini Agarwal 、 GirishSastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger和Ilya Sutskever。从自然语言监督中学习可转移的视觉模型。在ICML,2021。4[28] Junha Roh,Karthik Desingh,Ali Farhadi,and DieterFox.参考:用于3D视觉基础的空间语言模型。CoRR,abs/2107.03438,2021。2[29] Aditya Sanghi,Hang Chu,Joseph G Lambourne,YeWang , Chin-Yi Cheng , and Marco Fumero. CLIP-Forge : 走 向 零 射 击 文 本 到 形 状 生 成 。 CoRR ,abs/2110.02624,2021。2[30] Minhyuk Sung , Zhenyu Jiang , Panos Achlioptas ,NiloyJ.Mitra,andLeonidasJ.Guibas.DeformSyncNet:通过同步的形状变形空间进行变形传输。在SIGGRAPH Asia,2020。3[31] 杰希·帕森斯,莫希特·施里达尔,约纳坦·比斯克,克里斯·帕克斯顿,卢克·泽特尔莫耶. 3D物体的语言基础。CoRR,abs/2107.125
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功