没有合适的资源?快使用搜索试试~ 我知道了~
三维点胶囊网络:处理稀疏的3D点云,保留数据空间排列,实现新应用
1三维点胶囊网络赵永恒·Tolga Birdal*·HaowenDeng*Federico Tombari德国慕尼黑大学技术学院Uni versitaütMünchen,German y Uni versityofPadova,意大利*SiemensAG,德国慕尼黑摘要在本文中,我们提出了3D点胶囊网络,一种自动编码器,旨在处理稀疏的3D点云,同时保留输入数据的空间排列3D胶囊网络的出现是我们统一制定常见3D自动编码器的直接结果。我们的胶囊网络部署的动态路由方案[30]和独特的2D潜在此外,它还可以实现新的应用,如零件插补和替换.1. 介绍在机器人技术、自动驾驶和增强/混合现实的最新发展的推动下,3D传感已经成为计算机视觉的主要研究趋势与RGB相机相反,用于3D捕获的传感器提供丰富的几何结构,而不是高保真的外观信息。这被证明是有利的那些应用中的颜色和纹理是不足以完成给定的任务,如重建/检测无纹理的对象。与RGB相机不同,3D数据有多种形式:范围图、融合RGB-D序列、网格和点云、体积数据。由于点云能够准确地表示稀疏的3D结构,同时对感测模态不可知,因此点云已经成为3D处理的广泛选择。深度学习的扩散最近已经跨越到3D领域,并且已经提出了用于消费3D点的架构,用于体积[28]或稀疏[26]3D表示。这些体系结构克服了三维数据带来的许多挑战,如顺序不变性,由于增加的数据维和局部密度变化的复杂性不幸的是他们经常丢弃•前两位作者对这项工作做出了同样的(c)使用1%训练数据的部分分割图1.我们的3D-PointCapsNet改进了许多3D任务,同时实现了有趣的应用,例如潜在空间零件插值或完整零件修改,这是一种简单的剪切和粘贴导致不一致输出的应用。数据中的空间排列,因此不符合部分与整体的关系,这对于解释和描述3D形状至关重要;由于增加的维度,可能甚至比2D域更严重[2]。在这项工作中,我们首先提出了一个统一的外观,一些众所周知的3D点解码器。在此视图中,基于著名的2D胶囊网络(CN)[30],我们提出了无监督的3D点胶囊网络(3D-PointCapsNet),这是一种用于非结构化3D数据中通用表示学习的自动编码器。在内置的协议路由算法[30]的支持下,我们的网络尊重部件之间的几何关系,表现出更好的学习能力和泛化性能。我们 设 计 了 我 们 的 3D-PointCapsNet 架 构 , 通 过 采 用PointNet类输入层来考虑点云的稀疏性[26]。通过一个无监督的动态路由,我们组织的结果,多个最大池的特征映射到一个强大的潜在表示。该中间潜在空间由潜在胶囊堆叠的潜在激活向量参数化,该潜在激活向量指定形状的特征及其可能性。从点云获得的潜在胶囊减轻了通过单个,1009源形状目标形状(a)部分插值(b)零件更换要修改的形状带所需零件的地面真实输入形状剪切粘贴我们的结果我们的替代品1010低维向量相反,它们对组合成3D形状的基函数进行显式控制。我们进一步提出了一种新的3D点集解码器操作这些胶囊,导致更好的重建与增加的操作能力,如图所示。1.这些新的能力源于潜在胶囊实例化为各种形状参数,并且即使在以无监督的方式训练时,也不是在空间上而是在语义上集中在所考虑的形状上我们还建议提供有限数量的任务特定监督,以使个别胶囊可以擅长解决个别子问题,例如:如果任务是基于部分的分割,则它们专门针对每个形状的不同有意义的部分。我们广泛的定量和定性评估证明了我们的架构的优越性。首先,我们在三维局部特征提取、点云重建和迁移学习等多个前沿领域取得了显著进展。接下来,我们展示了由动态路由驱动的胶囊的独特注意力机制,与最先进的自动编码器相比,允许更广泛的3D应用:a)部件替换,b)通过插值的逐部件动画。注意,这两个任务对于依赖于1D潜在向量的标准架构来说都是重要的。最后,我们提出了改进的泛化看不见的数据,达到- ing准确率高达85%,即使使用1%的训练,ing数据。 简而言之,我们的核心贡献是:1. 基于点云自动编码器的统一观点,我们提出了一种用于三维数据处理领域的胶囊网络,作为一种强大而有效的工具。2. 我们表明,出点胶囊AE可以超越目前的艺术重建质量,局部三维特征提取和迁移学习的三维物体识别。3. 我们调整我们的潜在胶囊,以不同的任务与半监督,并表明,潜在胶囊可以掌握的特殊部分或性质的形状。最后,这为更高质量的预测和一系列不同的应用铺平了道路,比如特定于零件的插值。我们的源代码公开如下:https://tinyurl.com/yxq2tmv3网站。2. 相关工作深度网络中的点云由于其有效解释3D数据而无需对模态进行假设的通用能力,点云是许多3D应用程序的首选容器[48,25]。由于这种广泛的使用,最近的作品,如PointNet [26],PointNet++[27],SO-Net [22],球面卷积[20],Monte Carlo卷积[12]和动态图形网络[44]都设计了点云特定的架构,利用稀疏性和置换不变3D点集的属性。通过使用局部投影将卷积操作减少到二维来处理点集也很常见[34,15]。最近,无监督架构跟进了他们的监督同行。PU-Net[43]提出了更好的上采样方案用于解码。Fold- ingNet[41]引入了使2D网格变形以将3D表面解码为点集的想法。PPF-FoldNet [7]通过受益于FoldingNet的解码器[41],在局部特征提取方面对监督PPFNet [8]进行了改进。At- lasNet [11]可以被视为FoldingNet到多个网格补丁的扩展,并提供了数据表示的扩展功能。PointGrow[32]设计了一种用于无条件和有条件点云生成的自回归 模 型 , 从 而 实 现 了 有 效 的 无 监 督 特 征 学 习 。Achlioptas等[1]使GAN适应3D点集,为增强生成学习铺平了道路。2D胶囊网络由于其普遍适用性,胶囊网络(CN)在2D深度学习中有着巨大的用途。LaLonde和Bagci [19]开发了一种称为SegCaps的去卷积胶囊网络,用于处理对象分割。Durate等人[9]通过引入胶囊池,将CN扩展到动作分割和分类。Jaiswal等人[16],Saquret al. [31]和Upad-hyay等. [35]提出的胶囊GAN,即。标准生成对抗网络(GAN)的胶囊网络变体[10]。这些显示了更好的2D图像生成性能。Lin等[23]表明,胶囊表示比标准CNN中的神经元学习更多有意义的2D流形嵌入。与最初的CN提案相比,也有了重大改进Hinton等人用EM算法改进路由[13]。Wang和Liu将路由视为最小化类聚类损失和KL正则化项的组合的优化Chen和Crandall [6]建议可训练路由以更好地聚类胶囊。Zhang等人[47]将现有的路由选择方法统一到一个保护伞下,提出了基于加权核密度Zhang等人[46]选择使用范数来解释实体的存在,并提出学习一组胶囊子空间,输入特征向量投影到该胶囊子空间上。Lenssen等人[21]通过群卷积的使用,将保等变性和保不变性引入到帽形网络中。3D胶囊网络到目前为止,在3D领域使用胶囊的想法一直是一个相当未知的领域。Weiler等人[38]严格形式化的卷积胶囊,并提出了一个卷积神经网络(CNN)等变刚性运动。Jimenez等人[17]以及Mobniy和Nguyen[24]扩展了处理体积医学数据的上限。VideoCapsu-leNet [9]也使用体积表示来处理1011最大池1024 x 16局部小片输 入点云MLP动态路由(DR)最大池主要穴位胶囊隐形胶囊64 x64无监督重建倒角的MLP每小时3D Capsule-Encoder3D Capsule-Decoder损失图2.三维点胶囊网络。我们的胶囊编码器接受N×3点云作为输入,并使用MLP从其中提取N×128个特征然后,这些特征被发送到具有不同权重的多个独立卷积层中,每个卷积层被最大池化到1024的大小。然后将合并的特征连接以形成主要点胶囊(PPC)(1024×16)。随后的动态路由将PPC聚类到最终的潜在胶囊中。我们的解码器负责重建给定潜在特征的点集,为潜在胶囊赋予随机的2D网格,并应用MLP(64-64-32-16-3)来生成多个点补丁。由于DR [30],这些点补丁针对形状的不同区域最后,我们收集所有的补丁到最终的点云,测量到输入的Chamfer距离,以引导网络找到最佳重建。在图中,部分颜色编码胶囊。视频的时间帧然而,据我们所知,我们是第一个专门为3D点云设计胶囊网络的人,利用它们的稀疏性和非结构性来表示3D表面。3. 方法3.1. 制剂我们首先遵循AtlasNet约定[11]并呈现一些常见3D自动编码器的统一视图。然后,我们解释我们的3D-PointCapsNet在这个几何的角度,并证明其优越性相比,它的一个cestors。我们首先回顾一下基本概念:定义1(曲面和点云)3D表面(形状)是嵌入周围3D欧几里得空间中的可微 2 流 形 : M2∈R3. 我 们 将 点 云 近 似 为 表 面X={xi∈M2<$R3}的采样离散子集。定义2(同形)一个同构是一个连续的,可逆的,结构-保持两个可微曲面之间的映射定义3(图表和参数化)我们承认一个开集U∈R2和一个将一个3D开邻域映射到它的2D嵌入的同构C:M2<$→U∈R2C称为图表。它的逆函数,→M2称为参数化。定义4(Atlas)一组包含覆盖二维流形的图像的图表称为图集:A= iCi(xi)。3D自动编码器学习生成3D表面X∈ M2<$RN×3。以德为先。 3 Ψ将2D点集变形为曲面。这里感兴趣的生成模型的目标是学习最佳重建X的方法:定义5(问题)学习生成2- 流形被定义为寻找函数(s)<$(U|θ):Ψ(U |θ)≈ X [11]。 θ是这些函数的低维参数化:|θ|<|X|.定理1假设C−1存在,那么选择为3层MLP的RNN可以重建任意3D表面。证明的草图。证明在[41]中给出,并遵循通用逼近定理(UAT)。定理2存在一个整数K s. t。具有K个隐藏单元的MLP普遍地重构X直到精度λ。证明的草图。 的证明如下从Thm的平凡[1][11]。给定这些定义,一些典型的3D点解码器通过做出四个选择来区分[26,11,41]:1. 一个开集U或离散网格U<$P ={pi∈R2}。2. 重建之间的距离函数d(X,X<$)和输入形状X。3. 参数化函数Ψ。4. θ的参数(θ):θ(U |θ)。N ×3Mx2随机网格N ×1281012PiM(a) PointNet(b) FoldingNetf P(c) AtlasNetfP0fPn(c)我们的3D-PointCapsNetf1潜在向量MLPs潜在向量MLP(x2)潜在向量…潜胶囊fm图3.比较四种不同的最先进的3D点解码器。PointNet使用单个潜在向量,没有表面假设。因此,θpointnet = f。 FoldingNet[41]学习一个1D潜在向量以及一个固定的2D网格θfolding ={f,P}。先进的P2P asNet [11]学习将多个2D配置变形到局部2-流形上:θatlas ={f,{Pi}}。 我们的点胶囊网络能够学习多个潜在表示,每个表示都可以将不同的2D网格折叠到特定的局部补丁上,θours ={{fi},{Pi}}作为该领域的首批作品之一,PointNet [26]通过[1]做出可以说是最简单的选择而自然地扩展到AE。我们将此变体称为PointNet。它缺乏网格结构U=N,功能N仅依赖于单个潜在功能 : Ψ ( U| θ ) =Ψ ( θ ) =MLP ( ·|f∈Rk ) 。FoldingNet使用两级MLP作为迭代器,将固定网格P弯曲到X上。 从FoldingNet到MLP网络的转换需要多个MLP网络在多个2D集合{Pi}上操作,所述多个2D集合{Pi}在域]0,1[2:U(0,1)上随机构造。这些解释了MIPasNet更好的学习能力:不同的MLP学习重构通过学习不同的图表来区分局部表面补丁。不幸的是,虽然在AtlasNet的情况下可以定义许多图表,但上述所有方法仍然依赖于单个潜在特征向量,复制并与U连接以创建解码器的输入。然而,点云被发现由多个基函数组成[33],并且使用单一表示来管理它们并不容易。最佳我们选择超越这个限制,并选择具有一组潜在特征{fi}来捕获不同的、有意义的基函数。通过上述观察,我们现在可以重写众所周知的3D自动编码器并引入新的解码器公式:距离GM×M={(i<$j):<$i,j∈[0,. . .,M-1]}是二维均匀网格。f∈Rk表示k维特征向量。U(a,b)描绘了由区间[a,b][2]中的均匀随机分布注意,可以很容易地将这些选择混合在一起,吃的变化。然而,许多有趣的架构仅针对单个潜在特征f进行优化。据我们所知,胶囊网络[14]采取了一个有希望的方向,其中由于动态路由[30],大量卷积滤波器能够学习胶囊集合{fi} 因此,我们学习参数{θi}通过设计一个新的点云胶囊解码器,我们硬币3D-PointCapsNet。 我们举例说明了在图1中,该统一保护伞下的四个AE。3.第三章。3.2. 3D PointCapsNet架构我们现在将所提出的3D-PointCapsNet的架构描述为深度3D点云自动编码器,其结构如图1B所示。二、我们网络的输入是一个N×d的点云,其中我们固定N=2048 , 对 于 典 型 的 点 集 d=3 。 类 似 于 PointNet[26] , 我 们 使 用 逐 点 多 层 感 知 器 ( MLP )(3−64−128−1024)来执行,PointNet [26][第41话]U = P = GM×Mθ(θ):=MLP( MLP(·))θ:={f,P}d(X,X):= dCH(X,X)[第11话]我们U={Pi}:Pi∈U(0,1)(5)θ(θ):={MLPi(·)}(6)θ:={F,{fi},{Pi}}(7)d(X,X):=dCH(X,X)(8)…fmf1MLPsMLPsU = P =PU={Pi}:Pi∈U(0,1)(一)(θ):=MLP(·)(θ):={MLPi(·)}(二1013跟 踪 各 个 局 部 特 征图。为分散如胶囊网络所建议的那样,我们将这些特征图馈送到具有不同权重的多个独立卷积层中,每个卷积层都具有不同的输入形状摘要,然后,我们最大池他们的反应,以获得一个全球的潜在代表.然后将这些描述符连接成一组称为质点胶囊F的矢量。F的大小取决于在MLP的最后一层处的独立核的大小Sc= 1024和数目K= 16然后,我们使用动态路由[30]将主要点胶囊嵌入到更高级别的潜在胶囊中。每个胶囊是独立的,可以被认为是一个集群质心(码字)主 要 的 点 胶 囊 。 潜 伏 胶 囊 的 总 尺 寸 固 定 为 64×64(即,64个向量,每个向量的大小为64)。其中dEMD是地球移动器[29],dCH是倒角FoldingNet在其附录中提供了随机网格的评估1014表1.标准3DMatch基准测试的描述符匹配结果(召回)[45,7]。厨房主场1主场2Hotel 1酒店2酒店3研究MIT实验室平均3D匹配[45]0.57510.73720.70670.57080.44230.62960.56160.54550.5961CGF [18]0.46050.61540.56250.44690.38460.59260.40750.35060.4776PPFNet [8]0.89720.55770.59130.57960.57690.61110.53420.63640.6231[第41话]0.59490.71790.60580.65490.42310.61110.71230.58440.6130PPF-折叠网-2K [7]0.73520.75640.6250.65930.60580.88890.57530.59740.6804PPF-折叠网-5 K [7]0.78660.76280.61540.68140.71150.94440.61990.62340.7182我们的-2K0.85180.83330.77400.76990.73080.94440.73970.64940.7867解码器我们的解码器将潜在胶囊视为特征映射,并使用 MLP ( 64−64−32−16−3 ) 重 建 一 片 点Xi , 其 中|X|=64。在这一点上,不是像[41,11]中那样复制单个向量我们将整个胶囊复制m次,并且对每个复制品附加唯一的随机合成网格Pi,将其专用于局部区域。这进一步促进了多样性。我们通过为每个补丁将复制件通过最终的MLP进行扩展,并将外部粘合,从而获得最终的形状Xi把补丁拼在一起 我们选择m=32进行重建|=32×64=2048点,与|=32×64=2048points,thesameamountasthe输入. 与其他不良事件类似,我们估计损失超过2-通过离散Chamfer度量生成流形:dCH(X,X)=(9)零件.该网络独立于3D-PointCapsNet AE进行训练,用于零件监督。我们在补充材料中提供了额外的建筑细节。4. 实验我们首先对我们的方法进行了定量评估,然后对许多具有挑战性的3D任务进行了定性评估,例如局部特征提取,点云分类,重建,零件分割和形状插值。我们还包括一个更具体的应用程序的潜在空间部分插值,这是可能的使用帽,帽。对于这些任务的评估,我 们 使 用 多 个 基 准 数 据 集 : ShapeNet-Core [5] 、Shapenet- Part [42]、ModelNet 40 [40]和3DMatch基准[45]。1Σ1 minx−x2+Σ minx−x2实现细节在训练之前,|X|x∈Xx<$∈X<$|X|x∈Xx<$∈X<$云被对准到公共参考框架并且尺寸被归一化。为了训练我们的网络,我们使用亚当操作-但是,这次Xi|{fi})。以下来自胶囊:X=初始学习率为0.0001,批量大小为8的timizer。我们还在特征提取时采用批量归一化(BN)和BMU激活单元,结合可选监督受胶囊在二维流形上分布的规律性的启发,我们创建了一个胶囊-零件网络,通过将胶囊与零件相关联来在空间上分割对象。这里的目标是将每个胶囊指定给对象的单个部分因此,我们将此部分分割任务视为每胶囊分类问题,而不是如各种先前算法中所做的每点分类问题这仅由于胶囊网络的空间注意力而成为可能。胶囊部分网络的输入是从预训练的编码器获得的潜在胶囊。输出是每个胶囊的部件标签。通过三个步骤从ShapeNet-Part数据集[42]获得地面实况(GT)胶囊标签:1)在给定帽和预先训练的解码器的情况下重建局部部分,2)为每个重建的点检索最近邻(NN)GT点的标签,3)计算检索到的标签中最频繁的一个(模式)。为了将部件与胶囊相关联,我们使用具有交叉熵损失的共享MLP将潜在胶囊分类为1015生成初级胶囊。类似地,解码器的多级MLP也使用BN和BN单元,除了最后一层之外,其中动作被缩放。在动态路由操作期间,我们使用[30,14]中提到的挤压激活功能。4.1. 定量评价3D局部特征提取我们首先在从点云数据中提取局部特征的挑战性任务上评估3D点胶囊网络。在这个领域,学习方法已经远远超过了手工制作的方法,因此,我们只与3DMatch [45],PPFNet [8],CGF [18]和PPF-FoldNet [7]进行比较PPF-FoldNet是完全不受监督 的 , 但 仍 然 是 表 现 最 好 的 , 这 要 归 功 于 Fold-ingNet [41]编码器-解码器。因此,有趣的是,如果简单 地 将 其 Fold-ingNet 自 动 编 码 器 替 换 为 3D-PointCapsNet,其性能将受到影响。在与[7]相同的设置中,我们学习重建局部补丁的4维点对特征[3,4],而不是3D1016表2.旋转3DMatch基准上的描述符匹配结果(召回)[45,7]。厨房主场1主场2Hotel 1酒店2酒店3研究MIT实验室平均3D匹配[45]0.00400.01280.03370.00440.00000.00960.00000.02600.0113CGF [18]0.44660.66670.52880.44250.44230.62960.41780.41560.4987PPFNet [8]0.00200.00000.01440.00440.00000.00000.00000.00000.0026[第41话]0.01780.03210.03370.01330.00960.03700.01710.02600.0233PPF-折叠网-2K [7]0.73520.76920.62020.66370.60580.92590.56160.61040.6865PPF-折叠网-5 K [7]0.78850.78210.64420.67700.69230.96300.62670.67530.7311我们的-2K0.84980.85250.76920.81410.75960.92590.76020.72720.8074表3.评价重建质量。Oracle指的是输入3D形状的随机采样,并构成可实现的下限。将“倒角距离”乘以103以获得更好的查看效果。CD表示倒角距离,PB表示点基线。表4.通过ModelNet40数据集上的迁移学习实现分类的准确性。网络是在ShapeNet 55上训练的,但Ours-Parts是在较小的ShapeNet-Parts数据集上训练的Latent-GAN[1][第41话]我们的零件Acc.85.7 88.4 88.9八十九点三Oracle PB P2asNet-25 P2asNet-125 OursCD 0.85 1.91 1.56 1.511.46空间的点,并使用潜在的胶囊(码字)作为3D描述符。为了将特征向量限制在512的合理大小,我们仅将自己限制为16×32个胶囊。然后,我们在3DMatchBench- mark数据集上运行匹配评估[45],如[7]中所述,并报告在Tab中 21个epochs后正确找到匹配1.一、我们注意到,我们的点胶囊网络在学习局部特征方面表现出了先进的能力,平均超过了现有技术的10%,即使使用2K点也不像PPF-FoldNet的5K同样值得注意的是,除了厨房序列PPFNet表现出色外,我们的网络所获得的召回率我们相信,这种戏剧性的改善是有关的鲁棒性的帽,对输入数据中的轻微变形,以及我们的有效的解码器。我们的功能在旋转时也表现良好吗? PPF-FoldNet的PPF局部编码是旋转不变的。基于相同的表示,我们的局部特征网络应该具有相似的属性。这是一个跨-我们来看看在标准3DMatch基准测试中获得的良好性能是否能转移到要求旋转不变性的更多场景中。 为此,我们在Rotated-3DMatch基准[7]上重复先前的评估,这是一个将任意旋转引入[45]场景 由于该数据集包含6DoF场景变换,因此许多缺乏理论不变性的方法,例如。3DMatch、PPFNet和FoldingNet都失败了。然而,我们的无人监督胶囊AE再次成为表现最佳,在2K点情况下超过最先进水平12%,如表1所示二、这一显著的增益证明了我们的编码器也可以在空间上运行4D PPF,保持理论不变。3D重建在进一步的实验中,我们评估我们的体系结构在点生成中的质量。我们通过标准Cham- fer度量评估重建性能,并将我们的比较基于最先进的自动编码器MIPasNet 及 其 基 线 ( 点 MLP ) [11] 。 我 们 依 赖ShapeNet Core v2数据集[5],使用与AtlasNet[11]相同的训练和测试分割以及相同的评估我们在Tab中显示。(3)N >2K点的所有类别的Cham- fer距离的平均值。据观察,我们的胶囊AE导致较低的重建误差,即使当大量的补丁(125)是用来支持互联网的。这证明了所提出的网络具有更好的总结能力,并可以导致更高保真度的重建。3D对象分类的迁移学习在本节中,我们通过评估通过执行迁移学习获得的分类准确度来展示学习表示的效率。与[39,1,41]相同,我们训练线性SVM分类器,以便在给定潜在特征的情况下回归形状为此,我们将潜在胶囊重塑为一维特征,并在Modelnet40上训练分类器[40]。我们使用与[41]相同的训练/测试分割集,并通 过 在 不 同 的 数 据 集 ShapeNet-Parts 上 训 练 3D-PointCapsNet来获得潜在胶囊[42]。训练数据包含14,000个模型,细分为16个类。评价结果见表1。4,与[1,41]的ShapeNet 55相比,我们在较小的数据集上训练的AE这表明学习的潜在胶囊可以处理较小的数据集,并更好地推广到新任务。我们还评估了我们的分类性能时,训练数据是稀缺的,并获得了类似的结果,FoldingNet,在20%的训练数据上获得了85%的成功1017(a) 同一类别上的未处理部分分割(b)不同类别的多个对象的部分分割图4.通过胶囊关联进行部件分割在对自动编码器进行了预训练之后,我们附加了一个最终的部件监督层,并使用有限的数据来专门化对象部件上的胶囊(a)跨越同一类胶囊的形状捕捉语义区域。(b) 类间部分分割颜色表示不同的胶囊组,(b)仅使用简单的中值滤波器来平滑结果。表5.在ShapeNet-Part上进行零件分割,只学习x%的训练数据。度量SONet-1%我们的-1%SONet-5%我们的-5%精度0.780.850.840.86IOU0.640.670.690.70Conv层动态路由Conv层动态路由图5.在无监督自动编码器训练a)具有动态路由,b)具有简单卷积层之后,10个随机选择的胶囊在重建形状上的分布4.2. 定性结果有限数据条件下的三维物体零件分割 现在,他们展示了我们潜在胶囊的区域关注度以及他们在有限数据下的学习能力。 为此,我们在ShapeNet-Part数据集[5]上训练了3D-PointCapsNet,以进行§ 3中所述的部件分割,并进行了监督只有1-5%的部分标记训练数据。我们测试了我们网络上所有可用的测试数据。 专门研究将胶囊分类到不同的部分,我们选择与部分标签一样多的胶囊预测胶囊标签将传播到相关点。为了空间的缘故,我们仅将我们的结果与该数据集上的最新技术进行了比较,SO-Net [23]。我们使用与SO- Net相同的评 估 指 标 [23] : 准 确 性 和 IoU ( Intersection overUnion),并在Tab中报告我们的发现。五、请注意,当使用1%的输入数据进行训练时,我们的表现比SO-Net好7%当训练数据量增加到5%时,差距缩小了,但我们仍然超过SO-Net2%,尽管训练了一个较小的网络来分类潜在胶囊而不是3D点。无人监督的培训会导致专门的胶囊吗? 有趣的是,看看胶囊网络[30,14]声称更好地捕获对象的内在几何属性的原始参数是否仍然适用于我们的无监督3D-AE。为此,我们首先在图中显示。5,即使在缺乏监督的情况下,胶囊也会在模型的局部部分上进行特殊化。虽然这些部分有时可能不对应于模型的人类注释部分分割,但我们仍然期望它们集中在2-流形的语义相似区域。图5通过对10个胶囊进行单独着色来可视化它们的分布,并验证了我们的论点。为了验证我们的第二个假设,即由于动态路由而产生这种聚类,我们将AE的DR部分替换为标准PointNet类层,将1024×64PPC投影到642胶囊,并重复实验。图图5描绘了潜在向量在与DR相反,当采用这种层时的点集。注意,使用这种简单的层而不是DR既损害重建质量,又产生胶囊在形状上的不期望的散布我们将从理论上研究DR能量作为未来的工作,并在补充中提供更多关于这个实验的细节。半监督指导胶囊 到有意义的部分我们现在考虑在超监督部分分割任务中将胶囊转向最佳解决方案的训练效果。首先,我们在图中显示。4.通过所提出的零件分割方法得到的结果:(a)示出了对同一类别的多个形状的零件分割。这些结果也是未经过滤的,是我们网络的原始结果(b)描绘了跨越来自Shapenet-Part的一组对象类的部件分割它还表明,(a)中存在的一些小混淆可以用简单的中值滤波器校正这与平滑结果的昂贵CRF相反,并且在计算上更可取[37]。接下来,我们观察到,随着训练迭代的进行,随机初始化的胶囊会专门化部分,1018单段潜插值源代码目标代码图6. Shapenet-Part [42]数据集上的部分插值。(左)源点云。(右)目标形状。(中)部分插补。固定零件以浅蓝色标记,插补零件亮显。胶囊能够纯粹通过潜在空间算法执行部分插值。输入框剪切-粘贴我们的替换输入形状剪 切 粘贴我们的代表图7.可视化飞机对象上无监督AE训练的迭代。为了清晰的可视化,我们从我们用部分监督训练的部分预测中获取属于机翼部分的1020个胶囊的颜色。一个很好的部分分割在收敛点。我们在图中形象地描述了这种现象。7,其中在整个优化过程中监测已经捕获飞机机翼的胶囊。即使初始随机分布在空间上展开,结果配置仍然是部分特定的。这是我们的胶囊明智的部分半监督的自然结果。零件插补/替换最后,我们探索通过潜在空间操作插入、交换或切换对象部分的相当不常见但特别有趣的应用。由于3D-PointCapsNet发现了特定于对象属性/形状部分的多个潜在向量,我们的网络能够在潜在空间中执行每个部分的处理。要做到这一点,我们首先发现一组属于两个3D点形状的相同部分的潜在胶囊对,并将它们相交。因为这些胶囊以多种形状解释同一部件,我们假设它们特定于所考虑的部件,而不是其他。然后,我们在所选胶囊之间的潜在空间中线性插值 如图6.中间形状的重建仅在单个部分处变化,即被插值的部分。当对象到达目标形状时,它会将源零件替换为目标零件,从而启用零件替换。图8进一步显示了这一点。给定两个形状和相关部分的潜在胶囊,我们通过简单地切换一些潜在胶囊和重建来执行部分交换。图8.零件更换。在3D点的潜在空间而不是欧几里德空间中执行替换产生几何上一致的结果。结构化。通过剪切和放置直接在输入空间上进行零件交换将产生不一致的形状,因为被替换的零件将没有全局一致性。5. 结论我们提出了一种灵活有效的三维形状处理和理解工具--三维点胶囊网络我们首先对公共点云AE进行了广泛的研究。在观察到一维潜在嵌入(大多数先前的自动编码器的选择)可能是次优的情况下,我们选择将点云概括为不相交的潜在基函数的联合我们已经表明,这样的选择可以通过动态路由学习嵌入的潜在胶囊我们的算法被证明是成功的许多三维形状处理任务,如3D recruitment,局部特征提取和部分分割的广泛拥有一个潜在的胶囊集而不是一个单一的向量也使我们能够解决新的应用,如部分插值和替换。在未来,我们计划部署我们的网络,用于从3D数据中进行姿态估计和对象检测,这是目前3D计算机视觉中的两个关键挑战。致谢我们感谢王毅达、吴顺成和David Joseph Tan进行了富有成果的讨论。这项工作得到了中国学术委员会(CSC)和国际会计准则实验室的部分支持。意大利帕多瓦大学的形成工程1019引用[1] Panos Achlioptas,Olga Diamanti,Ioannis Mitliagkas,and Leonidas Guibas.学习3D点云的表示和生成模型。在Proceedings of the 35 th International Conference onMachine Learning , 第 80 卷 , Proceedings of MachineLearning Research,第40-49页中PMLR,2018年7月10日[2] 理查德·贝尔曼动态规划2013年,CCENTRAL公司[3] Tolga Birdal和Slobodan Ilic。基于点对特征的目标检测和姿态估计。2015年3D视觉国际会议,第527IEEE,2015年。[4] Tolga Birdal和Slobodan Ilic。一种用于不规则几何体三维匹配的点采样算法。2017年IEEE/RSJ,2017年。[5] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[6] Zhenhua Chen和David Crandall。具有可训练路由过程的广 义 胶 囊 网 络 。 arXiv 预 印 本 arXiv : 1808.08692 ,2018。[7] Haowen Deng,Tolga Birdal,and Slobodan Ilic.Ppf折叠网:旋转不变三维局部描述子的无监督学习。在欧洲计算机视觉会议(ECCV),2018年9月。[8] Haowen Deng,Tolga Birdal,and Slobodan Ilic. Ppfnet:全局上下文感知局部特征,用于鲁棒的3d点匹配。计算机视觉与模式识别(CVPR)IEEE,1,2018年。[9] 凯文·杜阿尔特,约格什·拉瓦特和穆巴拉克·沙阿。视频- capsulenet:用于动作检测的简化网络。神经信息处理系统的进展,第7621-7630页,2018年[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[11] 放 大 图 片 作 者 : David G. Kim , Bryan Russell ,andMathieuAubry. AtlasNet:一个学习3D表面生成的方法。IEEE Conf.计算机视觉和模式识别(CVPR),2018。[12] PedroHermosilla、TobiasRitschel、Pere-PauVa'zquez、A`lvarVinacua和Timo Ropinski。用于非均匀采样点云学习的蒙特卡罗卷积。在SIG-GRAPH Asia 2018技术论文中,第235页。ACM,2018。[13] 杰弗里·辛顿,萨拉·萨布尔,尼古拉斯·弗罗斯特.带有电磁路由的矩阵胶囊。在ICLR 2018会议盲态提交,2018年。[14] Geoffrey E Hinton,Alex Krizhevsky,and Sida D Wang.转换自动编码器。国际人工神经网络会议,第44-51页Springer,2011.[15] 黄 海 滨 , Evangelos Kalogerakis , Siddhartha Chaud-huri,Duygu Ceylan,Vladimir G Kim和Ersin Yumer。从多视图卷积网络的部分对应中学习局部形状描述符。ACM Transactions on Graphics(TOG),37(1):6,2018。[16] Ayush Jaiswal , Wael AbdAlmageed , Yue Wu , andPremku- mar Natarajan. Capsulegan : 生 成 对 抗 式capsulegan 网络 。欧 洲计算 机视 觉,第526-535 页。Springer,2018.[17] 艾米利亚·吉姆·埃内兹·桑切斯,沙迪·阿尔巴库尼和戴安娜·马特斯。胶囊网络对抗医学成像数据挑战。在血管内成像和计算机辅助支架植入以及生物医学数据的大规模注释和专家标签合成中,第150-160页。Springer,2018.[18] Marc Khoury,Qian-Yi Zhou,以及Vladlen Koltun。学习紧凑的几何特征。2017年10月在IEEE计算机视觉国际会议(ICCV)上发表[19] Rodney LaLonde和Ulas Bagci。用于对象分割的胶囊。arXiv预印本arXiv:1804.04241,2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功