没有合适的资源?快使用搜索试试~ 我知道了~
多功能点云处理方法-云变形金刚(基于ConvNets和Transformer的新构建块)
10715云变形金刚:一种通用的点云处理方法*酒店KIRILL MAZUR1,维克托·伦皮茨基*1莫斯科三星人工智能中心2斯科尔科沃科技学院(Skoltech)摘要我们提出了一个新的多功能构建块的深点云处理架构,同样适合于不同的任务。该构建块将空间变换器和多视图卷积网络的思想与二维和三维密集网格中标准卷积层的效率相结合。新的块通过多个平行的头操作,而每个头dif- ferentiably光栅化到一个低维空间的各个点的特征表示,然后使用密集的卷积传播跨点的信息。然后将各个头部的处理结果组合在一起,从而更 新 点 特 征 。 使 用 新 的 块 , 我 们 建 立 了 两 个discriminative(点云分割,点云分类)和生成(点云修复和基于图像的点云重建)任务的架构。由此产生的architectures实现这些任务的最先进的性能,展示了点云处理的新块的多功能性。1. 介绍在这项工作中,我们考虑点云的识别和生成任务,如语义分割或基于图像的重建。用于点云处理的大多数最先进的架构都源自卷积神经网络(ConvNets)[20],并受到ConvNets在图像处理任务中的成功的启发。这种ConvNet适应基于将点云直接光栅化到规则网格上,然后是卷积管道[38,8],以及将卷积运算符推广到不规则采样数据[25,50]或非矩形网格[18,16]。在这项工作中,我们为点云处理架构提出了一个新的 构 建 块 ( 云 变 换 块 ) , 它 结 合 了 ConvNets 和Transformer的思想[48](图3)。类似于变压器中的(自我)注意层,我们的云变换块采用无序*VL目前与Yandex和Skoltech合作。语义分割形状完成输入(部分)已完成的云分类(+对象分割)基于图像三维重建输入预测椅子枕头厕所输入预测图1:云转换器在四个不同的云处理任务中的样本输出,包括识别任务(左)和生成任务(右)。向量集作为输入,并使用多个并行头处理这样的输入。对于输入集合元素,每个头计算二维或三维键和更高维度的值,然后使用计算出的键将相应的值光栅化到规则网格上。然后使用二维或三维卷积来跨元素传播信息。然后在关键位置探测平行头的结果,并将其重新组合在一起,产生对元素特征的更新。我们表明,多个云变换块可以顺序堆叠和训练端到端,只要特别小心时,通过光栅化操作实现向前和向后通过然后,我们设计云Transformer架构,将多个云变换块与特定于任务的3D卷积层连接在一起。具体来说,我们设计了一个云转换器用于语义分割(我们在S3DIS基准[1]上评估),分类(我们在ScanObjectNN基准测试[47]上进行评估),点云修复(我们在基于ShapeNet的基准上进行评估[58]),以及用于基于图像的几何重建的云Transformer(我们在最近引入的基于ShapeNet的基准[42]上对其进行评估)。在评估中,所设计的云转换器实现了语义分割和点云完成任务的最新精度,并大大优于基于图像的重建和点云分类的最新精度(图1)。我们注意到,这种多功能性是罕见的,在以前介绍的点云处理架构。10716结构,它可以处理识别任务(如语义分割,分类)或生成任务(如修复和基于图像的重建),但通常不能两者兼而有之。总而言之,我们的主要贡献和新颖性是:• 我们提出了一种新的方法,点云处理的基础上反复学习的投影,光栅化和反光栅化操作。我们investgate如何使光栅化和反光栅化可重复顺序在同一架构内通过梯度平衡技巧。此外,我们表明,聚合光栅化通过元素的最大值比添加剂积累至少在我们的方法的上下文中执行。• 我们提出并验证了一个想法的多头自我关注的点云,执行并行处理的光栅化和反光栅化分离低维网格。此外,我们提出了一个想法,使用二维和三维网格彼此平行。• 基于上述两个思想,我们提出了语义分割,分类,点云修复和基于图像的重建的架构。所提出的架构都是基于相同的云转换块,并在每种情况下,尽管任务的多样性,在标准基准上实现最先进的性能。2. 相关工作许多工作使用规则3D网格上的点云的光栅化[26,8,27,25],其中每个点在点云中的原始位置处光栅化。多视图ConvNets [38]将点云投影到多个预定义的2D视图。在置换面体网格卷积上使用splat卷积的方法[17,37]可能与我们的方法最相似(并且对我们有启发),因为它们也交错光栅化(splatting),(per-mutohedral)卷积和探测(切片)。与上述所有使用初始位置或数据独立投影点进行栅格化的作品相反,我们的架构使用不同的数据相关投影。动 态 图 ConvNet ( DGCNN ) 架 构 [51] 使 用 图ConvNet。该图是根据在架构内以数据相关方式修改的点的空间位置计算的在它们的情况下,损失不能通过图节点位置估计反向传播,因为空间图构造是不可微的。相比之下,我们的方法是基于规则的网格卷积,并包括通过位置估计的反向传播(关键计算)。我们还注意到,可微分点云投影到2D网格(从3D空间)上具有在[13]中被使用,尽管以不同的方式和用于与我们的情况不同的目的。我们的方法也与空间变换器有关[15],即神经块,其通过数据相关的参数扭曲和双线性采样在规则网格上扭曲信号我们的块还在每个头部处理结束时使用双线性采样。受空间变换器的启发,[49]研究了原始点云的数据独立和数据相关变形如何用于提高几种识别架构的性能,包括DGCNN [35],SplatNet[37]和VoxelNet [62]。类似于[51]并且与[15]不同,[49]不通过变形计算完全传播损失(在数据相关变形的情况与[49]相比,我们的架构采用常规的2D和3D卷积,可 以 处 理 识 别 和 生 成 任 务 ( 后 者 在 [49]中 没 有 考虑),并通过关键位置计算进行梯度传播训练。我们的工作也与[24,40]相关,因为我们的方法也基于光栅化和去光栅化。然而,这些方法不适用于光栅化位置的数据相关变换此外,我们采用不同的方法通过元素最大化,而不是平均光栅化与我们同时,工作[61]也适应变压器的点云域。他们的点Transformer架构通过将自注意力块限制为考虑单个点的最近邻来处理大尺寸的点云,并且在其他方面紧密遵循原始变换器架构[48]我们的工作用光栅化和卷积的组合取代了外显自我注意机制点Transformer显着优于国家的最先进的歧视性任务,并优于我们的体系结构上的语义分割基准。同时,他们的方法对生成性任务的适应并不明显。3. 方法概况. 我们以自下而上的方式描述我们的方法。在3.1节中,我们介绍了我们的处理管道的基本构建操作,我们称之为云转换。在3.2节中,我们讨论了云变换如何以并行方式组装成块(我们称之为多头处理块)。在第3.3节中,我们讨论了将多头处理块顺序堆叠成更大的块(称为级联多头处理块),其循环通过不同的空间分辨率和不同数量的特征通道。最后,在第3.4节中,我们介绍了从级联多头处理块构建的架构(我们称之为云转换器),用于四个不同的点云处理任务。10717VKN”max(,N” )V$###N”CNNN”N”N”N”N”N”N”0#N'##N'0∈∈∈{|}我∈我我我∈∈˜∈P →~H -1���∈&H -1���$∈为了简单起见,我们详细描述了二维特征图情况下的云变换的步骤。体积的情况是完全类似的。我们的方法允许通过线性层直接预测密钥,并将这些层堆叠到深度架构中。不过,在我们的实验中通过矩阵0w -10w-1乘法(即,用来自于图2:云变换由光栅化(左)和去光栅化(右)步骤组成,卷积部分在中间。它将高维点云投影到低维(在这种情况下为二维)网格上,应用卷积处理,并将结果提升回高维空间。推荐使用电子放大3.1. 云变换云变换包含三个步骤:光栅化、卷积和去光栅化。光栅化步骤。 为了光栅化每个点xi,我们预测值vi,R,c,in和密钥k,i[0,1]2。这两个向量分别代表要光栅化的内容和要光栅化的位置云变换(图2)将无序集合(我们进一步将其称为点云)X ={X1,. . . ,xN|xi∈ Rf},其元素为vec-xi)导致次优性能。更好的解决方案利用单层频谱d预测到输入位置pi的深度残差d(xi),并且之后应用可学习的变换T SE(3)(变换T成为层的参数)。因此,密钥被计算为:ki=T(pi+d(xi))(1)在二维头部的情况下,我们将ki投影到z=0平面(省略第三坐标)。最后,我们将S形激活应用于密钥k, i ,确保它们位于零和一之间。对于值vi_i_prediction,我们使用输出维度等于c_in的单个仿射层,随后是归一化层。根据架构,归一化层可以是批量归一化[14],实例归一化[46]或自适应实例归一化[12]。tors潜在高维的Rf. 的F我们 然后 光栅化 值vi∈Rc到xi∈在网格I=Rw×w ×cin云变换T(X)将这样的输入映射到新的g中,使用预测的密钥ki维点云RN× g相同大小。作为一个职位。具体地,ki=(k0,k1)∈Y∈N2i i此外,我们的图层使用输入点云位置P= p1,. . . ,pNpiR3。云变换首先应用可学习的投影P2(也称为光栅化),它生成一个两个-[0,1]可以被解释为I的空间网格内的相对坐标。 因此,位置de-被ki fined 的元素落在封闭的整数单元格(h0,w0),(h0,w1),(h1,w0),(h1,w1)中,其中h0=[(w−1)·k0,h1=[ ( w−1 ) ·k0| , w0=[ ( w−1 ) ·k1 ,w1=[(w−1)·k1|. 的在通道中具有c的维度特征图,即P 2:X ›→我我我值I ∈ Rw× w × cin.在体积设置中,云变换以可学习投影P3开始,其生成三维体积特征图,即P 3:X ›→然后将vi光栅化成四个相邻特征通过双线性分配映射像素I[h0,w0],I[h0,w1],I[h1,w0],I[h1,w1]Rc。 更详细地,我们计算密钥ki的双线性权重bi=(b00,b01,b10,b11),其中I∈ Rw× w × w × c。 在这两种情况下,w代表空间我我我分辨率,而c_in代表输入通道的数量。关于它所落的单元格然后使用双线性权重来更新对应位置处的特征图I一旦不规则点云X被投影到规则特征图上,云变换就应用单个卷积或卷积操作的更复杂组合我们表示这些卷积层当I~∈Rw×w ×cout(I~ ∈Rw×w ×w ×coutI[h0,w0]←max(I[h0,w0],b00vi)I[h0,w1]←max(I[h0,w1],b01vi)I[h1,w1]←max(I[h1,w0],b10vi)I[h,w]← max(I[h,w],b11v)(二)case)。注意,我们期望I〜 具有与I 〜相同的空间大小。1111iiI. 然而,I/O的沟道尺寸可以从cin改变为cout。我们的云变换操作的最后一步是去光栅化(也称为切片)~:I~V从处理的特征图I~到新的变换值VRN×c输出。注意,云变换传递信息-只要这两个点已经被投射到足够接近的位置,就可以从xi到xj因此,云变换可以被视为具有自适应稀疏注意机制的自注意层的变体。 下面,为了特征图I用零初始化,并且针对每个xiX,i1. N,经由在相应的N处的逐元素最大值来聚合光栅化结果。特征图的单元格I.虽然最大值聚合器的选择与平均值或总和相比可能看起来不自然,但我们发现它大大提高了性能。卷积步骤。如上所述,在光栅化之后,我们利用保持空间分辨率的任何卷积架构将特征图I变换成I ~。在......N”N”N”10718L011011在实践中,我们使用单个卷积层,保持通道数量不变。去光栅化步骤。作为最后一步,我们将执行-光栅化变换P~2:I~→V~产生反使用标准双线性网格样本形成的特征云Y填充操作 因此,变换后的值I~[h,w],0 0I<$[h,w],I<$[h,w],I<$[h,w]∈Rc出特征图与双线性权重bi组合成变换后的值向量v~i。我们应用归一化层,并且ReLU非在一些实施例中,所述方法包括将c个输出维度的值映射到解光栅化步骤的结果的线性度,并且使用可学习仿 射 变 换 将 每 个 值 从 c 个 输 出 维 度 映 射 回 g 个 维 度(g=512,通过云变换进行反向传播。我们已经发现,通过反向传播[33]具有多个顺序堆叠的云变换块的学习架构是高度不稳定的,因为梯度在反向步骤期间爆炸在反向传播期间梯度方差的理想假设在补充中,我们证明了一个简单的云变换块版本不能满足这个假设,并提出了一个梯度平衡技巧来解决这个问题。在我们的情况下,不稳定性可以跟踪到双线性权重的梯度。 在光栅化和去光栅化步骤中的密钥k。根据链式规则,梯度深度)。梯度平衡技巧基于以上观察,在通过密钥的反向传播期间,我们简单地划分关于密钥的偏导数。k的两个坐标i乘w,即我们应用:图3:我们的构建模块有几个平行操作的平面头和几个体积头。每个头部是云变换,使用二维或三维网格进行光栅化,随后是卷积操作和去光栅化(可微分采样)。建议使用电子放大。图4:用于语义分割的架构基于(1)单个逐点层,(2)四个标准级联多头云变换块,随后是(3)最终逐点MLP。模块是头,因此考虑多头体系结构。每个头部独立地预测键和值,并且可以使用其自己的空间分辨率w。事实上,二维和三维头可以并行操作。 我们注意到,使用一维或更高维(例如四维)头也是可能的。然而,一维网格不可避免地导致L斯博克岛1L(三)武基岛数据的非常强的合并,而高维网格的计算量很大,并且在其我们已经发现,这种梯度平衡技巧足以使包含云变换的多层的深度架构的学习成为3.2. 多头云变换块光栅化和反光栅化操作可能由于二维和三维网格中的节点数量有限而导致信息丢失(对于二维网格,我们使用高达w=128,对于三维网格,我们使用高达w=32因此,我们从组合并行操作的多个云转换的块构建我们的体系结构。 这让人想起了Transformer架构[48]和多视图卷积网络[38]中的多个自我注意头部在[48]之后,我们调用每个并行云变换没有得到很好的支持。因此,我们专注于二维和三维头。将每个点i的平行头的结果相加在一起,使得所得到的多头云变换(MHCT)块(图3)仍然将每个输入向量X1映射到g维向量yi。我们在头部的结果求和之后添加另一个归一化层和ReLU非线性,并从开始到结束使用残差跳过连接完成块。[10]第10段。我们注意到,多头云变换块也类似于Inception块[39],其使用异构并行卷积,以及ResNeXt网络[54]的块,其使用分组卷积,每组中具有少量通道。在这项工作中,我们使用具有16个二维头部和16个三维头部的MHCT块。���������������������������������������...���N−������N−��� ���N−���512 →���+ 3...512 →���+ 3...512→+ 3512 →���+ 3...512 →���+ 3...512→+ 3BNBNBNBNBNBN…���˜���˜���˜���...���...这是什么?���. . . . . . 这 是 什 么 ���? ���������˜���˜���˜BN,ReLUBN,ReLUBN,ReLUBN,ReLUBN,ReLUBN,ReLU��� →512.. . . . .这 是 什 么?���→ 512...���→ 512���→ 512...���→ 512...���→ 5122D云变换图层BN,ReLU3D云变换图层线性层x → y按元素添加������������������.. . . . . 这 是 什 么 ?������������N−���N−N−CMHCTin → 512MHCT3D:,:2D:,:MHCT3D:,:2D:,:MHCT3D:,:2D:,:CMHCTCMHCTCMHCT512 →输出←10719类向量连接到每个点图5:用于基于图像的重建的架构由卷积风格编码器(1)和生成器(2)组成。生成器由线性层构建,随后是四个cas-caded多头云变换块(绿色),通过编码器产生的样式向量(橙色)上的自适应实例归一化来调节。生成器的输入从均匀球体S2采样。3.3. 级联块我们的网络不像大多数点云处理网络那样直接在点上使用池化和上采样操作相反,我们采用不同空间大小的特征图作为增加或减少感受野的一种方式。具体地,遵循[36]中介绍的模式,我们提出将三个MHCT块顺序堆叠成级联多头云变换块(CMHCT),从而减小空间维度,同时增加通道的数量。在实践中,我们设置空间和通道尺寸,如图4中的黄色块。CMHCT块中这三个MHCT块的顺序如图所示然后可以顺序地堆叠CMHCT块3.4. 云变形金刚我们现在讨论可以从用于特定点云处理任务的CMHCT块构造的架构我们注意到,虽然任务的不同性质需要不同的架构,但我们努力使这些架构尽可能相似。最重要的是,所有提出的架构都是从CMHCT块构建的,CMHCT块是从基于云变换的MHCT块构建的。语义分割语义分割云Transformer(图4)由初始单层感知器组成,该感知器独立地应用于每个点,并将其3D坐标和3D颜色特征变换为f维向量(f=512)。然后,我们应用四个具有默认设置的级联多头云变换层。最后,提出了一个两层共享感知器的体系结构,该感知器将每个点的特征映射到分割类的logit。架构中的所有归一化层都是BatchNorm层[14]。建筑有9。6M参数,并使用交叉熵损失进行训练。点云生成。为了创建生成点云的架构,我们依次堆叠四个CMHCT块,然后是逐点的两层感知器。图6:专为分类设计的Cloud Transformer。主要是,输入点云处理与云转换器的骨干,在分割设置。之后,我们应用一个多头云池(黄色),然后是一个完全连接的层,以产生一个分类向量(红色)。我们还使用一个单独的分支(底部)用于背景掩模预测,这对于ScanObjectNN基准测试是常见的。最后,我们添加双曲正切非线性以产生3D点坐标。输入点云从单位球面S2上的均匀3D分布采样,然后通过逐点线性层,将每个特征映射到 f=512维。为了解决基于图像的几何重建任务(从图像中恢复点云),我们在MHCT块中使用自适应实例归一化(AdaIN)层[12]。我们使用ResNet- 50架构创建图像编码器[10](在ImageNet上预训练[34])。编码器的输出是512维向量,其经由仿射层变换成AdaIN系数(图5)。该架构使用近似的地球移动器距离(EMD)损失进行训练[22]。请注意,我们的生成器架构非常类似于我们的分割器,除了归一化方法。点云分类与分割模型中一样,我们首先应用一个前导线性层的“主干”和四个CMHCT块(图2)。为了解决分类任务,我们引入了多头注入层。类似于常规MHCT层,该层分别对空间大小为8和16的2D和3D特征图执行多个每个头部的通道尺寸对于三维头部为32,对于二维头部为16之后,用三个标准卷积残差块处理所得到的特征图,每个块与最大池化(max-pooling)互换(参见补充材料以获得确切的架构)。所得载体通过连接在头上聚集,并用密集层处理,以形成维度1024的最终分类向量k类。在原始论文[47]之后,我们还使用从主干和类向量k类提取的特征预测的逐点特征来预测对象我们用两个交叉熵(CE)损失项训练我们的架构,如[47]所示。 第一个是关于对象分类的CE损失λ类,并且后一个是关于前景分割的逐点CE损失λseg最终损耗被设置为λfull:= 0。5·λ类+0。5 ·λseg.AdaIn连接ResNet502048 → 5123 → 512CMHCTCMHCTCMHCTCMHCT512 → 512512 →输入in → 512CMHCTCMHCTCMHCTCMHCTMHCP2048 → 10241024 → n_cls1536 → 256Logits256 → 1Segm. Logits10720风格AdaIN连接逐点连接图7:我们的Cloud Transformer Inpainter在两个方面不同于我们的首先,从分类器模型中取出编码器部分,产生用于生成器的自适应归一化层其次,到生成器的输入包括部分点云作为wekk作为从单位球S2采样的点的表1:ScanObjectNN上的分类结果我们的方法在整体准确性和平均类准确性方面都优于其他方法。我们还提出了一个模型的点云修复(完成)。给定部分点云,目标是推断完整形状。我们的架构,这项任务非常类似于一个用于基于图像的重建,除了编码器和发电机的投入。也就是说,我们应用点云编码器来获得样式向量。我们的编码器是上面介绍的用于分类的Cloud Transformer模型。它提取维度为512的向量。为了说明输入点云几何,我们使用发电机支路输入中的两组点。首先,我们把输入点云,从而使架构的机会,将其点的输出。第二,为了计算新的部分,我们再次从单位球体S2中随机采样点。我们增加的功能,每个输入点的一个二进制变量表示是否是从不完整的扫描或从球体采样。如在基于图像的重建的情况下,生成器分支经由AdaIN连接以编码向量为条件。该模型使用近似EMD [22]和倒角距离[6]损失的总和进行训练。之后,我们在倒角距离损失上对其进行微调。4. 实验我们比较了我们的方法的性能,最先进的四个考虑的任务,使用建立的基准和指标与这些基准标记。然后我们进行一个简短的消融研究。在补充材料中,我们提供了云Transformer操作和结果的可视化,并鼓励读者检查材料,以获得有关云转换器的更好点云分类 我们评估了我们的云转换器在真实世界数据集ScanOb-jectNN [47]上的分类。该数据集由2902个唯一对象组成从ScanNet [5]场景中获得。对象被划分为15类。每个对象是通过使用地面实况边界框从场景中切割得到的。注意,所得到的剪切也可以包括背景点。在我们使用的变体中,每个边界框被随机移位和旋转以模拟真实世界的检测框。用不同的方法重复该过程五次每个对象的边界框扰动。此过程总共产生15k个对象。一个对象被表示为2048个3D空间点的云。另外,提供二进制逐点掩码用于训练,指示是否点属于背景或对象。我们使用数据集的最硬变体(PBT50 RS),具有最高的边界框扰动率。我们采用原始的[47]列车/测试分离。我们在表1中提供了结果,并表明我们的方法在总体和平均类精度方面都优于现有的方法。请注意,我们的方法在整体准确性方面优于当前最先进的方法(+3.7%)。我们还利用在等式1中的变换T之后应用的可学习的各向异性缩放s来由此产生的模型在平均类准确度方面优于最先进的3.5%为了完整性,我们还评估了我们的方法在ModelNet40基准[52]上,该基准已经饱和。遵循PointNet++协议[29],我们的方法(CT+量表)达到93。总精度(OA)为1,总精度为90。平均类别精度(mAcc)为8,与其他处理点云(而不是CAD网格)的方法相当或更好。单视图对象重建。在我们的生成实验中,我们遵循最近引入的基准[42]3D物体重建。基准测试基于ShapeNet [3]渲染。与之前使用规范坐标框架的基于图像的重建的基于ShapeNet的基准测试不同,新的基准测试认为,重新构建3 → 5124 → 512CMHCTCMHCTCMHCTCMHCTCMHCTCMHCTCMHCTCMHCTMHCP512 → 5122048 → 1024512 → 31024 → 512总体acc.平均类acc.3DmFV [2]6358.1PointNet [28]68.263.4SpiderCNN [55]73.769.8[29]第二十九话77.975.4DGCNN [51]78.173.6[21]第二十一话78.575.1DRNet [30]80.3-GFNet [31]80.577.8DI-PointCNN [59]81.379.6CT(我们的)85.080.7CT(我们的)+量表85.583.110721×××∗†×方法mAvg. F-评分@1%Top-1猫。AtlasNet [9]0的情况。2522[32]第三十二话0的情况。2170OGN [41]0的情况。2641方法Miou方法MiouPointNet [28]41岁1SPGraph*[19]五十八0伊芙3D Conv [60]51岁8波兰[4]六十五3RNN融合[57]ParamConv [50][21]第二十一话五十七3五十八3五十七2KPConv†[45]JSENet†[11]点转换 * [第六十一届]67岁167岁7七十4表2:在基于观察者的坐标系中的3D形状重建的F分数评估(@1%),按类别平均。云Transformer的性能大大优于其他方法,包括基于检索的oracle。应该在基于观察者的坐标系中评估构造,其中任务更具挑战性且更现实。该工作[42]还提供了对基于图像的重建以及基于检索的oracle的几种最新方法的评估数据集由ShapeNet组成[3]模型,其中每个模型属于55个类中的一个。每个对象都使用ShapeNet-Viewer从五个随机视点进行渲染我们使用与[42]中相同的在基准测试中,对象被渲染为224 × 224像素的图像,我们将其调整为128 × 128像素,然后输入到我们的模型中。 地面实况表示为10的云。000个点。我们的模型输出8196个点来表示重建的对象。由于协议要求预测前-正好10. 000个点,我们用不同的球体噪声和由卷积编码器提取的相同样式向量z执行重建两次(图5)。结果是16。392分,我们随机选择10.00点[42]中提出的主要评估指标是在1%体积距离阈值处计算的F分数。将这些方法与宏观平均F-分数@1%进行比较,并通过类的数量进行比较,其中方法具有最高的平均F-分数@1%。我们的定量结果总结在表2中。很明显我们的方法优于[42]中评估的所有方法,包括基于检索的oracle。室内语义分割。斯坦福室内数据集(S3DIS)[1]是一个流行的3D点云分割基准,由在三个不同建筑物处捕获的大型3D点云场景组成,数据集有六个分割。为了公平比较,我们使用由[28]建立的传统协议在S3DIS上进行评估,该协议将房间分成1m 1m块。每个块由4096个点组成,并且每个点用其3D坐标和其RGB颜色表示,这导致六维输入矢量。在此设置中,Tesla P40GPU卡上的平均推断时间为0.5秒,每个区块仅使用200MB内存在众多的prev-表3:S3 DIS区域-5分割上的语义分割交叉-联合得分左列中的方法使用将场景分块成块的标准协议,标记为的方法采用KPConv的[45]协议。其他协议标记为。Cloud Transformer在标准协议中的性能优于最先进的技术,并且在其他协议中的性能优于以前发布的作品(请注意,Point Transformer是一个并行的工作线)。我们的作品中,我们对“区域5”分割进行评估,并对剩余的五个分割进行训练,因为[43]主张将此折叠作为测量泛化能力的代表,因为它是在单独的建筑物中拍摄的由于当前发布的最先进的方法JSENet [11]使用不同的协议[45]),我们还使用“KPConv”协议评估了我们的模型在其中,在每一步中,从半径为2m的球体动态地采样输入点云。每个点云最多包含8192个点。在评估过程中,相同的数据策略与投票一起应用在标准的1 m-1 m协议中,XYZ空间坐标增加了随机旋转、各向异性缩放、抖动和移位。另一方面,对于颜色,我们使用色度自动对比度,抖动和平移(以下[4])。至于'KPConv'协议,我们遵循原始论文,并使用各向异性随机缩放,空间高斯抖动,围绕z轴的随机旋转和随机颜色丢弃来增强点云。表3显示,对于语义分割任务,我们的方法在两种考虑的协议中都优于最先进的方法。点云完成。最后,我们在基于ShapeNet的基准[58]上评估Cloud Transformer Inpainter,以实现高分辨率点云完成。该基准由八个最大的ShapeNet类别(飞机、橱柜、汽车、椅子、灯、沙发、桌子、器皿)组成。这使得总共有30974个唯一对象。在每个类别中,保留100个唯一对象用于验证,150个用于测试。数据集由(P部分,Pgt)对组成,其中P部分是部分点云,Pgt是完整点云。部分点云通过2.5D深度图像反投影获得每个训练对象生成八个随机视图。部分云由不超过2048个点组成,而完整的点云由16个点组成。384分。与基于图像的重建相比,在基于对象的10722∈ו 最后,我们考虑2x更浅的架构,用两个CMHCT块代替四个CMHCT块。表4:使用在1%和CD下的F分数比较的ShapeNet上的点完成结果。请注意,它们都是在16,384个点上计算的,并且是宏观平均的。坐标系我 们 预 测 16 的 高 分 辨 率 重 建 。 在 我 们 的 CloudTransformer Inpainter网络的单次传递中获得384个点。我们的模型产生具有复杂几何形状的详细重建关于我们的方法的定量评估,我们报告了F-Score@1%和CD(倒角距离),两者都是用地面实况16计算的。384个点云。在[42]之后,我们认为F-Score@1%应被视为形状预测质量的原始度量,并且在该度量中,我们的方法再次大大优于现有技术(表4)。消融研究。我们还进行了消融研究,以合理化我们的架构选择。我们考虑以下消融:• 线性关键字预测:我们用线性逐点层d替换关键字预测过程,然后进行BatchNormalization。使用形式3的符号,ki=d(xi)。• 平均聚集。和Sum agg。:光栅化步骤中的聚合方法相应地被逐元素平均值和求和替换。注意,在后一种情况下(sum),它使我们的操作类似于SplatNet [37]中使用的splatting。• 不可学习的键:在该消融中,我们使用输入位置的不同的不可学习的投影作为键。 更确切地说,ki=T(pi),其中TSO(3)是一个固定的随机变换,没有预测深残差。虽然这种变体与用于分割的线性关键字预测的性能相当,但它在分类方面的性能略好。• 我们还训练了一个没有平面头的架构,看看只使用体积头是否足够。• 在粗特征图实验中,特征图的空间维度减半。• 无多头:我们通过用单头块替换16头CMHCT块来消融多头架构,其中我们将通道尺寸增加8倍以保持模型表5:对S3DIS语义分割和ScanObjectNN分类的消融研究。参见讨论文本。在S3DIS的情况下,观察到完整架构相对于较浅架构的优势,我们还评估了具有8个CMHCT块的2倍更深架构,实现了64.1 mIOU得分。在(T = Id)(参见2)烧蚀的情况下,我们观察到61。因此,可学习的预测非常重要。我们在d=0的情况下的初步消融表明,对于分割的影响很小(下降0.04%),但是我们预计对于输入点云微不足道(球形)的生成任务,影响会更高。我们还评估了梯度平衡技巧的重要性。在S3DIS上,无梯度平衡技巧的消融达到62.8 mIOU。更重要的是,当我们尝试在没有梯度平衡的情况下运行线性关键字预测变体时,对于所有合理的学习率,学习发散,揭示了梯度平衡的重要性5. 结论我们已经为处理点云的神经架构提出了一个新的块。我们的块扩展了空间变换器,变换器和多视图CNN在神经点云处理上的思想。虽然我们的架构和Transformer之间有一些显著的差异 , 但 我 们 希 望 突 出 一 些 有 趣 的 相 似 之 处 。Transformer和我们的架构都是在集合上操作的,并且使用并行头。最重要的是,与Transformer类似,我们的架构实现了快速和长距离的信息传播,而不会增加可学习参数的数量。在语义分段11块的情况下,可以使用平均点第一个MHCT块后的点和仅一个CMHCT块后的点的100%(即,仅三个MHCT块)。基于新的块,我们已经提出了点云语义分割,点云分类,点云完成和基于单幅图像的几何重建,实现国家的最先进的结果的架构。方法mAvg. F-评分@1%mAvg. CDAtlasNet [9]0.6164.523PCN [58]0.6954.016FoldingNet [56]0.3227.142TopNet [44]0.5035.154MSN [22]0.7054.758GRNet [53]0.7082.723CT(我们的)0.7523.392方法mIOU S3DISacc. ScanObjNN线性键预测62.581.9总和聚合57.982.1平均聚集61.383.4不带平面头63.484.8粗糙特征图62.284.4无多头63.184.0不可学习的键62.584.92倍浅62.284.1CT(全)63.785.010723引用[1] 放大图片创作者:Iro Armeni,Ozan Sener,Amir R.Zamir,Helen Jiang,Ioannis Brilakis,Martin Fischer,and Silvio Savarese.大型室内空间的三维语义解析。在proc CVPR,2016年。[2] Yizhak Ben-Shabat 、 Michael Lindenbaum 和 AnathFischer。3dmfv:使用卷积神经网络实时进行三维点云分类。IEEE Robotics and Automation Letters,3(4):3145[3] 天使XChang,Thomas Funkhouser,Leonidas Guibas,Pat Hanrahan , Qixing Huang , Zimo Li , SilvioSavarese , Mano-lis Savva , Shuran Song , Hao Su ,Jianxiong Xiao,Li Yi,and Fisher Yu.Shapenet:一个信息 丰 富 的 3D 模 型 存 储 库 。 arXiv , abs/1512.03012 ,2015。[4] Christopher Bongsoo Choy 、 JunYoung Gwak 和 SilvioSavarese。4D时空卷积:Minkowski卷积神经网络。在Proc. CVPR,2019中。[5] 戴安琪,天使X. Chang,Manolis Savva,Maciej Hal-ber , Thomas Funkhouser , and Matthias Nießner.Scannet : 室 内 场 景 的 丰 富 注 释 3D 重 建 。 在 Proc.CVPR,2017中。[6] 范浩强、H. Su和L. Guibas从单幅图像重建三维物体的点集生成网络在Proc. CVPR,2017中。[7] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在AIS- TATS,2010年。[8] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在Proc.CVPR,2018中。[9] 放 大 图 片 作 者 : David G. Kim , Bryan Russell ,andMathieuAubry. AtlasNet:一个学习3D表面生成的方法。在Proc. CVPR,2018中。[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在Proc. ICCV,2015中。[11] Zeyu Hu,Ming-min Zhen,Xuyang Bai,Hongbo Fu,and Chiew-lan Tai.Jsenet:3D点云的联合语义分割和边缘检测网络 在proc ECCV,2020年。[12] Xun Huang和Serge J.贝隆吉实时任意样式传输,具有自适应实例规范化。InProc. ICCV,2017.[13] Eldar Insafutdinov和Alexey Dosovitsky使用可微分点云进行形状和姿态的无监督学习。InProc. NeurIPS,2018.[14] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少 内 部 协 变 量 偏 移 来 加 速 深 度 网 络 训 练 。 在Proc.ICML
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功