没有合适的资源?快使用搜索试试~ 我知道了~
3D点云的自我注意网络与图像分析任务中的进展
16259点Transformer赵恒双1、2李江3贾佳雅3菲利普·托尔1 弗拉德伦·科尔敦41牛津大学2香港大学3香港中文大学4英特尔实验室摘要自我注意网络已经彻底改变了自然语言处理,并且在图像分析任务(例如图像分类和对象检测)中取得了令人印象深刻的进步。受此成功的启发,我们研究了自注意网络在3D点云处理中的应用。我们设计了点云的自我注意层,并使用这些来构建自我注意网络的任务,如语义场景分割,对象部分分割,和对象分类。我们的点Transformer的设计改进,证明在以前的工作,跨域和任务。对于前-点Transformer灯例如,在具有挑战性的S3DIS数据集上进行大规模语义场 景 分 割 , 点 Transformer 在 区 域 5 上 达 到 70.4% 的mIoU,比最强的先验模型表现出3.3个绝对百分点,并首次超过70%的mIoU阈值。1. 介绍3D数据出现在许多应用领域中,例如自动驾驶、增强现实和机器人。与排列在规则像素网格上的图像不同,3D点云是嵌入在连续空间中的集合。这使得3D点云在结构上不同于图像,并且阻止了已经成为计算机视觉中的标准的深度网络设计的直接应用,诸如基于离散卷积算子的网络。为了应对这一挑战,已经出现了各种在3D点云上进行深度学习的方法一些vox- elize 3D空间以使得能够应用3D离散卷积[23,32]。这导致了大量的计算和存储成本,并未充分利用3D中稀疏卷积网络通过仅在非空的体素上操作来缓解这些限制[9,3]。其他设计直接在点上操作,并通过池化算子[25,27]或连续卷积[42,37]传播信息。另一系列方法将点集连接成用于消息传递的图[44,19]。在这项工作中,我们开发了一种在点云上进行深度学习的方法,该方法的灵感来自于Transformers图1.点Transformer可以作为各种三维点云理解任务的骨干,如对象分类,对象部分分割和语义场景分割。自然语言处理[39,45,5,4,51]和图像分析[10,28,54]。Transformer模型族特别适用于点云处理,因为transformer网络的核心自注意算子本质上是一个集合算子:它对于输入元素的排列和基数是不变的。因此,将自注意力应用于3D点云是非常自然的,因为点云本质上是嵌入在3D空间中的集合。我们充实了这种直觉,并开发了一个用于3D点云处理 的 自 我 注 意 层 。 基 于 这 一 层 , 我 们 构 建 了 点Transformer网络,用于各种3D理解任务。我们研究了自注意算子的形式由此产生的网络纯粹基于自我注意力和逐点操作。我们表明,点变换器在3D深度学习任务中非常有效,无论是在详细的对象分析还是大规模场景解析方面。特别是,点变换器在S3 DIS数据集上的大规模语义分割(Area 5上的70.4% mIoU),Model-Net 40上的形状分类(93.7%的整体准确度)和对象部分分割方面都达到了最新水平部分分割飞机床16260在ShapeNetPart上的实例(86.6%的实例mIoU)。我们的完整实现和训练模型将在验收后发布。总之,我们的主要贡献包括以下几点。• 我们设计了一个高表现力的点云Transformer图层不变置换和基数,因此固有地适合于点云处理。• 基于Point Transformer层,我们构建了高性能的Point Transformer网络,用于点云的分类和密集预测。这些网络可以作为3D场景理解的一般骨干• 我们报告了多个域和数据集的广泛实验。我们进行了对照研究,以检查点Transformer器设计中的具体选择,并在多个高度竞争的基准上设置了新的最先进的水平,超越了以前的长系列工作。2. 相关工作对于2D图像理解,像素被放置在规则的网格中,并且可以用经典卷积进行处理。相比之下,3D点云在3D空间中是无序的和分散的:它们基本上是集合。基于学习的3D点云处理方法可以分为以下类型:基于投影的,基于体素的和基于点的网络。基于投影的网络。对于处理像点云这样的不规则输入,一种直观的方法是将不规则表示转换为规则表示。考虑到2D CNN的成功,一些方法[34,18,2,14,16]采用多视图投影,其中3D点云被投影到各种图像平面中。然后使用2D CNN来提取这些图像平面中的特征表示,随后进行多视图特征融合以形成最终的输出表示。在相关方法中,TangentConv [35]将局部表面几何结构投影到每个点处的切平面上,形成可以通过2D卷积处理的切线图像。然而,这种方法严重依赖于切线估计。在基于投影的框架中,点云内部的几何信息在投影阶段期间被折叠。当在投影平面上形成密集像素网格时,这些方法还可能未充分利用点云的稀疏性。投影平面的选择可能严重影响识别性能,并且3D中的遮挡可能妨碍准确性。基于体素的网络。将不规则点云转换为规则表示的替代方法是3D体素化[23,32],然后是3D卷积。当天真地应用时,这种策略可能会导致大量的com-由于作为分辨率的函数的体素数量的立方增长而导致的插值和存储器成本。解决方案是利用稀疏性,因为大多数体素通常未被占用。例如,OctNet [29]使用分层分区的不平衡八叉树。基于稀疏卷积的方法,其中卷积核仅在占用的体素处进行评估,可以进一步减少计算和存储器需求[9,3]。这些方法已经证明了良好的准确性,但由于量化到体素网格上,仍然可能丢失几何细节。基于点的网络。研究人员设计了直接摄取点云的深度网络结构,而不是将不规则点云投影或量化到2D或3D中的规则网格上,作为嵌入连续空间中的集合PointNet[25]利用置换不变操作符,如逐点MLP和池化层来聚合集合上的特征。PointNet++ [27]在分层空间结构中应用这些思想,以提高对局部几何布局的敏感性。这样的模型可以受益于点集的有效采样,并且已经开发了各种采样策略[27,7,46,50,11]。许多方法将点集连接到图中并在该图上进行消息传递。DGCNN [44]在kNN图上执行图卷积PointWeb [55]密集地连接当地的邻里。ECC [31]使用动态边缘条件滤波器,其中卷积核基于点云内部的边缘生成。SPG[15]对表示上下文关系的超点图进行操作。KCNet [30]利用内核相关和图池。Wang等人。[40]研究了局部谱图卷积。GACNet [41]采用图形注意力卷积,HPEIN[13]构建分层点边交互架构。DeepGCN [19]探索了用于3D场景理解的图卷积网络中的深度优势许多方法基于直接应用于3D点集的连续卷积,而没有量化。PCCN [42]将卷积核表示为MLP。SpiderCNN[49]将内核权重定义为多项式函数族。球形CNN [8]设计了球形卷积来解决3D旋转等方差的问题。PointConv[46] 和 KPConv [37] 基 于 输 入 坐 标 构 建 卷 积 权 重 。InterpCNN [22] 利 用 坐 标 来 插 值 逐 点 内 核 权 重 。PointCNN [20]建议使用特殊运算符对输入的无序点云进行恩-门霍夫等人。[38]应用连续卷积来学习基于粒子的流体动力学。Transformer和自我关注Transformer和自我注意力模型彻底改变了机器翻译和自然语言处理[39,45,5,4,51]。这激发了用于2D图像识别的自我注意力网络的发展[10,28,54,6]。Hu等人[10]和16261Σ。ΣΣX {}Σ。ΣX XRamachandran等人[28]在局部图像块内应用标量点积自注意。Zhao等人[54]开发了一个向量自注意算子族。Dosovit-skiy等人[6]将图像视为补丁序列。我们的工作灵感来自于那些改变- 在序列和2D图像上,自注意力网络可以匹配甚至超过卷积网络。自我注意在我们的情境中特别有趣,因为它本质上是一个集合运算符:位置信息作为元素的属性被提供,这些元素被处理为集合[39,54]。由于3D点云本质上是具有位置属性的点的集合,因此自注意机制似乎特别适合于这种类型的数据。因此,我们开发了一个点Transformer层,适用于自我关注的三维点云。有许多以前的作品[48,21,50,17]利用注意力进行点云分析。它们将全局注意力应用于整个点云,这引入了繁重的计算并且使得这些方法不适用于大规模3D场景理解。它们还利用标量点积注意力,其中不同的通道共享相同的聚合权重。相比之下,我们在本地应用自我注意力,这使得具有数百万个点的大型场景具有可扩展性,并且我们利用向量注意力,这对于实现高精度非常重要我们还证明了适当的位置编码在大规模点云理解中的重要性总的来说,我们表明,适当设计的自我注意力网络可以扩展到大型复杂的3D场景,其中yi是输出特征。φ、ψ和α是逐点特征变换,例如线性投影或MLP。δ是位置编码函数,ρ是归一化函数,例如softmax。标量注意力层计算由φ和ψ变换的特征之间的标量积,并使用输出作为用于聚集由α变换的特征的注意力权重。在矢量注意力中,注意力权重的计算是不同的。特别地,关注权重是可以调制各个特征通道的向量yi=ργ(β(φ(xi),ψ(xi))+δ)⊙α(xi),(2)xj∈X其中β是关系函数(例如, 减法)并且γ是映射函数(例如,MLP),其产生用于特征聚合的注意向量。标量和向量自注意都是集合算子。该集合可以是表示整个信号的特征向量的集合(例如,句子或图像)[39,6]或来自信号内的局部块的特征向量的图像补丁)[10,28,54]。3.2. 点Transformer图层自我注意力自然适合点云,因为点云本质上是不规则地嵌入在度量空间中的集合。我们的点Transformer层是基于向量的自我关注。我们使用减法关系并将位置编码δ添加到注意力向量γ和变换后的特征α两者:大大推进了大规模点云理解的最新技术yi=xj∈X(i)ρ.γ(φ(xi)−ψ(xj)+δ)Σ⊙。α(xj)+δΣ(3)3. 点Transformer我们首先简要回顾变压器和自我注意操作员的一般公式然后提出了用于三维点云处理的点Transformer层。最后,我们提出了我们的网络架构,三维场景的理解。3.1. 背景变压器和自我注意力网络革命了自然语言处理[39,45,5,4,51],并在2D图像分析中表现出令人印象深刻的结果[10,28,54,6]。自注意算子可以分为两种类型:标量注意力[39]和向量注意力[54]。设=xii是一组特征向量。 标准标量点积注意力层可以表示如下:yi=ρφ(xi)ψ(xi)+δα(xi),(1)xj∈X这里,子集(i)是X1的局部邻域(具体地,k个最近邻居)中的点的集合。因此,我们采用最近的自我注意力网络的实践进行图像分析,在每个数据点周围的局部邻域内局部应用自我注意力[10,28,54]。映射函数γ是具有两个线性层和一个ReLU非线性的MLP。点Transformer层在图2中示出。输入:(x,p):线性简体中文,输出:(y,p)图2.点Transformer层。聚集16262输出:(y,线性转辙器线性求和插值线性线性最远点采样kNN,mlp局部最大池(N,32)(N/4,64)(N/16,128)(N/64,256)(N/256、512)(N/256、512)(N/64,256)(N/16,128)(N/4,64)(N,32)(N、D输出)(N,32)(N/4,64)(N/16,128)(N/64,256)(N/256、512)(1,512)(1,D输出)图3.用于语义分割(上图)和分类(下图)的点Transformer网络输入:(x,p)输入:(x,p1)输出:(y,p2)输入1:(x1,p1)输出:(y,p2)输入2:(x2,p2)(a) 点Transformer块(b)向下转换(c)向上转换图4.对各模块进行了详细的结构设计。3.3. 位置编码位置编码在自我注意中起着重要作用,允许操作员适应数据中的局部结构[39]。序列和图像网格的标准位置编码方案是手动制作的,例如基于正弦和余弦函数或归一化范围值[39,54]。在3D点云处理中,3D点坐标本身是位置编码的自然候选。我们通过引入可训练的、参数化的位置编码来超越这一点。我们的位置编码函数δ定义如下:δ=θ(pi− pj)。(4)这里,pi和pj是点i的3D点坐标和j.编码函数θ是具有两个线性层和一个ReLU非线性的MLP。值得注意的是,我们发现位置编码对于注意力生成分支和特征变换分支都是重要的。因此,Eq。3在两个分支中添加了可训练位置编码位置编码θ与其他子网络端到端训练3.4. 点式Transformer块我们构造了一个剩余点Transformer块,点变换器层位于其核心,如图4(a)所示。Transformer块集成了自我注意层、可以降低维度和加速处理的线性投影以及残差连接。 输入是具有相关联的3D坐标的特征向量xp.点Transformer块促进这些局部化特征向量之间的信息交换,产生作为其输出的所有数据点的新特征向量。信息聚合适应于特征向量的内容及其在3D中的布局。3.5. 网络架构我们构建完整的三维点云理解网络的基础上的点Transformer块。请注意,点Transformer是整个网络中的主要特征聚合我们不使用卷积预处理或辅助分支:网络完全基于点Transformer层,逐点变换和池化。网络架构在图3中可视化。向上转变全球平均池化MLP向下转变点Transformer标签:椅子16263PPPP PPP PP P PPPP骨干结构。用于语义分割和分类的点变换器网络中的特征编码器有五个阶段,它们对逐步下采样的点集进行操作级的下采样率是[1,4,4,4,4],因此由每个级 产 生 的 点 集 的 基 数 是 [N , N/4 , N/16 , N/64 ,N/256],其中N是输入点的数量。注意,级的数量和下采样率可以根据应用而变化连续的级通过过渡模块连接:向下转换用于特征编码,向上转换用于特征解码。向下过渡。向下转换模块的关键功能是根据需要减少点集的基数,例如在从第一阶段到第二阶段的转换中从N减少到N/4。将作为向下转换模块的输入提供的点集表示为1,并将输出点集表示为2。我们执行最远点采样[27]1以识别良好分布的子集21具有必要的基数。将特征向量从1汇集到2,我们使用kNN图1.一、 (This与3.2节中的k相同。我们始终使用k=16,并在第4.4节报告了该超参数的对照研究。)每个输入特征都经过线性变换,然后进行批量归一化和ReLU,然后从1中的k个相邻点最大池化到2中的每个点上。向下转换模块示意性地示于图4(b)中。向上过渡。对于密集预测任务,例如语义分割,我们采用U形网设计,其中上述编码器与对称解码器耦合[27,3]。解码器中的连续级由向上转换模块连接。它们的主要功能是映射下采样输入点集中的要素2到它的超集上12个。 为此,每个输入点特征由线性层处理,随后进行批量归一化和ReLU,然后经由三线性插值将特征映射到较高分辨率点集1上。来自前一解码器级的这些内插特征与经由跳过连接提供的来自对应编码器级的特征一起汇总。图4(c)示出了向上转换模块的结构。输出头。 对于语义分割,最终解码器级为输入点集中的每个点产生特征向量。我们应用MLP将此功能映射到最终的logits。对于分类,我们执行全局平均池- ING的逐点特征,以获得一个全局特征向量,为整个点集。该全局特征通过MLP传递以获得全局分类日志。4. 实验我们评估了一些领域和任务的点Transformer设计的有效性。对于3D语义分割,我们使用具有挑战性的斯坦福大规模3D室内空间(S3DIS)数据集[1]。对于3D形状分类,我们使用广泛采用的Mod-elNet 40数据集[47] 。 对 于 对 象 部 分 分 割 , 我 们 使 用 ShapeNetPart[52]。实作详细数据。我们在PyTorch中实现了点转换器[24]。我们使用SGD优化器,动量和权重衰减分别设置为0.9和0.0001。对于S3DIS上的语义分割,我们以初始学习率0.5进行了40K次迭代训练,在步骤24K和32K时下降了对于Mod-elNet 40上的3D形状分类和ShapeNetPart上的3D对象部分分割,我们训练200个时期。初始学习速率设置为0.05并且在时期120和160下降10倍。4.1. 语义分割数据和度量。用于语义场景解析的S3DIS [1]数据集由来自三个不同建筑物的六个区域中的271个房间组成。扫描中的每个点被分配来自13个类别(天花板、地板、桌子等)的语义标签遵循通用协议[36,27],我们以两种模式评估了所提出的方法:(a)在训练期间保留区域5对于评估指标,我们使用平均类交叉联合(mIoU),平均类精度(mAcc)和整体逐点精度(OA)。性能比较。结果见表1和表2。根据两种评估模式中的所有指标,点Transformer优于所有先前模型。在区域5上 , Point Transformer 达 到 了 70.4%/76.5%/90.8% 的mIoU/mAcc/OA,在每个指标上都超过了所有先前工作的多个百分点点转换器是第一个通过70% mIoU标准的模型,超过现有技术的Point Transformer优于基于MLP的框架,如PointNet [25],基于体素的架构,如SegCloud [36],基于图形的方法,如SPGraph [15],基于注意力的方法,如PAT [50],稀疏卷积网络,如MinkowskiNet [3],以及连续卷积网络,如 KPConv[37]。Point Transformer在6重交叉验证下的性能也大大优于所有先前的模型。该模式下的mIoU为73.5%,比现有技术(KPConv)高出2.9个绝对百分点。PointTransformer中的参数数量(4.9M)远小于当前高性能架 构 ( 如 KPConv ( 14.9M ) 和 SparseConv(30.1M))。可视化。 图5显示了点Transformer的预测。我们可以看到预测非常接近16264表1.S3DIS数据集上的语义分割结果,在区域5上进行评估PointNet [25]78.566.247.6RSNet [12]–66.556.5SPGraph [15]85.573.062.1PAT[50]–76.564.3[20]第二十话88.175.665.4[55]第五十五话87.376.266.7ShellNet [53]87.1–66.8RandLA-Net [37]88.082.070.0KPConv [37]–79.170.6PointTransformer90.281.973.5表2.S3DIS数据集上的语义分割结果,用6倍交叉验证进行评估。地面真相Point Transformer可以捕捉复杂3D场景中的详细语义结构,例如椅子的腿、海报板的轮廓和门口的装饰。方法输入MACCOA[47]第四十七话体素77.384.7VoxNet [23]体素83.085.9[26]第二十六话体素86.089.2MVCNN [34]图像–90.1PointNet [25]点86.289.2A-SCN [48]点87.690.0[17]第十七话点–90.4PAT[50]点–91.7[27]第二十七话点–91.9SpecGCN [40]点–92.1[20]第二十话点88.192.2美国有线电视新闻网[44]点90.292.2[55]第五十五话点89.492.3SpiderCNN [49]点–92.4PointConv [46]点–92.5[21]第二十一话点90.492.6KPConv [37]点–92.9[22]第二十二话点–93.0PointTransformer点90.693.7表3.ModelNet40数据集上的形状分类结果4.2. 形状分类数据和度量。ModelNet40数据集包含12,311个CAD模型和40个对象类别。它们被分成9,843个模型用于训练,2,468个模型用于测试。我们遵循Qi等人的数据准备程序。[27]并将来自每个CAD模型的点与来自对象网格的法向量一起均匀地采样。对于评估指标,我们使用每个类别内的平均准确度(mAcc)和所有类别的总体准确度(OA)。性能比较。结果见表3。Point Transformer在这两个指标 中 设 置 了 最 新 的 技 术 水 平 ModelNet40 上 的 PointTransformer的整体精度它优于基于图形的强模型,如DGCNN [44],基于注意力的模型,如A-SCN [48]和Point 2Sequence [21] , 以 及 基 于 点 的 强 模 型 , 如KPConv [37]。可视化。为了探测由点Transformer学习的表示,我们通过检索由点变换器产生的输出特征的空间中的最近邻居来进行形状检索。一些结果如图6所示。检索到的形状与查询非常相似,当它们不同时,它们在我们认为语义不太突出的方面不同,例如桌子腿。4.3. 对象部分分割数据和度量。ShapeNetPart数据集[52]被注释用于3D对象部分分割。它由来自16个形状类别的16,880个模型组成,其中14,006个3D模型用于训练,2,874个用于测试。每个类别的部件数量在2到6之间,总共有50个不同的部件。我们使用的采样点集齐等人。[27]与以前的工作进行公平比较。对于评估指标,我们报告类别mIoU和实例mIoU。性能比较。结果见表4。点Transformer优于所有先前的模型,如实例mIoU所测量的。(Note我们在训练期间没有使用损失平衡,这可以提高catory mIoU。)方法OA mAcc mIoU方法OAMACCMiou天花板地板壁束柱窗口门表椅子沙发书柜板杂波PointNet [25]–49.041.188.897.369.80.13.946.310.859.052.65.940.326.433.2SegCloud [36]–57.448.990.196.169.90.018.438.423.170.475.940.958.413.041.6TangentConv [35]–62.252.690.597.774.00.020.739.031.377.569.457.338.548.839.8[20]第二十话85.963.957.392.398.279.40.017.622.862.174.480.631.766.762.156.7SPGraph [15]86.466.558.089.496.978.10.042.848.961.684.775.469.852.62.152.2PCCN [42]–67.058.392.396.275.90.36.069.563.566.965.647.368.959.146.2PAT [50]–70.860.193.098.572.31.041.585.138.257.783.648.167.061.333.6[55]第五十五话87.066.660.392.098.579.40.021.159.734.876.388.346.969.364.952.5HPEIN [13]87.268.361.991.598.281.40.023.365.340.075.587.758.567.865.649.4MinkowskiNet [37]–71.765.491.898.786.20.034.148.962.481.689.847.274.974.458.6KPConv [37]–72.867.192.897.382.40.023.958.069.081.591.075.475.366.758.9PointTransformer90.876.570.494.098.586.30.038.063.474.389.182.474.380.276.059.316265操作员MLPMLP+池化标量注意向量注意mIoU mAcc OA61.763.764.670.468.671.071.976.587.187.888.490.8方法目录Miouins. MiouPointNet [25]80.483.7A-SCN [48]–84.6PCNN [42]81.885.1[27]第二十七话81.985.1美国有线电视新闻网[44]82.385.1[21]第二十一话–85.2SpiderCNN [49]81.785.3SPLATNet [33]83.785.4PointConv [46]82.885.7SGPN [43]82.885.8[20]第二十话84.686.1[22]第二十二话84.086.3KPConv [37]85.186.4PointTransformer83.786.6表4. ShapeNetPart数据集上的对象部分分割结果。K48163264mIoU mAcc OA59.667.770.468.367.766.073.876.575.074.186.089.990.889.889.9表5.消融研究:在局部邻域的定义中的邻居的数量k。POS. 编码Miou MACCOA没有一64.671.988.2绝对66.573.288.9相对70.476.590.8相对注意力67.073.089.3相对特征68.774.490.4表6.消融研究:位置编码表7.消融研究:操作者自我注意的形式可视化。图7中示出了在若干模型上的对象部分分割结果。点转换器4.4. 消融研究现 在 , 我 们 进 行 了 一 系 列 受 控 实 验 , 检 查 点Transformer设计中的特定决策这些研究是在S3DIS数据集的语义分割任务上进行的,在区域5上进行了测试。邻居的数量。我们首先调查的邻居k的数量的设置,这是用来确定每个点周围的局部邻居。结果示于表5中。当k被设置为16时,可获得最佳性能。当邻域较小(k=4或k=8)时,模型可能没有足够的上下文用于其预测。当邻域较大(k=32或k=64)时,每个自注意层被提供有大量的数据点,其中许多数据点可能更远且更不相关。这可能会在处理中引入过多的噪声,降低模型Softmax正则化我们对等式中的归一化函数ρ进行消融研究。3 .第三章。S3 DIS Area 5上没有softmax正则化的 性 能 为 66.5%/72.8%/89.3% , 以 mIoU/mAcc/OA 表示 。 它 远 低 于 使 用 softmax 正 则 化 的 性 能(70.4%/76.5%90.8%)。这表明,在这种情况下,正常化是必不可少的。位置编码。现在我们研究位置编码δ的选择。结果示于表6中。我们可以看到,如果没有位置编码,性能会显著下降。采用绝对位置编码时,性能高于不采用绝对位置编码时的性能。相对位置编码产生最高的性能。当相对位置编码仅被添加到注意力生成分支时(等式(1)中的第一项),3)或仅到特征变换分支(等式3中的第二项)。3)时,性能再次下降,表明向两个分支添加相对位置编码是重要的。注意力型。最后,我们研究了点Transformer层中使用结果示于表7中。我们研究四个条件。 “MLP”是用逐点MLP替换点变换器块中的点Transformer层的无关注基线。“MLP+池化”是一种更高级的无注意基线,它用逐点MLP替换点Transformer层,然后在每个kNN邻域内进行最大池化:这在每个点处执行特征变换,并且使得每个点能够与其局部邻域交换信息,但是不利用注意力机制。“标量注意力”替换了等式中使用的向量注意力。3.按标量注意力,如等式。1和原始Transformer设计[39]。“向量注意力”是我们使用的公式,在等式中给出。3 .第三章。我们可以看到,标量注意力比无注意力基线更具表现力,但反过来又优于矢量注意力。矢量注意力和标量注意力之间的性能差距很大:70.4%对64.6%,提高了5.8个绝对百分点。向量注意力更有表现力,因为它支持单个特征通道的自适应调制,而不仅仅是整个特征向量。这种表现力在3D数据处理中显得非常有益。16266输入真值点Transformer输入真值 点变压器天花板地板墙梁柱窗门桌椅 沙发书柜板杂波图5.S3DIS数据集上语义分割结果的可视化图6. ModelNet40数据集上的形状检索结果的可视化。最左边的列显示输入查询,其他列显示检索到的模型。图7. ShapeNetPart数据集上对象部分分割结果的可视化。地面事实是在顶行,点跨前预测的底部。5. 结论变形金刚已经彻底改变了自然语言处理,并在2D图像分析方面取得了令人印象深刻的进展受这一进展的启发,我们开发了一种用于3D点云的转换器架构。与语言或图像处理相比,变换器可能更适合点云处理,因为点云本质上是嵌入度量空间中的集合,并且在变换器的核心中的自我注意运算符前者的网络基本上是一个集合运营商。我们已经证明,除了这种概念上的兼容性之外,变换器在点云处理中非常有效,性能超过了各种系列的最先进设计:基于图的模型、稀疏卷积网络、连续卷积网络等。我们希望,我们的工作将激发进一步调查点变压器,新的运营商和网络设计的发展,以及变压器的应用到其他任务,如3D物体检测的性质。16267X引用[1] 放大图片创作者:Iro Armeni,Ozan Sener,Amir R.Zamir,Helen Jiang,Ioannis Brilakis,Martin Fischer,and Silvio Savarese.大规模室内空间的3D在CVPR,2016年。5[2] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR,2017年。2[3] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积:Minkowski卷积神经网络。在CVPR,2019年。一、二、五[4] 戴梓航,杨志林,杨一鸣,Jaime Carbonell,Quoc V.Le和Ruslan Salakhutdinov. Transformer-XL:超越固定长度上下文的注意语言模型。在ACL,2019年。一、二、三[5] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练。在NAACL-HLT,2019年。一、二、三[6] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. ICLR,2021年。二、三[7] Oren Dovrat,Itai Lang和Shai Avidan。学习采样。在CVPR,2019年。2[8] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。用球面cnn学习so(3)等变表示。在ECCV,2018。2[9] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在CVPR,2018年。一、二[10] Han Hu,Zheng Zhang,Zhenda Xie,and Stephen Lin.用于图像识别的局部关系网络。在ICCV,2019年。一、二、三[11] Qingyong Hu,Bo Yang,Linhai Xie,Stefano Rosa,Yulan Guo,Zhihua Wang,Niki Trigoni,and AndrewMarkham. Randla-net:大规模点云的高效语义分割。在CVPR,2020年。2[12] Qiangui Huang,Weiyue Wang,and Ulrich Neumann.用于点云三维分割的递归切片网络。在CVPR,2018年。6[13] 李江,赵恒双,刘舒,沈晓勇,傅志荣,贾佳雅.分层点边交互网络用于点云语义分割。在ICCV,2019年。二、六[14] Asako Kanezaki ,Yasuyuki Matsushita,and YoshifumiNishida.旋转网:使用来自无监督视点的多视图的联合对象分类和姿态估计。在CVPR,2018年。2[15] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。在CVPR,2018年。二、五、六[16] Alex H Lang , Sourabh Vora , Holger Caesar , LubingZhou,Jiong Yang,and Oscar Beijbom.点柱:用于从点云中检测物体的快速编码器。在CVPR,2019年。2[17] Juho Lee 、 Yoonho Lee 、 Jungtaek Kim 、 AdamKosiorek 、 Seungjin Choi 和 Yee Whye Teh. 整 定Transformer:基于注意力的置换不变神经网络的框架。在ICML,2019。三、六[18] 李波,张天磊,田霞。使用全卷积网络的3d激光雷达车辆检测。在RSS,2016. 2[19] Guohao Li,Matthias Muller,Ali Thabet,and BernardGhanem. Deepgcns:gcns能和cnns一样深吗?在ICCV,2019年。一、二[20] Yangyan Li,Rui Bu,Mingchao Sun,Wei Wu,XinhanDi,and Baoquan Chen. Pointcnn:转换点上的卷积。在NIPS,2018年。二六七[21] Xinhai Liu,Zhizhong Han,Yu-Shen Liu,and MatthiasZwicker.点2序列:使用基于注意力的序列到序列网络学习3d点云的形状表示。在AAAI,2019年。三六七[22] Jiugeng Mao,Xiaogang Wang,and Hongsheng Li.用于三维点云理解的插值卷积网络。在ICCV,2019年。二六七[23] Daniel Maturana和Sebastian Scherer。Voxnet:用于实时对象识别的3D卷积神经网络InIROS,2015. 一、二、六[24] Adam Paszke , Sam Gross , Francisco Massa , AdamLerer , James Bradbury , Gregory Chanan , TrevorKilleen , Zeming Lin , Natalia Gimelshein , LucaAntiga,et al. PyTorch:命令式的高性能深度学习库。在NIPS,2019。5[25] Charles Ruzhongtai Qi , Hao Su , Kaichun Mo , andLeonidas J. Guibas Pointnet:对点集进行深度学习,用于3D分类和分割。在CVPR,2017年。一、二、五、六、七[26] Charles Ruizhongtai Qi , Hao Su , Matthias Nießner ,Angela Dai,Mengyuan Yan,and Leonidas Guibas.用于三维数据对象分类的体积和多视图cnn。在CVPR,2016年。6[27] Charles Ruzhongtai Qi,Li Yi,Hao Su,and Leonidas J.Guibas Pointnet++:度量空间中点集的深度层次特征学习。在NIPS,2017年。一、二、五、六、七[28] Prajit Ramachandran ,Niki Parmar , Ashish Vaswani,Irwan Bello,Anselm Levskaya,and Jonathon Shlens.视觉模型中的独立自我注意力。NeurIPS,2019。一、二、三
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功