没有合适的资源?快使用搜索试试~ 我知道了~
11799PatchFormer:一种具有补丁注意的Cheng Zhang1*,Haocheng Wan1*,Xin yi Shen2,ZizhaoWu1†1杭州电子科技大学,杭州中国2伦敦大学学院,伦敦英国{zhangcheng828,wuzhao} @ hdu.edu.cn{ wanhaocheng2022,xinyishen2018} @ 163.com摘要点云学习社区见证了从CNN到Transformers的模式转变,其中纯Transformer架构在主要学习基准上实现了最高精度然而,现有的点变换器在计算上是昂贵的,因为它们需要生成大的注意力图,其相对于输入大小具有二次复杂性(在空间和时间两者中为了解决这一缺点,我们引入了PAT(注意力转移)自适应地学习一组更小的基础上计算的注意力地图通过在这些基础上的加权此外,我们提出了一个轻量级的多尺度注意力(MST)块来建立不同尺度特征之间的注意力,为模型提供多尺度特征。配备了PAT和MST,我们构建了称为PatchFormer的神经架构,将两个模块集成到点云学习的联合框架中。广泛的实验表明,我们的网络在一般点云学习任务上达到了相当的精度比以前的点变压器有9.2倍的加速1. 介绍Transformer最近在自然语言处理[7,34]和2D视觉[8,21,33,38]中引起了极大的关注,因为它在捕获远 程 依 赖 性 方 面 具 有 卓 越 的 能 力 。 Self-Attention(SA)是Transformer的核心,它通过计算self查询和self键之间的亲和度来获得一个注意力图,并利用这个注意力图对self值进行加权来生成一个新的特征图。Transformer利用SA模块,能够对序列中的标记关系进行建模,这对于许多点云学习任务来说也是非常重要的。因此,人们做了大量的研究来探索*这些作者的贡献相等。†通讯作者:wuzizhao@hdu.edu.cn.图1.大型室内场景通常由小实例(例如,椅子和打字机)和大型物体(例如,而建立它们之间的关系需要多尺度的注意机制。基于transformer的点云学习架构。最近,Nico等人提出了PT1 [9],通过引入标准SA机制来提取全局特征,该机制旨在捕获空间点关系和形状信息。Guo等人提出了偏移注意力(PCT [10]),通过逐元素减法计算SA特征与输入特征之间的偏移差异最近,越来越多的研究人员将SA模块应用于各种点云学习任务,并取得了显着的性能,如[24,56]。然而,现有的点变换器是计算上昂贵的,因为原始SA模块需要生成大的注意力图,其具有高计算复杂度并且占用大量GPU存储器。这一瓶颈在于注意力地图的生成和使用都需要对所有点进行计算。针对这个问题,我们提出了一种新的轻量级注意力机制,即PAT,它通过低秩近似计算注意力地图[17,52]。我们的关键观察是,一个三维形状是由它的局部组成,因此在同一部分的点的特征应该有相似的语义。基于这一观察,我们首先利用内在的几何相似性,集群局部点的3D形状作为一个补丁,并估计基地聚合的所有点在同一补丁的功能。然后,我们使用self查询和self基的乘积来近似11800××全局注意力图,其可以通过计算自我查询和自我密钥来获得。值得注意的是,这种乘积的表示是低秩的,并且丢弃了来自输入的噪声信息。此外,为了聚合局部邻域信息,Zhao等人。[56]提出了PT2来构建邻域点集中的局部向量注意力,Guo等人(PCT [10])提出使用邻域嵌入策略来改进点嵌入。虽然PT2和PCT取得了显著的进展,但仍存在一些问题,制约了它们的效率和性能.首先,它们在结构化不规则数据上浪费了总时间的很高百分比,这成为效率瓶颈[23]。第二,他们未能建立不同尺度的特征之间的注意力,这是非常重要的三维视觉任务。如图1所示,大的室内场景通常包含小的实例(例如,椅子和灯)和大型物体(例如,表),建立它们之间的关系需要多尺度的注意机制。然而,PT2和PCT的输入序列是从大小相等的点生成的,因此在同一层中仅保留一个比例特征。为了解决这些问题,我们提出了一个轻量级的多尺度(MST)块的点云学习,它包括两个步骤。在第一步中,我们的MST块将点云转换为体素网格,用不同尺度的多个卷积核采样框,然后将这些网格连接为一个嵌入(见图4)。具体来说,我们建议在框采样上使用深度-宽度卷积(DWConv [11]),因为参数少,FLOP也少。在第二步中,我们加入了3D相对位置偏差,并建立了对非重叠局部3D窗口的关注,以较低的计算成本为我们的模型提供了强大的多尺度特征。基于这些提出的块,我们构建了我们的神经架构,称为PatchFormer(见图2)。具体来说,我们在ModelNet40上执行分类任务,并实现了93.5%的高准确率(无投票),比以前的点变压器快9.2。在ShapeNet和S3DIS数据集上,我们的模型也分别获得了86.5%和68.1%的mIoU主要贡献总结如下:• 我们提出PatchFormer用于有效的点云学习。实验表明,我们的网络实现了强大的性能与9.2的速度比以前的点变压器。• 我们提出PAT,点云分析范式中的第一个线性注意机制。• 本文提出了一种基于体素的轻量级MST块,弥补了以往体系结构2. 相关作品2.1. 用于2D视觉的Transformer受变形金刚在NLP中的成功[6,14,29,34,48]的激励,研究人员设计了视觉变形金刚用于视觉任务,以 利 用 其 巨 大 的 注 意 力 机 制 。 特 别 是 , VisionTransformer(ViT)[8]是第一个基于Transformer的方法的例子,可以匹配甚至超越卷积神经网络(CNN)进行图像分类。后来,Wang et al.[37]提出了金字塔结构的变压器,命名为PVT,大大减少了模型后面几层的补丁数量。Liu等人[21]提出了Swin Transformer,其表示使用非重叠局部窗口计算。随后,Wang et al.[38]和Chen et al.[2]提出了Cross-Former和CrossViT来研究如何学习Transformers中的多尺度受Cross- Former和CrossViT中用于图像分析的跨尺度注意力的启发,我们提出了一种用于点云学习的基于体素的MST块,该块组合了不同大小的体素网格以学习更强的局部特征。2.2. 点云学习现有的点云学习方法按数据表示方式可分为两类:基于体素的模型和基于点的模型。基于体素的模型通常将点云光栅化到规则网格上,并应用3D卷积进行特征学习[13,15,27,40,57]。这些模型由于其出色的存储器局部性而在计算上是高效的,但是遭受不可避免的细粒度定位精度上的信息降级[23,31,51]。代替体素化,开发一个直接消耗点云的中性网络是可能的[12,20,26,30,35,39,44,47、50、53、54]。虽然这些基于点的模型自然地保持点位置的准确性,但它们通常是计算密集型的。通常,基于体素的模型具有规则的数据位置,可以有效地编码粗粒度特征,而基于点的网络保持了位置信息的准确性,可以有效地聚合细粒度特征。在本文中,我们提出PatchFormer,以合并-porto从上述两个模型的优点。2.3. 点变压器在Transformer [34]及其变体[8,21]的支持下,基于点的模型最近应用SA从点云中提取特征并显著提高性能[9,10,16,25,49,51]。特别是,PT1是用于点云学习的基于transformer的方法的第一个这样的例子。后来,郭等。和Zhao等人亲11801OOi=1i=1P∈图2. PatchFormer的体系结构:PatchFormer由三个阶段组成,每个阶段包含两个模块:MST模块和PAT模块。专用头部(例如,分类头)之后是用于特定任务的最后阶段。MST块:它首先将点云体素化为体素网格,聚合多尺度特征,然后进行基于3D窗口的SA(W-SA)以捕获局部信息。最后,MST块将体素网格转换为点,并将它们馈送到PAT块。MST中的数字表示DWConv使用的内核大小,R表示相对位置偏差,W-SA表示基于3D窗口的自注意。提出了PCT和PT2,以构建SA网络,用于一般的3D识别任务。然而,它们遭受的事实是,随着特征图的大小的增加,原始SA的计算和存储器为了解决这个问题,我们提出了PAT计算自我查询和一个小得多的基地之间的关系,但捕捉点云的全局上下文以及。复杂度(在空间和时间上)从原始SA的(N2)到(MN)(M N),其中M是碱基数。因此,所提出的补丁注意力可以方便地取代现有的点变压器的各种点云学习任务的骨干网络。在接下来的部分中,我们使用以下符号:具有N个点的原始点云表示为P={pi}N<$RC。在C= 3的最简单设置中,每个点包含3D坐标。F={f i}NRD是3. 概述PatchFormer架构的概述如图2所示。我们的方法首先使用共享MLP将点云嵌入到D维空间FRN×D中,其中N是点的数量。我们根据经验设置D = 128,这是一个相对较小的计算效率值最后,我们将模型分为三个阶段,每个阶段由两个模块组成:多尺度张力(MST)阻滞和PAT阻滞。如图2所示,MST块首先将点云体素化为规则的体素网格,然后将它们馈送到多尺度聚合模块中。在本模块中,我们使用三个不同大小的DWConv内核对盒子进行采样,并将它们连接为一个嵌入。之后,我们限制SA计算到非重叠的本地框,以减轻原来的SA的二次复杂度。注意,在W-SA模块和MLP模块之前应用LayerNorm(LN)层,并且在每个模块之后应用剩余连接。最后,我们利用三线性插值将体素网格转换为点。与ViT [8]类似,PAT块将每个点视为“to- ken”,并通过使用patch atten- tion聚合全局特征。它接收MST块的输出作为输入,估计一个更紧凑的基地,并在这些基地上生成全局注意力地图。注意,我们的方法减少了输入嵌入功能。4. 方法在这一部分中,我们首先分析了原始的SA机制,然后详细介绍了我们定义注意的新方法:补丁注意。最后,详细讨论了MST模块的设计。4.1. Self-Attention我们首先回顾自我注意(SA)机制。标准SA,也称为标量点积注意力,是一种计算数据序列中不同元素之间语义相似度的按照[34]中的术语,设Q、K、V分别为线性变换生成的查询、键和值输入特征F∈RN×D如下(Q,K,V)=(Wq,Wk,Wv)F,(1)Q,K,V∈RN×D,(2)其中,Wq、Wk和Wv是如图3所示的共享可学习线性变换。使用成对点积QKT∈RN×N,则SA11802m=1D×P∈MPi=1D∈基集B∈R我·图3. PAT块的架构(补丁注意)。PAT可以被看作是原始自注意的变体,以较低的计算成本近似全局映射。可以配制为:A=(αi,j)=softmax(QKT),(3)基础,总人数较少。为了简单起见,我们使用K-Means算法将P分割成M个补丁{S1,S2,…S M},M=96,在分类任务中默认。F输出=AV,(4)其中A∈RN×N是注意力映射,αi,j是对-我们通过聚合Sm中所有点的表示将每个基定义为bm,它可以描述为:Σbm=fi∈SmV的总和,其中一个值得到更多的权重,如果类似的键和值之间的一致性会产生更高的关注度B={b m}MR。(六)加权得分但高计算复杂O(N2D)是使用SA的一个显著缺点.的这里,fi是点pi的表示,变换函数φ()是具有一个线性层和一个ReLU非线性的MLP,wi是fi所属的归一化度输入点数量的二次复杂性使得它直接将SA应用于点云不可行4.2. 补丁注意鉴于注意机制的高计算复杂度和局限性,我们首先提出了PAT,这是SA的增强版本。与先前的点变换器通过计算自查询和自密钥之间的亲和力来获得注意力地图不同,我们的补丁注意力(PAT)计算自查询和小得多的基础之间的关系,但捕获点云的全局上下文为了简单起见,我们考虑输入点云及其对应的大小为N D的特征图F,我们提出的PAT在图3中示出,其由两个步骤组成,包括基础估计和数据重新估计。基本估算。 在这一步中,我们估计一个紧凑的M×D到SM。我们使用空间softmax来规范化每个补丁。通常,我们的基础估计方法可以通过数据驱动的方式自适应地调整同一块中所有点对基础的贡献这种适应性调整设施-以拟合固有几何子流形。数据重新估计。 在估计基B之后,我们可以用B替换K个矩阵,并将等式3重新表示为:A=softmax(QBT),(7)其中A RN×M是从紧致基集构造的注意力映射。之后,使用最终基B和注意力图A来重新估计输入F。我们用公式表示一个新的方程,用F_∞重新估计F,如下所示:fi=Ambm,(8)特别地,我们引入了补丁实例库的概念。对于数据集中的每个点云,我们将其过度分割为M个补丁(MN),并基于此,m=1F={fi}N你好(九)我们创建了M个补丁实例库。通过这种方式,可以通过每个面片实例的集合来近似由于F<$RN×D是由一个紧基集B构造的,因此它具有比输入F低秩的性质.第i个元素和第j个元素之间的相似性。显然,输出F输出是加权的wi( φ( fi)),(5)其中M是碱基数11803·∈PO× ×OO× × × × × ×∈∈- -64迪姆斯32迪姆斯3× 3× 35×5×57× 7× 732迪姆斯图4.第一阶段MST块中多尺度特征聚合的图示。我们注意到,这是一个2D示例,并且可以很容易地扩展到3D情况。输入体素网格由三个DWConv内核(即,33三、五5五、七77)步幅111。每个嵌入都是通过投影和连接三个3D框来构建的。受PCT [10]的启发,我们通过逐元素减法计算估计特征F和输入特征F之间最后,我们将差异馈送到MLP层,并采用剩余连接策略来帮助将信息传播到更高的层。该步骤可以公式化为:F输出=F(F−F)+F,(10)其中,F输出RN×D是我们PAT块的输出,而NLP()是具有一个线性层和一个ReLU非线性的MLP。复杂性分析。与标准的SA模块相比,我们的PAT找到一个有代表性的一组基地的点云,这降低了复杂性从(N2)到(MN)(MN),其中M和N分别是基地和点的数量。此外,我们只需要计算一次原始点云的K-Means算法,可以并行加速CUDA。虽然K-Means优化具有渐近复杂度(NMC),但在我们的网络中可以忽略它因为M是固定的,C=3。4.3. 多尺度注意力在本小节中,我们将详细介绍MST块如何学习注意力模型中的多尺度特征表示该块由两个步骤组成,包括多尺度特征聚合和注意力构建。多尺度特征聚合。此步骤用于为每个阶段生成多尺度特征图4示出了第一MST块,其在阶段1之前,作为第二MST块。example.我们接收体素网格作为输入,使用三个不同大小的内核对框进行采样。三个内核的步幅保持相同,以便它们生成相同数量的嵌入。从图4中可以看出,每三个对应的盒子拥有相同的中心,但位于不同的尺度。这三个盒子将被投影并连接为一个嵌入。在实践中,采样和投影的过程可以通过三个DWConv层来实现。请注意,我们对大内核使用较低的维度,而对小内核使用较高的维度。图4在其子表中提供了特定的分配规则,其中给出了128维的示例与平均分配维数相比,该方案在保持模型高性能的同时,降低了计算代价其他阶段中的MST块以类似的方式工作。 如图2所示,阶段2/3中的MST块使用两个籽粒(3×3×3和5×5×5)。步长设置为1×1×1。为了提高计算效率,核尺寸大于5×5×5的DWConv通过堆叠核尺寸为3×3×3和5×5×5的多个卷积来实现。注意建筑。在不同尺度的特征之间建立注意力我们尝试在多尺度特征地图上进行然而,完整SA机制的计算复杂度是特征图大小的二次方因此,对于以高分辨率特征图作为输入的3D视觉任务,例如语义分割,它将遭受巨大的计算成本。为了解决这个缺点,我们的MST块将SA计算限制在非重叠的局部3D窗口。此外,我们观察到许多先前的工作[21,22,41]已经表明,在SA计算中包括相对位置偏差可能是有利的。因此,我们引入3D相对位置偏差R∈RV3×V3为F输出=softmax(QKT+R)V,(11)其中Q,K,VRV3×D是查询,键和值V3是局部3D矩阵中的体素网格的数量,窗口 由于沿每个轴的相对位置位于范围[V +1,V 1]中,因此我们参数化较小尺寸的偏置矩阵RR( 2V−1 ) × ( 2V−1 ) × ( 2V−1 ) ,并且R中的值从R中导出。对于跨窗口信息交互,已有的研究[21,33,37]建议采用晕轮或平移窗口来扩大接受域。然而,每个Transformer块内的元件仍然具有有限的关注区域,并且需要堆叠更多的块以实现大的接收场。在我们的网络中,局部注意力是在多尺度输入特征中建立的。因此,我们11804×模型ParamsFLOPsSDA(%)OA(%)PointNet3.47M0.45G0.089.2PointNet++(SSG)1.48M1.68G43.590.7PointNet++(MSG)1.74M4.09G47.691.9DGCNN1.81M2.43G57.292.9PointASNL3.98M5.92G39.893.1Pt121.1M5.05G32.592.8Pt29.14M17.1G65.493.7PCT2.88M2.17G24.693.2PatchFormer2.45M1.62G6.393.5表1. ModelNet40上的结果[43]。 与以前的基于transformer的模型相比,我们的PatchFormer实现了9.2倍的测量平均加速的承诺精度。5. 实验在本节中,我们将针对不同的任务评估所提出的PatchFormer:分类,部分分割和场景语义分割。性能使用四个指标进行定量评估:平均类准确度,整体准确 度 ( OA ) , 每 类 交 集 ( IoU ) 和 平 均 IoU(mIoU)。为了公平比较,我们报告了RTX 2080GPU上测量的延迟和模型大小,以反映效率,但评估了RTX 3090 GPU上的其他指标。请参阅我们的附录为更详细的网络架构和实验结果.实 作 详 细 数 据 。 我 们 在 PyTorch 中 实 现 了 Patch-Former。我们使用SGD优化器,动量为0.9,权重衰减为 0.0001 。 对 于 ModelNet40 上 的 3D 形 状 分 类 和ShapeNetPart上的3D对象部分初始学习率设置为0.01,并通过使用余弦退火下降到对于S3DIS上的语义分割,我们以初始学习率训练了120个epoch0.5,在50个epoch和80个epoch时下降了10倍。5.1. 形状分类数据我们在ModelNet40 [42]数据集上评估我们的模型。该数据集包含来自40个人造物体类别的12,311个计算机辅助设计模型,其中9,843个模型用于训练,2,468个模型用于测试。我们遵循齐等人的实验配置。[26]:(1)我们从每个模型的网格面均匀采样1,024个点;(2)点云重新表2.计算资源需求。SDA表示构建稀疏数据的总运行时间速率。(3)在实验中使用采样点的(x,y,z)坐标和法线。在训练过程中,随机缩放,平移和扰动的对象被采用作为我们的实验中的结果结果示于表1中。PatchFormer在ModelNet40上的总体准确率为93.5%。它优于强大的基于图的模型(如DGCNN),强大的基于点的模型(如KPConv)和优秀的基于注意力的网络(如PointASNL)。值得注意的是,与现有的基于Transformer的模型(如PT1,PT2和PCT)相比,我们的模型在达到相当精度的同时速度快了9.2。5.2. 计算需求分析我们现在通过比较表2中所需的浮点运算(FLOP)和参数数量(Params)来考虑PatchFormer和其他几个基线的计算需求。我们在ModelNet40数据集上评估这些指标。从表2中,我们可以看到,PatchFormer具有最低的内存要求,只有2.45M参数,也把一个低负载的处理器,cessor只有1.62G FLOP,但提供了可比的准确率结果为93.5%。值得注意的是,我们总结了表2,PatchFormer只花费了总运行时间的6.3%来构造不规则数据,这比不规则点变换器低得多。与同类算法相比,Patch-Former不仅具有较强的性能,而且计算量和内 存 需 求 都 是 同 类 算 法 中 最 低 的 这 些 特 性 使PatchFormer适合在边缘设备上部署。5.3. 对象分割数据我们使用大型3D数据集ShapeNet Parts[19]作为实验台。ShapeNet Parts包含16,880个模型(14,006个模型用于训练,2874个模型用于测试),每个模型都有两到六个部分的注释,整个数据集有50个不同的部分。模型输入OA延迟OA 92.5PointNet [26]16×102416×10248×102416×102416×102416×102489.291.992.492.292.392.413.6ms35.3ms82.6ms221.2ms二十四岁-2ms[28]第二十八话SpiderCNN [45][18]第十八话[55]第五十五话美国有线电视新闻网[23]OA>92.5KPConv [32]16×650016×102416×102416×102416×10248×102416×102416×102492.992.992.793.292.893.7120.5ms85.8ms923−.6ms320.6ms530.2ms[39]第三十九话[53]第五十三话[46]第四十六话第1章[9]第二章[56]11805×××模型输入Miou延迟DGCNN8×40964×40964×40964×40964−65008×4096×47.157.362.663.165.467.168.1178.1ms282.3ms1895.2ms1223.6ms267−.5ms109.8ms[18]第十八话[46]第四十六话第1章[9]MinkowskiNet [5]KPConv [32]PatchFormer图5. ShapeNet上的注意力地图和分割结果。从左到右:注意力地图w.r.t.三是在基数上选取词条,分割结果。图6. S3DIS数据集上语义分割结果的可视化。输入位于顶行,PatchFormer预测位于中间,地面实况位于底部。模型输入Miou延迟[39]第三十九话8×20486×20488×20486×20486×65008×20484×20488×204885.485.986.186.186.486.486.686.596.2ms360.4ms145.6ms1023.2ms127.8ms101.1ms560.2ms45.8ms第1章[9][18]第十八话[46]第四十六话KPConv [32]PCT [10]第二章[56]PatchFormer表3. ShapeNet零件上的零件分割结果。输入零件标签。我们从每个模型中抽取2,048个点作为输入,其中一些点集有六个标记部分。我们在实验中直接采用类似于DGCNN [ 39 ]的相同结果和可视化。从表3中,我们可以看到,在相似的精度下,我们的PatchFormer快了12.4倍表4.室内场景分割结果在S3DIS上,在Area5上评估从这个表中,我们可以看到PatchFormer在准确性和效率方面优于大多数以前的模型。比PT2和PCT快2.2。值得注意的是,PatchFormer的准确性更高,比PointASNL快22.7。此外,我们在网络的最后一层从B中随机选择三个实体,并显示它们对应的所有点的注意力得分。如我们所见,每个基对应于点云的抽象概念,并且所学习的注意力图集中于对象分割的有意义的部分,如图5所示。5.4. 室内场景语义分割数据我们在S3DIS数据集[1]上评估我们的模型,该数据集包含来自三个不同建筑物的六个室内区域的3DRGB点云。每个点都标记有来自13个类别的语义标签(例如,木板、书柜、椅子、天花板和横梁)加上杂乱。遵循通用协议[26,32],我们将每个房间划分并采样为1 m 1 m块,其中每个点由9D矢量(XYZ,RGB和归一化空间坐标)表示。此外,在训练过程中,每个块中的点被采样为统一数量的4,096个点并且所有点都用于测试。结果和可视化。结果见表4。从该表中我们可以看到,我们的Patch- Former达到了68.1%的mIoU,这优于基于图形的方法,如DGCNN [39],稀疏卷积网络,如 MinkowskiNet [5] , 连 续 卷 积 网 络 , 如 KPConv[32], 基 于 注 意 力 的 模 型 , 如 PointASNL [46] 和 点Transformer , 如 PT1 。 值 得 注 意 的 是 , 我 们 的PatchFormer在延迟方面也远远优于这些强大的模型。图6显示了PatchFormer的预测。 我们可以看到,预测非常接近实际情况。PatchFormer在复杂的3D场景中捕获详细的多尺度特征,这在我们的网络中很重要。5.5. 消融研究我们现在进行一些对照实验,检查PatchFormer设计中的特定决策。基地的数量。我们首先调查了11806MModelNet40(OA)ShapeNet(mIoU)延迟3291.5484.9233.25ms6492.9485.8233.82ms9693.5286.5234.32ms12893.5086.5435.56ms表 5.消 融 研 究 : 我 们 网 络 中 的 碱 基 数 M 。 我 们 报 告 了ModelNet40数据集的延迟。消融ModelNet40(OA)ShapeNet(mIoU)无MS功能92.8585.22MLP92.6285.32边缘转换93.1085.89self-attention93.2986.22没有关系。POS93.1586.30我们93.5286.52表6.消融研究的多尺度特征聚合,PAT和相对偏差的两个基准。 w/o MS 功能 :所有 MST块, 无聚合 多尺度功 能。MLP:在我们的架构中用MLP层取代PAT。EdgeConv:在我们的架构中用EdgeConv层替换PAT。self-attention:在我们的架构中用self-attention层替换PAT。rel. pos:默认设置,带有附加的相对位置偏差项。消融ModelNet40(OA)延迟(ms)A2Net [3]92.8936.89[17]第十七话93.0237.27Linformer [36]93.1440.22表演者[4]93.2235.46我们93.5234.32表7.我们用其他的线性注意力机制来代替我们的PAT。我们收集他们的公共代码并将其调整为3D数据。基地的数量。结果示于表5中。当M设置为96时,分类任务的性能达到最佳。一方面,当基底较小时(M= 32或M= 64),则模型可能没有足够的上下文用于其预测。另一方面,增加M不会给PatchFormer带来太多的准确性好处,但会增加延迟。这也证明了我们的PAT的效率和有效性。多尺度要素聚合的效果 我们对多尺度特征聚合步骤进行了消融研究。从表6中,我们可以看到,在没有此步骤的情况下,ModelNet 40和ShapeNet的性能分别这远远低于多尺度特征的性能(93.52%/86.52%)。这表明多尺度功能在此设置中至关重要。PAT的影响 我们调查使用PAT的影响在PAT块中从表6中,我们可以看到PAT比无注意基线(MLP)更有效。PAT和MLP基线之间的性能差距显著:93.52% vs. 92.62%和86.52% vs. 85.32%,分别提高了0.9和1.2个绝对百分点。与EdgeConv基线相比,我们的PAT也实现了0.42和0.63个绝对百分点的提高。值得注意的是,我们的PAT比自我注意基线高出0.23和0.30个绝对百分点。我们还将PAT与表7中的其他线性注意力机制进行了比较,发现它实现了最佳的准确性和运行速度。PAT有两个明显的优势。首先,由于原始点云的内在几何相似性,我们只需要在原始点云上计算一次K-Means,这意味着基础估计的计算成本可以忽略不计。一下基于残差学习的PAT对对象的任何刚性变换都具有更强的鲁棒性3D相对位置偏差的影响。最后,我们研究了3D相对位置偏差的影响, MAS街区。表6显示了结果。我们可以看到,相对于没有位置编码的PatchFormer,具有 相 对 位 置 偏 差 的 PatchFormer 在 ModelNet 40 和ShapeNe上分别产生+0.37%OA/+0.47%mIoU,表明相对位置偏差的有效性。6. 结论和未来工作在这项工作中,我们提出了一种新的注意力机制,即点云学习的PatchAT tension(PAT)我们的PAT的重建的输出是低秩的,并实现线性的时间-空间复杂度的输入大小。此外,我们提出了一个轻量级的MST块,在不同尺度的特征之间建立注意力,并为我们的模型提供多尺度特征。基于这些模块,我们构造了适用于各种点云学习任务的Patch- Former.实验表明,我们的PatchFormer实现可比的准确性和更好的速度比其他点变压器。我们希望我们的工作将提供经验指导新的方法设计和启发进一步调查的点变压器的性质例如,在点中执行K-Means,为每个聚类提取补丁特征,直接减少嵌入阶段的令牌数量。7. 确认本 工 作 得 到 浙 江 省 自 然 科 学 基 金 ( LGF 21F20012)、国家自然科学基金(No.61602139)和杭州电 子 科 技 大 学 研 究 生 科 研 基 金 ( CXJJ2021082 ,CXJJ2021083)的部分资助。11807引用[1] I. Armeni,S.Sax,A.R. Zamir和S.Savarese 用于室内场景 理 解 的 联 合 2d-3d 语 义 数 据 arXiv 预 印 本 arXiv :1702.01105,2017。7[2] C.陈角,澳-地Fan和R. 熊猫. Crossvit:用于图像分类的交叉注意多尺度视觉Transformer。IEEE/CVF国际计算机[16] R. Li,X.李,P.Heng,和C.Fu. 通过解纠缠细化的点云上采样在IEEE计算机视觉和模式识别会议上,CVPR2021,虚拟,2021年6月19日至25日,第344-353页,2021年。2[17] X. Li,Z. Zhong,J. Wu,Y. Yang和H.刘某期望最大化注意力网络用于语义分割。IEEE/CVF计算机视觉国际会议(ICCV),2019年。1、8愿景(ICCV),2021年。22[18] Y.利河,巴西-地布,M。Sun和B.尘 Pointcnn:卷积[3] Y. Chen,Y. Kalantidis,J. Li,S. Yan和J. Feng. A网:双重注意力网络. 神经信息处理系统进展(NeurIPS),2018年。8[4]K. M. Choromanski,V. Likhosherstov,D. Dohan,X.歌、A. Gane,T.萨尔洛山口。哈金斯,J。Q. Da vis,A.穆希丁L. Kaiser,D. B.贝朗格湖J. Colwell和A.威勒重新思考对表演者的关注学习代表国际,2021。8[5] C. Choy,J. Y. Gwak和S. Savarese 4D时空卷积神经网络:Minkowski卷积神经网络。IEEE/CVF计算机视觉和模式识别会议,2019年。7[6] Z.戴,加-地Yang,Y. Yang ,J. G. Carbonell,Q. V.Le,以及R.萨拉赫季诺夫Transformer-xl:超越固定长度上下文的注意语言模型。在ACL,2019年。2[7] J. Devlin,M. W. Chang,K. Lee和K.图坦诺娃Bert:为语言 理解 而进 行的 深度 双向转 换器 的预 训练 。在NAACL-HLT,2018年。1[8]A. 多索维茨基湖Beyer,A.Kolesnikov,D.魏森博恩X. 翟 T. Unterthiner M. 德加尼 M. 明德勒G. Heigold,S.Gelly,J.Uszkoreit和N.霍斯比一张图像值16x16个单词:用于大规模图像识别的变形金刚。2021年学习代表国际会议。一、二、三[9] N. Engel,V. Belagiannis,and K.迪特迈尔点变压器。CoRR,abs/2011.00931,2020。一、二、六、七[10] M.- H.郭杰- X.蔡志- N.刘德铭J. Mu,R. R.马丁和S.- M.胡点云Transformer。计算视觉媒体,7(2):187-199,2021年4月。一、二、五、六、七[11] A. G. Howard , M.Zhu , B.Chen , 中 国 粘 蝇D.Kalenichenko,W.小王,T. Weyand,M. Andreetto和H. Adam. Mobilenets:用于移动视 觉应用的高效 卷积神经网 络。arXiv预印本arXiv:1704.04861,2017。2[12] Q.黄,W. Wang和U. a.诺伊曼用于点云三维分割的递归切片网络。IEEE/CVF计算机视觉和模式识别会议论文集,2018年。2[13] T. Le和D.烨Pointgrid:用于3D形状理解的深度网络。IEEE/CVF计算机视觉和模式识别会议论文集,2018年。2[14] J.李,W.尹,S。Kim,D. Kim,S.金角,澳-地H. So和J. Kang Biobert:一个用于生物医学文本挖掘的预训练生物医学语言表示模型。在Bioinformat-ics,第1234-1240页,2020中。2[15] J. Li,B. M. Chen和G. H.李你So-net:用于点云分析的自组织网络。IEEE/CVF计算机视觉和模式识别会议论文集,2018年。211808在 x 变 换 的 点 上 。 神 经 信 息 处 理 系 统 进 展(NeurIPS),2018年。六、七[19] Y. Li,V. G. Kim,D.锡兰岛C.沈,M。Yan,S.豪、C.卢角,加-地Huang,黄背天蛾A. Sheffer和L.Guibas三维形状集合中区域标注的可扩展主动框架ACM Transactions on Graphics ( TOG ) , 35(6cd):210.1- 210.12,2016. 6[20] Y.刘湾,澳-地范,S。Xiang和C.锅用于点云分析的S形卷积神经网络IEEE/CVF计算机视觉和模式识别会议,2019年。2[21] Z. Liu,Y.Lin,Y.Cao,H.Hu,Y.魏,Z.Zhang,S.琳一B.小郭。Swin Transformer:使用移动窗口的分层视觉Transformer。IEEE/CVF计算机视觉国际,2021年。一、二、五[22] Z. 刘,J.Ning,Y.Cao,Y.魏,Z.Zhang,S.Lin和H.胡视频摆动Transformer。CoRR,abs/2106.13230,2021。5[23] Z. Liu,H.唐,Y。Lin和S.韩用于高效3d深度学习的 点 体 素 cnn 。 神 经 信 息 处 理 系 统 进 展(NeurIPS),2019年。二、六[24] K. Mazur和V. Lempitsky。云变压器。IEEE/CVF计算机视觉和模式识别会议,2020年。1[25] L. 平移X。Chen,Z.Cai,J.Zhang,H.Zhao,S.Yi和Z.刘某变分关系点完备网络。在IEEE计算机视觉和模式识别会议上,CVPR 2021,虚拟,2021年6月19日至25日,第8524-8533页,2021年。2[26] C. R. Qi,H. Su,K. Mo和L.吉巴斯Pointnet:对点集进行深度学习,用于3D分类和分割。IEEE/CVF计算机视觉和模式识别会议论文集,第652-660页,2017年。 二六七[27] C. R. Qi,H.苏,M。Niebner,A.戴,M. Yan和L.吉 巴 斯 三 维
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功