三维稀疏体素编码的深度学习模型

121 浏览量更新于2023-10-25 收藏 1.01MB PDF 举报

3D语义分割

深度学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1435CodedVTR：基于码本基于几何引导的赵天辰1，张念松1，宁雪飞1，王贺2，李毅13*，王宇11清华大学2北京大学3上海启智学院{suozhang1998，foxdoraame，ericyi0124} @ gmail.comniansong.outlook.comhewang@pku.edu.cnyu-wang@mail.tsinghua.edu.cn摘要Transformers通过在许多2D视觉任务中超越卷积神经网络而获得了广泛的关注。然而，已知它们具有泛化问题，并且依赖于大规模的预训练和复杂的训练技术。在应用于三维任务时，不规则的数据结构和有限的数据规模增加了Transformer的应用难度我们提出了Cod-edVTR （ Codebook-based VoxelTR ansformer ）算法，提高了三维稀疏体素变换的数据效率和泛化能力。一方面，我们提出了基于码本的注意力，将注意力空间投影到由可学习码本中的“原型”组合表示的子空间中它使注意力学习规则化，提高了泛化能力。另一方面，我们提出了几何意识的自我注意力，利用ge-体素Transformer特征提取=编码录像机关系学习几何感知码本编码联系地图��′= ∑��特征提取度量信息（几何图案，密度），以指导注意力学习。CodedVTR可以嵌入到基于扩展稀疏卷积的方法中，并为室内和室外3D语义分割任务带来1. 介绍深度学习的最新进展大大推动了3D点云的表示学习3D深度学习模型使自动驾驶和机器人系统能够感知原始3D传感器数据。在这个过程中，3D语义分割任务在真实世界场景理解中起着至关重要它旨在将每个点分类到预定义的语义类别中（例如，汽车、脚踏车、桌子、地板等），which provides point-wise percep- tioninformation of the whole 3D scene.对于大规模场景的3D语义分割，基于点的方法[20，22，30]将场景分割为立方体块，并将其应用于*通讯作者图1. CodedVTR是一种新型的基于transformer的构建块，用于基于体素的3D场景理解任务。我们提出了基于码本的注意力，以减轻Transformer的一般化问题，这是加剧了3D任务。考虑到三维点云对每个块进行逐点操作相应地，基于体素的方法[3，10，21，33]直接对整个场景进行体素化在本文中，我们遵循基于体素的计划，并专注于设计稀疏体素为基础的三维语义分割任务的架构Transformer [24]受到了广泛的关注，并在许多视觉任务中实现了最先进的性能，例如图像分类和语义分割[15]。它摒弃了卷积式的归纳偏差，采用了更通用的自注意操作。虽然较少的电感偏置使变压器可能联系地图关系学习1436更好的代表能力，它也提出了挑战，其泛化能力[23，31] 。电流互感器依赖于大规模数据预训练（ImageNet22K）、强大的数据增强和复杂的超参数调整，以超越卷积神经网络（CNN）。[8]如《易经》所言：当直接在ImageNet上训练时，transformers“产生了几个百分点的适度准确度-年龄点低于类似大小的ResNets”。先前的研究[4，13]证明了与CNN相比，transformer具有更好的表达能力，并得出结论，它们在较小数据集上的性能较差主要来自泛化能力较差。这个问题在3D任务中进一步加剧3D点云数据具有独特的属性，例如稀疏和不规则的结构，变化的密度，数据局部的隐式几何特征例如，在semanticKITTI [33]中，距离场景中心超过5 m的体素中有95%是空的。此外，不同的体素具有不同的局部几何图案，例如，桌子和地板上的体素主要具有水平相邻体。由于三维数据的密度和几何模式变化很大，如何捕捉和适应这些变化的情况给Transformer的综合带来了挑战另一方面，由于高质量的标记数据很难获得3D任务，数据集的大小通常是有限的，这也带来了挑战的推广Transformer。上述现象强调了克服transformer泛化问题的活力，特别是对于3D任务。我们试图从建筑设计的角度来解决一般化问题我们提出了基于码本的注意力，规则化的注意力空间，以提高泛化。具体地说，我们将自注意力映射投影到由几个码本元素的组合表示的子空间中（见图1）。1）。通过这种方式，注意学习的维度从整个注意空间减少到码本内的几个投影将注意力学习限制在子空间上，可以看作是一种正则化形式，以获得更好的泛化能力。上述码本在我们的设计中起着至关重要的作用。代替将码本元素的空间支持限制为规则的立方体区域，我们另外提出几何感知注意力，以结合关于3D体素数据的空间图案的感应偏差不像像素有一个规则和密集的布局，体素有不同的几何图案和密度1。现有的稀疏体素CNN [3]和Transformer [17]对所有体素使用固定的感受野（空间支持）。它们仅依赖于学习过程来提取几何特征，而不利用体素的几何图案。相比之下，我们仔细设计了不同形状的几何区域，1我们将体素的几何模式和密度概括为它们的通过收集和聚类输入体素数据中的局部稀疏模式来确定范围利用码书设计的优势，我们将这些几何区域分配给每个码书元素作为其注意力空间支持。通过这种方式，我们可以鼓励注意学习适应体素的稀疏模式。这项工作的贡献可归纳为三个方面：1) 我们解决了Transformer基于码本的自注意力将注意力空间投影到其子空间，作为更好泛化的正则化。2) 我们提出了几何感知的注意，利用3D体素的稀疏模式。它结合几何属性的归纳偏差来指导注意学习。3) 我们的CodedVTR块可以毫不费力地嵌入到现有的基于稀疏卷积的主干中。用我们的CodedVTR代替稀疏卷积，在室内和室外3D语义分割数据集上都带来了持续的性能改进。2. 相关作品2.1. 基于体素的三维语义分割近年来，用于3D场景理解的深度学习越来越受欢迎。三维语义分割任务是一个典型的任务，它为给定的三维点云中的每个点分配一个语义标签。早期的基于点的方法，如[20，22]将场景分成立方体块并处理每个块中的点这些方法很难在像 ScanNet [5] 或SemanticKITTI [1]这样的大规模场景中产生令人满意的性能。或者，基于体素的方法（如MinkowskiNets [3]和SparseConvNets [10]）应用3D体素化将不规则点云转换为规则稀疏体素以应用3D卷积。它们可以直接处理整个场景，并在大规模场景数据集上产生最先进的性能。然而，由于均匀体素化和受限制的感受野，稀疏卷积难以处理变化的密度和长期关系建模。在本文中，我们试图改善基于体素的特征提取更灵活的Transformer架构，并提出几何感知的自我关注，以解决上述问题。2.2. Transformer与自我关注Transformers在NLP [24]和Vision [8]任务中都取得了巨大的成功。性能分析和理论分析表明，自注意运算具有较弱的归纳偏差，因而比卷积运算具有更好的表达Cordonnier等人[4]证明了，有足够数量的头，自我注意力可以近似的conp。1437∈∈- -Σ∈{···}∈J我联系我们进化结果表明，自注意比卷积具有更好的表达能力，有可能成为一种更好的特征提取方法。与卷积相比，变换器具有更灵活的感受野，可以利用更丰富的上下文信息。一些先前的研究尝试将Transformer引入到3D点云。对于基于点的方法，PointTR[28]将点云完成任务重新表述为集到集的转换问题，并设计了Transformer来解决它。Point Transformer [30]和Pointformer [19]为点云设计了自关注算子，并在各种任务上改进了基于点的方法[20]。至于基于体素的方法，VoTR [17]设计了用于3D检测任务的基于体素的变换器主干。然而，它只适应在2D视觉中的自注意稀疏体素没有解决泛化问题和3D数据的独特属性。他们的报告的性能和我们的再现结果表明，它遭受的 generalization 问题。在CodedVTR中，我们提出了基于码本的自注意来缓解这种泛化问题，以及几何感知的自注意来利用几何信息进行注意学习。2.3. Transformer的推广问题Transformer较好的代表能力来自于它较弱的电感偏置。然而，它也使变压器遭受泛化问题和每-体素，并制定基本的“体素Transformer”模型。然后，我们提出了我们的设计基于码本的自我注意，阐明了一般化问题的变压器在第二。3.2.最后，在第3.3我们引入了几何感知的注意机制，它利用几何信息来指导注意学习，这也与我们的码书设计很好地吻合。3.1. 体素Transformer对于稀疏体素域中的自注意，我们定义点云被体素化为N个稀疏体素坐标为p RN×3和特征xRN×C。为了计算体素xi的输出，我们在局部区域φ（xi）中进行自注意操作。邻域φ（x，i）表示位于具有一些坐标偏移的附近位置处的体素（例如，（+1，1，+1），...，（0，1，+1））。正如先前的研究[29，30]所讨论的，自我注意力可以分解为两个部分：“关系学习”部分F和“特征提取”部分G。“关系学习”部分对输入体素与其相邻体素之间的相对关系进行然后将注意力图与特征部分相乘并聚合以产生输出。输入体素xi的对应输出yi的计算如下进行：在较小的数据集上表现不佳[13，23]。例如，当直接在CIFAR-10甚至ImageNet-1 K上训练时，ViTs的表现无法超过ResNets。大-yi=xj∈φ（xi）fij（φ（xi））<$g（xj）（1）需要尺度预训练或复杂的增强和超参数调整来减轻泛化问题。许多研究试图用更少的资源消耗方法来缓解这个SAM [2]提出了一种尖锐度感知的优化器，以防止优化陷入尖锐的局部极小。Geng等人[9]用矩阵分解正则化了优化。另一系列研究 [6 ， 26 ， 27] 通过将Transformer与CNN融合来增强模型3. 方法在本节中，我们介绍了基于码本的体素变换器（CodedVTR），这是一种基于变换器的3D骨干，具有基于码本和几何感知的自关注。我们设计的基于码本和几何感知的自注意力可以毫不费力地嵌入到现有的3D骨干中，以取代香草稀疏卷积。它解决了Transformer本节的组织如下。节中3.1我们介绍了如何适应自注意设计稀疏其中f ij（φ（x i））RH表示从vo x elxj到xi的注意力权重（H是头数），g（xj）是体素x j处的值。为了表示简单，我们使用向量而不是矩阵来表示注意力映射f（φ（x i））=Concat（f ij（φ（x i））x∈φ（x））RN（φ）H，并在下面的文本中将其写为f（x），其中N（φ）代表邻居大小。3.2. 基于码本的自注意某个体素x的注意力映射f（x）表示它与它的N（φ）个邻居的关系。我们建议通过投影将这种注意力限制在一个可学习的子空间具体地，投影注意力被计算为码本中的多个元素的组合。这些码本元素可以被视为注意力权重的图2给出了基于码本的自我注意的图示。更具体地，注意力子空间使用码本元素θ =θ1来表示，，θK其中，K表示码本大小，H表示头数。并且原始注意力f（x）∈RN（φ）H被投射到这个1438∈D--…原始点云基于码本的注意力（第二节）3.2）语义分割结果几何感知注意力（第二节）3.3）M稀疏模式关系学习联系地图=……选择w码本Θ几何图案不同密度编码联系地图��′= ∑��提高泛化考虑3D数据独特性质图2. CodedVTR块的图示。基于码书的注意力行为优化是在码书表示的注意力权重子空间中进行的。几何感知的注意力利用三维点云的独特性质，分配各种几何区域作为码本元素的注意力空间支持。子空间成为fp（x）RN（φ）H，其中下标p表示“投影”。预测如下：只有一个元素（K=1），它的工作方式类似于卷积块。而当K足够大时，码本元素所跨越的子空间可以容易地具有满秩。w=σ（{θ，f（x）}）∈RK在这种情况下，基于密码本的自我注意力只会被...我fp（x）=ΘTwi=1，···，K（二）将一个映射导入一个满秩子空间而不降维，类似于香草自注意。换句话说，我们的设计有一个超参数（代码-其中，计算原始数据之间的相似性和码本元素θ i，i=1，···，K。σ表示softmax运算，w是码本元素的我们的实验结果验证了基于码本的自我注意的有效性。它的性能增益可以从两个方面来理解。一方面，注意力的子空间投影可以被看作是一种正则化，它提高了Transformer的泛化另一方面，基于码本的自注意可以被看作是一种中间设计，它弥合了卷积和普通自注意之间的架构差距。两种极端情况的基于码本的自注意分别表示卷积和香草自注意。当密码本书大小K），其可以灵活地调整泛化难度和表示容量之间的权衡。3.3. 几何感知的自我注意与具有密集和规则布局的2D像素不同，3D体素是稀疏和不规则的。我们的几何感知注意力设计考虑了3D稀疏体素的这两个独特属性，即，稀疏的几何图案和变化的密度。具体地说，我们设计了具有不同形状和范围的各种几何区域（如图所示）。2）。然后将它们分配给每个码本元素作为其注意力空间支持。这些几何区域由M个不同的形状和D个不同的膨胀组合而特征提取1439Σ×Σ×∩∈∈∈∈注意力自己发现几何感知特征，我们为注意力学习引入了明确的实际稀疏模式代表性几何图案XM码本的几何ij=Dw′=σ（{i j/T}i=1，.，M）JM（三）图3. 几何区域设计的插图。对稀疏模式进行聚类，生成具有代表性的几何模式。分别针对不同的数据集/步幅/膨胀进行聚类。然后，这些几何区域被采用作为每个码本元素的注意空间支持（总共M D类型的注意空间支持），分别对应于3D数据的变化的几何图案和密度。我们的模型可以学习适应这些码本元素的权重与不同的注意力空间支持。M个不同的形状如图所示。3.通过对稀疏模式应用K-mode [7，11]聚类算法，得到M个具有代表性的稀疏模式。聚类生成M个质心，我们选择它们作为几何区域的形状。这个过程可以被解释为将我们不是对具有不同几何模式的所有体素使用单个立方核，而是解耦不同几何模式的参数学习，并使注意力自适应于请注意，现代语义分割网络通常由空间池组成，以快速增加感受野，从而导致不同的空间分辨率。我们在每个空间分辨率进行聚类，以获得各自的几何图案。D不同的膨胀我们对D膨胀采用上述聚类，得到不同形状和范围的M D灵活的范围对于处理不同密度的问题至关重要如果注意力特征和关系学习被约束到固定的局部区域，则低密度区域中的体素可能具有很少的相邻体素并且不能聚合特征。在引入不同的膨胀后，这些体素有机会从更长的范围内选择几何区域进行适当的邻域聚集。计算几何感知的自我注意力除了分配各种几何区域并让σ（{ D）∈ RM ×D我wf=ww′其中θij表示具有第i个几何形状和第j个膨胀的码本元素。更具体地说，我们用一个变量θ i来描述体素x的几何区域φ（θi，j）和稀疏邻域φ（x）之间的相对“匹配度”。““计算这两个区域的交集，并将结果通过几何区域大小N（φ（θ i j））进行归一化以产生θ i。然后，我们将softmax与温度T一起应用于两个维度，并生成w′RM×D作为“几何感知选择”。温度T控制着w ′分布的“ 陡度 ” ，它代表着显式几何制导的 “ 强度 ”。最后，我们将wRM×D相乘（wRK在等式n中生成）。2再整形为RM×D），其中w′RM ×D 生成最终 “选择”wf。“几何引导”明确地强制注意力例如，地板上的体素应该与“平面”形状的区域更紧密地相关，并且具有低密度的体素倾向于选择具有较大膨胀的它显式地对CNN和Transformer所需的空间体素的几何模式进行建模，并利用几何信息来指导自我注意学习。4. 实验在本节中，我们将在流行的室内和室外3D语义分割数据集上评估我们的CodedVTR：[5]第一个是《易经》，第二个是《易经》。我们给出了详细的描述，我们的代码edVTR的实施细节，并提出其性能在这些数据集上。对于每个数据集，我们首先简要介绍数据集和评估指标。然后，我们将我们的CodedVTR的性能与稀疏体素CNN和Transformer进行了比较，并展示了其优越的性能。我们还表明，CodedVTR可以嵌入到现有的稀疏卷积为基础的方法，并进一步提高他们的性能，从架构设计方面。聚类分配1440†数据集方法（型号）ParamMiou卷积捷克斯洛伐克[18]7M百分之六十七点三Minkowski-L [3]11M百分之七十二点四ScanNetTransformerPointTransformer[30]<$VoTR （ Mink-M ） [17]<$VoTR（Mink-L）CodedVTR（Mink-M）6M7M11M7M58.6%百分之六十二点五百分之六十六点一百分之六十八点八CodedVTR（Mink-L）11M73.0%[21]第二十一话7M百分之五十八点九卷积捷克斯洛伐克[21][21]第二十一话11M8M61.1%百分之六十点七SemanticKITTITransformerVoTR（Mink-M）[17]†VoTR（Mink-L）[17]†CodedVTR（Mink-M）7M11M7M百分之五十六点五百分之五十八点二60.4%CodedVTR（Mink-L）11M63.2%CodedVTR（SPVCNN）8M61.8%卷积[21]第二十一话7M百分之六十六点五努斯塞内斯捷克斯洛伐克[21]11M69.4%TransformerCodedVTR（Mink-M）7M百分之六十九点九CodedVTR（Mink-L）11M百分之七十二点五表1.基于ScanNet和SemanticKITTI值集的三维语义分割实验。““表示由于原始论文中没有该结果而复制。“M/L” denotes the modelhas similar depth and width like4.1. 实施细节为了与当前骨干网兼容，我们采用类似于众所周知1441××的Minkowsk-iNet [3]的U-Net块布局（如图的上半部分）。2）设计CodedVTR块来代替ResNet类稀疏卷积块。我们还将VoTR [17]作为体素Transformer基线调整到我们的在表中。1、我们补充了一些关于我们的CodedVTR块的细节我们在局部邻域φ中提取特征，并在相应的位置生成注意力。更具体地说，f（φ（xi））中的f由线性层和用于φ（xi）内局部聚合的轻量级通道卷积组成，就像之前的基于注意力的方法[25]。局部聚合已经对空间信息进行了建模，因此可以丢弃位置编码[26]。几何区域的设计是通过对来自10个随机采样场景的体素的稀疏模式应用k模式[7]聚类来对于每个步幅，3 3 3立方邻域。通过对饱和度的考察，点的聚类成本函数，并设置为8。将上述聚类分别应用于三个伸缩，得到8×3几何区域的码书.4.2. 室内分割数据集上的性能我们在室内3D语义分割数据集ScanNet [5]上进行实验我们遵循公共设置，并将1201、312分别用于训练和验证。我们遵循MinkowskiNet [3]的训练协议进行公平比较。如表所示。1，用我们提出的CodedVTR块替换ResNet类稀疏卷积块可以带来一致的性能改进。中型CodedVTR-M 型号实现了 1. 在 2/3 参数大小（6.1M/9.2M）下，mIoU高出5%（68.8%/67.3%），大尺寸CodedVTR-L在参数大小（25.7M/40.2M）的一半下优于基于卷积的对应物（+0.6%）。此外，由于数据集大小相对较小，体素Transformer（VoTR）存在严重的泛化问题，无法实现与 CNN 相当的性能（ -6%）。实验结果表明，本文提出的编码录像机在提高三维Transformer的泛化能力方面是有效的4.3. 在室外分割数据集上的性能For the outdoor scene semantic segmentation experi-ment, we choose to use a larger dataset, SemanticKITTI [1],which consists of LIDAR scans of outdoor scenes.其中训练用场景19130个，验证用场景4071个.有19个语义类要评估。我们14420.060240.0560 5 10 15 2025持续关注020.04460 5 10 15 2025基于码本（无几何区域）02460 5 10 15 2025我们的（带几何区域）0.030.020.010.00表2. 对CodedVTR提出的技术进行了消融研究，并对其他方法进行了比较，以提高Transformer“地理区域”表示我们仅为码本元素分配不同的几何区域。 “Geo-guidance” representsapplying the explicit这些方法不能有效地解决编码VTR的问题。其性能不令人满意的原因是，它们是为通用视觉transmers设计的图4.更深层的注意力地图的图示，不同的自我关注设计。对于“连续注意力”和“没有几何区域的基于码本的注意力”，注意力图在后面的层中塌陷（即，变得统一，无法提供有价值的信息）。我们也保持我们的训练设置与基线方法相同[21]，并在表1中列出结果。我们观察到，CodedVTR始终优于CNN和Transformer模型（中等尺寸模型为1.5%/3.9%，大尺寸模型为2.1%/5.0%）。由于SemanticKITTI是一个比ScanNet相对更大规模的数据集，因此Transformer的泛化问题是适度的。然而，它仍然难以超越卷积（-2% ）。此外， SPVCNN [21] 的性能明显优于Minkowski-M（1.8%），并且用我们的CodedVTR块替换SPVCNN中的体素分支可以进一步将其性能提高1。百分之一。结果表明，我们的CodedVTR模块可以很容易地嵌入到主流的基于稀疏卷积的方法中，并从架构设计方面进一步提高其性能。5. 分析和讨论5.1. 注意学习分析比较Transformer存在许多用于提高Transformer的泛化能力的尝试我们将它们引入到稀疏体素Transformer中，并将我们的CodedVTR与它们进行比较。我们分别从优化器（SAM [2]）和体系结构设计ConViT [6]方面比较了两种代表性方法如表中所示。2、这些前者因此，他们没有考虑到3D数据的独特性注意力地图的可视化先前文献[32]指出，更深的变压器遭受“注意力崩溃”问题，其中后面层的注意力地图往往是均匀的，无法提供有价值的信息。对于3D体素Transformer，我们看到了类似的现象，如图1的上部热图所示。4.基于码本的自我注意的引入在一定程度上解决了这一问题。然而，在更深的层中，我们仍然看到类似的在我们引入几何知觉注意力之后，“崩溃”问题就消失了。我们从两个方面解释这种现象：1）几何引导帮助注意权重学习匹配不同的几何模式。2)几何区域本身可以被看作是一种形式的多样性regularization-灰的注意力权重方面的应用硬掩模的注意力权重。5.2. CodedVTR的消融研究所提出技术的消融研究我们在表中进行消融研究。2.“Codebook only”表示基于码本的自注意，而没有各种几何区域，它简化了泛化问题并匹配卷积的性能。然而，如图4、单靠基于码本的自我注意力不能完全解决问题。“码本+地理区域”表示我们为每个码本元素分配不同的最后，方法细节MiouVoxelTR<$SAM[2]<$ConvViT[6]†-Optimizer ConvTR融合百分之五十六点五56.6%百分之五十七点四1443本地/远程体素高/低密度选择小/大扩张表3.消融研究：在semKITTI上比较具有不同码本设计的CodedVTR-A的性能。注意到几何区域被应用在这个实验中。“D M”代表不同的“纵横”状区域“飞机”状区域图5. 几何感知自我注意力对特定几何形状的软“选择”的可视化在ScanNet场景中，注意学习使用“平面”形状的码本设计的烧蚀研究正如我们所说节中3.2，码本的设计对于我们基于码本的自我注意在泛化能力和表达能力之间取得平衡至关重要，因此，我们也对码本设计进行了消融研究，如表所示。3.当码本只有一个元素时，它的行为就像预期的卷积。适当增大M和D的大小，模型然而，太大的码本（例如，D/M=3/16或D/M=4/1）的尺寸会加重优化的负担并导致性能下降。此外，我们比较了我们的学习注意力与随机采样相同的码本大小。我们见证了显著的表现差异（+6.2%），这证明了我们注意力学习的有效性。5.3. 可视化CodedVTR学习适应几何图案我们将整个场景的特定几何图案的几何区域的“选择”值可视化。如图5、“平面形”几何区域与地面和桌面区域联系更紧密。类似地，扩张=1扩张=2扩张=3图6. 几何知觉自我注意对不同扩张的“选择”的可视化。（颜色表示针对特定体素的3种扩张中的最佳选择）。注意力学习对局部区域（黄色）使用较小的膨胀，对更远的体素（紫色）使用较大的膨胀。“垂直十字”形区域适合于墙角。它表明，几何区域成功地鼓励注意，以适应体素CodedVTR学习适应不同的密度，我们沿着码本的膨胀维度可视化最佳如图6、CodedVTR学习使用黄色区域作为高密度的局部区域，使用较大感受野区域作为远距离、低密度点。通过这种方式，CodedVTR处理不同的密度，并确保所有体素的正确特征聚合。6. 结论本文提出了CodedVTR，旨在解决Transformer的泛化问题，用于3D场景理解。具体地说，我们提出了“基于码本”的注意力，将注意力空间投影到由码本表示的可学习子空间中。这种技术可以被看作是一种正则化，以提高自我注意的泛化能力。此外，我们提出了在室内和室外3D语义分割数据集上的广泛实验表明，与CNN和Transformer相比，我们的CodedVTR可以实现确认本工作得到了国家自然科学基金（No. U19B2019，61832007）、清华EE赛灵思人工智能研究基金、北京国家信息科学技术研究中心（BNRist）、北京未来芯片创新中心。“墙”&“桌面”“地板”码本设计MiouDM1157.1%3158.5%4155.3%3（塞尔维亚共和国）8（塞尔维亚共和国）百分之五十四点二1444引用[1] 杨·贝利，马丁·加巴德，安德烈斯·米利奥托，扬·昆泽尔，斯文 · 本克， C. Stachniss 和 Juergen Gall 。 Se-mantickitti：激光雷达序列语义场景理解数据集。2019IEEE/CVF计算机视觉国际会议（ICCV），第9296-9306页[2] Xiangning Chen，Cho-Jui Hsieh，and Boqing Gong.当视觉转换器在没有预训练或强大的数据增强的情况下优于resnet时。ArXiv，abs/2106.01548，2021。[3] Christopher Bongsoo Choy 、 JunYoung Gwak 和 SilvioSavarese。4D时空卷积：Minkowski卷积神经网络。2019 IEEE/CVF 计算机视觉和模式识别会议（CVPR），第3070-3079页[4] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi 。自我注意与卷积层的关系。 ArXiv ，abs/1911.03584，2020。[5] 戴安琪，天使 X. 放大图片创作者： ThomasA.Funkhouser和Matthias Nießner。Scannet：室内场景的丰富注释3D重建。2017年IEEE计算机视觉和模式识别会议，第2432-2443页[6] 这是阿斯科利的妻子雨果· 图夫龙，马特和 L 。阿里·S.Morcos，Giulio Biroli，and Levent Sagun.Convit：用软卷积感应偏置改进视觉变换器。在ICML，2021。[7] Nelis J. de Vos kmodes 分类聚类库。 https ：//GitHub.com/nicodv/kmodes，2015- 2021年。[8] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器ArXiv，abs/2010.11929，2021。[9] Zhengyang Geng，Meng-Hao Guo，Hongxu Chen，XiaLi，Ke Wei，and Zhouchen Lin.注意力比矩阵分解更好吗？ArXiv，abs/2109.04553，2021。[10] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。 2018IEEE/CVF计算机视觉和模式识别会议，第9224- 9232页[11] 黄哲学。扩展的k-means算法用于聚类具有分类值的大型数据集。数据挖掘与知识发现，2（3）：283[12] Marc Khoury，Qian-Yi Zhou，以及Vladlen Koltun。学习紧凑的几何特征。在IEEE计算机视觉国际会议（ICCV）的会议记录中，2017年10月。[13] Shanda Li，Xiangning Chen，Di He，and Cho-Jui Hsieh.视觉转换器可以执行卷积吗？ArXiv，abs/2111.01353，2021。[14] Xiang Li，Lingjing Wang，Mingyang Wang，CongcongWen，and Yi Fang.Dance-net：密度感知卷积网络-使用上下文编码进行机载激光雷达点云分类。ISPRS Journalof Photogrammetry and Remote Sensing，166：128[15] Ze Liu，Yutong Lin，Yue Cao，Han Hu，Yixuan Wei，Zheng Zhang ， Stephen Ching-Feng Lin ， and BainingGuo. Swin Transformer ：使用移位窗口的分层视觉Transformer。ArXiv，abs/2103.14030，2021。[16] Jiugeng Mao，Xiaogang Wang，and Hongsheng Li.用于三维点云理解的插值卷积网络。在IEEE/CVF国际计算机视觉会议（ICCV）的会议记录中，2019年10月。[17] Jageng Mao，Yujing Xue，Minzhe Niu，Haoyue Bai，Jiashi Feng，Xiao Dan Liang，Hang Xu，and ChunjingXu. 体素 Transformer 的三维物体检测。 ArXiv ，abs/2109.02497，2021。[18] Alexey Nekrasov，Jonas Schult，Or Litany，B. Leibe，and Francis Engelmann. Mix3d：3D场景的上下文外数据增强。ArXiv，abs/2110.02210，2021。[19] 潘旭然、夏卓凡、宋世济、李尔然、郜荒。用pointformer进行三维物体检测。在CVPR，2021年。[20] C. 齐湖，加 - 地 Yi ， Hao Su ， and Leonidas J. GuibasPointnet++：度量空间中点集的深度层次特征学习。在NIPS，2017年。[21] Haotian Tang，Zhijian Liu，Shengyu Zhao，Yujun Lin，Ji Lin，Hanrui Wang，and Song Han.用稀疏点体素卷积搜索有效的3d在ECCV，2020年。[22] Hugues Thomas ， C. Qi ， Jean-Emmanuel Deschaud ，Beatriz Marcot e gui， Fran coisGoulette ， andLeonidasJ.Guibas Kp-conv：点云的灵活和可变形卷积。2019年IEEE/CVF计算机视觉国际会议（ICCV），第6410-6419页[23] Hugo Touvron 、 Matthieu Cord 、 Matthijs Douze 、FranciscoMassa 、 AlexandreSablayrolles 和 Herv'eJ'egou。训练数据高效的图像转换器通过注意力蒸馏。在ICML，2021。[24] 作者：Noam M.放大图片作者：Shazeer，Niki Parmar，Jakob Uszkoreit，Llion Jones，Aidan N.戈麦斯，卢卡斯凯泽，伊利亚·波罗苏欣。注意力是你所需要的。ArXiv，abs/1706.03762，2017。[25] Sanghyun Woo，Jongchan Park，Joon-Young Lee，andIn-So Kweon.Cbam ：卷积块注意模块。在 ECCV ，2018。[26] 吴海平，肖斌，Noel C. F. Codella，Mengchen Liu，Xiyang Dai，Lu Yuan，and Lei Zhang. Cvt：引入卷积到视觉转换器。ArXiv，abs/2103.15808，2021。[27] Tete Xiao ， Mannat Singh ， Eric Mintun ， TrevorDarrell，Pi-otrDol la'r，andRossB. 娘娘腔。早期的connv解决方案帮助 transformers 看得更清楚。 ArXiv ，abs/2106.14881，2021。[28] Xumin Yu，Yongming Rao，Ziyi Wang，Zuyan Liu，Jiwen Lu，and Jie Zhou.Pointr：使用几何感知变换器完1445成各种点云。ArXiv，abs/2108.08839，2021。1446[29] Hengshuang Zhao，Jiaya Jia，and Vladlen Koltun.探索图像识别的自我注意。2020 IEEE/CVF计算机视觉和模式识别会议（CVPR），第10073-10082页[30] 赵恒双，李江，贾佳雅，菲利普H. S. Torr和VladlenKoltun 。点 Transformer 。 ArXiv ， abs/2012.09164 ，2020。[31] Yucheng Zhao ， Guangting Wang ， Chuanxin Tang ，Chong Luo，Wenjun Zeng，and Zhengjun Zha.网络结构之战：cnn、Transformer与mlp之实证研究。ArXiv，abs/2108.13002，2021。[32] 周大全，康秉义，金晓杰，杨林杰，连晓晨，侯启斌，冯佳诗. Deepvit：走向更深的视野Transformer。ArXiv，abs/2103.11886，2021。[3

下载后可阅读完整内容，剩余1页未读，立即下载