少镜头三维点云分类的特征融合网络

7 浏览量更新于2023-10-16 收藏 920KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

653用于少镜头三维点云分类的跨模态特征融合网络Minmin Yang*，Jiajing ChenJiang，Senem Velipasaki电子工程与计算机科学系，美国纽约州锡拉丘兹市锡拉丘兹大学{myang47，jchen152，svelipas}@ syr.edu摘要近年来，在少镜头图像分类领域取得了显著的进展，而少镜头三维点云分类仍然是未开发的。真实世界的三维点云数据经常受到遮挡、噪声和变形的影响，这使得少镜头三维点云分类更具挑战性。在本文中，我们提出了一种跨模态特征融合网络，用于少量3D点云分类，其目的是识别对象，仅给出少量标记样本，即使点云数据缺失点也能提供更好的性能更具体地说，我们并行训练两个模型。一个是以ResNet- 18为主干的基于投影的模型，另一个是以DGCNN为主干的基于点的模型。此外，我们还设计了一个支持-查询相互注意（sqMA）模块，以充分利用支持和查询之间的相关性。在 Model-Net 40 、 ModelNet 40-C 和ScanObjectNN三个数据集上的实验表明了该方法的有效性和对缺失点的鲁棒性我们提出的方法在所有数据集上都优于不同的最ScanObjectNN数据集的改进幅度甚至更大，该数据集是从真实世界场景中收集的，并且对于具有缺失点的对象更具挑战性1. 介绍点云分类是3D计算机视觉中的一项基本任务，在自动驾驶汽车、机器人等不同应用中发挥着至关重要的作用。随着基于深度学习的方法在2D计算机视觉任务中的成功，基于深度学习的点云分析受到了更多的关注[28，29，39]。然而，监督式深度学习方法依赖于大量注释良好的训练数据。即使大量的3D点*两位作者贡献相同。这项工作得到了美国国家科学基金会1816732号拨款的部分支持。图1.示例点云和三个相应的深度图像，通过从来自不同数据集的对象的多个正交视图[12]投影点云获得：（a）来自ModelNet 40数据集的瓶子（从CAD模型采样，无遮挡）;（b）来自ModelNet 40- C数据集的缺失点的瓶子;（c）来自ScanObjectNN数据集的袋子;（d）来自ScanObjectNN数据集的框。如（b）所示，一个或多个深度图像可以很好地补偿缺失点问题。另一方面，如（c）和（d）中所见，点云可以用比深度图像更多的细节来描述物体部分，例如由于投影到深度图像，可能不强调包带。云数据可以通过扫描设备（诸如Li-dar或深度相机）来收集，数据注释是劳动密集型的并且耗时的。为了解决这个问题，少拍学习（FSL）训练具有强大泛化能力的网络，以便它可以对训练过程中看不到的对象进行预测，只需少量标记样本。与2D图像不同，3D点云是非线性的，654结构化。因此，传统的卷积神经网络（CNN）不能很容易地应用于3D点云数据。此外，正如Ye et al.[42]，现有的3D点云数据集[41，38，35]与2D图像数据集[7，23]相比包含更少量的数据，影响了监督模型的学习能力。另一方面，通过扫描真实世界对象获得的3D点云常常受到遮挡的影响，并且具有缺失点。因此，该网络应该对这些问题具有鲁棒性。图图1示出了针对来自三个不同数据集的对象从不同视图获得的示例点云和三个对应的深度图像如示于图如图1（b）所示，尽管瓶子的点部分缺失，但瓶子的形状和结构仍然可以通过侧视深度图像之一很好地描述另一方面，深度图像并不总是像图1所示的点云那样详细地描绘对象的形状1(c)图1（d）。在这种情况下，点云可以弥补它，并提供更多的形状信息和细节。考虑到3D数据的两种模态（点云和深度图像）的互补特性，我们提出了一种跨模态特征融合网络，该网络将这两种输入模式相结合，并使用两种不同的主干对其进行处理，以分别从深度图像和点云数据中提取特征图Fr和FD。深度图像由ResNet-18 [14]处理，原始点云数据由DGCNN [39]处理实验结果表明，与只使用Fr或Fd相比，融合Fr和Fd可以获得更好的小样本分类精度。原因在于，虽然基于点的方法可以输出准确描述对象的形状和空间属性的特征图，但当存在缺失点时，这些特征会受到负面影响。由于并非所有深度图像都受到很大影响，因此合并来自它们的信息提供了针对缺失点的鲁棒性。此外，为了保留更多信息以供进一步学习，我们在DGCNN和ResNet中替换了最大/平均池化操作，因为根据[4]，在最大池化操作期间丢弃了大量相反，我们遵循水平金字塔映射[3]的思想，并将其用于为我们的模型设计金字塔池操作，其中特征映射被沿着最后一个特征维度分成不同尺度的条带然后，对每个条带进行全局平均池化操作和全局最大池化操作，以收集全局和局部信息。此外，我们提出了一个注意模块，称为支持查询相互注意（sqMA），以更新的支持和查询功能。与[42]中提出的跨实例融合（CIF）不同，我们的sqMA模块将支持特征作为输入，而不是原型特征，因此它可以考虑所有支持特征来更新查询特征。我们的sqMA和CIF之间的另一个区别是，sqMA模块采用所有的支持（查询）特征自适应地更新查询（支持）特征，而CIF使用K1最相似查询特征和K2最相似原型特征的固定值这项工作的主要贡献包括：1. 我们分析了点云数据和深度图像的各自缺点，并提出了一种网络，称为跨模态特征融合网络，以处理和融合投影深度图像和原始点云数据的特征。2. 我们提出了一种新的支持查询相互注意（Support-Query Mutual Attention，sqMA）模块，该模块可以根据查询和支持特征之间的相关性来相互更新查询和支持特征。3. 为了取代传统的平均/最大池，我们设计了一个金字塔池操作，它可以在全局和局部保留更多的特征。4. 我们提出的方法在ModelNet 40-C，ModelNet 40和ScanObjectNN数据集上的性能优于几个基线，特别是在包含从真实世界场景收集的数据的ScanOb-jectNN数据集上，受缺失点的影响。补充材料中提供了代码链接。2. 相关工作2.1. 三维点云分类深度学习在2D图像处理中的成功推动了基于深度学习的3D点云分类方法的发展[2，39，24，29，12]。基于3D数据的表示，作为结构化网格或原始点，现有的作品可以大致分为两类：基于点的和基于投影的。基于点的方法[6，24]直接处理点云。PointNet [28]通过多层感知器堆栈提取逐点特征但是，PointNet不会显式地对局部结构进行编码。Point- Net++ [29]在点集的分区上递归地应用PointNet，并通过考虑度量空间距离来学习局部特征因此，PointNet++捕获更细粒度的细节，比PointNet更健壮. Wang等人[39]提出EdgeConv，它捕获点之间的局部基于投影的方法将3D点渲染为其他结构化表示，例如，多视图投影[13，34]或体素[30]。基于多视图的方法是由于CNN在图像处理中的成功而出现的。MVCNN [34]从12个不同的视图渲染2D图像。图像被独立地发送到CNN以获得几个独立的描述符，这些描述符由视图池化层聚合，然后发送到另一个CNN进行分类。多个视图对分类的贡献并不相等，因此它们应该具有不同的权重。利用655P {···}Feng等人[10]提出了一种组视图CNN，它包含一个非结构化的视图组形状架构。为了获得良好的性能，一些作品[40，18]需要大量的视图。相反，SimpleView[12]不依赖于任何模块进行视图池或特征选择，也不依赖于预先训练的网络。SimpleView渲染深度图像投影点到六个正交平面。这些深度图像被输入ResNet-18以提取特征，然后融合进行分类。2.2. 少量元学习少量学习可以快速适应新的任务，只要给出几个标记的例子。元学习的目的是由一个具有良好泛化能力的元学习者从多个相似的任务中学习元知识。因此，Meta学习已被广泛用于解决少数分类问题[36，16，5，27]。基于元学习框架，少量学习可以大致分为三类：基于优化、基于模型和基于度量的方法。基于优化的方法基于优化的方法背后的主要思想是基于元学习框架在支持集上区分MAML [11]的目标是找到一个好的参数初始化，以便模型可以通过采取几个梯度步骤来很好地执行新任务已经提出了MAML的许多变体。Jamal等人[16]介绍了一种任务不可知的元学习方法，可以防止元学习者在某些任务上过度执行。Fallah等人[8]提出了HF-MAML，它在没有Hessian向量积计算的情况下重新解决了MAML的复杂性界限。MetaOptNet [19]包含一个可微二次规划求解器，可以为嵌入模型配备各种线性分类器。基于模型的方法。与基于优化的方法以快速优化为目标不同，基于模型的方法对模型结构进行裁剪以实现快速学习。修改模型架构的一种常见方法是使用外部存储器。存储器充当网络可以用来存储新数据和检索旧数据的缓冲区。Santoro等人[31]设计了一个记忆增强的神经网络来快速吸收新数据。MM-Net [1]将支持特征写入内存，并在推理阶段从存储器中读取。此外，提出了一种上下文学习器来预测用于提取查询特征的CNN参数。公制方法。这些方法旨在学习一个具有度量的特征表示。原型网络[32]通过取支持集的平均值来计算每个类别的原型，并通过计算原型和查询特征之间的平方欧几里德距离来[37]第37话学习图2.深度图像是通过将点云投影到六个正交平面上来生成的，如SimpleView [12]中所述。能够度量模块以确定查询示例和支持示例是否在这项工作中，我们提出了一个基于度量的少镜头网络与sqMA和金字塔池模块学习代表性的嵌入，并使用最近邻分类器来识别查询示例。2.3. 深度多模态学习多模态学习将来自不同模态的信息联系起来，以提高网络的性能。多模态数据比单模态数据信息量更大，因为它可以用各种模态表示同一对象，这些模态通常是互补的。许多三维目标检测工作利用了多模态网络的互补性，并取得了良好的性能。Liang等人[22]采用连续卷积来融合多尺度图像和LiDAR的特征然而，图像和LiDAR之间的2D-3D约束被忽略。Zhu等人。[43]提出了一种多模态融合网络，将图像和点云作为输入。该模型包括第一阶段的逐点特征融合和第二阶段的RoI级深度特征他们还设计了一个2D-3D耦合损耗，以限制3D检测与2D检测。在零射击学习中，已经提出了不同的方法[20，17，9]来对齐来自各种数据形式的表示，通常是语言和视觉。考虑到 3D 对象形状在分类中起主导作用，Stojanov等人。[33]通过使用点云来学习有区别的嵌入空间来合并形状偏差。然后使用学习的嵌入空间将图像映射到其中。与[33]不同的是，我们的工作并不试图最小化图像与相应点云嵌入之间的距离，而是简单地连接嵌入以进行进一步学习。3. 该方法3.1. 问题定义设=p1， p2， p3，pn是3D点的集合，其中 pi=（xi，yi，zi）。在SimpleView [12]之后，我们656我我NPP我我i=1i=1××PP∈L我我我 i=1我我我i=1不我我我我我P P YYT{ SQ}T{ SQ}图3.提出了一种用于少镜头三维点云分类的模型架构。令S和Q分别表示点云支持集和查询集，并且令S和Q分别表示对应的深度图像支持集和深度图像查询集。‘从ResNet-18网络和DGCNN网络中提取的特征分别由Fr和Fd表示*表明我们只采用了这些网络工作的一部分在金字塔池化操作之后，两组要素F′和F′被连接起来研发并发送给sqMA模块，通过相互指导更新支持特征和查询特征我们设置欧氏距离度量作为分类器。最后，计算原型特征和查询特征之间的三元组损失，并用于通过反向传播更新模型。为了更好的可视化，我们只提供2路1镜头1查询设置。通过将点投影到六个正交平面上，从点云数据生成深度图像，如图所示。二、对于p i，其坐标相对于相机位置，通过将点p i投影到深度z i处的2D坐标来获得深度图像中的对应像素pi′，即 pi′=（xi=xi/zi ，yi=yi/zi）. 然后，将2D坐标离散化，pi=（xi，yi）。每个深度图像Vi∈ RH×W，并且六个深度图像的集合被表示为I ={V1，V2，···，V6}∈ R6×H×W。在我们的N路K-镜头M-查询FSL设置中，支持集S={（PS，IS，YS）}N×K包括N个类，3.2. 网络架构如第1，点云数据可以具有3D对象的形状的更详细的描述因此，这两种数据模态可以相互补充，它们的组合可以为识别提供更多的信息。为此，我们提出了一种跨模态特征融合网络，以充分利用原始点云和投影深度图像数据，并介绍了一种简单的方法来融合这两种模态的特征Ye et al.[第四十二届]研究了骨架对FSL的影响，并表明每个类的K个标记示例。一个查询集Q =DGCNN作为点云提供最佳性能{PQ，IQ，YQ）}N×M包含相同的N个类别支持集，每个类别有M个测试示例PS（PQ）表示点云数据，IS（IQ）是从点云数据投影的深度图像的集合。S（Q）和S（Q）是标签。我们采用了一种元学习策略，其中包括一组元训练任务，定义为r=（i，i）T和一组元测试任务，t=（i，i）V。因此，在每个元训练/元测试任务中给出（J = NK + NM）个总示例。与标准FSL一致，Tr中包含的类称为基类，Cbase，T t中的类称为novel类，Cnovel，Cnovel= Cbase=C。元学习算法的目标-因此，我们采用DGCNN作为骨干来处理原始点云数据。在使用SimpleView从点云数据生成3.1，我们采用ResNet-18作为2D图像处理的骨干。此外，我们在原始ResNet-18和DGCNN的末尾替换了传统的平均/最大池化，并设计了金字塔池化操作，可以在全局和局部保留更多的特征。我们的方法的整体架构如图所示。3.在网络的上分支中，处理支持集S和查询集Q中的rithms是学习一个好的嵌入模型。从形式上讲，ResNet-18。在底部分支中，点云数据Er= argminErϕ[L（Q;Q）]，（1）在支持集S和查询集Q中，DGCNN 在此之后，获得深度图像特征Fr和点云特征Fd，其中Fr ∈ RJ×C×H×W其中，是损失函数，而λ是嵌入式网络F dRJ×D×Pt. J表示上-下式的总数量。每个事件中的端口和查询样本数，C是与其他方法相比[28，29，21，26，25]。657˜i=1B我b我b，jNMq我NQj=1exp（−dist（F<$i，F<$j））pb我早午晚餐通道，并且H和W分别是特征图Fr的高度和宽度。对于Fd的形状，D表示每个点的特征尺寸，Pt是每个样本中的点的数量。在获得深度图像和点云特征后，我们采用金字塔池操作来收集全局和局部特征，同时丢弃冗余特征。金字塔池的细节在第二节中解释。三点三在金字塔池化之后，支持样本在sqMA mod中因此，通过计算支持度和查询度之间的相关性，可以减少来自同一类的支持度和查询度之间的差异。然后，我们遵循原型网络[32]的思想来确定查询样本的类别我们首先计算每个类的原型功能，通过采取每个类的更新支持功能的平均值，并将它们记为Fp。然后，基于softmax输出计算查询示例和原型之间的距离上qp图4。金字塔池的结构GMP和GAP表示p（Y=c|Fq）=exp（−dist（Fi，Fc））、（二）全局最大池化和全局平均池化。FC是一个完全连接的层。特征图F在最后一个维度上被分成B是总数其中dist（·，·）是欧几里得距离，c代表条，即B = rBi. 然后，全局最大池化和全局C类最后，采用Batch All（BA+）三重态损失[15]计算损失。3.3. 金字塔池化金字塔池化操作的结构受水平金字塔映射（HPM）[3]的启发，如图所示。4.金字塔池化将点或图像特征作为输入，其中J是样本的数量，D1是特征维度，D2是每个点云中的点的数量或深度图像的空间大小，这取决于输入模态。接下来，输入特征图F被划分为B1个仓，每个仓包含D2个点或像素。然后，沿着空间或点数维度执行全局最大池化和平均池化以获得bin的特征矩阵。随着Bi 的值变化，每个箱的特征的感受野因此，通过最终连接所有箱的特征，可以覆盖来自不同感受野的特征。对每个条带应用平均池化以提取全局特征和地方特色。这些特征被连接、整形并发送到FC层以得到最终的特征图F′∈RB×J×R。3.4. 支持-查询相互关注模块尽管点云数据可以提供比2D图像更详细的对象形状信息，但属于同一类的实例仍然可能存在很大的差异，特别是当数据被部分遮挡或被杂乱的背景损坏换句话说，支持集中的每个样本因此，我们设计了支持-查询互注意模块，利用支持特征与查询特征之间的相关性自适应地更新查询特征。结构和支持功能，如图所示。5.为了用查询特征更新支持特征Fs∈R2B×（NK）×R，Fq∈R2B×（NM）×R，首先计算余弦相似度，CS（Fs，Fq）为：如图3、金字塔池化被应用于深度图像特征Fr和点云特征Fd两者。对于Fr，我们重塑空间维度并将其分割成条状。在b，i b，jCS（Fs，FqFsFqT）=b，ib，j，（3）b，i b，jFs换句话说，金字塔池化操作在空间特征上起作用，并且突出特征将被保留。对于Fd，其中，Fs∈R1×R和Fqb，i b，j∈R1×R.将金字塔池化应用于点特征维度，从而保留重要点。最后，我们应用一个全连接层将特征投影到相同的高度，然后，对每个支持特征执行softmax操作以归一化其成对相关性：exp（CS（Fs，Fq））维度空间，以便它们可以连接起来用于以后的操作。s2qb，i，j=b，ib，j.（四）exp（CS（Fs，F））W我l=1658Q猫SQ猫SJ LN∈b，i，js猫q˜s猫q˜′Q猫Stures，F q2s. F q2s与F q和一个完全一致的应用连接层和ReLU以获得F′。更新后的查询特征Fq通过以下方式计算：F到Fq。弗拉克 =Fq +F′。（八）图5. sqMA架构。在WS2q的基础上，将WS2qR2B×（NK）×（NM）与查询特征进行矩阵相乘，得到支持度加权查询特征，记为Fs2q，即Fs2q=WS2qFq. 第i个支持示例与第j个查询示例之间的相似度越高，W s2q的值就越高。因此，在Fs2q中，与支持特征更相似的查询特征将被突出显示。然后，我们将F s2q与支持特征连接起来，以丰富具有相似查询特征的支持特征，并应用全连接层和ReLU层来融合这些特征，使sqMA模块能够针对不同的支持-查询相关性学习自适应特征。Fscatq=Concat（[Fs，Fs2q]），（5）如示于图5.两个全连接层共享权重，以更好地表达查询特征和支持特征之间的相关性。4. 实验CIA [42]以DGCNN为骨干，已被证明在少镜头点云分类任务上实现SOTA性能。因此，我们使用中情局作为一个用于比较的基线。此外，我们还通过使用DGCNN作为其骨干，与其他三个2D图像少镜头头，即MetaOptNet [19]，ProtoNet [37]和ProtoNet [32]进行了比较。 DGCNN被选为骨干，因为[42]中的实验表明，DGCNN作为点云处理骨干，与其他方法相比提供了更好的性能为了进行公平的比较，我们还使用DGCNN作为主干，仅使用点云数据作为输入，以显示我们的少量学习机制的有效性我们在三个点云数据集上进行了实验，即Model-Net 40 [41]，ModelNet 40-C[35]和ScanObjectNN [38]，采用n重交叉验证。′s猫q=ReLU（FC（F scatq））。（六）4.1. 骨干架构最后，我们将Fs加到F′上，得到更新的支集特性F s，并通过跳过sqMA中的一些操作来简化学习过程。与[12]类似，我们使用ResNet-18从6×128×128深度图像中提取特征。该网络从卷积层开始，具有3×3内核，然后是批处理或非-F~s =Fs +F′。（七）malization和ReLU操作。然后，有3个残差个街区. 3个残差块后得到的特征图然后，我们取更新后的支持度特征的平均值，得到每个类的原型表示，用Fp表示。与CIF [42]不同，我们的sqMA模块被应用于支持特征，并且我们基于更新的支持特征计算原型特征，原因有两个。首先，考虑到只提供了几个示例，来自同一类的原型特征和查询特征之间的差异可能很大。对查询特征具有较大变化的原型其次，平均操作往往会造成信息的丢失，我们希望保留更多的信息，以便查询集学习相关性。相同的过程可以应用于通过支持特征来增强查询特征我们可以计算Wq2s和乘以Wq2s与Fs，以获得查询加权支持fea。用于进一步学习。DGCNN由四个EdgeConv块组成。每个EdgeConv块中的特征映射被连接并发送到一个完全连接的层以聚合特征。然后，特征图经过金字塔池化。特征图Fr具有以下形状：J×128×32×32，Fd的形状为J×1024×1024。4.2. 数据集和设置ModelNet40包含来自40个类的12，308个CAD模型这些CAD模型是完整和干净的。每个点云样本包含1024个点，从CAD模型中均匀采样并归一化为单位球体。对于少数镜头分类，我们进行4重交叉验证以更好地评估。更具体地说，我们根据类ID将数据集分为4组，每组包含10个类别。F659×表1.ModelNet40数据集上的少量分类结果粗体和下划线分别表示最佳和次佳结果5路1拍五向五射折叠0折叠1Fold 2折片3平均折叠0折叠1Fold 2折片3平均MetaOptNet78.28±0.7975.34±0.8458.07±0.8666.29±0.9169.50±0.8591.09±0.4084.19±0.5775.10±0.7381.34±0.5382.93±0.56关系网79.59±0.7474.63±0.8459.03±0.8168.38±0.8670.41±0.8187.12±0.4683.55±0.5470.18±0.7879.01±0.5879.97±0.59ProtoNet81.29±0.7175.83±0.7961.76±0.8469.83±0.8472.18±0.8090.97±0.3986.21±0.5076.99±0.6583.19±0.5184.34±0.51中情局85.70±0.7579.67±0.9065.68±1.0074.32±0.9476.34±0.8992.07±0.3686.81±0.5676.11±0.7183.71±0.5184.68±0.54我们的 *85.31±0.6780.01±0.8068.79±0.8673.70±0.8576.95±0.8092.72±0.3688.11±0.4980.90±0.6484.40±0.4986.53±0.50我们88.50±0.5980.95±0.7469.81±0.8674.64±0.8278.48±0.7595.11±0.2989.32±0.4681.63±0.6385.58±0.4887.91±0.47表2.ModelNet 40-C数据集上的少量分类结果粗体和下划线分别表示最佳和次佳结果。5路1拍五向五射折叠0折叠1Fold 2平均折叠0折叠1Fold 2平均MetaOptNet41.92±0.7261.12±0.6653.87±0.7852.30±0.7263.86±0.5667.73±0.4570.19±0.4967.26±0.50关系网50.29±0.7654.23±0.6351.45±0.6451.99±0.6858.65±0.5366.72±0.5065.94±0.5263.77±0.52ProtoNet50.81±0.7360.46±0.6758.72±0.7856.66±0.7368.42±0.5470.20±0.5268.76±0.4969.13±0.52中情局50.58±0.8262.17±0.6862.59±0.7458.45±0.7562.94±0.5171.31±0.4570.21±0.4868.15±0.48我们的 *58.76±0.7664.69±0.6467.47±0.7363.64±0.7172.09±0.5074.60±0.4378.92±0.4275.20±0.45我们61.09±0.7266.29±0.6568.39±0.6865.26±0.6874.90±0.4876.51±0.4083.02±0.4178.14±0.43表3.ScanObjectNN数据集上的少量分类结果粗体和下划线分别表示最佳和次佳结果。ModelNet 40-C [35]与 ModelNet 40 有相同数量的类，但数据被精心破坏，有15个真实的破坏来模拟真实世界的场景。使用与ModelNet40相同的4重交叉验证设置ScanObjectNN [38]与上述两个数据集不同，它是一个真实世界的点云数据集，包括室内场景的扫描。它有15个类和2，902个例子。使用该数据集，进行3折交叉验证，每折5个类。我们相信，在ScanOb- jectNN和ModelNet 40-C数据集上进行的实验更好地证明了我们的方法在现实世界应用中的潜力，因为它们包含受缺失点影响的数据。4.3. 实现细节所有实验都使用 Adam 优化器，初始学习率为810−4，Gamma为0.5。学习速率每5个epoch衰减一次。在[42]之后，模型进行了100个epoch的元训练，每个epoch包含400个episodes。在元训练期间，我们应用随机旋转和抖动来增强数据。在元训练之后，进行700集的元测试。与元训练阶段类似，元测试阶段也使用DGCNN和ResNet-18作为特征提取器。报告的准确性是95%置信区间的元测试事件的平均值。在元训练阶段，我们使用BA+三重丢失并将裕度设置为0.2。在我们的实现中，对于金字塔池化操作，条带的总数B是63。我们将特征图分割6次，分别具有1、2、4、8、16和32个条带。特征图F′和F′具有形状为63 × J × 256。4.4. 结果讨论我们进行5路1-shot 10-query和5路5- shot 10-query分类。ModelNet 40、ModelNet 40-C和ScanObjectNN数据集的结果分别显示在表1、2和3中，其中可以看出，我们的完整方法在所有三个数据集上的平均准确度以及所有单个折叠上都优于所有基线。在更具挑战性的ScanObjectNN数据集上，与第二好的表现者相比，5路5次分类的改进幅度尤其至于基线，CNET [37]包含一个关系模块，直接总结同一类的所有支持特征，其性能可能会受到支持示例的高类内差异的影响。ProtoNet [32]采用了每个类的支持特性的平均值，并且比ProtoNet表现得更好。ProtoNet在ModelNet 40和ModelNet 40-C数据集上与CIA相当，甚至在ScanObjectNN数据集上超过CIA。但是，在单次发射的情况下，CIA的平均精度要高于ProtoNet.这可以归因于跨实例自适应模块，该模块设计用于解决细微的类间差异和高类内方差的问题从表1、表2和表3中可以看出，将“我们的”结果与其他基线进行比较（仅使用点云数据）仍然优于所有基线rD5路1拍五向五射折叠0折叠1Fold 2折片3平均折叠0折叠1Fold 2折片3平均MetaOptNet82.87±0.7275.77±0.8365.31±0.9266.97±0.9372.73±0.8592.37±0.3886.44±0.6282.10±0.5883.15±0.5586.02±0.53关系网82.14±0.6977.46±0.8066.09±0.9169.47±0.8475.23±0.8191.53±0.3885.11±0.6179.36±0.6383.01±0.5284.75±0.53ProtoNet85.42±0.6479.46±0.7670.06±0.3970.73±0.4276.42±0.5593.99±0.2988.65±0.5484.76±0.5185.56±0.4888.24±0.45中情局89.97±0.6383.46±0.8374.08±0.9576.13±0.8680.91±0.8294.61±0.3089.15±0.5085.00±0.5186.71±0.5088.87±0.47我们的 *90.36±0.5483.89±0.7575.31±0.8279.27±0.7782.21±0.7295.71±0.2690.64±0.5287.17±0.4990.51±0.4191.01±0.42我们92.94±0.4785.52±0.7377.76±0.8281.80±0.7184.50±0.6896.82±0.2291.76±0.5387.78±0.4891.03±0.4091.85±0.41660所有数据集的平均准确度。例如，CIA在1次拍摄和5次拍摄设置中分别提供了58.45%和68.15%的平均准确度，而我们的相机在1次拍摄和5次拍摄设置中分别实现了63.64%和75.20%的准确度。这表明，我们的方法仍然可以通过仅利用DGCNN的点特征来提供良好的性能金字塔池模块的目的是保留更多有用的信息，而sqMA模块的目的是利用实例之间的相似性。通过引入两种数据模态，我们的方法（表示为Ours）提供了更高的精度，这表明了融合两种数据模态的有效性。4.5. 消融研究我们从三个方面进行消融研究，以验证我们方法的有效性：（1）比较了同时使用深度图像数据和点云数据的方法与仅使用深度图像或仅使用点云的方法;（2）通过测试有无sqMA的模型以及在不同的基线模型中引入sqMA来分析我们的sqMA模块的有效性;（3）比较了使用金字塔池和使用全局最大池的性能，表明全局最大池丢弃了大量有用的信息，而金字塔池操作可以通过全局和局部保留更多的特征来纠正这一点。消融研究是在ScanObjectNN数据集上进行的，基于5向1次激发设置和5向5次激发设置中的700个元测试事件。合并两种数据模式的效果。使用不同数据模态作为输入的结果显示在选项卡中。4.第一章在1次和5次拍摄设置中，同时使用深度图像和点数据可提供比使用单一数据模态更好的性能结果强烈支持我们最初的观察，即两种模态是互补的，它们的组合允许网络学习识别特征。此外，我们在图中可视化了来自不同模型的查询特征嵌入六、可以看出，我们的模型融合了两种数据形式（图1）。6（c））可以学习到更多的区别特征，类边界更精确紧凑。输入模态折叠0折叠1Fold 2平均5路1拍仅深度图像50.0665.4858.6358.06仅点云58.7664.6967.4763.64点云+深度图像61.0966.2968.3965.26五向五射仅深度图像65.0873.5768.5769.07仅点云72.0974.6078.9275.20点云+深度图像74.9076.5183.0278.14表4.具有不同输入模态的模型的准确性sqMA模块的效果。我们提出了sqMA模块来更新支持和查询嵌入，图6.当使用不同的数据模态作为输入时，查询特征分布的t-SNE可视化。考虑到它们之间的相互关系。选项卡. 5显示了我们的模型w/和w/o sqMA模块的准确性引入sqMA模块后，模型的精度得到了提高，单次调定精度提高了2.07%我们还在MetaOptNet [19]中使用了sqMA模块，并展示了supply中的改进。材料折叠0折叠1Fold 2平均5路1拍无sqMA58.1864.5366.8763.19带sqMA61.0966.2968.3965.26五向五射无sqMA72.8475.9381.2976.69带sqMA74.9076.5183.0278.14表5.使用和不使用sqMA模块的模型的准确性Pyramid Pooling的作用为了验证金字塔池的有效性，我们将其替换为最大池操作。选项卡. 6表明金字塔池化在1次激发设置中提供2.65%的准确度改进，在5次激发设置中提供3.3%的考虑到5-shot设置比1-shot设置更能提高精度，可以得出结论，最大池化操作导致有用信息的丢失，特别是当提供更多标记的示例时，金字塔池化可以缓解这个问题。折叠0折叠1Fold 2平均5路1拍最大池化56.8664.2466.7362.61金字塔池化61.0966.2968.3965.26五向五射最大池化72.0273.1879.3274.84金字塔池化74.9076.5183.0278.14表6.使用金字塔池操作和最大池操作的模型的准确性5. 结论我们提出了一个跨模态的少镜头特征学习网络来学习和融合来自深度图像和点云数据的特征，用于3D点云分类。这种办法利用了这些模式的互补方面。此外，为了解决支持集中样本的大类内变化的问题，我们提出了支持查询相互注意（sqMA）模块，通过计算它们之间的相似性来更新支持/查询特征我们已经进行了广泛的实验和消融研究，并表明我们的方法在三个不同的数据集上优于不同的基线，并且在更具挑战性的ScanOjbectNN数据集上的改进幅度甚至更高。我们还展示了所提出的sqMA模块的有效性。661引用[1] 齐彩，潘英伟，姚婷，严成刚，梅涛。用于单次图像识别的记忆匹配网络。在IEEE计算机视觉和模式识别会议论文集，第4080-4088页[2] 蔡薇薇，刘东，宁欣，王晨，谢国杰。基于体素的三维物体分类三视图混合并行网络。显示器，69：102076，2021。[3] Hanqing Chao，Yiwei He，Junping Zhang，and JianfengFeng.步态集：将步态视为用于跨视图步态识别的集合。在AAAI人工智能会议论文集，第33卷，第8126-8133页[4] Jiajing Chen ， Burak Kakillioglu ， Huantao Ren ， andSenem Velipasstrom.如果可以回收，为什么要丢弃？：用于三维点云分析的循环最大池化模块。在IEEE/CVF计算机视觉和模式识别会议的Proceedings中，第559-567页[5] Yinbo Chen ， Xiaolong Wang ， Zhuang Liu ， HuijuanXu，and Trevor Darrell.一个新的元基线为少镜头学习。2020.[6] 成斯林，陈西武，何新伟，刘哲，向白。Pra-net：用于3D点云分析的点关系感知网络IEEE Transactions onImage Processing，30：4436[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[8] Alireza Fallah，Aryan Mokhtari，and Asuman Ozdaglar.基于梯度的模型无关元学习算法的收敛理论。在人工智能和统计国际会议上，第1082-1092页。PMLR，2020年。[9] Rafael Felix，Ian Reid，Gustavo Pastiro，et al.多模态循环一致性广义零激发学习。在欧洲计算机视觉会议（ECCV）的会议记录中，第21-37页[10] Yifan Feng，Zizhao Zhang，Xibin Zhao，Rongrong Ji，and Yue Gao.Gvcnn：用于3D形状识别的组视图卷积神经在IEEE计算机视觉和模式识别会议论文集，第264-272页[11] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。国际机器学习会议，第1126-1135页。PMLR，2017年。[12] Ankit Goyal，Hei Law，Bowei Liu，Alejandro Newell，and Jia Deng.使用简单有效的基线重新审视点云形状分类。国际机器学习会议，第3809-3820页。PMLR，2021年。[13] 大卫·格里菲思和扬·博姆三维感知数据分类的深度学习技术研究进展遥感，11（12

下载后可阅读完整内容，剩余1页未读，立即下载