点云数据的自适应图卷积方法

175 浏览量更新于2023-10-13 收藏 2.22MB PDF 举报

卷积算法

点云分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4965231422331442 ��2Ƹ��Ƹ3314��Ƹ4点云分析的自适应图卷积方法周浩然1冯一丹2方明生1魏明强2 * 秦静3卢彤1 *1南京大学2南京航空航天3香港理工大学摘要由二维网格状区域推广而来的三维点云的卷积算法得到了广泛的研究，但还远远不够完善。标准卷积的特征对应的三维点之间不可区分的，提出了一个固有的限制差的区别性特征学习。在本文中，我们提出了自适应图卷积（AdaptConv），它根据点的动态学习功能生成自适应内核。与使用固定/各向同性核相比，AdaptConv提高了点云卷积的灵活性，有效且预（b）第（1）款（一）（c）第（1）款精确地捕获来自不同语义部分的点之间的不同关系。与流行的注意力权重方案不同，所提出的AdaptConv实现了卷积运算内部的广泛的定性和定量评估表明，我们的方法优于国家的最先进的点云分类和分割方法在几个基准数据集。我们的代码可在https://github.com/hrzhou2/AdaptConv-master上获得。1. 介绍点云是三维传感器的标准输出，Li-DAR扫描仪和RGB-D相机;它被认为是用于3D对象的最简单但最有效的形状表示。随着3D点云获取技术的快速发展，各种应用出现，包括机器人[31]、自动驾驶[20，43]和高级语义分析[35，15]。近年来，已经见证了将卷积神经网络（CNN）推广到用于3D理解的点云数据的然而，与被组织为规则的网格状结构的2D图像不同，3D点是非结构化的和无序的，离散地分布在采样对象的下表面上。※通讯作者（mqwei@nuaa.edu.cn/lutong@nju.edu.cn）图1.中的自适应内核和固定内核的图示卷积。(a)标准图卷积应用固定/各向同性核（黑色箭头）来不可区分地计算每个点的特征。(b)基于这些特征，分配几个注意权重ai以确定它们的重要性。（c）不同地，AdaptCo_n_v生成对于每个点的学习特征唯一的自适应内核e_i一种常见的方法是将点云转换为规则的体积表示，因此传统的卷积运算可以自然地应用于它们[24，30]。然而，这样的方案通常引入过量的存储器成本，并且难以捕获细粒度的几何细节。为了在不进行转换的情况下处理点云的不规则性，PointNet [27]在每个点上独立地应用多层感知器（MLP），这是直接处理稀疏3D点的开创性工作之一。最近，已经提出了几项研究，利用点云分析的图形结构。图CNN [44，21，41，4，7]根据点之间的空间/特征相似性将点云表示为图数据，并将图像上的2D卷积推广到3D数据。为了处理具有不同邻域大小的无序点集，标准图卷积利用每对点上的共享权重函数来提取对应的边缘特征。这导致4966固定/各向同性卷积核，其被等同地应用于所有点对，同时忽略它们的不同特征对应。直观地，对于来自点云的不同语义部分的点（参见图1B中的相邻点），1），卷积核应该能够区分它们并确定它们的不同贡献。为了解决这个缺点，受注意力机制[3，5]的启发，提出了几种方法[41，38如图在图1（b）中，分配对应于相邻点的适当的注意力权重ai，试图在执行卷积时识别它们的不同重要性。然而，原则上，这些方法仍然基于固定的内核卷积，因为注意力权重仅应用于类似地获得的特征（参见图2中的黑色箭头）。（b）款。考虑到当前图卷积的内在各向同性，这些尝试对于检测邻域中最相关的部分仍然是有限的。因此，我们建议自适应地建立一对点之间的关系，根据他们的学习功能。这种自适应性表示每对点唯一的核的多样性，而不是依赖于预定义的权重。为了实现这一点，在本文中，我们提出了一个新的图卷积运算，命名为自适应图卷积（AdaptConv）。AdaptConvgenerates为卷积中的点适配i个核，其替换上述各向同性核（参见图1）。（c）第1段。我们的工作的关键贡献是，提出的AdaptConv是采用内部的图形卷积，而不是一个权重函数的基础上产生的功能。此外，我们探讨了几种选择的特征卷积设计，提供更多的灵活性，自适应卷积的实施。大量的实验证明了所提出的AdaptConv的有效性，在几个基准数据集上的分类和分割任务2. 相关工作基于体素化和多视图方法。已经探索了体素化/投影策略作为点云分析中的一种简单方式，以构建适当的表示，用于在2D视觉中适应强大的CNN。许多工作[24，47，16，42]将点云投影到规则网格上，但不可避免地遭受信息丢失和巨大的计算成本。为了缓解这些问题，OctNet [30]和Kd-Net [14]尝试使用更有效的数据结构并跳过对空体素的计算。或者，基于多视图的方法[12，34]将点云视为从多个视图投影的一组2D图像，以便直接利用2D CNN进行后续处理。然而，考虑到从单点每点观点。基于点的方法。为了处理点云的不规则性，最先进的深度网络被设计为直接操纵原始点云数据，而不是引入中间表示。通过这种方式，PointNet[27]首先提出在每个点上独立地使用MLP由于这种设计，PointNet是不变性的输入点的顺序，但未能编码的局部几何信息，这是重要的语义分割任务。为了解决这个问题，PointNet++ [29]建议在分层架构中本地应用PointNet层来捕获区域信息。或者，Huang et al.[9]将无序的3D点排序到有序列表中，并使用递归神经网络（RNN）根据不同的维度提取最近，已经提出了各种方法用于有效的局部特征学习。PointCNN [19]通过预测局部点集的变换矩阵以一定顺序对齐点，这不可避免地导致点顺序的敏感性，因为操作不是置换不变的。SpiderCNN [48]将其卷积核定义为一系列多项式函数，依赖于近邻的阶数。PCNN [2]基于空间坐标设计点核，并且进一步KPConv[36]使用显式核点呈现可缩放卷积RS-CNN [22]根据从10-D向量学习的几何关系ShellNet [51]将局部点集分割成几个壳区域，从中提取和聚合特征。最近，[53，6]利用自然语言处理[37，45]中成功的Transformer结构在局部和全局特征之间构建密集的自我注意力。基于图的方法将点视为图的节点，并且根据它们的空间/特征关系来建立边。图是一种自然的表示点云模型的局部几何结构，但具有挑战性的处理，由于其不规则性。图卷积网络的概念是由[13]提出的，它通过平均相邻节点的特征来生成图上的卷积运算已经探索了类似的想法[32，44，8，19，17]以从局部点提取局部几何特征Shen等人。[32]根据相邻点的欧氏距离和几何亲和度DGCNN [44]在特征空间中收集最近的相邻点，然后使用EdgeConv算子进行特征提取，以便动态识别语义线索MoNet [25]将卷积定义为局部伪坐标系中的高斯混合模型。受注意力机制思想的启发，一些作品[38，41，39]提出为不同的点/过滤器分配适当的注意力权重。3D-GCN [21]开发了可变形内核，专注于移动和尺度不变特性49673,32,2Δ��Ƹ��ℎ��3ℎ��2,Concatℎ��4ℎ��1公安条例Δ��点积ℎ��4,41,1ℎ��5F { |}∈}{X{|V {}E V× VG V E·∈··−N {∈ E}- 你好l��′5,5m = 1，2，图2. 在目标点X1的邻域中处理的AdaptCo n v的图示。从边缘上的一对点的特征输入Δfij生成自适应核eijm，然后将其与相应的空间输入Δxij卷积。所有维度的连接hijm产生边缘特征hij。最后通过池化函数得到中心点的输出特征fi′AdaptConv与其他图卷积的不同之处在于卷积核对于每对点是唯一的。点云分析点云卷积。现有技术的研究已经提出了许多方法来定义点云上的适当卷积。为了在PointNet/PointNet++中使用固定MLP改进基本设计，各种工作[38，41，39，36，22]尝试基于学习的特征引入权重，具有更多卷积输入[44，25，48]。其他方法[33，46，10]尝试学习卷积的动态权重。然而，他们的想法是从直接的3D坐标近似权重函数，而AdaptConv使用特征来学习内核，这代表了更强的适应性。此外，他们的实施是严重的内存消耗卷积时，与高维特征。因此，本文的主要重点是处理点云卷积的各向同性，通过开发一个自适应内核，是唯一的卷积中的每个点。3. 方法我们在点云分析中利用局部几何特征第3.1节）。之后，我们讨论自适应卷积中的特征决策的几种选择（第二节）。3.2）。所构建网络的详细信息见第2节。三点三3.1. 自适应图卷积我们将输入点云表示为=x i i= 1，2，…NRN ×3，相应的特征定义为=f ii= 1 ， 2 ，... ，NRN×D。这里， X1处理第i个点的（x，y，z）坐标，并且在其他情况下，可以潜在地与附加属性（诸如法线和颜色）的向量组合。然后，我们从给定的点云计算有向图（，），其中= 1，…， N，并且表示边的集合。我们构造的图形，采用k-最近的邻居（KNN）的每个点，包括自循环。给定输入的D维特征，我们的AdaptConv层被设计为生成一组新的M维特征具有相同数量的点，同时试图比先前的图形卷积更准确地反映局部几何特征表示xi是图卷积中的中心点（i）=j：（i，j）是其邻域中的点索引的集合。由于点云的不规则性，以前的方法通常应用一个固定的核函数上的所有邻居的xi捕获的几何信息的补丁。然而，不同的邻居可以反映与xi的不同特征对应，特别是当xi位于显著区域（诸如角或边缘）时。在这方面，固定核可以使从图卷积生成的几何表示不能用于分类，特别是分割。相比之下，我们努力设计一个自适应内核，以捕捉每对点之间的独特关系为了实现这一点，对于输出M维特征中的每个通道，我们的AdaptConv使用点特征（fi，f j）上的函数动态地生成内核：ei jm=gm（∆fi j），j∈N（i）.（一）这里，m = 1，2，… M表示对应于在我们的Adapt-Conv中定义的单个滤波器的M个输出维度之一。为了结合全局形状结构和在局部邻域中捕获的特征差异[44]，我们定义Δfij=[fi，fj[i]作为自适应内核的输入特征，其中[i]是级联运算。g（）是一个特征映射函数，这里我们使用多层感知器。类似于2D卷积中的计算，其通过将D个输入通道与对应的滤波器权重进行卷积来获得M个输出维度中的一个，我们的自适应内核与对应的点（xi，xj）进行卷积：hijm=σeijm，∆xij，（2）其中∆xij定义为[xi，xj类似地，、表示两个输出hijm R的向量的内积，σ是一个非线性激活函数。如图2（中间部分），第m个自适应内核ei jm被组合4968∈→∈∈→图3.用于分类和分段任务的AdaptConv网络架构GraphConv层表示没有自适应内核的标准分割模型使用池化和插值来构建分层图结构，而分类模型应用动态结构[44]。具有对应点xjR3的空间关系Δxij，这意味着核的大小应该在点积中匹配，即，上述特征映射是gm：R2D R6。以这种方式，在输入空间中的空间位置可以有效地incor- porated到每一层，结合从我们的内核动态提取的特征对应性。堆叠每个通道的h_i_m产生边缘特征h_i_j=[h_i_j，h_i_j，…hijM]RM之间的连接点（xi，x j）。最后，我们通过在邻域中的所有边缘特征上应用聚合函数来定义中心点x i的输出特征（参见图1）。2（右侧部分））：设计一对点的自适应核以建立它们在每层中的当前特征（fi，fi）的关系。这是一种更直接的解决方案，类似于其他卷积运算符，它从网络前一层的特征中产生一组新的学习特征。但是，我们推荐xyz而不是这样的特性：（i）点特征fj已经被包括在自适应核中，并且再次与fj卷积导致特征信息的冗余;（ii）通过MLP更容易学习空间关系，而不是检测高维空间中的特征对应（例如，64、128尺寸特征）;(iii)最后一个原因是存储器成本fi′= maxj∈N（i） hij，（3）无法避免。我们在SEC中评估所有这些选择4.4其中， max 是信道最大池化函数。总的来说，AdaptConv 的卷积权重被定义为 Θ= （ g1， g2，… gM）。3.2. 特性决策在我们的方法中，AdaptConv根据它们的个体特征（fi，fj）为每对点生成自适应内核。然后，将k∈ijm应用于（x i，x j）的点对，以描述它们在输入空间中的空间关系。在Eq. 2是重要的设计。在其他情况下，输入可以是包括表示其他有价值的点属性（诸如点法线和颜色）的附加维度。通过修改自适应内核为gm：R2DR2E，我们的AdaptConv还可以捕获来自不同域的特征尺寸和空间坐标之间的关系。请注意，这是我们的AdaptConv设计中的另一个选项，并且我们在实验中的卷积中默认使用空间位置作为输入x i。作为可选选项，我们将∆xij替换为∆fij由方程式2，其中修改的维度为eijm。因此3.3. 网络架构我们设计了两个网络架构的点云分类和分割任务，使用建议的AdaptConv层。网络架构如图所示。3.第三章。在我们的实验中，AdaptConv核函数被实现为具有残余连接的两层MLP，以提取重要的几何信息。更多细节可在补充材料中获得。具有固定内核的标准图卷积层使用与自适应内核中相同的特征输入Δfij图池化。对于分割任务，我们逐步减少点的数量，以便在分层架构中构建网络。使用最远点采样算法[27]以4的采样率对点云进行子采样，并由池化层应用于在粗化图上输出聚合特征。在每个图池化层中，构造对应于采样点的新图在子云中的每个点处汇集的特征可以简单地通过其邻域内或者，我们可以使用AdaptConv层来聚合此池化特征。为了预测用于分割目的的逐点标签，我们需要图池图自适应池简体中文图池中文（简池插值重复共享-MLP（512，中文（简池MLP(512256）…分类分割C1024图形转换（256）图形转换（128）1024图转换器（512）自适应转换（128）自适应转换（64）自适应转换（64）n x pN，1024N/64、512N，64N，64N，3输入点N，N，N，N/4，N/16、N/64、4969N {}E表1. ModelNet40数据集的分类结果。我们的网络取得了最好的结果，根据平均类精度（mAcc）和整体精度（OA）。将来自二次采样云的更深特征内插到原始点。在这里，我们使用最近的上采样来获得每个层的特征，这些特征被连接为最终的逐点特征。分割网络。我们的分割网络架构如图所示。3.第三章。AdaptConv编码器包括5层卷积，其中最后一层是标准图卷积层，以及几个图池化层。二次采样的特征被内插和级联，用于馈送到解码器部分的最终点特征。分类网络。分类网络使用与分割模型中类似的编码器部分（参见图2）。（3）第三章。对于ModelNet40分类数据集中使用的稀疏点云，我们只需应用动态图结构[44]，而无需池化和插值。具体地，根据点之间的特征相似性而不是使用固定的空间位置来更新每层中的图结构。也就是说，在每一层中，重新计算边集l，其中点xi的邻域为（i）= j1，j2，… 使得对应的特征fj1，fj2，.，fjk最接近fi。这鼓励网络组织的图形语义和扩大的局部邻域的接收域分组在特征空间中的相似点。4. 评价在本节中，我们使用Adapt-Conv评估我们的模型，用于点云分类，零件分割和室内分割任务。提供了详细的网络架构和比较4.1. 分类数据我们在ModelNet40 [47]数据集上评估了我们的模型，用于点云分类。该数据集包含来自40个类别的12，311个网格化CAD模型，其中9，843个模型用于训练，2，468个模型用于测试。我们遵循[27]的实验设置。对于每个对象均匀地采样1024个点，并且我们仅使用采样点的（x，y，z）坐标作为输入。数据扩充过程包括点的移位、缩放和扰动。网络配置。网络架构如图所示。3.第三章。在[44]之后，我们根据每层中的特征相似性重新计算图。对于所有层，邻域大小的数量k被设置为20包括快捷使用最大池化函数获得全局特征所有层都使用LeakyReLU和批量归一化。我们使用SGD优化器，动量设置为0.9。初始学习率为0.1，并使用余弦退火[23]下降到0.001。对于所有训练模型，批大小设置为32。我们使用PyTorch [26]实现并在RTX 2080 Ti GPU上训练对于其他任务，以类似的方式选择超参数。结果我们在Tab中显示分类结果1.一、该数据集的评价指标为平均类别准确度（mAcc）和总体准确度（OA）。我们的模型在这个数据集上取得了最好的成绩为了清楚地比较，我们显示了输入数据类型和对应于每种方法的我们的AdaptConv仅将点坐标视为具有相对较小的1k点大小的输入，这已经优于使用较大输入的其他4.2. 部分分割数据我们进一步在ShapeNetPart数据集[50]上测试我们的模型用于部分分割任务。该数据集包含来自16个类别的16,881个形状，其中14,006个用于训练，2,874个用于测试。每个点用来自50个部分的一个标签注释，每个点云包含2-6个部分。我们遵循[29]的实验设置，并使用他们提供的数据进行基准测试。从每个形状中采样2，048个点输入属性包括除了3D坐标之外的网络配置。在[27]之后，我们包括一个表示每个点的类别类型的独热向量。它与逐点特征堆叠以计算分割结果。其他训练参数的设置与我们的分类任务相同。请注意，我们使用空间位置（无法线）作为∆xij，如第2节所述。3.2.其他选择将在后面的章节中进行评估。4.4结果我们在Tab中报告平均类IoU（mcIoU）和平均实例IoU（mIoU）二、在评估之后-方法输入点数mAcc（%）OA（%）[47]第四十七话体素-77.384.7[24]第二十四话体素-83.085.9[28]第二十八话体素-86.089.2PointNet [27]xyz1k86.089.2[29]第二十九话xyz，正常5k-91.9Kd-Net [14]xyz1k-90.6SpecGCN [40]xyz1k-92.1SpiderCNN [48]xyz，正常5k-92.4[19]第十九话xyz1k88.192.2SO-Net [18]xyz，正常5k-93.4美国有线电视新闻网[44]xyz1k90.292.9KPConv [36]xyz6.8k-92.93D-GCN [21]xyz1k-92.1[第49话]xyz，正常1k-93.2我们xyz1k90.793.44970方法mcIoU mIoU空气平面袋帽车椅子耳朵电话吉他刀灯笔记本电机马克杯手枪式火箭自行车滑冰板表Kd-Net [14]77.482.380.174.6 74.3 70.3 88.673.590.287.281.094.987.486.778.151.869.980.3PointNet [27]80.483.783.478.7 82.5 74.9 89.673.091.585.980.895.365.293.081.257.972.880.6[29]第二十九话81.985.182.479.0 87.7 77.3 90.871.891.085.983.795.371.694.181.358.776.482.6SO-Net [18]81.084.982.877.8 88.0 77.3 90.673.590.783.982.894.869.194.280.953.172.983.0美国有线电视新闻网[44]82.385.284.083.4 86.7 77.8 90.674.791.287.582.895.766.394.981.163.574.582.6[19]第十九话-86.184.186.4 86.0 80.8 90.679.792.388.485.396.177.295.384.264.280.083.0[第49话]-86.184.184.7 87.9 79.7 92.273.791.087.284.295.874.495.281.063.076.383.23D-GCN [21]82.185.183.184.0 86.6 77.5 90.374.190.986.483.895.666.894.881.359.675.782.8KPConv [36]85.186.484.686.3 87.2 81.1 91.177.892.688.482.796.278.195.885.469.082.083.6我们83.486.484.881.2 85.7 79.791.280.991.988.684.896.270.794.982.361.075.984.2表2.根据平均类IoU（mcIoU）和平均实例IoU（mIoU）评估的ShapeNetPart数据集上的部件分割结果消融mcIoU（%）mIoU（%）GraphConv81.985.5关注点78.083.3注意频道77.983.0特征82.285.9正常83.286.2初始属性83.286.1我们83.486.4表3.部分分割的ShapeNetPart数据集上的消融研究[27]的评估方案，通过对每个部分的IoU进行平均来计算形状的IoU。平均IoU（mIoU）通过对所有测试实例的IoU求平均值来计算。类IoU（mcIoU）是所有形状类别上的平均IoU。我们还显示了类明智的分割结果。与其他方法相比，我们的模型达到了最先进的性能。4.3. 室内场景分割数据我们的第三个实验显示了我们的模型在S3DIS数据集[ 1 ]上的语义分割性能。该数据集包含来自三个不同建筑物的六个室内区域的3D RGB点云，共覆盖271个房间。每个点用来自13个类别的一个语义标签注释。对于常见的评估协议[35，27，15]，我们选择区域5作为测试集，其与其他区域不在真实场景分割。大规模室内数据集揭示了更多的挑战，覆盖了现实世界环境中的更大场景，具有更多的噪声和轮廓。因此，我们遵循KPConv [36]的实验设置，并使用球体中随机采样的云来训练网络。子云包含具有变化大小的更多点，并且被堆叠成批次用于训练。在测试阶段，球体在场景中被均匀地挑选，并且我们确保使用投票方案对每个点进行多次测试。输入点属性包括RGB颜色(a) 投入（b）预测(c)地面实况图4. S3DIS数据集上语义分割结果的可视化。我们显示输入点云，以及映射到RGB颜色的标记和原来的高度。结果我们在表 1 中报告了平均类间交集对并集（mIoU）、平均类间准确度（mAcc）和总体准确度（OA）。4.第一章还提供了每个类的IoU。所提出的AdaptConv在大多数类别中优于现有技术，这进一步证明了自适应卷积在固定内核上的有效性定性结果在图1中可视化。4我们展示了建筑物不同区域的房间。我们的方法可以正确地检测不太明显的边缘，墙上的画和木板4.4. 消融研究在本节中，我们解释了我们的网络中使用的一些架构选择，并证明了AdaptConv与几种消融网络相比的有效性。自适应卷积与固定内核。我们将AdaptConv与固定内核卷积进行了比较，包括使用注意力机制和标准图卷积（DGCNN[41]）的方法，如介绍中所述。4971·→·方法OAmAcc mIoU天花板地板壁束柱窗口门桌上椅沙发书柜板杂波PointNet [27]–49.041.188.897.3 69.80.13.946.310.859.052.65.940.326.433.2SegCloud [35]–57.448.990.196.1 69.90.018.438.423.170.475.940.958.413.041.6[19]第十九话85.963.957.392.398.2 79.40.017.622.862.174.480.631.766.762.156.7PCCN [43]–67.058.392.396.2 75.90.36.069.563.566.965.647.368.959.146.2[52]第五十二话 87.066.660.392.098.5 79.40.021.159.734.876.388.346.969.364.952.5HPEIN [11]87.268.361.991.598.2 81.40.023.365.340.075.587.758.567.865.649.4GAC [41]87.7-62.892.298.2 81.90.020.359.040.878.585.861.770.774.652.8KPConv [36]–72.867.192.897.3 82.40.023.958.069.081.591.075.475.366.758.9[第49话]87.768.562.694.398.4 79.10.026.755.266.283.386.847.668.356.452.1我们90.073.267.993.998.4 82.20.023.959.171.391.581.275.574.972.158.6表4.在Area 5上评估的S3DIS数据集上的语义分割结果我们报告了平均类间IoU（mIoU）、平均类间准确度（mAcc）和总体准确度（OA）。还提供了每个类的IoU。诱导我们在ShapeNetPart数据集上训练这些模型进行分割，并通过将AdaptConv层替换为固定内核层并保持其他架构相同来设计几个消融网络。具体来说，[38]将注意力权重分配给不同的相邻点，[41]进一步设计了通道注意力函数。我们使用它们的层并表示这些10090807060504030201001024768512384256128数量的点1009080706050403020100GraphConv关注我们00.020.040.060.080.1噪声水平两次消融作为选项卡中的注意点和注意通道。分别3。我们只替换了网络中的AdaptConv层，特征输入∆fij与我们的模型相同。此外，我们还使用标准图卷积（GraphConv）显示了结果，这可以被视为DGCNN的类似版本[44]。从比较来看图5.在ModelNet40上进行分类的稳健性测试。GraphConv表示标准图卷积网络。注意力表示消融，其中我们用图形注意力层（逐点）替换AdaptConv层从比较中可以看出，我们的模型是更强大的点密度和噪声扰动。我们看到，我们的方法比固定的方法获得更好的结果。核图卷积功能决定。在AdaptConv中，自适应内核从特征输入Δf ij生成，随后与对应的Δx ij卷积。注意，在我们的实验中，Δx ij对应于（x，y，z）空间协方差。点的坐标。我们已经讨论了方程中∆xij的其他几种选择。2在SEC 3.2，可以通过设计这些消融进行评估：特征-在等式中2，我们将自适应核ei jm与它们的当前点特征进行卷积。也就是说，用fij代替x ij，核函数为gm：R2DR2D.这使得内核学习适应前一层的特征，并提取特征关系。初始属性 - 点法线（ nx ， ny ， nz ）包含在ShapeNetPart上的零件分割任务中，导致每个点的6维初始特征属性。因此，我们设计了三种消融，其中我们仅使用空间输入（我们的），仅使用正常输入（正常）以及两者（初始属性）。相应地修改核函数。由此产生的IoU评分如表1所示。3 .第三章。可以看出，（x，y，z）是点云中最关键的初始属性（可能是唯一的属性），因此建议在具有自适应核的卷积中使用它们。虽然取得了可喜的成果，计算-表5.我们的分类网络具有不同数量k的最近邻的结果。特征消融的理论成本非常高，因为当网络与高维特征卷积时，网络会严重扩展。4.5. 稳健性测试我们进一步评估了我们的模型对ModelNet40上的点云密度和噪声扰动的鲁棒性 [47] 。我们将我们的AdaptConv与其他几个图卷积进行比较，如第2节所述。4.4所有网络都用1k个点进行训练，并且邻域大小被设置为k =k。20. 为了测试点云密度的影响，在测试过程中随机丢弃一系列数量的点对于噪声测试，我们根据点云半径引入具有标准偏差的附加从图5中，我们可以看到，我们的方法对缺失数据和噪声具有鲁棒性，这要归功于GraphConv关注我们NumberK5102040mAcc（%）89.490.790.790.4OA（%）92.893.293.493.0总体准确度（%）总体准确度（%）4972(a) 空间（b）第1层（c）第2层（d）第3层（e）第4层（f）我们的（g）GT图6.可视化两个目标点（蓝色和绿色星）与特征空间中其他点之间的欧氏距离（红色：近，黄色：远）。方法#参数OA（%）PointNet [27]3.5M89.2[29]第二十九话1.48M91.9美国有线电视新闻网[44]1.81M92.9KPConv [36]14.3M92.9我们1.85M93.4表6.不同模型的参数数量和总体精度其中可以在较稀疏的区域中动态地提取结构连接。此外，我们实验的影响，不同数量k的最近邻点在Tab。五、我们选择几种典型尺寸进行测试。减少相邻点的数目可以减少计算量，但由于接收场的限制，性能会下降。我们的网络在k减小到5时仍然取得了有希望的结果。另一方面，对于特定的点密度，较大的k4.6. 效率为了将我们的模型的复杂性与以前的最先进的模型进行比较，我们在Tab中显示了网络的参数编号和相应的结果。六、这些模型基于ModelNet40进行分类任务。从表中可以看出，我们的模型达到了93.4%的整体准确率的最佳性能，并且模型大小相对较小。与DGCNN [44]相比，DGCNN [ 44 ]可以被视为我们消融研究中的标准图卷积版本，所提出的自适应内核在高效的同时表现更好。5. 可视化和学习功能为了更深入地理解AdaptConv，我们对网络，以了解AdaptConv如何区分具有相似空间输入的点。在这个实验中，我们在ShapeNetPart数据集上训练我们的模型进行分割。在图6中，选择属于对象的不同部分的两个目标点（分别在第1行和第2行中的蓝色和绿色星）。然后，我们计算到特征空间中其他点的欧氏距离，并通过将具有相似学习特征的点着色为红色来可视化它们。我们可以看到，在空间上接近的同时，我们的网络可以捕获它们不同的几何特征并正确地分割它们。此外，从图2的第2行开始。在图6中，属于相同语义部分（翼）的点共享相似的特征，而它们可能不是空间上接近的。这表明我们的模型可以以非局部的方式提取有价值的信息。6. 结论在本文中，我们提出了一种新的自适应图卷积（AdaptConv）的三维点云。该方法的主要贡献在于卷积核的自适应设计，它是根据点特征动态生成的。我们的AdaptConv不使用固定的内核来捕获点之间不可区分的对应关系我们已经应用AdaptConv为几个点云分析任务训练了端到端深度网络，在几个公共数据集上的表现优于最先进的技术。此外，AdaptConv可以很容易地集成到现有的图CNN中，通过简单地用自适应内核替换现有的内核来提高鸣谢。本工作得到了国家自然科学基金项目（No.62032011号，62172218号，61672273）及中国香港特别行政区研究资助局（项目编号：理大152035/17E及15205919）。4973引用[1] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议集，第1534-1543页，2016年。6[2] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络 arXiv 预印本 arXiv ：1803.10091，2018。2[3] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。2[4] 藤原健和桥本太一点云分析的神经隐式嵌入。在IEEE/CVF计算机视觉和模式识别会议论文集，第11734-11743页，2020年。1[5] Jonas Gehring ， Michael Auli ， David Grangier ， andYann N Dauphin. 神经机器翻译的卷积编码器模型arXiv预印本arXiv：1611.02344，2016。2[6] Meng-Hao Guo，Jun-Xiong Cai，Zheng-Ning Liu，Tai-Jiang Mu，Ralph R Martin，and Shi-Min Hu. Pct：点云Transformer。arXiv预印本arXiv：2012.09688，2020。2[7] William L Hamilton，Rex Ying，Jure Leskovec.大图上的归纳表示学习。 arXiv 预印本 arXiv ： 1706.02216 ，2017。1[8] Binh-Son Hua、Minh-Khoi Tran和Sai-Kit Yeung。逐点卷积神经网络。在IEEE计算机视觉和模式识别会议集，第984-993页，2018年。2[9] Qiangui Huang，Weiyue Wang，and Ulrich Neumann.用于点云三维分割的回流切片网络。在IEEE计算机视觉和模式识别会议论文集，第2626-2635页2[10] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool. 动态过滤网络。神经信息处理系统的进展，29：667-675，2016。3[11] 李江，赵恒双，刘舒，沈晓勇，傅志荣，贾佳雅.分层点边交互网络用于点云语义分割。在IEEE/CVF计算机视觉国际会议论文集，第10433-10441页，2019年7[12] Evangelos Kalogerakis ， Melinos Averkiou ， SubhransuMaji，and Siddhartha Chaudhuri.用投影卷积网络进行三维形状分割。在IEEE计算机视觉和模式识别会议论文集，第3779-3788页，2017年。2[13] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。2[14] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于三维点云模型识别的深度kd网络。在IEEE计算机视觉国际会议论文集，第863-872页二、五、六[15] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割在IEEE计算机视觉和模式识别会议上，第4558-4567页，2018年1、6[16] 特吕克·勒和叶端。Pointgrid：用于3D形状理解的深度网络。在IEEE计算机视觉和模式识别会议论文集，第9204- 9214页2[17] 桓磊、纳维德·阿赫塔尔、阿杰马勒·米安。用于三维点云上的高效图形卷积的球形 IEEE Transactions onPattern Analysis and Machine Intelligence，2020。2[18] Jiaxin Li，Ben M Chen，and Gim Hee Lee. So-net：用于点云分析的自组织网络。在IEEE计算机视觉和模式识别会议论文集，第9397-9406页，2018年。五、六[19] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen. Pointcnn：X变换点上的卷积。第32届神经信息处理系统国际会议论文集，第828-8

下载后可阅读完整内容，剩余1页未读，立即下载