没有合适的资源?快使用搜索试试~ 我知道了~
1298--∼∗PIDS:三维点云的联合点交互-维搜索张敦厚1,马明远1,冯燕2,李海1,陈怡然11杜克大学幼儿教育系,达勒姆,北卡罗来纳州277082休斯顿大学计算机科学系,休斯敦,TX 772041 张敦厚,mingyuan.ma,hai.li,陈怡然@ duke.edu,2fyan5@central.uh.edu摘要点的相互作用和维数是设计服务于层次化三维模型的点算子的两个重要轴。然而,这两个轴是异构的,具有挑战性的充分探索。现有的作品工艺点operator下一个单一的轴和重用的3D模型的所有部分制作的操作员。这忽略了通过利用3D点云的不同几何形状/密度来更好地组合点交互和尺寸的机会。在这项工作中,我们建立了PIDS,一个新的范式,共同探索点的相互作用和点的尺寸,以服务于点云数据的语义分割。我们建立了一个大的搜索空间,共同考虑通用点的相互作用和点的尺寸。这支持具有各种几何/密度考虑的点操作器。异构搜索组件的扩大搜索空间为了实现这一点,我们通过基于预测器的神经架构搜索(NAS)来改进搜索空间探索,并通过基于其先验知识向异构搜索组件我们在两个语义分割基准上彻底评估了PIDS制作的网络,在SemanticKITTI和S3DIS上显示出1%的mIOU改进最先进的3D模型。1. 介绍3D采集技术的兴起和从3D传感器收集的几何数据量的增加推动了3D点云应用的蓬勃发展,例如对象识别[37],形状分割[42]和室内场景分割[1]。深度神经网络(DNN)在以端到端的方式处理3D点云数据方面发挥着关键作用[25]。神经架构工程的最新发展为3D点云模型带来了更好的性能[47,46]和更高的效率[15]表1. 不同方法在寻找最佳三维点算子中的比较。方法标记为利用神经架构搜索与设计自动化。方法互动?维度?再利用?S3dismIOU(%)KPConv[34]✓✓70.6[46]第四十六话✓✓73.5[28]第二十八话PIDS(Ours)✓✓✓✓71.974.4点云的层次化三维模型由多个点算子组成。研究人员已经确定了点算子的两个异质轴:点云中的点的相互作用(点相互作用)和点运算符的大小尺寸(点尺寸)。从PointNet[25,26]开始,基于点的模型采用各种策略来设计点交互,以提取特征并对3D点云上的语义分割进行密集预测。后来的作品提出了多层感知器[25,26],点卷积[38,2],图形神经元,ral networks[35]、 attention mechanism[46,13,44]、kernel point convolutions[34] 、voxelization[7] 和 2Dprojec- tions[8,12],以提高3D点云的性能-效率权衡,并在3D模型的不同层次中手动调整点尺寸。最近的工作利用神经架构搜索(NAS)来探索更广泛的3D模型选择,例如体素化点交互中的点尺寸[33]和基于卷积的点交互的结构布线[24]。然而,由于3D点云的不同分布,现有的制作3D算子的方法有几个限制。首先,现有的作品只制作了一种类型的点交互,并在3D模型的所有点操作符中重用它,见表1。由于点的几何/密度分布不同,点交互的重用可能会限制精心制作的3D运算符的性能其次,现有的方法分别优化点交互和点尺寸,并且仅在单个轴上寻求最优解。这种方法错过了发现点交互和维度的更好组合的机会,从而限制了精心设计的1299∼×××点运算符总体而言,制作的模型通常在处理3D点云时具有次优性能与效率的权衡在本文中,我们提出了一个联合的互动维搜索,以解决上述限制。我们设想,现有的NAS方法在3D点云中可能存在若干挑战。首先,即使NAS支持完全设计自动化,在具有不同分布的3D点云上同时精确地联合探索点交互和点尺寸也是一项挑战。因此,现有的权重共享方法,如可微NAS[20]和一次性NAS[4,41]可能是不可行的,因为考虑到快速变化的3D点云输入,很难在点运算符上学习共享权重。其次,异构搜索组件增加了架构-性能前景的复杂性,使其更难以准确地将架构映射到其地面实况性能。上述挑战需要一个更具可扩展性和准确性的NAS,以创新3D应用程序的自动模型设计。为此,我们提出了PIDS(3D点云的联合点交互-维空间),这是一种利用NAS[49,4,36]在PIDS中,我们制作了一个大规模的搜索空间,其中包含3D点云中具有通用几何/密度的点相互作用对于点相互作用,我们将搜索空间建立在核点卷积[34]上,并引入高阶点相互作用来拟合不同3D点内的几何分布和密度分布。对于点尺寸,我们结合了反向残差瓶颈(IRB[30])的设计主题,以实现更有效的基于大小的搜索组件(即,宽度、深度和扩展因子)。我们用基于预测器的NAS指导PIDS [36]。我们训练了一个神经预测器来映射PIDS搜索空间中的架构-性能对。为了提高搜索的质量,我们创新设计了一个DS预测器来编码点交互和点维度的唯一先验。DS预测器使用稀疏嵌入特征来编码点交互作用的分类选择,并使用密集特征来表示点维度的连续选择。然后,密集特征和稀疏特征相互作用以计算交叉项乘积,从而产生改进性能预测的高级神经架构表示。PIDS中的联合交互维度搜索使得能够发现有效的3D模型,并且PIDS的DS预测器允许候选模型的更好排名(即,直到0。03 Kendall τ改进和2. 在语义分割上的mIOU比现有技术的预测器高6%),以提高搜索质量。因此,PIDS在各种语义分割基准上制作了高性能和高效的3D架构,例如Se-manticKITTI [3]和S3DIS [1]。在S3DIS上,PIDS网络的性能比最先进的手工架构高0.9%,mIOU高,参数效率为3.6在SemanticKITTI上,PIDS网络的mIOU提高了0.6%,节省了 7. 2个参数,并减少7。4个MAC,采用最先进的NAS架构。我们强调本文的贡献如下:• 我们提出了一个新的范例,PIDS,共同探索点的相互作用和尺寸在一个巨大的搜索空间的三维点云。PIDS优化了点操作符的两个轴,并寻求3D模型,以在性能-效率权衡中取得平衡。• 我们利用基于预测器的NAS在PIDS搜索空间中准确地对候选网络进行建模。我们进一步提高了性能预测的质量,提出了密集稀疏预测器,编码异构搜索组件上的唯一先验,并计算交叉项积,以收集更好的架构表示。• PIDS发现的最佳模型在SemanticKITTI和S3DIS上实现了最先进的mIOU,效率更高。2. 相关工作深度学习3D点云 点交互通常通过基于点的网络[38,15,17,34]实现,该网络将特征聚合到不规则点集网格,以受益于3D点云中的可学习径向函数和球谐函数。最近的基于点的点交互文献改进了点采样效率[15,17]、局部特征聚合[46,19]、手动架构制作[16,18]、改进的训练方案[12]和/或更好的特征选择[39,6],以寻求更高的模型性能和效率。然而,这些工作中的大多数手动设计构建块,而忽略了变化的几何形状和密度分布(即,异质性)的3D点云。此外,这些人工努力可能无法探索点交互的更广泛的搜索空间,并错过了发现创新架构模式的机会搜索空间大小的上述限制(即,点尺寸)可能对所设计的模型的质量和效率产生负面影响。基于预测器的NAS。基于预测器的NAS[36,10]是一种在有限样本上训练性能预测器的流行方法。训练后的预测器作为地面实况性能的代理模型,并用于指导整个设计空间上的架构搜索。现有的基于预测器的NAS的研究成果主要集中在提高样本效率[10]和扩充性能预测器的结构样本[21]上,而没有重视通过改进神经结构表示来降低预测误差。在3D模型的设计空间中,现有方法可能会受到弱预测的影响,1300∼∈K→ΣΣ∈∈∈E∈RE∈Ri,ki kδ∈���×���×������������点运算符固定构建块合并交互线性卷积,通过执行半径采样来有效地获得相邻点Xn,仅占用总计算成本的30%。因此,优化点交互和点尺寸显示了对整个3D模型的有希望的改进。在核点卷积的基础上,我们介绍了一阶和二阶点相互作用。第一/第二点相互作用的堆叠导致3D模型中的高阶点相互作用。图1. PIDS搜索空间概述。在每个点操作器中,Op表示点交互的搜索组件。D:深度,W:宽度和E:扩展因子表示点尺寸的搜索分量。在没有正确的神经结构表示的情况下,给出了通用的异构搜索组件,需要对不同异构搜索组件上的先验编码进行深入研究。3. PIDS搜索空间在本节中,我们正式提出PIDS,一个新的范式,联合搜索点的相互作用和点的尺寸。图1演示了PIDS中的联合交互-维度搜索空间.用于语义分割的3D模型使用具有11个可搜索阶段的编码器-解码器结构,其中骨干编码器模型中有7个阶段可搜索的阶段被夹在固定的茎/头层,以正确地处理输入/输出。每个阶段由一阶点相互作用。一阶点相互作用分配一个具有K个核点的唯一核,这些核点携带所有特征维度的权重W kRK×D。一阶点相互作用采用线性相关函数h l:RN ×DRK×D,将无序邻点特征F映射为一组特征F<$=[F<$1,F<$2,., KKernel点。具体而言,y,a线性相关函数h(l)测量相邻点xi∈Xn对核心点x∈k的贡献,并输出线性相关H(l)∈RN×K,如下:H(l)=h(l)(x,x≠ 0)=max(0,1− 1)||xi−xk||(2)、(2)其中δ是指示核对相邻点的影响的超参数一阶相互作用通过以下方式聚集内核特征F¯f1st(Fi)= H(l)FkWk(3)K几个点运算符作为基本构建块。每个点操作符具有可配置的点交互(例如,级=xi∈Xnh(l)(xi,x<$k)FiWk,<$xi∈Xn,(4)相互作用)和点维度(例如,宽度)在搜索空间中。受KPConv[34]设计主题的启发, PIDS提出了高阶点相互作用,并寻求对点云不同部分中不同几何形状和密度的最佳适应。受反向残差瓶颈(IRB)[30]的启发,PIDS扩展了点尺寸的探索范围(即,点运算符中的深度、宽度和扩展因子),以发现更灵活的模型选择。3.1. 高阶点相互作用在3D点云中,点交互被定义为中心点X及其N个邻近点X N上的对称函数。给定一个中心点X3及其对应的D维特征:F D,点交互将所有N个相邻点XnR N×3及其对应的特征FRN×D通过一个由θ参数化的可学习变换f计算输出特征F′RN×D,如下所示:F′= f(F,X,Xn; θ).(一)我们使用来自核点卷积[34]的直觉来构建点相互作用。这是因为在内核点中其中FkR_D表示映射到核点的D维特征,F_i表示在局部邻域点中保持的原始D维特征。当量图3,4通过线性组合的显式形式在中心点与其周围的相邻点之间建立直接相互作用,该线性组合由特定的核点Wk承载,该核点W k对所有D特征进行相似操作。与原始的核点卷积不同,一阶点迭代在加权的核点卷积一阶二阶中心点克尔恩角相邻点MLP池化相关性图2.一阶和二阶点相互作用。第一阶点交互局部地对中心点进行建模以朝向几何核,并且第二阶点交互另外利用全局邻居来捕获具有变化密度的点。���×HWEEW⨁1301×HH×∼月2我2KK我n特征(即, H(l)F_k)和k内核权重(即,W,k),不考虑信道方面的特征。 与原始核点卷积相比,这节省了D参数和Multiple-Accumulates,从而在3D模型中产生更高的在KPConv中,核点卷积使用固定的核大小(即,在模型的所有部分内,指示用于点云的不同结构级别中的点的固定几何内核布置xk我们的一阶交互扩展了内核配置的范围,选择内核配置。给定不同的内核配置,一阶点交互具有捕获桅杆3D点云内的不同几何特性的能力,从而导致具有快速变化的点云几何形状的更高质量的学习二阶点相互作用。注意,在一阶点交互中,测量核点对相邻点的重要性的线性相关性(l)纯粹使用它们之间的欧几里得距离这样的重要性测量忽略了其他邻居的贡献,因此在具有变化密度的点云下可能不准确。例如,更远的核点对于稀疏点云中的相邻点可能更重要,其中每个中心点在点云的稀疏分布内仅具有几个相邻点。为了覆盖核的变化的几何和密集布置,我们引入密度感知相关性H(g)作为线性相关性Hl的替代。密度感知相关利用中心点的全局邻域信息,并对这些点的变化密度进行自适应。具体地,密度感知线性相关性H(g)将线性相关性H(l)作为输入,并且使用门控函数h_g来如下重新校准内核-邻居重要性:H(g)=hg(H(l))=σ(MLP(池(H(l)这里,σ是sigmoid函数,MLP表示具有可学习权重的2层MLP层,Pool表示全局平均池化算子,其对(l)的邻居维度中的信息进行平均。基于密度感知线性相关性H(g),我们如下建立二阶相互作用:表2.基于SemanticKITTI的IRB设计评价架构Params(男)Macs(G)SemanticKITTImIOU(%)KPConv(我方实施)14.860.959.2PIDS(一阶)0.974.659.6PIDS(二阶)0.984.760.13.2. 有效点尺寸由于点交互仅执行逐点特征提取,因此我们将高阶点交互与2个全连接层夹在一起,以形成PIDS点算子,参见图1。这使得3D点云中的通道特征交互成为可能。受反向残差瓶颈(IRB)[30]设计的启发,我们在中间点交互上应用扩展因子,以丰富低成本点交互操作中的表示。点操作符的IRB设计还为点尺寸提供了更广泛的搜索组件。接下来,我们验证了IRB设计的有效性,结合点的相 互 作 用 和 点 尺 寸 的 PIDS 点 操 作 。 我 们 遵 循MobileNet-V2[30]的层组织来构建手工制作的3D模型。我们评估了具有一阶/二阶点相互作用的制作的3D模型,并将其性能与表2中的KPConv进行比较。即使没有搜索,具有一阶交互的手工制作的3D模型在SemanticKITTI上的mIOU也比KPConv高出0.4%,尺寸小12。具有二阶交互的手工制作的 0的情况。高5%,参数计数仅略有增加。上述经验评估提出了设计3D模型的两个关键见解:1)放宽一阶点交互中核配置的选择提供了更多的机会来适应3D点的几何分布,以及2)利用全局邻域信息来测量核重要性的二阶点交互使得更好地适应点的变化密度。3.3. 搜索组件在PIDS搜索空间中,我们共同搜索点交互和点维度的最佳我们会-f(F)=<$1(H(l)+H(g))F<$W,<$x∈X.(六)K两个搜索组件如下所示:• 点交互。 我们寻找的是由于H(g)是H(l)的函数,我们采用求和H(g)和H(l)的二阶交互作用,以更容易优化,遵循剩余学习的精神[14]。二阶相互作用考虑了给定固定核配置的相邻点的相对然而,二阶点交互由于使用门控函数hg而使用稍微更多的资源,因此为了效率,在3D模型的设计中应谨慎使用(即,一阶/二阶)和几何模型的选择,Ric内核配置(即,5-点四面体、7点八面体和13点二十面体配置)。点交互作用中的选择是分类离散选项。• 点尺寸。 我们搜索宽度(即,每个点运算符中的特征数量),深度(即,堆叠的点运算符的数量)和扩展因子(即,点操作的点交互与FC操作的比率1302位置H埃特尔托×∈∈Z=[vec−∼ator.点维度中的选择是连续浮点数。与基于图像的模型的NAS不同,NAS强调搜索基于大小的同质组件,点交互的选择和点尺寸的选择是异构的。此外,由于总共有11个阶段,整体搜索空间大小包含高达1.8 1019可能的架构,使架构探索下,适度的搜索成本更具挑战性。这就需要一种精确的NAS方法来精确地探索关节点相互作用维度搜索空间。4. 关节点交互-维度搜索我们采用基于预测器的NAS来共同探索点云3D模型中点交互和点尺寸的最佳组合具体来说,我们从联合搜索空间中采样了一些架构,并使用它们的架构-性能对来训练性能预测器。不幸的是,联合交互维度搜索空间的大基数在准确地对搜索空间建模方面提出了挑战。在本节中,我们将-点维度的值对模型性能的线性/准线性关系进行编码,如EfficientNet [32]中的复合缩放方案所示。因此,点相互作用的选择包含可以在深度表示中建模的连续先验。因此,使用普通预测器对具有不同先验的这些多模态特征进行建模可能导致次优结果。受&结合多模态输入的记忆和泛化的宽深度学习[5]的启发,我们提出了一种新的密集-稀疏预测器来编码点交互/维度的唯一先验。这改进了PIDS搜索空间中候选模型的神经结构表示,从而提高了候选模型的预测和排序质量。我们为点交互/维度制作密集/稀疏神经架构表示,并利用点积来计算点交互和点维度之间的交叉项关系。具体来说,给定一个密集表示X dR B×dim和一个稀疏表示X sR B×N×dim,点积通过进行以下变换来进行交叉项特征通信:分析了搜索分量的先验信息,提出了一种新的代理模型-稠密-稀疏(DS)预测器,1B,1,暗淡(Xd);Xs],(7)独特的先验不同的异构搜索功能,以提高性能预测的质量。因此,DS预测器提高了3D模型在联合交互维度搜索空间内的排名。4.1. 稠密-稀疏预测器我们首先分析了PIDS交互维搜索空间中不同搜索组件的先验信息。我们注意到,点相互作用设置稀疏分布在搜索空间内。例如,第一/第二点交互中的核布置的选择遵循离散几何形状,而没有可以经由线性插值实现因此,点交互的选择具有类别先验,可以通过嵌入隐式学习或者,选择线性稠密稀疏点积嵌入预测图3.稠密-稀疏预测器计算异构搜索分量的交叉项积,以提高交互维联合搜索的预测质量。DP(Z)=Triu(ZZT),(8)其中DP表示点积运算,Triu表示上三角矩阵。图3展示了架构DS预测器。DS预测器采用分离的MLP来学习连续密集表示上的深度表示(即,点维度),并采用嵌入表来学习稀疏表示的分类选择点相互作用)。由于增强的编码先验和它们的交叉项关系,DS预测器产生PIDS搜索空间的更准确的建模。接下来,我们详细介绍了我们的DS预测器的训练和架构采样。我们在SemanticKITTI上随机抽取了1K个架构。遵循NAS中的常见设置,我们将SemanticKITTI的训练数据集分为mini-train和mini-val。我们在mini-train上训练采样的架构直到收敛,并在mini-val上评估这些架构以获得架构性能。预测训练均方误差(MSE)损失是1K采样架构上DS预测器的训练目标。为了确保预测器性能在多个基准上的一致比较,我们对具有归一化性能的预测器进行优化。由于密集/稀疏/密集-稀疏预测器可以执行基于梯度的优化,因此我们将预测器预训练结合到多进制累积(MAC)预测[9]上,并使用成对的边际秩损失[10]来提高排名。我们将DS预测器与从NASBench-301[31]中收集的性能最佳的预测器设计进行了比较,请参见Ta-维度互动2×3×1303- ×∼××××××∼表3.Wide Deep Predictor在SemanticKITTI上实现了最佳的预测质量预测器等级损失?前科前期训练?MSE(10−2)肯德尔τ随机森林连续3.75±0.304.29±0.414.24±0.403.90±0.334.03±0.360.240±0.0440.144±0.0420.210±0.0370.255±0.0470.236±0.033GPR连续XGBoost连续NGBoost连续LGBoost连续密集稀疏密集-稀疏✓✓✓连续离散连续+离散✓✓✓3.07±0.332.87±0.212.80±0.230.379±0.0500.400±0.0470.408±0.044ble 3. 由于稀疏嵌入在贝叶斯模型中是不可行的(例如,GPR)和基于树的方法(例如,随机森林),所有分类特征在训练过程中被视为连续特征。通过增强搜索先验和通过点积计算交叉项特征关系,DS预测器在PIDS搜索空间上实现了更好的预测质量和排名:DS预测器达到0. 与现有技术相比,Kendallτ高172,0的情况。008Kendallτ高于密集预测器,所有搜索组件到连续特征。4.2. DS预测器使用经过训练的DS预测器,我们遵循正则化演化[29]来有效地探测PIDS搜索空间,以进行点交互和点尺寸的联合搜索。 给定一个候选架构A,预测P和MA CsM,我们使用S(A)=PβlogM作为我们的搜索目标,并根据经验将β设置为0.5以进行交易-性能和资源。我们引入了一种结构基因型的单突变,在其中一个阶段中具有以下动作序列:• 在点运算符中更改内核配置。• 更改点运算符中的交互顺序。• 更改点运算符中的宽度/扩展因子。• 更改堆叠点运算符的深度。我们使用200个种群和150个样本在PIDS搜索空间上进行360轮正则化进化来构建NAS模型。5. 实验在本节中,我们在两个语义分割基准SemanticKITTI[3]和S3DIS [1]上评估PIDS。具体来说,我们进行了一个端到端的搜索SemanticKITTI,以确定最好的3D架构在PIDS设计空间,并将其转移到S3DIS。5.1. 超参数设置我们描述Se- manticKITTI和S3 DIS上的详细超参数设置如下。SemanticKITTI 单个训练批次包含10个子采样点云。在SemanticKITTI上,在一个场景中,平均12.3K点的多重累积(MAC),这为KPConv架构提供了类似的MAC计数,如[33]所示。我们使用0的下采样率。06m,并以0.04的初始学习率和余弦学习率时间表训练我们的最佳模型250个epoch[22]。 我们采用3e-4的L2权重衰减和默认数据增强[34]。S3DIS。单个训练批次包含8个子采样点云。 我们使用0的下采样率。04m遵循原始KPConv文件[34]。具体来说,我们训练了250个epoch的最佳模型,初始学习率为0.04和余弦学习速率表[22]。我们采用3e-4的L2权重衰减和默认数据增强[34]。5.2. SemanticKITTI的评价我们评估PIDS发现的性能最好的模型。我们在NAS制作的模型上应用宽度缩放[30],并附加一个m后缀来表示应用程序 一个m宽度的乘法器。这确保了与现有的类似尺寸的最先进型号进行公平比较。我们比较了性能和效率指标,如参数计数和MAC。绩效评估。表4显示了SemanticKITTI数据集的mIOU互补序列08。我们的手工制作的PIDS模型优于基于点,基于投影和基于体素的方法至少分别为0.9%,1.1%和1.2% mIOU,具有显着的参数和MAC减少。NAS制作的PIDS模型比最先进的SPVNAS高出1%的mIOU,同时节省了5.8个参数和4.5个MAC。在NAS制作的模型上应用2宽度乘数进一步提高了性能,证明了发现的3D模型的良好最佳PIDS模型的延迟分析 在表4中,我们注意到我们的NAS制作的PIDS模型比原始KPConv模型快4.2,尽管它的mIOU更高。然而,我们还观察到,与PIDS模型的MAC减少相比,延迟减少不太重要,特别是与基于体素的方法相比。这是因为基于体素的方法(例如,SPVNAS[33])受益于1)基于点的相邻机制中的开销减少2)成熟的软件-硬件协同设计,能够实现高吞吐量的推理。1304∼××∼∼表4.SemanticKITTI序列08(验证分割)上的mIOU 延迟是使用NVIDIA TITAN X Pascal在一个包含60000点的场景上测量的。这里,红色/蓝色数字表示计算/处理时间。+:结果来自[48]结果:[33]。架构方法Params(男)Macs(G)延迟(毫秒)Miou(%)RandLANet[15]基于点1.24-10357.1KPConv-刚性(我们的实施)基于点14.860.9221(164+57)59.2PolarNet[45]基于投影13.6135.0*62∗58.2+Salsa下一页[8]基于投影6.762.8*71∗59.0+MinkowskiNet[7]体素5.528.5米294∗58.9PIDS(二阶)基于点0.974.7160(103+57)60.1SPVNAS[33]体素3.37.020.034.715817561.563.5PIDS(NAS)PIDS(NAS,2×)基于点0.571.364.411.0169(112+57)206(149+57)62.464.1表5.我们搜索的PIDS模型的操作级延迟故障我们在这里列出了关键操作,并将不太重要的操作归类为“操作”。在Type列中,C/M表示计算有界/内存有界操作。操作类型延迟(ms)潜伏期(%)预处理(CPU)-57.01533.73aten::subC23.39613.84aten::bmmC20.23611.97aten::gatherM18.11510.72aten::mulC12.4877.39aten::sumC9.8875.85aten::addmmC7.2924.31aten::thresholdC4.4442.63aten::copyM2.9121.72aten::sqrtC2.2561.33其他-11.006.51为了深入研究这个问题,我们分析了NAS制作的PIDS的延迟分解,并在表5中演示了分析结果。在 这里,预处理操作(包括半径采样、网格子采样等)消耗推理成本的33.7%,邻居收集对存储器受限操作有贡献(即,aten::gather),它占用总推理延迟的10%。KPConv中的计算受限部分,例如去卷积(即, aten ::mul 和aten ::sum ), MLP(即,Aten::BMM)和逐点局部邻域移动(即,aten::sub)占总推理成本的50%除了架构的优化,我们还设想了一些潜在的改进,利用硬件-软件协同设计来提高PIDS块的效率,例如但不限于:• 启用高效的半径采样实现,以允许不同CPU内核之间的并行化。• 利 用 卷 积 的 融 合 版 本 ( * 即 , aten : : bmm 和aten::sum),其有效地聚集每个核点上的特征输出。• 将每个点操作符的半径选择纳入设计空间,并利用这些选项来发现更高效的基于点的3D模型。表6.S3DIS上的6重交叉验证结果架构Miou(%)MACC(%)OA(%)Params(男)[23]第二十三话66.7-88.7-RandLANet[15]70.082.088.01.24KPConv[34]70.679.1-14.8RPNet[28]70.8---SCF-Net[11]71.682.788.4-[27]第二十七话72.283.188.91.23[46]第四十六话73.581.990.24.9[第28话]71.9-90.36.75PIDS(NAS,2×)74.482.190.31.355.3. S3DIS体系结构的可移植性我们进一步验证了NAS制作的PIDS模型在S3DIS上的可移植性,以评估其在室内场景分割上的性能。在3D点云分割中建立原型之后,我们报告了所有区域1区域6分割的6倍交叉验证mIOU,参见表6。 按照惯例,我们还报告了Area 5上每个类的验证mIOU和mIOU,以与3D点云上的现有方法进行比较,见表7。虽然我们的NAS制作的PIDS模型没有在S3DIS上优化,但与现有方法(如[27,46])相比,它在S3DIS 6倍交叉验证基准上显示出显着的优势,并实现了74.5%的mIOU,仅使用1.35M参数的新的现有技术结果(即,3.6比第二名的Point- Transformer架构少[46])。在S3DIS数据集的区域5上,我们观察到:(1)NAS制作的PIDS在11个参数效率下实现了比原始KPConv高1.8%的mIOU。(2)NAS制作的PIDS在S3DIS室内语义分割上实现了不同类别的竞争性能,并且与现有方法相比,在13个类别中的9个类别上至少提高了1%的mIOU。6. 消融研究在本节中,我们首先可视化二阶点相互作用如何重1305新校准每个相邻点的贡献,以适应具有不同密度的异构点云。1306HHH×表7. S3 DIS Area-5上的每类mIoU。方法Miou细胞地板壁束上校风门椅子表书沙发板clut。Pointnet[25]41.188.897.369.80.13.946.310.852.658.940.35.926.433.2[43]第四十三话51.879.893.969.00.228.338.548.371.173.648.759.229.333.1RNN融合[40]57.392.398.279.40.017.622.862.174.480.631.766.762.156.7KPConv[34]65.492.697.381.40.016.554.569.590.180.274.666.463.758.1PIDS(NAS,2×)67.293.698.381.60.032.251.573.290.782.573.364.771.660.0sity,由学习的系数在内核的几何配置上反映然后,我们讨论了降低神经预测器的MSE与所发现的NAS模型的质量改进之间的关系6.1. 二阶点相互作用:可视化为了验证点相互作用的改进来源,我们在7点八面体内核上绘制了学习点相互作用的动力学,参见图4。在这里,我们用斜率来表示二阶相互作用的强度(g)在一阶相互作用H(l)上,指示影响由选通函数h(g)捕获的线性相关。所学习的二阶点相互作用展示了与八面体核配置的强几何和谐(即,对称轴之间的1-4-2组):离中心点最远的两个顶点(g))朝向全局邻域信息(l)。这支持更鲁棒的识别结果,因为这些核心点涉及解决稀疏和快速变化的点云的边界效应。连接正方形平面的4个顶点具有最小的交互作用,这表明在更密集的点分布上更平滑地学习以捕获点多数的特征中心核点接纳来自中心化点的大部分信息,从而共同适应全局邻居信息,并产生适度的相互作用强度。6.2. DS预测器我们表明,即使边际肯德尔τ改善(即,0.008)的预测值,导致NAS制作的模型的质量显着改善。我们建立了一个随机的搜索基线,选择前5名的模型,从出-图4.七点八面体核配置的二阶点相互作用的可视化表8. 各种基于预测器的NAS方法与随机搜索基线的比较。结果来自每种方法发现的前5个NAS模型。搜索方法SemanticKITTI mIOU(%)平均标准品最大值最小值随机53.541.1954.6851.96稀疏预测器54.900.4955.2854.2稠密-稀疏预测器56.100.8556.8354.87来自1K个随机样本,并通过使用上述亚军预测因子选择前5个模型来建立基于预测因子的NAS基线:表8中的稀疏预测因子。所有模型都使用相同的100 epoch训练管道在分类和分割基准上进行评估。我们在表8中报告了SemanticKITTI性能的平均值和标准差。结果表明:(1)在不引入额外架构样本的情况下,基于预测器的NAS可以在SemanticKITTI上以高达1.4%mIOU的性能优于随机搜索。(2)即使MSE低0.07 × 10- 2,通过DS预测器的NAS制作的模型也可以通过稀疏预测器的NAS制作的模型表现更好(即,在SemanticKITTI上高达1.2% mIOU)。这表明了改进预测器设计和实现基于预测器的NAS的高级神经结构表示的重要性7. 结论在这项工作中,我们提出了一个新的范例,联合点交互三维点云(PIDS),联合搜索点的交互和三维点算子的两个轴上的点的尺寸。PIDS创新了高阶点交互和有效的点维数,以适应三维点云数据的几何和密度异质性,并建立了一个搜索空间进行联合探测。PIDS利用基于预测器的NAS,提出了一种新的稠密-稀疏预测器,以提高预测质量和候选网络的排名。密集-稀疏预测器利用增强的先验对异构搜索组件进行编码,并通过交叉项点积来交互离散/连续的架构表示。两个语义分割基准测试的结果证明了NAS制作的PIDS模型的最新性能,以及搜索模型的良好可移植性。谢 谢 。 该 项 目 部分得 到 以 下 赠 款 的 支 持 : NSF-2112562、NSF-1937435和ARO W 911 NF-19-2-0107和CAREER-2048044。K6K51307引用[1] Iro Armeni,Ozan Sener,Amir R Zamir,Helen Jiang,Ioannis Brilakis,Martin Fischer,and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议集,第1534-1543页[2] Matan Atzmon,Haggai Maron,and Yaron Lipman.基于扩 展 算 子 的 点 卷 积 神 经 网 络 arXiv 预 印 本 arXiv :1803.10091,2018。[3] Jens Behley , Martin Garbade , Andres Milioto , JanQuenzel , Sven Behnke , Cyrill Stachniss , and JurgenGall. Se-mantickitti:激光雷达序列语义场景理解数据集。在IEEE/CVF国际计算机视觉会议论文集,第9297-9307页[4] Han Cai,Chuang Gan,Tianzhe Wang,Zhekai Zhang,and Song Han.一次性:训练一个网络并使其专业化以实现高效部署。arXiv预印本arXiv:1908.09791,2019。[5] Heng-Tze Cheng,Levent Koc,Jeremiah Harmsen,TalShaked , Tushar Chandra , Hrishi Aradhye , GlenAnderson,Greg Corrado,Wei Chai,Mustafa Ispir,etal.推荐系统的广泛&深度学习。在Proceedings of the 1stworkshop on deep learning for recommender systems,第7[6] Ran Cheng,Ryan Razani,Ehsan Taghavi,Enxu Li,and Bingbing Liu. 2-s3 net:稀疏语义分割网络的自适应特征选择的注意特征融合。在IEEE/CVF计算机视觉和模式识别会议论文集,第12547-12556页[7] Christopher Choy,JunYoung Gwak,Silvio Savarese. 4dspatio-temporalconvnets : Minkowskiconvolutionalneural networks.在IEEE/CVF计算机视觉和模式识别会议论文集,第3075- 3084页[8] Tiago Cortinhal George Tzelepis 和 Eren Erdal Aksoy 。Salsanext:用于自动驾驶的激光雷达点云的快速、不确定性感知语义分割。arXiv预印本arXiv:2003.03653,2020。[9] 戴晓亮,万文,张培昭,吴碧晨,何子建,甄伟,陈侃,田远东,余修,彼得·瓦伊达,等. Fbnetv 3:使用预测器预训练的联合架构-配方搜索。在IEEE/CVF计算机视觉和模式识别会议论文集,第16276-16285页[10] Dudziak , Thomas Chau , Mohamed S Abdelfattah ,Royson Lee , Hyeji Kim , and Nicholas D Lane.Brp-nas:使用gcns的基于预测的nas。arXiv预印本arXiv:2007.08668,2020。[11] 范思琪,董秋蕾,朱风华,吕义生,叶培军,王飞跃。Scf-net:学习空间上下文特征用于大规模点云分割。在IEEE/CVF计算机视觉和模式识别会议(CVPR)的Proceedings中,第14504-14513页[12] Ankit Goyal,Hei Law,Bowei Liu,Alejandro Newell,and Jia Deng.用简单有效的基线重新审视点云形状分类arXiv预印本arXiv:2106.05304,2021。[13] Meng-Hao Guo,Jun-Xiong Cai,Zheng-Ning Liu,Tai-Jiang Mu , Ralph R Martin , and Shi-M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功