没有合适的资源?快使用搜索试试~ 我知道了~
4574SpSequenceNet:基于4D点云的语义分割网络石汉宇1,林国胜1,王浩1,洪子怡2,王振华31南洋理工大学,2三角洲研究中心,3浙江工业E-mail:hanyu001@ntu.edu.sg,gslin@ntu.edu.sg摘要点云在自动驾驶和机器人等许多应用中是有用的,因为它们提供周围环境的自然3D信息。虽然对3D点云有广泛的研究,但4D点云上的场景理解,即一系列连续的3D点云帧,是一个新兴的课题,尚未得到研究。利用4D点云(3D点云视频),机器人系统可以通过从先前帧中提取时间信息来增强其鲁棒性。然而,现有的4D点云语义分割方法由于其网络结构中的空间和时间 信 息 丢 失 而 精 度 较 低 。 在 本 文 中 , 我 们 提 出SpSequenceNet来解决这个问题。该网络基于3D稀疏卷积设计,包括跨帧全局关注模块和跨帧局部插值模块 , 用 于 捕 获 4D 点 云 的 时 空 信 息 。 我 们 对SemanticKITTI进行了广泛的实验,并在mIoU上实现了43.1% 的 最 先 进 的 结 果 , 比 以 前 的 最 佳 方 法 高 出1.5%。1. 介绍场景理解是计算机视觉中的一个基本问题。对于在现实世界中工作的自动驾驶汽车和机器人系统来说,场景理解的性能和鲁棒性至关重要,因为错误的决策可能导致致命的事故。研究人员正试图使用更多的信息来提高性能和鲁棒性。由激光雷达或深度相机收集的3D点云提供比2D图像更自然的几何信息。此外,自动驾驶汽车和机器人总是在一段时间内连续工作,因此* 通讯作者:G. Lin(电子邮件:gslin@ntu.edu.sg)(a) 帧t= 0。(b) 帧t= 1。图1:正常摄像机视频和点云序列的两帧样本。在每帧中,第一行是用普通前置摄像头采集的,第二行是带注释的LiDAR点云的投影。点云是由LiDAR传感器捕获的汽车周围360度的点云,其具有比正常摄像头视频更广泛的感知范围。环境不断变化。在此约束下,系统可以利用来自非连续时间戳的时间信息作为提示和限制。语义分割是场景理解中的一项基本任务。在2D图像上,任务是每个像素的分类问题,为图像中的每个像素分配相应的类别。受FCN [13]的启发,在这一领域取得了巨大成就,例如Deeplab4575V3+[3]、RefineNet [12]和PSPNet [27]。同时,基于图像语义分割的方法也得到了广泛的应用,如点云分割、视频分割等。我们的工作结合点云语义分割和视频语义分割,以提高场景理解的性能。4D语义分割是一项更具挑战性的任务,因为涉及空间和时间信息。4D 数 据 集 具 有 丰 富 的 真 实 世 界 信 息 。 Se-manticKITTI [2](图1)是最大的4D点云数据集之一,总共包含约44,000个点云帧。SemanticKITTI基线方法将4D语义分割设置简化为3D,将多个点云框架组合成一个点云,并将3D分割方法应用于转换的3D点云。在多帧点云数据的合成过程中,会造成时空信息的为了解决这个问题,我们提出了SpSequenceNet来处理4D点云数据的3D立方体风格,减少了空间信息的损失。同时,我们设计了跨帧全局注意模块和跨帧局部插值模块来提取不同帧的时间特征。我们在SemanticKITTI上评估我们的网络[2]。主要贡献是:• 我们设计了一个网络SpSequenceNet,直接从4D点云(3D点云视频)中捕获空间和时间信息,用于语义分割。第• 我们引入跨帧全局注意力(CGA)模块,从先前的点云帧生成全局掩模,并将生成的掩模用于当前点点云帧分割• 本文提出了跨帧局部插值(CLI)方法来融合两点云之间的信息跳转该方法将时间信息和空间信息结合起来,提高了语义分割的质量.• 我们在Se- manticKITTI [2]上实现了一个新的最先进的结果,比现有方法高1.5%。2. 相关工作目前,关于4D语义分割的研究工作还很少。4D语义分割要求网络同时提取空间信息和时间信息。因此,我们将4D语义分割任务分为两个子任务,即:三维语义分割中的空间感知和时间感知是一个有待探索的新领域。我们将在下面的章节中介绍这两个相关的部分2.1. 三维语义分割由深度传感器收集点云以反映真实世界中的对象的形状。从点云数据中挖掘语义的前提是点云数据的稀疏性和无序性。在以往的研究中,传统的3D卷积[20]使用稠密计算,复杂度达到O(n3)。由于点云数据的稀疏性,使得三维卷积运算的计算量和资源浪费都很大,因此人们对点云数据的处理做了大量的工作,但在点云数据的利用方面还存在很多分歧。点云数据的处理方法主要有三种,即基于投影的方法、类PointNet方法和三维卷积。首先,基于投影的方法是2D语义分割的扩展[24,25,23]。这些方法执行投影,通常是球面投影,以将3D点变换到表面上。然后,在投影表面上应用图像基于投影 的方法达 到实时要求 (SqueezeSeg[24]达到13.5ms/每帧),而基于投影的方法的最终性能通常低于其他方法。类似PointNet的方法是从新结构PointNet [15]发展而来的。该系列方法直接对原始点云数据进行处理,将点云的坐标和RGB特征作为输入特征。然后,网络在每个点上单独应用共享的MLP以生成预测。性能是有限的,因为它放弃了局部空间关系。PointNet++ [16]限制小区域以提取局部空间关系。PointCNN [11]重新定义了具有MLP和邻居权重的卷积运算,以获得灵活的局部空间信息。KPConv [21]应用了一种更灵活的neigh-center机制,并在PointNet类方法中获得了最先进的性能逐点CNN [9]使用具有体素仓的内核权重来组合局部信息。KPConv [21]之后是PointCNN和PCNN,并在PointNet类方法中实现了最先进的性能。最后一种方法是3D卷积网络。如本节开头所述,3D卷积的计算这一领域的主要研究集中在有效性方面。在OctNet [17]中,一个oc树结构被注册来表示3D空间,并引导网络进行卷积。许多作品[18,6]都是基于这种方法进行的。他们将点云数据排列成立方体,并使用八叉树,Kdtree等对其进行索引,因此可以使用此索引轻松执行卷积此外,基于稀疏3D卷积的方法[8,4]仅沿着输入中的活动体素执行3D卷积稀疏3D卷积可以加速卷积运算,并与密集卷积共享知识库。4576点云帧t−1特征提取器跨帧跨帧跨帧跨帧全球关注全球关注全局注意局部插值(CGA 1)(CGA2)(CGA 3)(CLI)点云帧特征提取解码器图2:稀疏序列网络结构。输入数据是点云标架Pt−1和Pt。 输出是Pt的语义标签。此外,我们使用颜色来表示不同的功能。黄色块是基本神经网络块,它是一个3D残差网络。灰块是跨帧全局注意力(CGA)模块,用于融合上一帧的综合信息红色块是跨帧局部插值(CLI)模块,其被提议用于组合来自先前帧和当前帧的局部信息蓝色块分别是用于分割输出的解码器模块。回旋2.2. 4D时间特征提取4D时间特征提取的重点是Min-ing the信息在一 时间 系列. 一 重新表示 Minkowski卷积神经网络(Minkowski Convolutional Neural Network)[4]。它将卷积函数从2D推广到4D,因此无论维数多少,深度神经网络的理论都是共享的。4D MinkowskiNet缺乏可扩展性,因为计算消耗随着点和帧的增加而迅速增加。除了语义分割之外,还有其他一些关于4D时间特征提取的研究在ST-CNN [28]中,注册了用于时间信息的3D U-Net和1-D编码器,以自动编码大脑fMRI图像。ST-CNN利用4D时间特征在自动编码器上定位视线,这不能推广到语义分割任务。OpenPose [10]专注于使用4D点云跟踪人类姿势的任务。该方法利用四维体数据 , 通 过 人 体 检 测 和 二 维 回 归 来 实 时 检 测 人 手PointFlowNet [1]是基于pointNet类方法,融合了帧的两个特征t和t-1来推断每个点的运动然后,不同损失是为了提取自我运动。总的来说,有几种方法,直接操纵4D点云分割任务。因此,本文还从视频语义分割方法方面进行了一些探索。MaskTrack和网络调制[14,26]使用来自上一帧的信息和预测来指导当前预测。3. 稀疏序列网络我们在图2中展示了我们提出的模型结构一般来说,4D点云分割的问题设置类似于正常的3D语义分割。我们建立了基于传感器的数据集,这是两个来源,即。RGB-D相机(r,g,b)和LiDAR(r)注意,我们将每个点的坐标(x,y,z)和点特征fi,t作为模型输入,其维度形状为(X,Y,Z,3)(RGB-D)或(X,Y,Z,1)(LiDAR)。n帧点云群Pt,t∈n由pi,t={xi,t,yi,t,zi,t},i∈mt组成.在我们的设置中,我们使用体素方法,所有点都投影到3D张量中。因此,(x,y,z)将被投影到(x′,y′,z′),它表示点在立方体中的位置。 我们将f i,t设置为每个体素的值。我们的目标是4577i,t−1(g(f))图3:跨帧全局注意力(CGA)的简单示例。在当前帧中有一个样本点来显示CGA的过程。当t给定时,预测每个pi,t的标签在我们提出的框架中,我们使用两个框架Pt-1和Pt来进行预测。3.1. 网络架构概述我们的网络基于3D卷积,它利用体素方法。我们用输入Pt和Pt−1预测标签pi,t,这是两个3D张量。所提出的网络的设计遵循U-网的风格,由子流形稀疏卷积网络(SSCN)实现[7]。为了平衡训练和推理的速度和性能,我们对主干网络进行了一些修改。具体地说,在SSCN的原始版本中,有7个编码器块,它们都有到反卷积块的跳跃路径,形成了一种对称结构,但这种对称设计存在一些缺点,如表示能力有限和计算量大等。因此,我们减少了跳跃路径的数量。此外,我们在编码器中加入了一些模块,以增加表达能力和调整网络。解码器是流线型的,其中包含减少跳过路径。在我们的模型构建之后,下一步是图4:我们网络中跨框架全局注意力(CGA)的结构。注意关键特征。第二,跨帧局部插值算法主要利用局部信息,在编码端融合Pt-1和Pt的3.2. 跨帧全局关注如上所述,我们用跨帧全局注意(CGA)模块提取时间全局语义。我们在图3中展示了跨框架全局注意力模块的简单解释。受自注意机制的启发,我们设计了跨帧全局注意模块,为当前帧Pt生成掩码。该掩模总结了关于Pt-1的特征的外观信息。为了突出特征Ft的关键部分和不相关的特征,跨帧全局注意力模型,ule使用来自t-1的外观信息来指导模型。全局语义分布到每个级别的功能。我们选择的层中涉及的跳过路径,并应用跨帧的全局注意。该算法降低了计算复杂度,提高了计算精度.首先,适配器将所有特征向量fi,t-1转换为构建我们的模块来融合来自不同跳转 在编码器阶段,我们的网络接收Pt,′i,t−1并在f′上应用全局平均池化:Pt-1有两个不同的分支。如图2所示。为了构造更好的融合特征,我们将信息定义为全局信息和局部信息两部分.首先,针对全局信息设计了跨帧全局注意模型。一般来说,在不同的阶段有几个跨框架的全局注意模块。跨帧全局注意力模块选择特征,使得骨干网络能够更多地关注mt−1v=iji,j,t−1-是的(一)t−1这里,m t-1是来自前一帧Pt-1的点的总数。 GJ是网络中的特定适配器函数,并且需要将特征转换为适合于注意的特征。在我们的网络中,适配器由两个(1,1,1)3D卷积层组成,当3D ReLU层F4578不如图5所示,即寻找pi,t的k个最近邻pi′,t-1,并生成一个新的局部特征,以帮助模型融合时间信息。同时采用跨帧局部插值方法,对最近点的面积进行总结,将空间信息与所选点的特征进行融合。首先,距离度量Dt-1,t计算如下:Ct·CT+Ct−1·CT−2Ct·Dt−1,t=t t−1,(3)γ图5:我们网络中跨帧本地插值(CLI)的结构。该过程发生在当前点云框架中的每个点处。和3D批量标准化是在他们中间。通过平均池化获得全局信息。然后,我们生成通道式注意力图a,j,其可以公式化为:一 =h(v)=1。(二)jθj1+e−θTvj当确定aj时,输出特征F’可以是ob-j。其中C是由点坐标组成的度量。 γ是用于将距离重新缩放到近似尺度的超参数[0,1]。它基于输入数据的形状当输入的形状为32×32×32时,我们将γ设为32。 D t−1,t是一个近似的欧几里得距离矩阵,它减少了平方运算以加快计算速度。基于D t−1,t,获得最接近f j,t−1的前k个,表示面特征。每个点的权重w i,t−1为wi,t−1=(α−min(di,j,t,t−1,α))<$β,(4)其中,α和β是用于调整wi , t−1的手工参数。请注意,α对距离的权重有影响较低的α值使网络只考虑相邻的pi,t−1作为有效特征。β修改最终特征的范围以避免梯度消失。在实验中,我们将α和β定义为0.5和2。d i,j,t,t−1是D t−1,t中位置i,j的距离。 最小值操作确认无负权重。wi,t−1是相邻点pi,t−1的权重。由于点云的稀疏性,k个最近邻包含来自另一个对象的点的可能性仍然很不CLI具有L计算公式如下:由Ft保持 =aj<$Ft,其中Ft是以下的输入特征:当前点云框架。通过跨帧全局atten-在这种情况下,特征中的某些通道设置为零。因此,它降低了f t中的值,并保留了f ′中具有高值的部分的值。 P t−1扮演导师的角色。它教Li,t−1=i,t−1Σkfi,t −1 <$wi,t −1.(五)我网络的重点是真正的重要组成部分Pt。这个函数的简要结构如图4所示。3.3. 跨帧局部插值在编码阶段的最后,我们设计了一个跨帧局部插值(CLI)模块,将信息局部合并,并捕获两个点云帧之间的时间信息 光流方法[22,29]使用来自两个不同帧的最近像素来生成局部光流并实现显著的性能。 受这些方法的启发,设计了跨帧局部插值来提取点云Pt-1和Pt之间的部分差异。跨帧局部插值的基本思想是基于L i,t−1,我们将L i,t−1和当前帧的特征fi,t连接起来,并使用残差块来提取输出特征,如图5所示。我们相信该网络能够学习L i ,t−1和f i ,t之间的关系,并提高分割质量。4. 实验本节分为几个部分。本文首先介绍了SemanticKITTI[2]数据集、方法和实验结果。然后,我们比较了不同版本的系统的结果。最后,我们给出了一些进一步的讨论。4579Miou汽车自行车摩托车载重汽车其他车辆个人自行车手道路停车人行道他地建筑围栏植被主干地形杆交通标志移动汽车移动自行车移动人移动摩托车手移动其他车辆搬运车[19]第十九话34.184.92.018.221.118.51.60.00.083.938.364.015.385.849.179.543.256.736.431.240.31.16.41.930.142.2DarkNet53Seg41.684.130.432.920.020.77.50.00.091.664.975.327.585.256.578.450.764.838.153.361.514.115.20.228.937.8骨干41.989.920.623.323.424.63.50.00.089.859.973.529.690.265.082.363.664.150.949.666.140.721.67.57.51.0骨干+CGA42.689.627.523.826.523.37.50.00.089.558.273.228.091.066.283.063.865.343.647.561.735.725.831.03.20.4骨干网+CGA+CLI43.188.524.026.229.222.76.30.00.090.157.673.927.191.266.884.066.065.750.848.753.241.226.236.22.30.1表1:我们在SemanticKITTI上的结果。所有模型均在SemanticKITTI的训练集上进行训练,并在SemanticKITTI的测试集两种最先进的方法TangentConv和DarkNet53Seg的性能每个列的评估指标是mIoU。在表中,我们列出了我们提出的三种方法。我们的骨干网达到了41.9%的移动用户。第四行的模型是具有跨框架全局注意力模块的骨干网络。跨帧全局注意力模块实现了0.7%的改进香草骨干网络。最后一行是我们提出的网络SpSequenceNet的结果,它在第四行的模型上应用跨帧局部插值该网络通过DarkNet53Seg实现了+1.5%的改进。4.1. 数据集我 们 使 用 SemanticKITTI 数 据 集 , 该 数 据 集 基 于KITTI里程计任务的数据[5]。在Se- manticKITTI论文[2]中,他们建立了一个工具来手动注释每个帧上的语义数据。有22个3D点云视频,总共包含43,551帧。在实验中,数据集分为训练(19,130帧),验证(4,071帧)和测试(20,351帧)。在每次扫描中,数据是由LiDAR收集的一系列点。点的坐标与LiDAR的位置有关。测试集用于在他们的网站上进行最终评估1.SemanticKITTI的挑战包含两个部分,即单帧语义分割和多帧语义分割。单帧语义分割是针对单帧任务的,它包含19个类。多帧语义分割比单帧任务多包含6个目标类别,以区分运动对象和静止对象,包括汽车,行李箱,其他车辆,人,骑自行车的人,机动车等。骑自行车的。如前所述,我们的工作是用来自t-1,t-2.的附加信息预测时间t的标签。.我们评估我们的模型25类的多帧语义分割任务。4.2. 实现细节在预处理阶段,我们将前一帧Pt-1的坐标系转换为当前帧Pt的坐标系。然后,我们用相同的随机种子对Pt和Pt−1进行随机旋转和缩放,以确保Pt和Pt−1位于同一坐标系中接下来,我们使用0。05m为单位,将点Pt-1和Pt的坐标转换为体素格式。数据集中的最大坐标尺度约为150m,我们的1https://competitions.codalab.org/competitions/20331网络由2048×2048×2048体素组成 当单位设置为0时。05m时,输入立方体能够包含足够的点。因此,将单位设置为0。05m可以在计算量和性能之间达到最佳平衡。请注意,当t = 0时,这是当前点云框架P t 的特殊情况,这意味着它没有一个连续的框架Pt−1。我们简单地建立一个立方体,其中一个点位于(0,0,0),Ft-1填充0。当输入准备就绪时,我们使用Adam优化器训练SpSequenceNet,并设置批处理大小为14,这需要大约10GB的GPU内存。epoch的最大值为40。我们使用Nvidia RTX 2080Ti训练模型。每个模型需要大约五天的培训。在推理阶段,除了对测试数据进行数据扩充之外,我们采用相同的过程。在某些情况下,不可能把所有的点都放在立方体中。这些点的标签被设置为忽略标签,因为这些点的百分比低于1%,并且覆盖这些点的成本很高。4.3. 主要结果基 线 。 结 果 列 于 表 1 中 。 SemanticKITTI 的 基 线 是TangentConv [19]和DarkNet53Seg。他们将坐标系从Pt−4调整到Pt−1,并将所有帧合并为一个点云作为输入 。 TangentConv 是 一 种 类 似 PointNet 的 方 法 , 而DarkNet53Seg是一种基于投影的方法。骨干网。骨干网络删除了所有的附加功能,输入只是当前点云帧Pt。结果接近SemanticKITTI中的最佳基线Dark-Net 53 Seg,并且比Tan- gentConv高7.9%[19]。骨干+ CGA。这里我们采用骨干网和跨帧全局关注。输入基于两个点云框架Pt和Pt−1。与骨干网相比,性能提高了0.7%,4580Miou骨干41.9骨架+CGA42.6骨干网+CGA+CLI-142.0骨干网+CGA+CLI-343.1单个mIoU移动mIoU骨干54.4-骨干网+CGA+CLI-3+多头56.039.9骨干+CGA+CLI-3+重组57.1表2:跨帧局部插值(CLI)的不同top k之间的比较。对于跨帧全局关注的骨干网,top3 CLI的性能提高了0.5%,但top1 CLI导致性能下降。mIoU。骨干+ CGA + CLI。结构如图2所示。该网络包括骨干网络、跨框架全局关注和跨框架局部插值,利用前3个最近邻生成区域特征。我们的网络通过DarkNet53Seg实现了+1.5%的mIoU,通过骨干网络实现了+1.2%的mIoU综上所述,与表1中的其他先进方法相比,我们提出的方法对小对象和大型静态对象的移动更敏感,而对移动的大型对象不敏感。这种现象是由我们所提出的方法的特点。具体而言,在所提出的网络中,它检测同一体素系统中的特征在t-1和t当物体运动时,小物体的面积会发生明显的变化,而大物体的面积会发生明显的变化。对象区域不会发生太大变化。4.4. 结果比较SemanticKITTI中的方法讨论。点云拼接的处理方法消耗的资源比预期的要多。由于计算成本与点的范围高度相关,因此在我们的实验中,批量大小被强制设置为低于10。同时,当合理的最小训练周期数为30时,每个周期的训练时间达到6小时以上,这大约花费了8天的训练过程。这使得培训时间不可接受。因此,我们不使用这种方法在我们的骨干。SpSequenceNet的有效性。我们在图6中显示了用于比较的可视化。对于骨干网,我们可以比较图6b和图6c,观察到图6b中红框中的区域是不整洁的。具体地说,图6b表示普通主干网络.在图6c中,先前提到的区域更单一。因此,跨帧全局关注和跨帧局部插值提高了结果的平滑性跨帧全球关注。如表1所示,表3:单帧任务和运动状态分段。 第二列是单mIoU,这是单帧语义分割任务的性能。第三列是运动状态分割的性能。跨帧全局注意力的提高具有重要意义。具体来说,跨帧全局注意力增强了某些类中vanilla主干的性能,因为它有助于主干更好地跟踪小对象。前k跨帧局部插值。我们从上一帧Pt-1中为当前帧的点pi,t选择K个最近邻帧以生成跨帧局部插值的特征我们用前1、3和5个最近邻训练模型进行跨帧局部插值,在下面的部分中称为topk CLI对于top 1 CLI和top 3 CLI,我们将结果提交给SemanticKITTI进行测试。结果表明,前1个CLI导致mIoU下降,这与预期一致。表1中的前1个CLI的精度甚至比骨干+CGA更差对于边界上的点,具有相同正确标签的最近点的可能性很低,导致6%的同时,前3名CLI的结果达到最先进水平。最后,这里没有显示前5名CLI的结果,因为验证性能与每个时期的前3名CLI相似。前5名CLI的性能与前3名CLI相似因此,无需提交测试结果。根据计算量的增加,3近邻法适合于跨帧局部插值。4.5. 单帧和运动状态实验我们设计了一个实验来验证我们的方法的有效性的4D点云语义分割。SemanticKITTI的任务是预测几个特定对象的语义和运动状态。对于同一类内的对象,来自移动对象和静态对象的梯度可能会相互影响并降低训练结果。因此,单帧任务上的性能更能反映网络的整体性能。为了更好地说明,我们比较了在不同的设置运动状态的分割相应地,我们为单帧任务训练了一个骨干网络然后,在Backbone+CGA+CLI-3模型的基础上,在解码端引入了多头预测,称为多头预测法。一个预测头用于单帧任务,4581(a) 框架的语义标注(b) 骨干网结果。(c) 主干+ CGA + CLI结果。图6:不同版本网络的可视化示例。 图6a是Pt和Pt−1的真实值。 图6b是骨干网的结果,而图6c是我们提出的网络的结果。第三行中的结果比第二行中的结果更好,在比较了左上角的蓝色区域和我们的结果之后。另一个是对象运动状态。输入的地面实况也被修改为单帧和运动状态地面实况,这可以增强运动状态的梯度。最后,在第4.4节中提到的原始SpSequenceNet的多帧预测被重新组织为两个输出,单帧预测和运动状态。我们结合运动物体和静止物体来产生单帧预测,并从运动物体和静止物体中提取运动状态。重组预测的输出在表3中被称为重组预测。结果列于表3中首先,我们的网络具有改进语义分割的能力。与骨干网的mIoU性能相比,多头网络的mIoU性能提高了1.6%,重组预测的mIoU性能提高了2.7%,mIoU性能提高了54.4%结果表明,与重组预测相比,多头网络在运动状态方面有2%的改善,但在单帧任务方面有1.1%的下降,这表明如果模型直接将运动状态纳入训练对象中,则不利于对象的5. 结论本文提出了一种新的时空信息从4D点云。在SpSequenceNet中,我们设计了跨帧全局关注和跨帧局部插值两个模块来提高性能。跨帧全局注意力是由上一帧的全局特征生成的注意力层,并突出当前帧中每个点的关键特征。跨帧局部插值使用来自最近的最后帧的特征。通过实验,我们证明了SpSequenceNet模型及其构建组件、跨帧全局注意和跨帧局部插值的有效性。总的来说,我们提出的方法已显着优于国家的最先进的4D点云分割的方法,我们相信我们的方法可以有效地应用于其他一般的4D点云SEMANIC分割任务。6. 致谢这项工作由Delta-NTU Corporate Lab提供支持,并由Delta Electronics Inc.提供新加坡国家研究基金会(NRF)这项工作也得到了新加坡国家研究基金会在其AI新加坡计划下的部分支持(奖项编号:AISG-RP-2018-003)、MoE Tier-1研究基金:RG 22/19(S)和国家自然科学基金(61802348)。4582引用[1] Aseem Behl,Despoina Paschalidou,Simon Donné,andAn- dreas Geiger.Pointflownet:从点云学习用于刚性运动估计的表示。在IEEE计算机视觉和模式识别会议论文集,第7962-7971页[2] J. Behley,M.Garbade,A.Milioto,J.Quenzel,S.本克角Stachniss和J.胆SemanticKitti:用于激光雷达序列语义场景理解的数据集。在IEEE/CVF国际会议上,计算机视觉(ICCV),2019年。[3] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV,2018。[4] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积:Minkowski卷积神经网络。在IEEE计算机视觉和模式识别会议论文集,第3075-3084页,2019年。[5] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?KITTI Vision Benchmark Suite。 在IEEE Conf.计算机视觉和模式识别(CVPR),第3354-3361页,2012年。[6] 本杰明·格雷厄姆。空间稀疏卷积神经网络。arXiv预印本arXiv:1409.6070,2014。[7] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。CVPR,2018年。[8] 本杰明·格雷厄姆和劳伦斯·范德马滕。子流形稀疏卷积网络。arXiv预印本arXiv:1706.01307,2017。[9] Binh-Son Hua、Minh-Khoi Tran和Sai-Kit Yeung。逐点卷积神经网络。在IEEE计算机视觉和模式识别会议集,第984-993页[10] 姜浩和游全增。 实时多人- 在4D点云中的双手定位。arXiv预印本arXiv:1903.01695,2019。[11] Yangyan Li,Rui Bu,Mingchao Sun,Wei Wu,XinhanDi,and Baoquan Chen.Pointcnn:x变换点上的卷积神经信息处理系统进展,第820-830页,2018年[12] G. Lin,L.米兰角沈和我里德RefineNet:用于高分辨率语义分割的多路径细化网络。在CVPR,2017年7月。[13] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集,第3431-3440页[14] Federico Perazzi,Anna Khoreva,Rodrigo Benenson,Bernt Schiele,and Alexander Sorkine-Hornung.从静态图像中学习视频对象分割。 法律程序中IEEE计算机视觉和模式识别会议,第2663-2672页,2017年。[15] Charles R Qi, Hao Su ,Kaichun Mo, and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。arXiv预印本arXiv:1612.00593,2016。[16] Charles R Qi,Li Yi,Hao Su,and Leonidas J Guibas.Point- net++:度量空间中点集上的深度层次特征学习。arXiv预印本arXiv:1706.02413,2017。[17] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger 。Octnet:以高分辨率学习深度3D表示在IEEE计算机视觉和模式识别会议论文集,第3577-3586页[18] Hang Su , Varun Jampani , Deqing Sun , SubhransuMaji,Evangelos Kalogerakis,Ming-Hsuan Yang,andJan Kautz. Splatnet:用于点云处理的稀疏网格网络。在IEEE计算机视觉和模式识别会议论文集,第2530-2539页[19] Maxim Tatarchenko,Jaesik Park,Vladlen Koltun,andQian-Yi Zhou.三维稠密预测的切线卷积。在IEEE计算机视觉和模式识别会议论文集,第3887-3896页[20] Lyne Tchapmi 、 Christopher Choy 、 Iro Armeni 、JunYoung Gwak和Silvio Savarese。Segcloud:3D点云的语义分割。2017年国际3D视觉会议(3DV),第537-547页。IEEE,2017年。[21] Hugues Thomas , Charles R Qi , Jean-EmmanuelDeschaud,Beatriz Marcotegui,François Goulette,andLeonidas J Guibas. Kpconv:点云的灵活和可变形卷积。arXiv预印本arXiv:1904.08889,2019。[22] Xiaolong Wang,Allan Jabri,and Alexei A Efros.从时间的周期一致性中学习对应。在IEEE计算机视觉和模式识别会议的论文集,第2566-2576页[23] 远望、石天月、云鹏、雷台、柳明。Pointseg:基于3d激光雷达点云的实时语义分割arXiv预印本arXiv:1807.06288,2018。[24] 吴 碧 晨 , Alvin Wan , Xiangyu Yue 和 Kurt Keutzer 。Squeezeseg:具有递归crf的卷积神经网络,用于从3d激光雷达点云进行实时道路对象分割在2018年IEEE机器人和自动化国际会议,第1887-1893页IEEE,2018年。[25] 吴碧晨、周宣宇、赵思成、岳翔宇和库尔特·库茨。挤压egv2:改进的模型结构和无监督域自适应,用于从激光雷达点云进行道路对象分割。在2019年国际机器人与自动化会议(ICRA)上,第4376IEEE,2019。[26] Linjie Yang,Yandan Wang,Xuehan Xiong,JianchaoYang,and Aggelos K Katsaggelos.经由网络调制的高效视频对象分割。在IEEE计算机视觉和模式识别会议论文集,第6499-6507页[27] Hengshuang Zhao , Jianping Shi , Xiaojuan Qi ,Xiaogang Wang,and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和模式识别会议论文集,第2881-2890页[28] Yu Zhao,Xiang Li,Wei Zhang,Shijie Zhao,MiladMakkie,Mo Zhang,Quanzheng Li,and Tianming Liu.基于时空卷积神经网络的4D fmri数据4583(st-cnn). 医学影像计算和计算机辅助干预国际会议,第181-189页。Springer,2018.[29] Xizhou Zhu,Yujie Wang,Jifeng Dai,Lu Yuan,andYichen Wei. 用于视频对象检测的流引导特征聚合在IEEE计算机视觉国际会议论文集,第408-417页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功