4D时空卷积神经网络的设计与应用

192 浏览量更新于2023-10-19 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14D时空ConvNets：Minkowski卷积神经网络蔡志成chrischoy@stanford.edu郭俊英jgwak@stanford.edu西尔维奥·萨瓦雷塞ssilvio@stanford.edu摘要在许多机器人和VR/AR应用中，3D视频是现成的输入源（深度图像序列或LIDAR扫描）。然而，在许多情况下，3D视频通过2D convnets或3D感知算法逐帧处理在这项工作中，我们提出了用于时空感知的四维卷积神经网络，它可以使用高维卷积直接处理这种3D视频。为此，我们采用稀疏张量[8，9]，并提出了包含所有离散卷积的广义稀疏卷积。为了实现广义稀疏卷积，我们为稀疏张量1创建了一个开源的自动微分库，为高维卷积神经网络提供了广泛的功能。我们使用该库创建了4D时空卷积神经网络，并在各种3D语义分割基准上对其进行了验证，并提出了用于3D视频感知的4D数据集为了克服4D空间中的挑战，我们提出了混合内核，广义稀疏卷积的特殊情况，以及在7 D空间-时间-色度空间中执行时空一致性的三边固定条件随机场。在实验中，我们证明了仅具有广义3D稀疏卷积的卷积神经网络可以大幅优于2D或2D-3D混合方法。此外，我们还证明了在3D视频上，4D时空卷积神经网络对噪声具有鲁棒性，并且优于3D卷积神经网络。1. 介绍在这项工作中，我们感兴趣的是3D视频感知。3D视频是3D扫描的时间序列，诸如来自深度相机的视频、LIDAR扫描的序列或相同对象或身体部分的多次MRI扫描（图1B）。①的人。随着LIDAR扫描仪和深度相机变得更加经济实惠并广泛用于机器人应用，3D视频成为机器人应用的现成输入来源。1https://github.com/StanfordVL/MinkowskiEngine2在提交时，我们以67.9%的mIoU在Scan- Net [5]上实现了最佳性能图1：3D视频示例：不同时间点的3D场景。最好在展示上看。1D：线二维：正方形3D：立方体4D：Tesseract图2：各种维度的超立方体的2D投影机器人系统或AR/VR应用。然而，在将3D视频用于高级感知任务中存在许多技术挑战首先，3D数据需要异构的表示和处理，这要么疏远用户，要么难以集成到更大的系统中。其次，3D卷积神经网络的性能更差或与2D卷积神经网络相当。第三，用于快速大规模3D数据的开源库数量有限是另一个因素。为了解决高维感知中的大多数（如果不是全部）挑战，我们采用稀疏张量[8，9]解决我们的问题，并提出了稀疏张量的广义稀疏卷积，并发布了一个开源的具有全面标准神经网络函数的稀疏张量我们采用稀疏表示有几个原因。目前，3D感知有各种并行工作：密集的3D卷积[5]，点网变体[23，24]，连续卷积[12，16]，表面卷积[21，30]和八叉树卷积[25]。在这些表示中此外，它允许在传统神经网络库中进行同构数据表示，因为它们中的大多数都支持稀疏张量。其次，稀疏卷积非常类似于标准卷积（第二节）。（3）成功地在307530762D感知以及3D重建[4]，特征学习[34]和语义分割[5]。由于广义稀疏卷积是标准2D卷积的直接高维扩展，因此我们可以重新使用所有架构创新，例如残差连接，批量归一化和许多其他的高维问题，几乎没有第三，稀疏卷积是高效和快速的。它只计算预定义坐标的输出，并将其保存到紧凑稀疏张量中（Sec.（3）第三章。它节省了内存和计算，特别是对于大部分空间为空的3D扫描或使用所提出的库，我们创建了第一个大规模的3D/4D网络3，并将其命名为Minkowski网络，这是在物理学中的时空连续体Minkowski然而，即使有了有效的表示，仅仅将3D卷积缩放到高维空间也会由于维数灾难而导致显著的计算开销和存储器一个二维卷积-内核大小为5的解决方案需要52=25的权重，在3D中以指数方式增加到53=125，在4D中为625（图2）。2）的情况。然而，这种指数级增长并不一定会转化为更好的性能，而且会显著降低网络速度。为了克服这一挑战，我们提出了自定义内核与非（超）立方形状。最后，4D时空预测在整个空间和时间上不为了加强一致性，我们提出了一个条件随机场定义在一个7维三边空间（空间-时间-颜色）与stationary一致性函数。我们使用变分推理将条件随机场转换为可微递归层，可将其实现为7D Minkowski网络，并端到端地训练4D和7D网络在实验中，我们使用各种3D基准，涵盖室内[5，2]和室外空间[28，26]。首先，我们证明了没有2D卷积神经网络的纯3D方法可以大大优于2D或混合深度学习算法。4此外，我们从Synthia [28]和Varcity [26]创建4D数据集，并报告消融研究。的时间成分。2. 相关工作4D时空感知基本上需要3D感知，因为沿着时间维度的4D切片是3D扫描。然而，由于没有关于使用神经网络的4D感知的详细工作，我们将主要介绍3D感知，特别是使用神经网络的3D分割。我们将之前所有在提交时，我们提出的方法是第一个非常深的3D卷积神经网络，具有超过20层。4我们在ScanNet基准测试中实现了67.9%的mIoU，在提交时超过了所有算法，包括最好的同行评审工作[6]。在3D中可以作为（a）3D卷积神经网络或（b）没有3D卷积的神经网络最后，我们将介绍早期的4D感知方法。虽然2D视频是时空数据，但我们不会在本文中介绍它们，因为3D感知需要完全不同的数据处理，实现和架构。3D卷积神经网络3D卷积神经网络的第一个分支使用矩形网格和密集表示[31，5]，其中空空间表示为0或带符号距离函数。这种直接的表示是直观的，并且得到了所有主要公共神经网络库的支持。然而，由于3D扫描中的大部分空间是空的，因此其遭受高存储器消耗和慢计算。为了解决这个问题，OctNet [25]提出使用八叉树结构来表示3D空间和卷积。第二个分支是稀疏3D卷积神经网络[29，9]。有两种用于高维度的量化方法：矩形网格和permutohedral晶格[1]。[29]使用permutohedral lattice，而[9]使用矩形网格进行3D分类和语义分割。最后一个分支是3D伪连续卷积神经网络[12，16]。与以前的作品不同，他们使用连续空间中的连续内核定义卷积然而，在连续空间中寻找邻居是昂贵的，因为它需要KD树搜索而不是哈希表，并且容易受到点云不均匀分布的影响。没有3D卷积的神经网络。最近，我们看到了用于3D感知的没有3D卷积的神经网络的巨大增长。由于3D扫描由薄的可观察表面组成，[21，30]建议在表面上使用2D卷积进行语义分割。另一个方向是基于 PointNet 的方法 [23 ， 24] 。PointNets使用一组输入坐标作为多层感知器的特征。然而，这种方法处理有限数量的点，因此用于从输入中裁剪出部分的滑动窗口被用于大空间，使得感受野大小相当有限。[15]试图在多个点网之上使用递归网络来解决这些缺点，[16]提出了一种用于PointNet下层的3D连续卷积变体，并获得了显着的性能提升。4D感知第一个4D感知算法[19]提出了一种用于4D心脏图像分析的动态可变形气球模型。后来，[17]使用4D马尔可夫随机场进行心脏分割。最近，[35]将用于空间数据的3D-UNet与用于时间数据的1D-AutoEncoder相结合，并将该模型应用于自动编码大脑fMRI图像。在本文中，我们提出了第一个卷积神经网络的高维空间，包括4D3077uppuu+iu+时空数据或3D视频。与其他将时间数据与递归神经网络或浅层模型相结合的方法相比，我们的网络在整个网络中始终使用同质表示，卷积和其他神经网络具体而言，卷积被证明在许多2D/3D空间感知以及时间或序列建模中是有效的[3]。3. 稀疏张量与卷积在传统的语音、文本或图像数据中，特征被密集地提取。然而，对于3维扫描，这种密集表示是低效的，因为大部分空间其中，ND是定义核的形状的偏移的集合，并且ND（u，Ci，n）={i|u+i ∈Ci n，i ∈ND}作为存在于C in中的距当前中心u的偏移量的集合。Cin和Cout是稀疏张量的预定义输入和输出坐标首先，请注意，输入坐标和输出坐标纵坐标不一定相等。其次，我们定义了卷积核的形状任意与ND。这种一般化包括许多特殊情况，如扩张卷积核和超三次核。另一间-当Cout= Cin且N D= VD（K）时，我们有“稀疏子流形卷积”[9]。如果我们有Cin= Cout= Z D和N D=VD（K），则广义稀疏卷积等价于密集卷积为空.相反，我们可以将非空空间保存为它的共同点。纵坐标和相关特征。这种表示是稀疏矩阵的N维扩展。特别是，我们遵循COO格式[32]，因为它对于（等式。2）的情况。对于跨回旋，C输出4. 闵可夫斯基发动机Cin.邻居查询（Sec.第3.1节）。最后一个轴保留给批次索引，以分离不同批次中相同位置的点[9]。简单地说，我们可以将一组4D坐标表示为C={（xi，yi，zi，ti）}i或矩阵C，并且关联特征F={fi}i或作为矩阵F。然后稀疏张量可以写为在本节中，我们提出了一个用于稀疏张量和广义稀疏卷积的开源自动微分库（Sec.（3）第三章。由于它是一个具有许多函数的扩展库特别是需要非平凡工程的前向GPU功能。x1y1z1t1b1T.T.14.1. 稀疏张量量化C=.F=100。（一）。xNyNzNtNbN。fTN稀疏卷积神经网络的第一步是数据处理以生成稀疏张量，将输入转换为唯一坐标并关联其中bi是坐标i的批索引，fi是向量。节中6.我们用色空间扩充四维空间，并创建一个用于三边滤波的7D稀疏张量。3.1.广义稀疏卷积在本节中，我们将[8，9]中提出的稀疏卷积推广到通用输入和输出坐标以及任意核形状。广义稀疏卷积不仅包括所有的稀疏卷积，功能.在Alg. 1，我们列出了这个过程的GPU功能。具体来说，对于语义分割，我们希望为每个输入坐标-特征对生成一个标签。如果一个体素中有多个不同的语义标签，我们在训练过程中通过使用IGNORE_LABEL标记它来忽略这个体素。首先，我们将所有坐标转换为哈希键，并找到唯一的哈希键-标签对以消除冲突。请注意，SortByKey、UniqueByKey和ReduceByKey都是标准的Thrust库函数[20]。约简函数f（（lx，lx），（ly，iy））=>传统的密集卷积设xin∈R Nin 是一个N-在D维空间中，在u∈RD（D维坐标）处的D维输入特征向量，并且卷积核权重为W∈RKD×Nout×Nin。我们将权重分解为具有大小为K-DN输出×N输入作为Wi，|{i}i|=KD. 然后，在D维中的常规算法1GPU稀疏张量量化输入：坐标Cp∈RN×D，特征Fp∈RN×Nf，目标标签l∈ZN，量化步长vlC′←地板（Cp/vl）k←hash（C′），i←sequence（N）（（i′，l′），k′）←SortByKey（（i，l），key=k）xout=Σi∈VD（K）对于u∈ZD，Wixin、（二）（i′，（k′，l′））←UniqueByKey（i′，key=（k′，l′））（l"，i"）←ReduceByKey（（l"，i"），key=k"，fn=f）returnC′ [i′′，：]，F[i′′，：]，l′′pp其中，VD（K）是D维超空间中的偏移列表以原点为中心的立方体。例如，V1（3）={−1，0，1}。在Eq.3松弛Eq.二、Σ（IGNORE_LABEL，ix）接受标签密钥对并返回忽略标签，因为至少有两个标签键对在同一个键表示存在标签冲突。一个CPU版本的作品xout=i∈ND（ u，Cin）在u+ iWxi3078对于u∈ Cout（3）类似地，除了处理所有归约和分类之外连续地3079一[1]iI[n]iO[n]i4.2. 广义稀疏卷积流水线中的下一个步骤是在给定输入坐标Cin的情况下生成输出坐标Cout（等式2）。（3）第三章。当在传统神经网络中使用时，该过程仅需要卷积（或池化）层步幅大小，put坐标和输入稀疏张量步幅大小（坐标之间的最小距离）。补充材料中介绍了算法此外，我们还支持动态设置任意输出坐标C为广义稀疏卷积。接下来，为了用内核卷积输入，我们需要一个映射以确定哪些输入影响哪些输出。我们将这种映射称为核映射，并将它们定义为输入索引和输出索引的成对，对于i∈ ND. 最后，给定输入和输出坐标，核映射，以及核权重Wi，我们可以计算广义稀疏卷积通过迭代通过每个偏移i∈ ND（Alg.（二）其中I[n]和O[n]表示算法2广义稀疏卷积要求：内核权重W，输入特征Fi，输出特征占位符FO，卷积映射M，一曰： Fo←0//设置为02：对所有Wi，（Ii，Oi）∈（W，M）做算法3 GPU稀疏张量最大池化输入：输入特征F，输出映射O（I，O）S←序列（长度（O′））S′，O返回最大池内核（S′，I′，O以多种方式实施一种方法是创建一个稀疏张量，它定义了稀疏矩阵乘法的核映射。如果我们不划分每个输出坐标的输入数量，则此信息可以对区域的密度进行编码，因此我们提出了一种不划分输入数量的变体作为总和池。我们使用cuSparse库进行稀疏矩阵矩阵（ cusparse_csrmm ）和矩阵向量乘法（cusparse_csrmv）来实现这些层。与max pooling相同，M是（I，O）输入到输出内核映射。对于全局池化，我们创建内核映射作为每个批次到原点的所有输入坐标，并使用相同的 Alg 。 4. 第一章转置池（unpooling）的工作原理类似。对于总和池，我们算法4GPU稀疏张量平均池化输入：映射M=（I，O），特征F，一个向量13：Ftmp←Wi[FiiIi[2]、...、F i]//（cu）BLASSM= coo2csr（row=O，col=I，val=1）′4：Ftmp←Ftmp+[Fo，Fo、...、 F o]F= cusparse_csrmm（SM，F）oOi[1]第六章：端oOi[2]Oi[1]、...、F oOi[2]] ←FtmpOi[n]N= cusparse_csrmv（SM）returnF′/N、1）索引列表的第n个元素分别为I和O，Fi和FO也是第n个输入和输出特征向量不计算N，也不将最终特征除以N。n n分别转置广义稀疏卷积（去卷积）类似地工作，除了输入和输出坐标的角色颠倒。4.3. 最大池化与密集张量不同，在稀疏张量上，每个输出的输入特征的数量因此，这为池化创建了非平凡的实现设I和O分别是连接所有{Ii}i和{Oi}i（i∈ ND）的向量。我们首先找出每个输出的输入数这些输入的坐标和索引。Alg. 3减少了映射到相同输出坐标的输入要素。Sequence（n）生成从0到n - 1的整数序列，归约函数f（（k1，v1），（k2，v2））=min（ v1 ， v2 ）返回给定两个键值对的最小值MaxPoolKernel是一个自定义的CUDA内核，它使用S ′来减少特征，S ′包含I的开始索引x和相应的输出索引O“。4.4. 全局/平均合并、汇总平均池化和全局池化计算每个输出坐标的输入要素的平均值这可以4.5. 非空间函数对于不需要空间信息（坐标）的函数，我们可以将函数直接应用于特征F。例如，非线性不需要诸如ReLU的空间信息。此外，对于批量归一化，由于F的每行表示一个特征，因此我们可以直接在F上使用1D批量归一化函数。5. Minkowski卷积神经网络在本节中，我们介绍4维时空卷积神经网络。我们将时间维度视为额外的空间维度，并创建一个具有4维卷积的神经网络。然而，这种高维卷积产生了一些独特的问题。首先，计算成本和网络中参数的数量随着我们增加维度而呈指数级增加。然而，我们的实验表明，这些增加并不一定会导致更好的性能。其次，网络没有动力使预测在整个空间和时间上保持一致解决、F、F5：[F3080稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，256稀疏卷积3×3×3+ 3，256稀疏卷积3×3×3+ 3，128稀疏卷积3×3×3+ 3，128稀疏卷积3×3×3+ 3，128稀疏卷积3×3×3+ 3，128稀疏卷积3×3×3+ 3，64稀疏卷积3×3×3+ 3，64稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，256稀疏卷积3×3×3+ 3，256线性稀疏卷积3×3×3+ 3，64稀疏卷积3×3×3+ 3，64第一个问题，我们利用广义稀疏卷积的一个特殊性质，并提出了非传统的内核形状，节省内存和计算，具有更好的推广。其次，对于时空一致性，我们提出了一个高维条件随机场（在7 D空间-时间-颜色空间中），它可以增强一致性并端到端地训练基础网络和条件随机场5.1. Tesseract核与混合核3D数据的表面积与时间成线性增加，与空间分辨率成二次方增加。然而，如果我们使用一个4D超立方体，或一个tesseract（图。对于卷积核，参数数量的指数增长很可能导致过参数化、过拟合以及高计算成本和内存消耗。相反，我们提出了一个混合核（非超立方，非permutohedral），利用任意形状的的广义稀疏卷积，ND.Conv 7×7，64池Conv 3×3，64Conv 3×3，64Conv 3×3，64Conv 3×3，64Conv 3×3，128Conv 3×3，128Conv 3×3，128Conv 3×3，128Conv 3× 3，256Conv 3× 3，256Conv 3× 3，256Conv 3× 3，256Conv 3× 3，512Conv 3× 3，512Conv 3× 3，512Conv 3× 3，512线性池具体来说，我们定义了十字形核和立方核。Kernels（图）3）以及混合内核。对于空间维度，我们使用三次核来准确地捕获空间几何。对于时间维度，我们使用十字形内核来连接空间中跨时间的同一点。我们称这个内核为混合内核，如图1所示。3 .第三章。我们的实验表明，混合内核优于超正方形内核，同时要快得多。横Hypercross立方体超立方体混合图3：时空中的各种内核。红色箭头表示时间维度，其他两个轴表示空间维度。第三个空间轴是隐藏的可视化。5.2. 残差Minkowski网络广义稀疏卷积允许我们任意定义步长和核形状。因此，我们可以在整个网络中均匀地使用相同的广义稀疏卷积来创建一个高维网络，使实现更容易和通用。此外，由于网络的构建块是卷积，它允许我们直接将最近的2D架构创新模仿为高维网络。因此，我们直接采用最成功的网络架构之一来解决我们的问题，并创建了多个与原始残差网络非常相似的高维网络实例。对于第一层，而不是7×7的2D卷积，我们图4：ResNet18（左）和MinkowskiNet18（右）的架构。注意结构相似性。×表示超三次核，+表示超交叉核。(best显示）使用5×5×5×1广义稀疏卷积。然而，对于其余的网络，我们遵循原始设计，并在图中可视化ResNet18的最终4D变体。4.第一章对于u形变体，我们创建了多个跨步稀疏卷积和跨步稀疏转置卷积，其中跳跃连接连接具有相同步幅大小的层（图2）。（五）。我们使用这种架构的变体进行语义分割实验。6. 三边固定-CRFMinkowskiNet对不同时间步长的预测在整个时间轴上不一定一致为了使这种一致性更加明确，并提高预测，我们提出了一个条件随机场与一个固定的核定义在一个三边空间。三边空间由三维空间、一维时间和三维色空间组成;它是图像处理中双边空间的扩展。颜色空间允许空间上相邻的具有不同颜色的点（例如，在边界上）在颜色空间中相隔很远。与具有高斯边缘势和密集连接的传统CRF不同[14，36]，除了平稳性约束外，我们不强制兼容函数的函数族我们使用变分推理，用平均场近似[13]近似分布，并转换类似于[36]的不动点更新。利用广义稀疏卷积核的任意形状，将不动点更新转化为7维空间中的广义稀疏卷积在训练过程中，我们共同优化了一个基础网络，稀疏卷积5×5×5×1，643081图5：MinkowskiUNet32的架构。×表示超三次核，+表示超交叉核。（最佳展示）和通用报告格式端到端的兼容性功能。6.1. 定义令7 D（空间-时间-色度）空间中的CRF节点为X1。我们使用相机extrinsics转换的空间坐标的一个节点xi被定义在世界坐标系中，使静态点保持在同一坐标，即使当观察者移动。对于每个节点xi，我们定义一元势为φu（xi），两两势为φp（xi，xj），其中xj是xi的近邻，N7（xi）.最终的条件随机场定义为：P（X）=1expφ（x）+φ（x，x）算法5TS-CRF的变分推理要求：输入：所有xi的Logit分数φu;相关坐标Ci，颜色Fi，时间TiQ0（X）=expφu（X），Ccrf=[C，F，T]对于n从1到N做Qn=SparseConv olution（（Ccrf，Qn−1），kernel=φp）Qn=Softmax（φu+Q<$n）结束返回QN最后，我们使用φu作为4D Minkowski网络的logit预测，并使用一个 4D Minkowski 网络和一个 7DMinkowski网络使用等式（1）训练φu和φp五、ZUI我pijj∈N7（xi）LΣNL中国Qn+其中Z是配分函数;X是所有节点的集合并且φp必须满足平稳性条件φp（u，v）=φp（u+τu，v+τv），其中τu，τv∈RD.=φpn Qn+、φp=∂φun Qn+φu（五）6.2. 变分推理最优化问题arg maxXP（X）是一个难处理的问题。因此，我们使用变分推理来最小化最优P（X）和近似分布Q（X）Q之间的分歧。具体来说，我们使用平均场近似，Q=iQi（xi）作为封闭形式解存在。从[13]中的定理11.9，Q是局部最大值当且仅当7. 实验为了验证所提出的Minkowski网络，我们首先使用多个标准的3D基准进行3D语义分割。接下来，我们从具有时间信息的3D数据集创建多个4D数据集并执行消融研究。7.1. 执行1Q（x）=实验EΣφ（x）+φ（x，x）我们实施的Minkowski发动机使用i i Ziu i−iQ −ipi jj∈N7（xi）C++/CUDA并使用PyTorch包装它[22]。数据被准备X−i Q−i表示除i以外的所有节点或变量。在加载点云、应用数据增强，并与Alg。1在飞为第一个。最终的定点方程是Eq。4.第一章推导在补充材料中。对于非空间函数，我们直接使用PyTorch函数4）.Σ Σ+7.2美元。训练和评价Qi（xi）=我expφu（xi）+j∈N7（xi）xjφp（xi，xj）Qj（xj）（四）我们使用Momentum SGD和Poly调度器从学习率1e-1开始训练网络，并应用数据增强。6.3. 7D稀疏卷积有趣的是，等式中的加权和φp（xi，xj）Qj（xj）4等价于7D空间中的广义稀疏卷积，因为φp是固定的，并且可以使用N7定义边缘。最后的算法是在Alg。五、稀疏卷积5×5×5×1，64池稀疏卷积3×3×3+ 3，64稀疏卷积3×3×3+ 3，64稀疏卷积3×3×3+ 3，64稀疏卷积3×3×3+ 3，64稀疏卷积2×2×2×1，/2稀疏卷积3×3×3+ 3，128稀疏卷积3×3×3+ 3，128稀疏卷积3×3×3+ 3，128稀疏卷积3×3×3+ 3，128稀疏卷积2×2×2×1，/2稀疏卷积3×3×3+ 3，256稀疏卷积3×3×3+ 3，256稀疏卷积3×3×3+ 3，256稀疏卷积3×3×3+ 3，256稀疏卷积2×2×2×1，/2稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏转换树2×2×2×1，×2稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏转换树2×2×2×1，×2稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏卷积3×3×3+ 3，512稀疏转换树2×2×2×1，×2稀疏卷积1×1× 1 ×1，标签X1Z3082包括随机缩放，围绕重力旋转轴、空间平移、空间弹性失真以及色度平移和抖动。为了进行评估，我们使用标准的平均交集超过并集（mIoU）和平均准确度（mAcc）来衡量之前的工作。转换体素级预测3083表1：ScanNet上的3D语义标签基准测试[5]图6：3D（上）和4D网络（下）在Synthia上的可视化。远离汽车的道路（蓝色）经常被混淆为具有3D网络的人行道（绿色），该网络在时间平均后仍然存在然而，4D网络准确地捕捉到了它。对于点级预测，我们只是从最近的体素中心传播7.3. 数据集扫描网ScanNet [5] 3D分割基准由真实房间的3D重建它包含1.5k个房间，一些重复的房间用不同的传感器捕获。我们把整个房间都输入到MinkowskiNet中，完全是卷积的，没有裁剪。斯坦福大学3D室内空间（S3DIS）。数据集[2]包含三个不同建筑物的六个楼层的3D扫描。我们使用Fold#1分割，遵循许多以前的作品。我们还使用5cm体素，不使用旋转平均。RueMonge 2014（Varcity）. RueMonge 2014数据集[26]为Rue Mongue的多视图3D重建提供了语义标签为了创建4D数据集，我们实时裁剪3D重建以生成时间序列。所有实验都使用官方分割。辛西娅4D 我们使用Synthia数据集[28]来创建3D视频序列。我们在9种不同的天气条件下使用6个驾驶场景序列。每个序列由从移动的汽车顶部拍摄的4张立体RGB-D图像组成我们将深度图像反向投影到3D空间以创建3D视频。我们在图中可视化了一个序列的一部分。1.一、我们使用序列1-4除了日落，春天，和雾的火车分裂;序列5对雾天进行验证;以及序列6日落和春天用于测试。总共，训练/验证/测试集分别包含20 k/815/1886个3D场景。由于数据集是纯合成的，我们向输入点云添加了各种噪声来模拟噪声观测。我们使用弹性失真，高斯噪声和色移的颜色的嘈杂的4D Synthia实验。7.4. 结果和分析ScanNet Stanford 3DIndoor ScanNet 和Stanford Indoor数据集是最大的非合成数据集之一，这使得这些数据集成为3D分割的理想测试平台与CVPR截止日期前发表的最佳作品相比，我们在扫描网络上实现了+19%的mIOU，在斯坦福大学上实现了+7%的mIOU这是由于网络的深度和空间的精细分辨率我们训练†：CVPR后提交。图像：另外使用2D图像。补充材料中的每个类IoU。我们的方法旁边的括号表示体素大小。表2：4D Synthes数据集方法MiouMACC3D MinkNet2076.2489.313D MinkNet20 + TA77.0389.204D Tesseract MinkNet2075.3489.274D MinkNet2077.46 88.0134D MinkNet20 + TS-CRF4D MinkNet32 + TS-CRF78.30 90.2378.67 90.51TA表示时间平均。补充材料中的每个类IoU图7：Scannet预测的可视化。从顶部开始，一个3D输入点云，一个网络预测和地面实况。相同的网络使用2cm体素进行60k次迭代，并在截止日期后在ScanNet上实现了 72.1%的mIoU对于所有评估，我们将整个房间提供给网络，并完全卷积处理。方法 MiouScanNet [5]30.6SSC-UNet [10]30.8[24]第二十四话33.9ScanNet-FTSDF38.3[29]第二十九话39.3[30]第三十话43.8[21]第二十一话44.23DMV汽车保险公司 [6]48.43DMV-FTSDF50.1PointNet++软件52.3MinkowskiNet42（5厘米）67.9MinkowskiNet42（2cm）†72.13084表3：有噪声的Synthia 4D数据集IOU建筑路人行道围栏植被极车交通标志行人拉内马金红绿灯Miou3D MinkNet4287.95497.51178.34684.30796.22594.78587.37042.70566.66652.66555.35376.7173D MinkNet42 + TA87.79697.06878.50083.93896.29094.76485.24843.72362.04850.31954.82575.8654D Tesseract MinkNet4289.95796.91781.75582.84196.55696.04291.19652.14951.82470.38857.96078.8714D MinkNet4288.89097.72085.20684.85597.32596.14792.20961.79461.64755.67356.73579.836TA表示时间平均。由于输入点云坐标是有噪声的，因此沿时间维度进行平均会引入噪声。表4：斯坦福地区5检验（折叠#1）（S3DIS）[2]表5：RueMonge 2014数据集（Varcity）任务3 [26]方法MiouMACC方法MiouPointNet [23] 41.0948.98MV-CRF [27]42.3SparseUNet [9] 41.7264.62Gradde等人[七]《中国日报》54.4SegCloud [31] 48.9257.35RF+3D CRF [18]56.4[30]第三十话52.860.7[25]第25话59.23D RNN [33]53.471.3[29]第二十九话65.4[16]第十六话SuperpointGraph [15]MinkowskiNet2057.26 63.8658.0466.53D MinkNet204D MinkNet2062.60 69.624D MinkNet20 + TS-CRF66.4666.5666.59补充材料中的每个类IoU。图8：斯坦福数据集Area 5测试结果的可视化。从上到下，RGB输入，预测，地面实况。4D分析RueMongue数据集是一个小数据集，范围是街道的一个部分，因此使用最小的网络，我们能够实现最佳结果（Tab.（五）。然而，结果很快饱和.另一方面，Synthia 4D数据集的3D扫描数量级高于任何其他数据集，因此更适合消融研究。在选项卡中。2、Tab。3、我们可以看到4D网络和TS-CRF的有效性。具体来说，当我们模拟由于训练集较小，性能很快饱和补充材料中的每个类IoU。在4D Synthia数据集上的感官输入中的噪声，我们可以观察到4D网络对噪声更鲁棒请注意，与3D网络相比，添加到4D网络的参数数量少于6.4%和6e-3TS-CRF的%因此，我们在计算上略有增加我们可以得到更高精度的鲁棒算法此外，当我们使用4D网络处理时间序列时，我们甚至可以在批处理模式下在选项卡上。6，我们改变体素大小和序列长度，并测量3D和4D网络的运行时间，以及使用TS-CRF的4D网络。表6：使用3D和4D MinkNet处理3D视频的时间，每个时间步长的扫描体积为50 m ×50 m× 50 m体素尺寸0.6米0.45米0.3米视频长度3D4D4D-CRF3D4D 4D-CRF3D4D4D-CRF30.18 0.140.170.25 0.220.270.43 0.490.5950.31 0.230.270.41 0.390.470.71 0.941.1370.43 0.310.380.58 0.610.740.99 1.592.028. 结论在本文中，我们提出了一个广义稀疏卷积和稀疏张量的自动微分库。使用这些，我们创建了一个用于时空感知的4D卷积神经网络。在实验中，我们证明了3D卷积神经网络的性能优于2D网络，4D感知对噪声的鲁棒性更强。MinkowskiNet32 65.3571.713085引用[1] Andrew Adams，Jongmin Baek，Myers Abraham Davis.使用permutohedral lattice的快速高维滤波。在ComputerGraphics Forum ，第 29 卷，第 753- 762 页中。 WileyOnline Library，2010。2[2] 放大图片创作者： Iro Armeni ， Ozan Sener ， AmirR.Zamir ， Helen Jiang ， Ioannis Brilakis ， MartinFischer，and Silvio Savarese.大规模室内空间的三维语义解析。在2016年IEEE计算机视觉和模式识别国际会议。二七八[3] 白少杰，J.齐科.科尔特，弗拉德伦.科尔顿。序列建模的一般卷积和递归网络的经验评估。2018年12月18日，第1803.01271页。3[4] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在2016年欧洲计算机视觉会议（ECCV）上。2[5] 戴安琪，天使 X.Chang ， Manolis Savva ， MaciejHalber，Thomas Funkhouser，and Matthias Nießner.扫描网：丰富的注释三维重建的室内场景。在proc 计算机视觉和模式识别（CVPR），IEEE，2017。一、二、七[6] 安吉拉·戴和马蒂亚斯·尼斯纳3dmv：用于3d语义场景分割的联合在2018年欧洲计算机视觉会议（ECCV）上。二、七[7] Raghudeep Gadde，Varun Jampani，Renaud Marlet，andPeter Gehler.使用自动上下文的高效2d和3d立面分割。IEEE Transactions on Pattern Analysis and MachineIntelligence，2017。8[8] 本杰明·格雷厄姆。空间稀疏卷积神经网络。arXiv预印本arXiv：1409.6070，2014。第1、3条[9] 本·格雷厄姆稀疏3d卷积神经网络。2015年英国机器视觉会议。一二三八[10] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用子流形稀疏卷积网络进行3D语义分割。CVPR，2018年。7[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议（CVPR），2016年。5[12] P. Hermosilla、T. Ritschel，P-P Vazquez，A. Vinacua，以及T.罗平斯基用于非均匀采样点云上学习的蒙特卡罗卷积。 ACM Transactions on Graphics （ Proceedings ofSIGGRAPH Asia 2018），2018年。一、二[13] 达芙妮·科勒和尼尔·弗里德曼。概率图形模型：原理与技术-自适应计算与机器学习。MIT Press，2009. 五、六[14] Philipp Krähenbühl和Vladlen Koltun。具有高斯边缘势的全连接crfs中的有效推理。在神经信息处理系统的进展24，2011。5[15] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。arXiv预印本arXiv：1711.09869，2017。二、八[16] Yangyan Li，Rui Bu，Mingchao Sun，and Baoquan Chen.Pointcnn. arXiv预印本arXiv：1801.07791，2018。一、二、八[17] Maria Lorenzo-Valdés，Gerardo I Sanchez-Ortiz，AndrewG Elkingt

下载后可阅读完整内容，剩余1页未读，立即下载