基于多任务度量学习的三维实例分割

117 浏览量更新于2023-10-16 收藏 4.14MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9256基于多任务度量学习的Jean LahoudKAUST伯纳德·加尼姆·卡斯特MarcPollefeys苏黎世马丁河OswaldETH苏黎世摘要我们提出了一种新的方法，例如标签分割密集的三维体素网格1。我们的目标体积场景表示，已获得与深度传感器或多视图立体方法，并已处理与语义3D重建或场景复杂的方法。主要任务是学习有关单个对象实例的形状信息，以便准确地分离它们，包括连接的和不完全扫描的对象。我们用多任务学习策略解决了3D实例标记问题。第一个目标是学习一个抽象的特征嵌入，它将具有相同实例标签的体素彼此靠近地分组，同时将具有不同实例标签的聚类彼此分离。第二个目标是通过密集估计每个体素的实例质心的方向信息来学习实例信息。这对于在聚类后处理步骤中找到实例边界以及对第一目标的分割质量评分特别有用。合成和真实世界的实验都证明了我们方法的可行性和优点。事实上，它在ScanNet 3D实例分割基准测试中达到了最先进的性能[5]。1. 介绍计算机视觉研究的一个中心目标是高层次的场景理解。2D图像的最新方法学进展使得各种计算机视觉问题，包括图像分类[24，44，48]，图像分割[1，32，42]，对象检测[30，39，41]和2D图像中的实例分割[9，18，37]。此外，现在可以使用低成本深度传感器[20，35，47，55]或基于图像的3D重建算法来恢复高度详细的3D几何形状。Rithms [12，22，43]。结合这两个概念，已经开发了许多算法用于3D场景和对象分类[33，45，51]，3D对象检测[26，52]以及联合3D重建和语义标记[4，6，7，25，49]。1https://sites.google.com/view/3d-instance-mtml输入场景我们的实例标签实例标签我们的实例标签图1. 我们方法的样本结果。我们提出的方法作为输入的3D点云，并输出实例标签的场景内的每个对象是标签是通过学习一个度量来生成的，该度量对同一对象实例的部分进行分组并估计朝向实例的质心的方向2D实例分割的进展主要是由2D领域中可用的大量数据集和挑战推动的。当与过多的强大的方法，例如2D图像的分割相比，3D对应的问题在文献中较少探索。除了缺乏数据集之外，大多数2D方法不适用于3D设置，或者它们的扩展决不是简单的。随着3D实例分割任务的标记数据集和基准的出现（例如，ScanNet [5]），许多作品已经浮出水面，以解决这一任务。在许多情况下，3D的工作受益于2D的开创性工作因此，这种3D处理往往类似于其他3D理解技术，主要是语义分割。在本文中，我们解决的问题，三维实例分割。给定场景的3D几何体，我们希望用唯一的标签来标记属于同一对象的所有几何体。与以前的方法，纠缠实例标记与语义标记，我们提出了一种技术，主要侧重于实例标记，通过9257在一些实施例中，该方法可以用于对与单个对象有关的信息进行分组/聚类。我们的方法仍然受益于语义信息作为本地线索，但添加到它的信息相关的3D尺寸和3D连接，其有用性是唯一的3D设置。特别地，我们提出了一种学习算法，该算法处理3D体素网格并学习两个主要特征：(1)每个实例唯一的特征描述符，以及（2）指向实例中心的方向。我们的方法的目的是提供一个分组的力量，是独立的场景的大小和实例的数量。捐款. 我们的贡献是双重的。（i）我们提出了一个多任务神经网络架构，用于基于体素的场景表示的3D物体分割。除了度量学习任务之外，我们还要求我们的网络预测对象中心的方向信息我们证明了多任务学习改善了这两个任务的结果。我们的方法是强大的和可扩展的，因此适合于处理大量的3D数据。（ii）我们的实验展示了3D实例分割的最新性能。在提交时，我们的方法在ScanNet 3D实例分割基准测试中的平均AP50得分排名第一[5]。2. 相关工作本节简要概述了相关的2D和3D方法。值得注意的是，针对基于2D深度学习的语义分割和实例标签分割存在大量相关工作。最近的调查可以在[13，16]中找到。通过对象建议或检测进行2D实例分割。Girshick [14]提出了一种网络架构，该架构创建区域建议作为候选对象段。在一系列后续工作中，这个想法已经扩展到更快[41]，并额外输出像素精确的掩模，例如分割[18]。YOLO [39]及其后续工作[40]的作者应用了一种基于网格的方法，其中每个网格单元都生成一个对象提案。Deep- Mask [37]学习联合估计对象提案和对象得分。Lin等[30]提出了一种用于对象检测的多分辨率方法，他们称之为特征金字塔网络。在[17]中，区域建议用一个网络来细化，Khoreva等人[21]联合执行实例和语义分割。类似的路径遵循[27]，它将用于语义分割的完全卷积网络与实例掩码建议相结合。Dai等人[9]使用全卷积网络（FCN）并将问题分解为边界框估计，掩码估计和对象分类，并提出了一种多任务级联网络架构。在后续工作中[8]，他们将FCN与窗口化实例敏感的得分图。虽然所有这些方法在2D域中已经非常成功，但是它们中的许多需要大量的资源，并且它们向3D域的扩展是不平凡的和具有挑战性的。2D例如分割经由度量学习 Liang等人[28]提出了一种没有对象提议的方法，Fathi等人[10]通过在嵌入空间内将相似像素分组在一起来计算像素属于同一对象的似然性。Bai和Urta-sun [2]学习图像的能量图，其中对象实例可以很容易地预测。Novotny等人[36]学习位置敏感度量（半卷积嵌入），以更好地区分同一对象的相同副本。Kong和Fowlkes [23]训练了一个网络，该网络将所有像素分配给球形嵌入，其中同一对象实例的点位于附近，而非实例相关的点彼此分开放置。然后通过均值漂移聚类的变体[11]提取实例，该变体被实现为递归网络。DeBrabandere等人的方法。[3]遵循相同的思想，但作者没有对嵌入空间的形状施加约束同样，他们通过特征空间中的均值漂移聚类来这些方法中没有一种被应用于3D设置。我们的方法建立在DeBraban- dere等人的工作基础上。[3]的文件。我们扩展了这种方法与多任务的方法，三维实例分割密集体素网格。3D实例分割。Wang等人[50]提出SGPN，3D点云的实例分割。在第一步中，他们使用PointNet [38]提取特征，随后构建相似性矩阵，其中每个元素对两个点是否属于同一对象实例进行分类。该方法的可扩展性不是很好，并且仅限于小的点云大小，因为相似性矩阵的大小是点云中的点数的平方。此外，有一些最近的并发或未发表的作品，解决3D实例分割。GSPN方法[54]提出了一种生成形状建议网络，它依赖于对象建议来识别3D点云中的物体。3D-SIS方法[19]结合了从多个RGB-D输入视图聚合的2D和3D特征MASC [31]依赖于SparseConvNet [15]架构的卓越性能，并将其与跨多个尺度估计的实例亲和度得分相结合。PanopticFusion [34]预测RGB帧的像素级标签，并将它们带入3D网格，其中完全连接的CRF用于最终推断。除了这些最近的并发工作，有一般稀疏的研究3D实例分割。9258图2. 我们的网络架构概览。我们将3D实例分割作为一个多任务学习问题。我们方法的输入是体素网格，输出是两个潜在空间：1）特征向量嵌入，其将在潜在空间中具有相似实例标签的体素分组; 2）编码每个体素的方向预测的3D潜在空间。我们的网络的输入和输出是可视化的，并在图中解释3.第三章。图中的参数对应于（过滤器数量，内核大小，步幅，膨胀）。3. 方法概述在这项工作中，我们的目标是在给定的3D场景中分割3D实例。为了完全定位3D实例，将需要语义标签和实例标签两者。而不是解决复杂的任务场景完成，语义标记和实例分割一次，我们的3D实例分割过程建模为语义分割标记的后处理步骤。我们专注于语义标签的分组和拆分，依赖于实例间和实例内的关系。我们受益于3D场景中的真实距离，其中对象之间的大小和距离是最终实例分割的关键。我们将我们的任务分为标签分割和实例分割问题，因为我们相信在每个步骤中学习的特征都具有特定于任务的信息。语义分割一方面可以依赖于局部信息来预测类别标签。学习语义标记体积表示固有地编码来自相邻体积的特征，但不需要整个环境的知识另一方面，实例分割需要对场景的整体理解，以便加入或分离语义标记的体积。问题设置。我们的方法的输入是体素化的3D空间，每个体素编码语义标签或通过语义标签学习的局部特征向量。在本文中，我们使用[15]中的语义标记网络我们固定体素大小以保留场景内所有体素之间的3D距离在点云或网格可用的问题设置中，可以通过对来自每个体素内的点的信息进行分组来生成3D体素化。然后，我们的方法处理体素化的3D空间，并输出实例标签掩码，每个掩码对应于场景中的单个对象，以及其语义标签。通过将体素标签分配给其中的所有点，也可以将输出的遮罩重新投影回点云3.1. 网络架构为了处理3D输入，我们利用基于SSCNet架构的3D卷积网络[46]。我们对原始SSCNet网络进行了一些更改，以更好地适应我们的任务。如图2所示，网络输入和输出大小相等。由于池层缩小了场景大小，因此我们使用卷积的转置（也称为反卷积[56]）来上采样回原始大小。我们还对稀释的3D卷积层使用更大的膨胀来增加感受野。我们使感受野足够大，以访问通常室内房间的所有体素。在体素尺寸为10 cm的情况下，我们的感受野高达14.2 m。对于较大的场景，我们的3D卷积网络仍然适用于整个场景，同时保留滤波器和体素大小，从而保留真实距离。默认情况下，位于大于感受野的距离处的对象是分离的3.2. 多任务损失函数为了对同一实例的体素进行分组，我们的目标是学习两种类型的特征嵌入。第一种类型将每个体素映射到特征空间中，其中相同实例的体素比属于不同实例的体素彼此更接近。这与DeBrabandere等人的工作相似。[3]，但应用于3D设置。第二种类型的特征嵌入将3D向量分配给每个体素，其中向量将指向其所属的对象的物理中心。这使得形状包容的学习，并消除相似形状之间的歧义。为了学习这两种特征嵌入，我们引入了一个多任务损失函数，该函数在训练过程中被最小化损失的第一部分鼓励在多个实例之间的特征空间中的歧视，而第二部分惩罚向量与期望方向的角度偏差输入体素网格++方向嵌入特征嵌入conv（8，7，1，1）conv（16，3，1，1）conv（16，3，1，1）conv（16，1，1，1）最大池conv（32，3，1，1）conv（32，1，1，1）conv（32，3，1，1）conv（32，3，1，1）conv（32，3，1，1）扩张（32，3，1，2）扩张（32，3，1，2）扩张（32，3，1，2）扩张（32，3，1，2）concatdconv（128，4，2，1）conv（64，1，1，1）conv（4，1，1，1）conv（3，1，1，1）9259我我们网络世界空间特征嵌入空间方向嵌入空间图3. 嵌入空间可视化。在世界空间中具有相似实例标签的体素（左）被映射：（1）到特征嵌入空间中的相似位置，使得实例形成集群（中），以及（2）指向对象中心的方向向量（右）。红色箭头表示聚类中心之间的类间推力，而灰色箭头表示点和聚类中心之间的类内拉力。其他颜色区分不同对象实例的体素或特征。特征嵌入损失。我们遵循DeBrabandere等人的工作。[3]，其学习可以随后聚类的特征嵌入。因此，我们将特征嵌入损失定义为三项的加权和：（1）聚类内方差项Lvar，其将应该属于相同实例的特征拉向平均特征，（2）聚类间距离项Ldist，其促使具有不同实例标签的聚类被推开，以及（3）正则化项Lreg，其将所有特征拉向原点以便约束激活。LFE=γ varL var+γ distL dist+γ regL reg（1）各个损失函数通过γvar= γdist=1，γreg= 0加权。[001-word 2nd][001-word 2nd]与[3]类似，定义如下：图3中的不同聚类的特征嵌入相互作用，即每个特征嵌入受其他聚类中心的数量和位置的影响。这种连接在某些情况下可能是不利的，特别是当单个场景中存在大量实例时。因此，我们接下来提出一个额外的损失，提供本地信息的实例分离，而不受其他实例的影响。定向损失。我们在这里的目标是生成一个向量特征，将本地描述的集群内的关系，而不受其他集群的影响我们选择的向量是指向对象的真实中心的向量为了学习这个向量特征，我们注意以下方向损失：Lvar=1摄氏度1ΣNc[µc−xi−δ2var（二）1摄氏度L= −1ΣNcvvGT其中vGT=zi−zcCc=1Nc1i=1ΣC+ΣCΣdirΣ2Cc=1我我Nci=1伊济 — zc（五）Ldist=C（C−1）1摄氏度cA=1cB =1cB/=cA2δdist−µcA−µcB+（三）这里，Vi表示归一化的方向向量特征，VGT是指向对象中心的期望方向，Zi是体素中心位置，并且Zc是对象中心位置。Lreg= Cc=1中文（简体）联合损失。我们共同最小化特征嵌入-在训练过程中的方向性损失。我方最后共同损失如下：这里，C是地面实况聚类的数量，簇c中元素的数量，µc是簇中心，I.E. 簇c中元素的平均值，并且xi是特征向量。此外，范数λ·λ表示λ2-范数，[x]+=max（0，x）铰链。参数δvar描述了特征向量xi和聚类中心µc之间的最大允许距离，以便属于聚类c。同样，2δdist是不同聚类中心为了避免重叠而应该具有的最小距离可以发现力和嵌入空间的可视化Ljoint=αFELFE + αdirLdir（6）我们使用αFE= 0。5且αdir= 1。后期处理。我们应用均值漂移聚类[11]特征嵌入。类似于物体检测算法-因此，实例分割不将标记限制为一个相干集合，并且因此允许多个对象之间的重叠。我们使用具有多个阈值的均值漂移聚类输出作为建议，这些建议根据9260它们的方向具有一致性。我们还使用连接组件进行建议的分割，这将进一步通过其特征嵌入的一致性来评分。特征嵌入的协方差由位于距特征聚类中心给定阈值内的特征嵌入的数量来描述。方向特征协方差分数简单地为Ldir，其是从体素指向对象中心的归一化向量与预测的归一化方向特征之间的平均余弦相似度。然后，我们对所有对象建议进行排序，并执行非最大抑制（NMS），以删除重叠超过阈值的对象。通过将两个特征嵌入分数附加一个分数来获得最终分数，该分数鼓励常规大小的对象超过非常大或非常小的对象。对于语义标签，它被选择为聚类体素内的所有点中出现最多的标签。3.3. 网络训练培训数据。在训练过程中，我们将体素化场景的翻转以及围绕垂直轴的多个方向附加到我们的训练数据中。我们使用地面真值分割标签作为输入来预训练我们的网络，标签进行one-hot编码，以保持与使用语义分割输出进行训练相同大小的输入。4. 结果和评价Setup. 我们的网络在Tensorflow中实现，并使用NvidiaGTX1080Ti GPU 运行。对于网络训练，我们使用ADAM优化器，学习率为5e-4，批量大小为2。训练在大约100个时期之后收敛，并且花费大约2天。对于场景大小为1的场景，我们的网络的推理时间约为1秒。6M体素。数据集。为了进行实验评估，我们在以下数据集上训练和测试了我们的方法，这些数据集包括真实和合成数据。• 合成玩具数据集：为了验证我们的方法，我们创建了一个合成数据集与不同大小和纵横比的对象放置在一个平面上。我们引入5个对象形状，其中每个形状都类似于真实数据中的对象类。所考虑的物体的形状然后，我们在表面平面上随机定向和定位对象，并随机选择一个对象是否与另一个对象接触我们生成1000个场景，并将数据集分为900个训练场景和100个测试场景。• ScanNet [5]：我们在ScanNet v2数据集上进行实验，该数据集包含1513个带有3D实例注释的扫描。训练集包含1201次扫描，其余312次扫描用于验证。广告100个未标记的扫描形成评估测试集。图4. 合成玩具数据集的概述。左：我们考虑sider 5个不同的对象类表示的立方体与各种边长。中间：示例场景，对象颜色显示类标签。右：对应的地面实况实例标记（每个实例随机选择颜色）。评估指标。在大多数实例分割方法以及ScanNet评估基准中采用的评估程序之后，我们使用平均精确度度量（AP）得分来评估我们提出的算法。我们使用AP25和AP50指标，它们分别表示最小交集（IoU）阈值为25%和50%的AP得分AP评分平均使用IoU阈值获得的评分，范围为50%至95%，步长为5%。基线。为了评估我们的方法的性能，我们考虑以下基线方法：• 输入分段：在这种情况下，我们假设输入到我们方法的分割标签是所需的实例分割标签。如果每个场景都包含每个语义标签的单个实例，则此基线将是理想的。实际上，这些场景几乎不会发生，但这样的度量仍然可以作为分割和/或分组体素是否合理的开端。• 连接的组件：给定地面实况分段标签，连接分量算法倾向于正确地标记不接触的所有实例。由于这在3D环境中很少发生，因此这通常是一个高分和具有挑战性的基线。• 我们进一步比较了Scan-Net基准的提交，特别是MaskRCNN proj[18] ，SGPN[38] ，GSPN[54] ，3D-SIS[19]，Occipital-SCS，MASC[31]，PanopticFusion[34]和3D-BoNet[53]。4.1. 合成三维数据的评价我们在简单的玩具数据集上评估了我们的方法，并在表1中报告了所有对象的AP50得分在这一部分，我们只允许一个连贯的标签。请注意，单独的方向性损失不足以区分随后的聚类，因此在消融研究中不考虑仅从方向信息生成对象建议是乏味的，因为它是嘈杂的，并且聚类问题更加困难且效率更低因此，我们不单独评估方向预测，而是重新排序，使用来自均值漂移聚类的对象建议，并使用方向信息对它们进行评分。9261方法Obj1Obj2Obj3Obj4Obj5连接的计算机92.585.186.993.579.9我们的（仅FE）97.392.795.096.495.2我们的（多任务）98.093.596.196.695.3表1. 合成玩具数据集的AP50结果。在这个具有5个对象的数据集上，我们的多任务学习方法以及仅具有特征嵌入（FE）的基线优于连接组件基线，即使它使用了地面真实语义标签。在无噪声设置中，仅FE和多任务之间的差异带有语义标签的输入场景带有实例标签的图5. 在合成玩具数据集上进行实验。两个随机场景的例子，我们的网络为其生成了实例标签。图5中的简单玩具问题的目标是研究网络是否可以抽象和区分各种大小的对象，尽管它们的形状非常相似。此外，有趣的是，当对象实例在空间上接触时，特别是当它们属于相同的语义类时，我们的方法如何执行。尽管输入特征非常相似（由于相同的对象类和空间接近），但我们的网络能够成功地将相应的特征向量放置在特征空间中的不同位置。4.2. 真实三维数据的评价特征空间研究最小化等式中的特征损失。（1）工作于两个任务：将属于同一实例的点拉在一起，以及将不同实例的集群由于真实数据包含噪声、离群值和缺失数据，特征空间中各个点的映射可能不太具有区分性，并且聚类可能重叠。在图6中，我们将3D特征空间，以便研究这些效应，并观察到相同实例的特征点确实向相邻簇扩散。但在本例中，特征聚类结果不受影响，仍能达到较高的精度。请注意，我们排除了地面和墙壁标签，因为它们的实例分割和分割意义不大，并且在基准测试中也被忽略。ScanNet输出评估。在图7中，我们展示了ScanNet数据集的定性结果[5]。我们的方法在体素网格上的结果被简单地投影到网格上，然后将其用于基准点上的评估。正如在最右边的一列中可以看到的，我们的方法有时会将像“desk”这样的对象分割，或者将“desk- ture”的标签分割到相邻的几何体中。由于我们主要采用几何方法，我们的方法需要结构变化来识别对象边界并可能重新标记新实例。尽管如此，我们提出的方法在大多数情况下能够将单个对象实例分组在一起。在表2中，我们提供了一项消融研究，并包括与简单基线的比较。第一个基线使用输入分割标签（SparseConvNet [15]）作为实例标签。此外，我们评估了一个简单的连接组件标记方法的分割标记，因为在一般的3D设置，并考虑到给定的数据集，很少的对象实例接触对方。因此，这个连通分量基线已经是一个具有挑战性的基线，特别是对于相当无噪声的几何形状和标记。很明显，这种方法倾向于大大改善实例标记结果。随着噪声量的增加，连接组件标记迅速执行变差。在极少数情况下，该方法的结果变得更差，这是由于场景未被完全扫描并且单个对象实例可能由于缺少场景部分而断开连接。消融术研究：单一任务与多任务。我们将单任务学习的网络与多任务学习的网络进行了比较。表2中最右边的六列显示了单任务学习和多任务学习的结果。除了极少数例外，用多任务损失训练的网络这与合成数据集上的结果一致，并支持我们的假设，即方向损失增加了更多的区分特征，这有助于根据特征空间中的对象实例对特征进行分组对于场景中很少有多个实例的对象，例如由于这种情况不常见，因此其对总体平均评价的影响可忽略不计。表3提供了我们在ScanNet测试数据集上的基准测试结果的概述（具有保留的地面事实）。可以看出，我们的方法在AP50得分上优于其他方法其他方法包括处理所有RGB-D9262输入（RGB）要素标注GT要素标注我们的GT标注聚类标注图6. 特征嵌入和标记的可视化。该图显示（从左到右）彩色3D场景输入，其生成的3D特征嵌入，以及地面实况（GT）标签和均值漂移聚类后的实例标记结果（最终结果中实例的颜色是随机选择的，不对应于GT标签颜色）。类片段[15]为实例AP AP50 AP25Connect.APComp.AP50对 [第十五条]AP25AP我们的（仅FE）AP50AP25我们的（多任务）AP AP50 AP25内阁0.0020.0080.0390.0240.0810.1530.0360.1180.3960.0420.1450.346床0.1050.1970.5400.2000.4670.6510.1540.4460.6960.1970.5400.806椅子0.0000.0010.0270.1380.2390.4340.4750.6890.8140.5670.7920.877沙发0.0660.2400.4620.1570.3980.5330.1720.3690.6840.2260.4880.803表0.0270.0610.1600.1540.3240.4280.2070.3610.5930.2420.4270.674门0.0190.0370.0700.0410.0730.1080.1420.3040.4290.1520.3240.458窗口0.0150.0230.0230.0200.0310.0370.1130.2580.4230.1520.3270.472书架0.0130.0240.1870.0770.1980.4530.0750.1750.4230.0800.2190.453图片0.0010.0050.0050.0010.0050.0080.0280.0670.1690.0440.1090.198计数器0.0070.0320.2160.0080.0340.2660.0010.0040.0940.0010.0080.097书桌0.0120.0570.2110.0220.1090.3640.0110.0530.3270.0310.1420.499窗帘0.0340.0850.1850.0810.1730.2250.1140.2850.4500.1740.3990.542冰箱0.0590.1120.2110.1050.1620.2250.1240.3020.3170.1850.4210.441浴帘0.1190.2310.2310.1280.2270.2840.3920.5930.7100.4020.6430.749厕所0.3260.6760.7010.5750.8010.8010.6360.9620.9770.6250.9650.980水槽0.0480.1300.3280.0540.1350.3070.0940.2940.3970.1200.3640.445浴缸0.3570.6770.6770.3190.6310.7000.2350.5530.6740.3110.7080.794其他家具0.0040.0100.0390.0210.0520.1070.0610.1540.2830.0970.2150.335平均0.0680.1450.2390.1180.2300.3380.1710.3330.4920.2030.4020.554表2. ScanNet数据集[5]确认集上的消融研究。我们展示了[15]中分割方法的实例标记性能，[15]分割上的连接组件标记，我们的方法仅具有特征嵌入（FE），我们的方法具有多任务学习。方法平均AP浴缸床书架橱柜椅子柜台窗帘书桌门其他家具图片冰箱浴帘水槽沙发桌座便器窗口MTML（我们的）0.551.000.810.590.330.650.000.820.180.420.360.180.451.000.440.690.571.000.40枕骨-SCS0.511.000.720.510.510.610.090.600.180.350.380.170.440.850.390.620.540.890.393D-BoNet0.491.000.670.590.300.480.100.620.310.340.260.130.430.800.400.500.510.910.44PanopticFusion [34]0.480.670.710.600.260.550.000.610.180.250.430.440.410.860.490.590.270.940.36ResNet-backbone [29]0.461.000.740.160.260.590.140.480.220.420.410.130.320.710.410.540.590.870.30MASC [31]0.450.530.560.380.380.630.000.510.260.360.430.330.450.570.370.640.390.980.283D-SIS [19]0.381.000.430.250.190.580.010.260.030.320.240.080.420.860.120.700.270.880.24Unet-backbone [29]0.320.670.720.230.190.480.010.220.070.200.170.110.120.440.20.620.360.920.09R-PointNet [54]0.310.500.410.310.350.590.050.070.130.280.290.030.220.210.330.400.280.820.253D-BEVIS0.250.670.570.080.040.390.030.040.100.100.030.030.100.380.130.600.180.850.17Seg-Cluster0.220.370.340.290.110.330.030.280.090.110.110.010.080.320.110.310.300.590.12SGPN [50]0.140.210.390.170.070.280.030.070.000.090.040.020.030.000.110.350.170.440.14MaskRCNN项目0.060.330.000.000.050.000.000.020.000.050.020.240.070.000.010.110.020.110.01表3. ScanNet 3D实例分割数据集的最新比较[5]。该表显示了各个语义类别的AP50得分和平均得分（按降序排列的平均AP50得分我们取得了最好的平均成绩。用于重建扫描网场景的图像在这些方法中，单个RGB-D帧的实例标签在整个场景中传播，并基于位置估计进行协调。另一方面，在一项研究中，我们的方法直接在3D设置中操作，而不需要使用2D信息。这导致对3D场景的更快的处理，并且需要基本上更少的信息来提取3D对象实例分割。9263输入（RGB）语义GT SPC [15] CC SGPN [50]实例GT我们的图7. 我们的方法在ScanNet验证数据集上的定性结果[5]。此图显示了原始输入场景作为纹理网格，我们使用SparseConvNet（SPC）[15]的语义标记结果作为输入，我们的实例标记结果以及语义地面实况（GT）。我们进一步展示了多个3D实例分割基线：SPC语义标签上的连通分量（CC）标签，SPGN [50]，以及我们的标签结果旁边的地面实况实例标签。5. 结论提出了一种基于体素的场景三维实例分割方法。我们的方法是基于度量学习和第一部分分配所有体素属于相同的相反，属于不同对象实例的体素被分配在特征空间中彼此进一步分开的特征。第二部分估计目标中心的方向信息，用于对第一部分生成的分割结果进行评分。致谢。这项研究得到了阿卜杜拉国王科技大学（KAUST）的竞争性资助。情报高级研究项目活动（IARPA）通过内政部/内政部商业中心（DOI/IBC）合同号D17 PC 00280获得了进一步的支持。美国政府被授权为政府目的复制和分发重印本，尽管其上有任何版权注释免责声明：本文所载的观点和政府的9264引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，39（12）：2481[2] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在proc 计算机视觉与模式识别国际会议（CVPR），2017年。[3] Bert De Brabandere，Davy Neven，and Luc Van Gool.基于判别损失函数的语义实例分割。 CoRR ，abs/1708.02551，2017。[4] 放大图片作者：JohnL. S chonber ge r，MartinR. 作者声明：Author，ThomasW.语义三维重建的先验学习。欧洲计算机视觉会议（ECCV），2018年9月。[5] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在proc 计算机视觉和模式识别国际会议（CVPR），2017年。[6] 安吉拉·戴和马蒂亚斯·尼斯纳3dmv：用于3d语义场景分割的联合 3d 多视图预测。欧洲计算机视觉会议（ECCV），第458-474页，2018年[7] 安吉拉·戴、丹尼尔·里奇、马丁·博克洛、斯科特·里德、小根·斯特姆和马蒂亚斯·尼纳。Scancomplete：用于3d扫描的大规模场景完成和语义分割。计算机视觉和模式识别国际会议（CVPR），2018年6月。[8] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。在Bastian Leibe，JiriMatas，Nicu Sebe和Max Welling，编辑，Proc。欧洲计算机视觉会议（ECCV），第534施普林格国际出版社。[9] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在 procInternational Conference onComputer Vision and Pattern Recognition（CVPR），第3150-3158页，2016年。[10] Alireza Fathi、 Zbigniew Wojna 、 Vivek Rathod 、 PengWang、Hyun Oh Song、Sergio Guadarrama和Kevin P.墨菲基于深度度量学习的语义实例分割。 CoRR ，abs/1703.10277，2017。[11] K. Fukunaga和L.霍斯特勒密度函数梯度的估计及其在模式识别中的应用。 IEEE Transactions on InformationTheory，21（1）：32[12] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Transactions on Pattern Analysis andMachine Intelligence，32（8）：1362[13] Alberto Garcia-Garcia 、 Sergio Orts-Escolano 、 SergiuOprea、VictorVillena-Martinez和JoseGarcia-Rodriguez。深度学习技术应用于语义分割的再认识。ArXiv电子印刷品，2017年4月。[14] 罗斯湾娘娘腔。快速 R-CNN 。在 Proc. InternationalConference on Computer Vision（ICCV），第1440-1448页，2015年。[15] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。计算机视觉与模式识别国际会议（CVPR），2018年。[16] Yanming Guo ， Yu Liu ， Theodoros Georgiou ， andMichael S.卢使用深度神经网络进行语义分割的综述。国际多媒体信息检索杂志，2017年11月。[17] Zeeshan Hayder，Xuming He，and Mathieu Salzmann.边界感知实例分割。在Proc. International Conference onComputer Vision and Pattern Recognition（CVPR）中。[18] Kai m ingHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB. 娘娘腔。面罩R-CNN。在Proc.国际计算机视觉会议（ICCV），第2980-2988页[19] Ji Hou ， Angela Dai ， and Matthias Nießner. 3D-SIS ：RGB-D扫描的3D扫描实例分割。Proc.计算机视觉和模式识别国际会议，2019。[20] 放大图片作者：Richard A. Newcombe，David Kim，Otmar Hilliges ， David Molyneaux ， Steve Hodges ，Pushmeet Kohli ， Jamie Shotton ， Andrew J.Davison 和Andrew W.菲茨吉。运动融合：实时动态3D表面重建和交互。在International Conference on Computer GraphicsandInteractiveTechniques ， SIGGRAPH2011 ，Vancouver，BC，Canada，August 7-11，2011，TalksProceedings，page 23，2011中。[21] Anna Khoreva 、 RodrigoBenenson 、 JanHendrikHosang、Matthias Hein和Bernt Schiele。简单做到：弱监督实例和语义分割。在proc 计算机视觉和模式识别国际会议（CVPR），第1665-1674页，2017年。[22] Kalin Kolev 、 Maria Klodt 、 Thoma

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于多任务度量学习的三维实例分割

深度学习500问.pdf

基于度量的元学习范式

实例分割算法与语义分割算法

描述小样本学习、基于度量小样本学习、元学习三者之间的关系

快速三重度量学习的介绍

软件度量，基于代码行的度量方法，基于功能点度量方法

基于度量学习的行人重识别算法设计

基于度量学习的ReID方法可以简要介绍一下吗？

基于度量的小样本学习发展情况

深度度量学习详细介绍

将快速三重度量学习应用在文本攻击的好处

基于多模态融合的度量学习有哪些经典模型

三维点云区域生长分割过程详细叙述

度量学习和对比学习的区别

1000字：基于相似性度量方法的交通流相似性分析的研究现状

实例分割出的每个实例颜色随机，是怎么和ground truth对应上的呢

度量学习的python代码

可用性测试中基于问题的度量

如何用MATLAB写一个三维图像配准的深度学习算法

最新资源