没有合适的资源?快使用搜索试试~ 我知道了~
3947GSPN:用于点云李毅1王钊2王贺1宋敏赫1 LeonidasGuibas1,31斯坦福大学2清华大学3Facebook AI Research摘要本文提出了一种新的用于点云数据中物体分割的三维物体建议方法--生成形状建议网络(GSPN)而不是把对象的建议作为一个直接的边界框回归问题,我们采取了分析合成策略和gener- ate建议重建形状从嘈杂的观察在一个场景中。我们将GSPN到一个新的三维实例分割框架命名为基于区域的点网(R-PointNet),它允许灵活的建议细化和实例分割生成。我们在几个3D实例分割任务上实现了GSPN的成功很大程度上来自于它强调对象建议过程中的几何理解,这大大减少了低对象性的建议。1. 介绍实例分割是计算机视觉中的关键感知任务之一,它需要在场景中描绘感兴趣的对象,并将对象分类到一组类别中。3D实例分割在机器人和增强现实中有着大量的应用,如今需求量巨大。然而,3D实例分割的进展远远落后于其2D对应部分[15,24,20],部分原因是直接将2D卷积神经网络(CNN)方法应用于3D体积数据的昂贵计算和内存成本[39,7]。最近,[33,34]提出了高效而强大的深度架构来直接处理点云,点云是最常见的3D传感器数据形式,在捕获大型场景中的细节方面非常有效这为3D实例分割开辟了新的机会,并激励我们使用3D点云。2D实例分割的巨大进步在很大程度上是由对象建议方法的成功推动的[41],其中对象建议通常表示为2D边界框。因此,寻求在3D点云中表示和生成对象建议的有效方式是自然的。但是,这确实是非常困难的,因为3D对象建议方法需要在一个混乱的环境中图1.我们的实例分割框架R-PointNet的灵活性使其能够很好地处理各种类型的输入数据,包括(a)真实室内场景的完整重建(b)具有细粒度零件实例的对象,(c)从单个视点捕获的部分点云。场景下的传感器噪声和数据不完整。一种直接的方法是直接估计对象的简单几何近似,例如3D边界框[39,48]。这些近似是简单的,对大多数对象不是很忠实,这意味着生成这样的近似不需要对潜在对象几何结构有很强的理解这使得容易产生盲盒建议,其包含多个对象或仅对象的一部分,从而影响对象实例之间的区分。此外,我们几乎不知道3D对象提议者对对象性的理解有多好。与此相反,我们从不同的角度对物体进行建模,更强调对物体的几何理解.人们常说,知觉在某种程度上是主动的[16]。因此,我们利用综合分析策略,首先通过重建它们来提出对象。具体而言,我们利用生成模型来解释性地描述自然对象分布,并通过从对象分布中抽取样本来提出候选对象。场景中的噪声观测将通过指示在对象分布中的何处采样来指导建议生成过程。这个想法在3D中特别有吸引力,因为与2D图像不同,3D世界中的对象更具规范性,具有正确的物理尺度和更多的COM。3948完全几何学。因此,对象分布更紧凑,使得捕获变得可行。我 们 设 计 了 一 个 名 为 Generated Shape ProposalNetwork(GSPN)的深度神经网络来实现这一目的。与直接的3D包围盒回归相比,GSPN的优点是双重的。一是提出客观性较高的目标建议;该网络在生成任何建议之前都经过了扩展训练,以了解自然物体的外观。通过加强几何理解,我们可以大大减少不对应于单个对象的盲盒建议。其次,GSPN将噪声观测编码为自然对象空间中的分布,这可以被视为一个实例感知的特征提取过程。这些特征描绘了对象边界,并可以作为一个非常重要的线索,亲细化和分割掩模生成。为了能够拒绝,接收和细化对象propos- als,并进一步分割出各种实例的三维点云,我们开发了一种新的三 维 实 例 分 割 框 架 称 为 基 于 区 域 的 PointNet ( R-PointNet)。从高层来看,R-PointNet类似于图像MaskR-CNN [15];它包含对象建议和建议分类,细化和分割组件。我们精心设计了R-PointNet,使其能够很好地消费非结构化点云数据,并充分利用GSPN生成的对象建议和实例敏感特征。我们已经测试了我们的实例分割框架R-PointNet与GSPN的各种任务,包括完整的室内重建实例分割,部分室内场景的实例分割和对象部分实例分割。我们在所有这些任务上都达到了最先进的性能。我们工作的主要贡献如下:• 我们提出了一个生成的形状建议网络,以解决3D对象的建议后,分析合成策略。• 我们提出了一个灵活的3D实例分割框架,称为基于区域的PointNet,我们在几个实例分割基准上实现了最先进的性能。• 我们进行了广泛的评估和消融研究,以验证我们的设计选择,并显示我们的框架的普遍性。2. 相关工作目标检测和实例分割近年来,二维目标检测技术取得了很大的进展[9,36,35,21,22,25,19]和实例分割[6、15、20、31]。R-CNN [10]首先将区域预测与CNN结合起来进行2D对象检测。在此之后,提出了一系列工作,包括Fast R-CNN [9],Faster R-CNN [36]和MaskR-CNN [15],以加速区域预处理,改进特征学习,并扩展实例分割任务的检测框架。随着2D领域的这些进展,基于学习的3D检测和实例分割框架逐渐出现。人们主要集中在3D对象包围盒检测,其中对象建议是必不可少的,并提出了不同的方法。[39]直接将区域建议网络(RPN)[36]应用于体积数据,由于其高内存和计算成本而受到限制。[7,32,48,4,45,28]依赖于成熟的2D对象建议方法,并从3D场景的投影视图中获得对象建议。这些方法很难应用于分割杂乱的室内环境,不能完全覆盖的几个视图。此外,投影丢失了关于场景的信息,诸如对象的物理尺寸,并且在对象提议中引入了额外的困难,使得其不如直接提议3D中的对象吸引人[23]首先对体素细胞进行分类,然后将它们合并以形成对象。 作为一项开创性的工作, 3D实例分割学习,[42]提出了一种以形状为中心的方式来直接提出3D点云中的对象,其中点用学习的相似性度量进行分组以形成候选对象。然而,这种自下而上的分组策略不能保证具有高客观性的建议与以前的方法相比,我们的方法直接提出3D对象,并通过生成模型强调提案的3D生成模型 变分自动编码器(VAE)[17]是最流行的生成模型之一,主要用于图像或形状生成[13,29]。它学习将自然数据样本x编码为潜在的dis-covery,其中可以提取样本并将其解码为初始数据形式。VAE显式地对数据分布进行建模,并通过最大化数据可能性来学习适当的参数化。然而,VAE不能向采样数据点添加控件,这通常限制了它的使用。在[38]中提出了一种称为条件变分自动编码器(CVAE)的扩展,其中生成也以某些属性为条件。替代VAE和CVAE,GAN [12]和CGAN [26]可以通过在判别器和生成器之间引入对抗游戏来生成更忠实的图像或形状。然而,众所周知,GAN遭受模式崩溃问题,因为它我们利用CVAE而不是CGAN,因为它平均更符合条件。点云上的深度学习最近已经探索了各种3D表示[40,43,37,47,33,34,8]用于3D数据的深度学习。其中,点云表示由于其存储效率和直观性而越来越受欢迎 。 我 们 使 用 现 有 的 3D 点 云 深 度 架 构 , 如 Point-Net/PointNet++ [33,34]和Point Set Generation网络[8]作为我们框架的基础。3949φzzz中心预测网络识别网络现有网络一代网络图2. GSPN的体系结构。在左侧,我们显示了GSPN中的数据流和关键构建块,用彩色矩形突出显示。每个构建块的详细架构如右图所示。3. 方法我们提出了R-PointNet,这是一个3D对象实例分割框架,与2D Mask R-CNN [15]共享类似的高级结构,但专为非结构化点云数据而精心设计。最重要的是,它利用了一个名为生成形状建议网络(GSPN)的网络,可以有效地生成具有高对象性的3D对象建议。此外,我们的Point RoIAlign层旨在收集提案的特征,允许网络细化提案并生成细分。接下来,我们将介绍我们网络的设计细节。3.1. 生成形状建议网络GSPN将对象建议过程视为对象分别用预测均值和方差,生成网络学习p θ(x|z,c)。此外,中心预测网络用于集中上下文数据并分解出位置信息。上下文对c通过用以s为中心的球体裁剪P来表示,其中K = 3个不同半径以覆盖具有各种尺度的对象(c k∈{1···K}将表示每个尺度中的上下文)。我们接下来解释每个子网中心预测网络将上下文c作为输入,并回归世界坐标系中相应对象x的中心t(中心是轴对齐的边界框中心 ) 。 该 网 络 采 用 K 个 不 同 的 PointNets , 每 个PointNets处理每个尺度ck的上下文,并独立地输出特征向量fck,连接{fc}K为了形成fc,通过akk=1生成,从自然对象p θ(x)的条件概率分布中采样|c)以场景点云P和种子点s为条件,其中c表示种子点对(P,s)。作为对象提议的输出点云x被表示为近似对象x,P包含S。这种方法使我们能够具体地看到某个对象提案的样子,并了解网络是否学习了对象。具体最后,我们将GSPN表示为一个条件变分自动机,[38]第三十八话:当逼近p θ(x|c)作为zp θ(x|z,c)p θ(z|c)dz与自然对象的潜在表示z,通过从条件先验分布p θ(z)中抽取样本z来生成建议|c),然后通过生成的分布p θ(x)计算对象建议x|z,c)。p θ(z|c)和p θ(x|z,c)是通过最大化下面的变分下界来学习的。训练数据条件对数似然logp θ(x|c):L= Eq(z|x,c)[log p θ(x|z,c)] − KL(q φ(z|x,c)||p θ(z|(c))(1)其中q φ(z|x,c)是一个近似真实后验p θ(z)的建议分布|x,c)。GSPN的体系结构如图2所示。两个子网络,先验网络和识别网络,参数p θ(z|c)和q φ(z|x,c)为高斯分布多层感知器(MLP),并回归质心位置t在此之后,上下文c以t为中心,并且翻译后的上下文c_t_c_v作为先前网络的输入。先验网络采用相同的K-PointNet架构来处理以输入为中心的特征,并将级联特征映射到pθ(z)的高斯先验分布N(µ z,σ2|(三)通过MLP。识别网络与先前的网络共享上下文编码器,并且它还消耗中心对象x并与另一个PointNet生成对象特征fx。fxf然后与上下文特征fcf相关联,并被馈送到用于预测高斯建议分布N(μ′,σ′2)的MLP中,其中参数化q φ(z|x,c)。在预测了p θ(z|c)对于先验网络,我们对z进行采样并将其馈送到生成网络。再一次,Gen-操作网络与现有网络共享上下文编码器。在将来自先前网络的上下文特征f_c_k与z连接之后,它解码点云x_k以及表示每个生成点的出现可能性的每点置信度得分e对于解码,我们使用[8]中的点集生成架构,其具有两 个 并 行 分 支 , 全 连 接 ( fc ) 分 支 和 解 卷 积(deconv)分支,并且取两个输出的并集。 将生成的集中点云移回中心预测 不网络-1翻译翻译Prior Network zKL(q||一代网络翻译识别网络zPointNetPointNetPointNetConcatMLPtPointNetConcat MLPPointNetPointNetPointNetConcatMLPMLPConcat集合并德孔夫3950zσ′σ2+(µz−µ′)2LKL=logz+z z-0。第五章(二)σz2σ′2(a)(b)第(1)款图3.学习的实例敏感特征的可视化。(a)通过首先将PCA应用于高维特征,然后将第一个三维转换为彩色图,显示了上下文特征fc(b)显示了预测的对象中心。在(b)中显示了不同实例的更清晰的分离,这证实了这些特征是实例敏感的。到其具有预测对象中心t的原始位置。GSPN采用额外的MLP,采用与Mask R-CNN类似的方法预测每个建议的客观性得分。对象性分数由轴对齐的边界框来监督;正提议来自属于前景对象的种子点,并且它们的边界框与具有大于0的交集(IoU)的一些地面实况框重叠。五、否定的建议是那些与所有地面实况框的IoU小于0的建议。五、我们强调,中心预测网络在生成模型中分解出位置信息,通过允许对应于相同对象的上下文用相似的上下文特征fc我们将特征fc表示为实例敏感特征,并在图3中可视化它们的预测,其中可以在实例之间观察到明显的差异。从现在开始,我们重载符号fc以包括预测的对象中心t。我们还将在下一节中展示这些实例敏感特性如何在进一步的提案细化和对象分割中发挥作用。损失GSPN被训练以最小化为每个潜在对象提议定义的多任务损失函数L GSPN。L GSPN是包括形状生成损失L gen、形状生成每点置信度损失L e、KL损失LKL、中心预测损失L center和对象性损失L obj的五个项的总和。 我们使用生成的对象x和地面实况对象x之间的倒角距离作为生成损失L gen,其用作负对数似然−logpθ(x)的替代|z,c)。为了监督每个点的置信度预测,我们计算距离从每个预测点到地面实况对象点云。距离小于某个阈值的那些点被视为置信预测,而其他点则被视为不置信预测。 KL损失基本上强制执行建议分布q φ(z|x,c)和先验分布p θ(z|(三)相似。 因为我们已经参数化了q φ(z|x,c)和p θ(z|c)作为N(μ′,σ′2)和N(μ z,σ2)re-平均二进制交叉熵损失用于Le。平滑L1损失[9]用作中心预测损失L中心。Lobj也被定义为平均二进制交叉熵损失。3.2. 基于区域的PointNet在R-PointNet 的第二部分中,进一步处理来自GSPN的对象提议以识别对象类、细化提议并从初始点云P分割提议中的前景对象。我们首先通过从对象提议计算轴对齐的边界框来获得候选ROI(仅使用置信度得分e大于0.5的然后,从每个RoI中,我们的Point RoIAlign层提取区域特征,这些特征通过基于PointNet的分类,回归和分割子网络提供。通过预测相对中心和大小变化来细化边界框,如[ 36 ]中所做的那样,并且通过预测每个类别标签的每点二进制掩码来获得分割,类似于[15]。 我们在图4中可视化了R-PointNet的架构。 R-PointNet经过训练,将每个RoI中定义的多任务损失函数最小化为L=L cls+L box+Lmask,与[15]相同。接下来,我们将介绍R-PointNet的设计细节在计算每个RoI中的区域特征之前,我们首先用来自在语义分割任务上预训练的网络的语义特征fsem 来增强GSPN的上下文特征fc具体来说,我们预先训练了一个PointNet++,将每个点分类为具有4个采样和分组层和4个特征插值层的对象类。然后,我们获得每个点的语义特征作为每个样本和组层输出的组合,以便在不同尺度上捕获信息。由于点云在采样和分组层之后被下采样,为了覆盖P中的每个点,我们通过特征插值操作在每个采样和分组层之后对特征集进行上采样;找到三个最近的点,并使用与距离成反比的权重进行插值。这使我们能够连接具有不同尺度的特征并形成点的超列[14]。上下文特征fc和语义特征fsem的连接构建了我们的特征主干,并且在下一个Point RoIAlign步骤中聚合特征主干在消融研究4.4中,我们证明了上下文和语义特征在获得良好的实例分割中起着重要作用。点RoIAlign为了在每个RoI中获得固定大小的特征图,我们的点RoIAlign层从P中采样N个RoI点,并配备一个特征向量。由于上下文特征的计算非常昂贵,因此实际上我们仅针对一组种子点P sub计算特征,并且使用在先前段落中描述的特征插值步骤来获得采样点的特征。z z z通过神经网络,KL损失可以很容易地得到。计算如下:graph. 经过点采样和特征提取,RoI被归一化为以(0,0,0)为中心的单位立方体。3951分类RoI产生GSPN生成形状建议Bbox回归具有种子点的PointNet++Semantic SegNetRoIAlign点分割图4. R-PointNet的架构。对于场景中的每个种子点,GSPN将生成形状建议以及实例敏感特征。形状建议被转换为轴对齐的3D边界框,其中Point RoIAlign可以应用于提取RoI特征以用于最终分割生成。除了实例敏感的特征fc外,从预训练的PointNet++分割网络获得的语义特征也用于特征主干。3.3. 实现细节在我们所有的实验中,我们首先训练GSPN和Point-Net ++语义分割网络,然后在R-PointNet训练过程中固定它们的权重。训练在训练GSPN时,我们为每个小批量中的每个训练场景随机采样512个种子点,这为我们提供了512个形状建议。我们对这些形状建议使用512点每个种子点周围的上下文被表示为场景的多尺度裁剪,其中裁剪半径被设置为使得最小尺度与场景中的最小对象实例相当,并且最大尺度大致覆盖最大对象。为了预测每个种子点的对象中心,我们简单地回归从种子点到对象中心的单位方向向量以及两者之间的距离,类似于[44]。我们还采用KL-退火[2]来稳定GSPN训练。在R-PointNet的训练过程中,我们对所有对象建议应用非最大值抑制[11],并保持最多128个建议用于训练。我们以与[15]相同的方式选择正和负ROI,其中正ROI是与IoU大于0的地面实况边界框相交的ROI。5,负ROI是那些小于0。5IoU与所有地面实况边界框。正ROI和负ROI之间的比率被设置为1:3。推理在推理时间内,我们在每个测试场景中随机抽取2048个种子点,并在非最大抑制后保留最多512个RoI,用于RoI分类,细化和分割。 它通常需要1000秒的Ti- tan XP GPU上消耗一个完整的场景与200000点。在获得每个RoI内的二进制分割后,我们通过最近邻搜索将分割掩模投影回初始点ROI之外的所有点都将从投影中排除。4. 实验我 们 的 对 象 建 议 模 块 GSPN 和 实 例 分 割 框 架 R-PointNet非常通用,可以处理各种数据。为了证明它们的有效性,我们在三个不同的数据集上进行了实验,包括:• ScanNet [5]:这是一个大规模的扫描数据集,包含1613个室内场景的3D重建。每次重建都是通过融合多个扫描生成的从不同的角度。用语义和实例分割掩模对场景进行注释。它们被正式分为1201个训练场景,312个验证场景和100个测试场景,其中地面真实标签仅公开用于训练和验证集。• PartNet[27]:该数据集为来自ShapeNet [3]的3D对象提供细粒度部件涵盖24个类别。以及零件的数量-每个对象的姿态范围从2到220,平均为18。• NYUv2 [30]:该数据集包含1449个RGBD图像,带有2D语义实例分割注释。选项。我们使用[7]中改进的注释。利用摄像机信息提升深度通道,得到局部点云.我们按照标准的火车测试分割。我们还进行了广泛的消融研究,以验证我们框架的不同设计选择。4.1. ScanNet上的实例分割我们首先在ScanNet 3D语义实例分割基准上评估我们的方法,在18个常见对象类别上评估和比较算法在该任务中,提供彩色点云作为输入,目标是分割出场景中的每个实例,并将其划分为18个对象类别及其语义标签。类别列表捕获了从小规模图片到大规模门的各种对象,使任务非常具有挑战性。使用IoU阈值为0.5的平均精度(AP)作为评估度量。与检测任务不同,这里的IoU是基于分割而不是边界框计算的,强调3952是说 cabi-净床椅子 沙发 桌门赢-预订- pic- 办公桌陶氏货架curtain五,DGE淋浴厕所窗帘水槽浴室-其他浴缸PMRCNN5.34.70.20.210.72.03.10.40.018.40.10.02.06.50.010.91.433.32.1SGPN13.36.036.125.733.516.17.912.214.91.32.60.06.22.60.016.110.419.43.8我们28.531.138.954.638.726.723.321.327.92.75.312.46.621.420.077.032.750.023.3表1.ScanNet(v2)3D语义实例基准测试的实例分割结果图5. ScanNet实例分割结果的可视化。前三列显示实例分割结果,其中不同的颜色表示不同的对象实例,最后三列显示语义分割结果。我们在第一列中用红圈突出显示了SGPNSGPN经常会将一个对象分成多个部分或遗漏某些对象。更详细的了解。与以前的方法[33,42]不同,我们不将场景切割成立方体,而是直接消耗整个场景,这避免了立方体合并过程,并且更加方便。我们将我们的方法与ScanNet(v2)基准上的主要参与者进行了比较,包括SGPN [42]和投影掩码R-CNN(PMRCNN)方法[1]。SGPN通过度量学习的变化来学习对来自同一实例的点进行分组。PMRCNN首先预测2D彩色图像中的实例,然后将预测投影回3D点云,然后进行聚合步骤。据我们所知,目前这些是唯一的基于学习的实例分割方法的三维点云,可以处理任意对象类别在室内环境中我们在表1中报告了结果。我们的R-PointNet在大多数对象类别上的表现都优于所有以前的最先进技术。R-PointNet对于具有较小几何变化的类别(如马桶)实现了非常高的AP,因为GSPN只需要捕获相对简单的对象分布,并且可以生成非常高质量的对象建议。对于窗、门等需要较强纹理信息的类别,由于其相似性度量不能有效地编码颜色,因此SGPN不能获得较好的结果。我们的方法在这些类别上取得了更好的结果,这表明GSPN在生成对象建议时不仅利用了几何信息,还利用了颜色信息。PMRCNN直接在2D而不是3D中工作,并且未能很好地利用3D信息,导致大多数类别的AP非常低。有趣的是,PMRCNN在图片类别中获得了最好的分数,这并不奇怪,因为图片位于2D表面上,其中外观而不是几何形状作为分割的关键线索。基于2D的方法目前仍然更能够从外观信息中学习。我们还在图5中展示了SGPN和我们的方法之间的定性比较。SGPN需要在学习的相似性度量空间中划出一个清晰的边界来划分对象实例,这并不容易。我们可以观察到很多对象预测要么包括部分对象,要么包括多个对象。与SGPN相比,我们的GSPN生成的建议具有更高的客观性,从而导致更好的分割质量。我们还发现,当存在大量背景点时,SGPN很难学习良好的相似性度量,因为它纯粹专注于学习前点的语义和相似性,而在训练过程中忽略了背景点,这可能会增加背景上的假阳性预测另一方面,GSPN明确地学习每个建议的对象性,并且可以很容易地从背景中区分前景。因此,它由背景点决定。4.2. 基于PartNet的我们的R-PointNet不仅可以处理室内场景中的对象实例分割,还可以处理对象中的部分实例分割。与场景中的对象不同,对象部分更具结构性,但更少分离,例如。椅座总是位于椅腿的上方,同时与椅腿紧密连接,这给现有技术带来了新的挑战,3953图6.零件实例分割结果的可视化。正如红圈所强调的,SGPN并不像我们描述的那样好地描述对象部分,并且通常无法区分具有相同语义含义的部分姿态分割[27]介绍了PartNet,一个大规模的细粒度零件注释数据集,其中3D对象来自[3]被分割成细粒度的部分实例。与之前的大规模零件标注数据集[46]不同,PartNet除了语义标注之外还提供了真实零件实例标注,分割粒度更详细,更适合测试实例分割方法。我们从PartNet的四个最大的类别,并评估我们的方法的语义部分实例分割任务。尽管如此,我们仍然使用AP作为评估指标,IoU阈值为0.5。我们与SGPN,它也声称能够处理部分实例分割任务进行比较。我们在表2中报告了定性比较,并在图6中可视化了我们的方法和SGPN的预测。椅子表灯存储SGPN我们0.1940.2680.1460.2190.1440.1830.2150.267表2.PartNet上的零件实例分割我们的方法在所有类别上都优于SGPN。我们的方法在所有类别上的表现都优于SGPN。如图6所示,我们的方法可以成功地分割具有各种比例的零件实例,从左上角的存储家具的小底板到右上角的大座椅。即使是被其他零件包围的零件实例,例如左下角灯罩内的灯泡,我们仍然可以在SGPN失败时将它们分割出来。SGPN通常将具有相同语义标签的部件实例分组。如红色圆圈所示。我们还在右下角展示了我们的方法和SGPN的失败案例,其中椅子背部、手臂和座位上的每个酒吧都被视为单独的零件实例。这给语义标注和实例分割带来了巨大的挑战。与SGPN相比,我们获得了更平滑的实例段,噪声更少。4.3. NYUv2上的实例分割在这个实验中,我们专注于彩色部分点云数据从RGBD图像提升。与Scan-Net不同的是,每个RGBD图像只从单个视点捕获一个场景,导致在提升的点云中丢失了很大一这在具有严重遮挡的杂乱室内环境为了显示我们的方法的有效性,我们遵循[42]的设置,并在彩色部分点云上对19个对象类别进行实例分割。具有0.25的IoU阈值的AP被用作评估度量,并且再次在预测分割和地面实况分割之间计算IoU。与[42]相同,为了更好地利用颜色信息,我们直接使用预训练的AlexNet [18]从RGB图像中提取特征我们使用来自conv 5层的特征,并将图像特征与PointNet++语义分割特征连接起来,以增强f sem,它作为R-PointNet的语义特征骨干。图像特征和点特征之间的连接发生在对应的像素和3D点对内,这可以通过将每个3D点投影回2D并搜索其最近的像素来获得 我们将我们的方法与SGPN-CNN [42]进行了比较,SGPN-CNN [42]是先前关于此部分点云实例分割任务的最先进方法。在SGPN-CNN中,2D CNN特征被合并到SGPN中以更好地利用颜色信息。在与[42]进行比较时,我们发现在作者的评价方案中存在差异 在作者的帮助下,我们重新评估了SGPN-CNN,并在表3中报告了定量比较。我们的R-PointNet在mAP方面优于SGPN-CNN,并在14/19类上提供更好的结果。即使在数据严重缺失的部分点云上,R-PointNet仍然可以捕获形状先验,生成对象建议并合理地预测最终分割。R-PointNet在具有较小几何变化的类别(如浴缸和马桶)上获得了更高的分数,这些类别的形状分布相对更容易被GSPN捕获。4.4. 消融研究为了验证我们的各种设计选择,我们对ScanNet(v2)验证集进行了消融研究,并讨论了以下细节。我们还建议读者参考补充材料进行更多消融研究,如生成模型设计。与其他3D建议方法的比较我们通过用其他类型的对象建议网络替换GSPN来进行消融研究。具体地说,我们实现了两种选择。一种是直接回归每个对象的3D边界框,模仿Mask R-CNN。对于3D空间中的每个种子点,我们定义了与三个尺度和9个纵横比相关联的27个轴对齐的锚框我们设计了一个建议网络,它本质上是一个MLP,边界框回归。它采用上下文特征fccd并直接回归中心偏移,3954是说 浴床书柜椅子沙发桌门梳妆台台灯夜灯浴缸架矮柜水槽 沙发桌电视厕所SGPN-CNN 33.6 45.3 62.5 43.9 0.0 45.6 40.7 30.0 20.2 42.6 8.8 28.2 15.5 43.0 30.4 51.4 58.9 25.6 6.6 39.0我们39.3 62.8 51.4 35.1 11.4 54.6 45.8 38.0 22.9 43.3 8.4 36.8 18.3 58.1 42.0 45.4 54.8 29.1 20.8 67.5表3.NYUv2数据集上的实例分割结果每个锚框的框增量和对象性得分,其用于锚框细化。然后,我们应用非最大值抑制和点ROI对齐到细化的anchor框,并将它们馈送到最终的分类,框回归和分割头。另一种方法是在以每个种子点为中心的特定上下文内进行二进制分割在我们的例子中,我们选择最大的上下文c3,我们通过两种评价方法将GSPN生成的RoI与上述两种方案进行了一个是在所有种子点处的真实边界框和真实边界框之间的平均3D IoU(mIoU)。另一个是最终实例分割mAP。对于直接边界框回归方法,我们选择具有最高对象得分的细化锚框我们在表4中报告了定量比较,并在图7中显示了不同方法的建议。我们的GSPN在两个评估指标方面都取得了最佳表现。它生成更好的对象pro-bands更相似的基础对象,这确实提高了最终的分割性能。基于二进制分割的对象建议和基于边界框回归的对象建议都可以生成覆盖部分或多个对象的框,从而影响它们用于下游分割任务。MiouAPAP@0.5AP@0.25Bbox注册二进制隔离区0.5140.5430.58115.814.919.333.130.937.851.347.753.4表4.评估不同的3D提案方法。与简单的边界框回归和基于二进制分割的边界框建议相结合,我们的GSPN不仅生成与地面真实对象重叠更多的对象建议,而且大大提高了最终的分割mAP。特征主干的选择我们使用实例敏感的上下文特征fcnc和语义特征fsem的组合作为特征主干,这两者在实现良好的实例分割中起着重要作用。我们通过删除它们中的每一个并评估对最终分割mAP的影响来评估它们的结果如表5所示。可以看出,从主干中删除它们中的任何一个都会导致性能退化。这证实了GSPN学习的实例敏感特征是语义特征(a)(b)(c)(d)图7.通过不同方法生成的诱导3D边界框实现对象提案的可视化。(a)显示了输入点云,椅子腿上的红色点用作种子点。我们展示了由(b)基于二进制分割的对象建议,(c)直接边界框回归,(d)GSPN生成的建议由(b)和(c)给出的3D边界框包括其他对象,而GSPN生成对底层对象的忠实近似,从而成功地避免包括其他对象。所以,两者的结合是很重要的。此外,我们还重新移动了fsem的预训练步骤,并使用R-PointNet以端到端的方式训练pointnet++语义分割网络。我们观察到性能下降,如表5所示。APAP@0.5AP@0.25不含运费0.1780.3490.515不含SEM0.1610.3190.477无预培训0.1800.3640.517我们0.1910.3760.541表5.功能主干的不同选择的比较上下文特征和语义特征在特征主干中起着重要的作用。我们还发现使用语义分割任务预训练语义特征可以提高分割性能。5. 结论我们提出了GSPN,一种新的对象建议网络,用于3D点云数据的实例分割。GSPN生成具有高对象性的高质量对象建议,这可以大大提高实例分割框架的性能。我们演示了如何GSPN可以被纳入一个新的3D实例分割框架:R-PointNet,并在多个实例分割基准测试中实现最先进的性能。致 谢 本 工 作 得 到 了 NSF 资 助 CHS-1528025 和 IIS-1763268、Vannevar Bush教师奖学金、Google FocusedResearch Award以及Amazon AWS的礼物的支持。3955引用[1] 扫描网3d语义实例基准测试排行榜。http://kaldir.vc.in.tum.de/scannet_benchmark,访问时间2018-11-16,下午6点。6[2] S. R. 鲍曼湖维尔尼斯岛Vinyals,A.M. 戴河,巴西-地Jozefow-icz和S.本吉奥。从连续空间生成句子。arXiv预印本arXiv:1511.06349,2015。5[3] A. X. 张, T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang,Z. Li,S. Savarese,M. Savva,S.宋,H. Su等人Shapenet:一个信息丰富的3d模型库。arXiv预印本arXiv:1512.03012,2015。五、七[4] X. Chen,H. Ma,J. Wan,B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在IEEE CVPR,第1卷,第3页,2017年。2[5] A. Dai , A. X. 张 , M 。 Savva , M. Halber , T. A.Funkhouser和M.尼斯纳Scannet:室内场景的丰富注释3D重建。在CVPR,第2卷,第10页,2017年。5[6] J. Dai,K.他,Y. Li,S. Ren和J. Sun.实例敏感的全卷积网络。欧洲计算机视觉会议,第534-549页。施普林格,2016年。2[7] Z. Deng和L. J. Latecki 3D对象的非模态检测:从rgb深度图像中的2d边界框推断3d边界框。在计算机视觉和模式识别会议,第2卷,第2页,2017年。一、二、五[8] H.范,H. Su和L.吉巴斯一种从单幅图像重建三维物体的点集生成网络。在CVPR,第2卷,第6页,2017年。二、三[9] R. 娘 娘 腔 。 快 速 R-CNN 。 在 Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。二、四[10] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集,第580-587页,2014年。2[11] R. 格尔希克F.Iandola,T.Darrell和J.马利克可变形零件模 型 是 卷 积 神 经 网 络 。 在 Proceedings of the IEEEconference on Computer Vision and Pattern Recognition,pages 437-446,2015中。5[12] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展,第2672-2680页,2014年。2[13] I. Gulrajani,K. Kumar,F.艾哈迈德,A. A. Taiga,F. 视素D. Vazquez和A.考维尔PixelModel:一种自然图像的潜变量模型。arXiv预印本arXiv:1611.05013,2016。2[14] B. 哈里哈兰山口阿尔贝拉兹河。Girshick和J. 马利克用于对象分割和细粒度局部化的Hy-在IEEE计算机视觉和模式识别,第447-456页,2015年。4[15] K. 他,G. Gkioxari,P. Doll a'r 和R. 娘娘腔。 面具r-cnn。在计算机视觉(ICCV),2017年IEEE国际会议上,第2980-2988页。IEEE,2017年。一、二、三、四、五[16] W. James. 心理学原理,卷。二、亨利·霍尔特和公司,1890年。1[17] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。2[18] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展,第1097-1105页,2012年。7[19] A. Kundu,Y. Li和J.M.瑞格3d-rcnn:通过渲染和比较进行实例级3d对象重建。在IEEE计算机视觉和模式识别会议上,第3559-3568页,2018年。2[20] Y. Li,H. Qi,J. Dai,X. Ji和Y.伟.完全卷积的实例感知语义分割。arXiv预印本arXiv:1611.07709,2016。一、二[21] T.- Y. Lin,P.多尔河B. 格希克角他,B.Hariharan和S. J· 贝 隆 吉 用 于 目 标 检 测 的 特 征 金 字 塔 网 络 。 在CVPR,第1卷,第4页,2017年。2[22] T.- Y. Lin,P. 戈亚尔河格希克角He和P. 娃娃。密集目标检测的焦面损失IEEE关于模式分析和机器智能的交易,2018。2[23] O. Litany,T.雷梅斯湾弗
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功