端到端深度学习的三维点云描述符

189 浏览量更新于2023-10-25 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1919三维点云Lei Li1*Siyu Zhu2Hongbo Fu3<$ Ping Tan2，4Chiew-Lan Tai11HKUST2 Alibaba A.I.实验室3香港城市大学4西门菲莎大学摘要在这项工作中，我们提出了一个端到端的框架来学习本地多视图描述符的三维点云。为了采用类似的多视图表示，现有的研究在预处理阶段使用手工制作的视点进行渲染，该预处理阶段与随后的描述符学习阶段分离在我们的框架中，我们通过使用可重构的渲染器将多视图渲染集成到神经网络中，这允许视点是可优化的参数，以捕获更多信息的局部上下文的兴趣点。为了获得有区别的描述符，我们还设计了一个软视图池模块，以专注地融合视图间的卷积特征。在现有的3D配准基准上进行的大量实验表明，我们的方法在数量和质量上都优于现有的局部描述符。1. 介绍3D几何的局部描述符被广泛认为是许多计算机视觉和图形任务（例如，对应关系建立、注册、分割、检索等）中的基础之一。特别是，随着消费级RGB-D传感器的普及，大量的扫描数据需要强大的局部描述符来进行场景对齐和重建[59，4]。然而，这样的3D数据通常是嘈杂的和不完整的，对局部描述符的设计提出了挑战。现有的手工设计的本地描述符[20，11，46，45，53，52，48]，在过去的几十年中提出的，主要是建立在低级别的3D几何属性的直方图深度神经网络的最新趋势促使研究人员以数据驱动的方式开发基于学习的局部描述符[66，8，24，19，6，57，12]。已经探索了3D局部几何结构的几种类型的输入表示，例如原始点云补丁[24，6]，体素网格[66，12]和多视图图像[19，67]。目前，在3DMatch [66]的几何配准基准上，大多数基于学习的方法都建立在点-*L.李先生曾在阿里巴巴人工智能公司实习。Labs.†H.傅是通讯作者。电子邮件地址：hongbofu@cityu.edu.hkNet [41]具有点云补丁或具有体素网格的3D CNN，3DSmoothNet [12]通过平滑密度值体素化实现了最先进的性能。尽管体素表示取得了令人印象深刻的进展，但关于3D形状识别和检索的文献[50，42，56]表明多视图图像的性能优于体素网格，并且已经进行了一些初步尝试[19，67]以将类似的想法扩展到3D局部描述器。与此同时，最近的一系列研究已经推进了2DCNN从单个图像块中学习局部描述符[15，51，34，63，23，35，32]。这些都促使我们执行- form进一步调查的多视图表示的三维点和他们的局部几何。在学习描述符中采用多视图表示的主要挑战如下。首先，为了获得多视图图像，在预处理阶段[50，19]中，3D图形渲染流水线需要一组视点（虚拟相机）。在现有的研究中[50，42，19，56，9，17]，观点是随机抽样或随机手工挑选的。然而，如何以数据驱动的方式确定视点以产生更多的神经网络信息渲染仍然是一个问题。其次，需要一个有效的融合操作，将来自多个视图的特征整合到一个单一的压缩描述符中。最大视图池化是一种主要的融合方法[50，42，19，56]，但该操作可能会忽略细微的细节[67，56]，导致次优性能。在这项工作中，我们提出了一种新的网络架构，以端到端的方式学习3D点云的本地多视图描述符，如图所示。1.一、我们的网络由三个主要阶段组成：（1）点云的3D兴趣点的多视图绘制;（2）每个渲染视图中的特征提取;以及（3）视图间的特征融合。具体来说，我们首先使用网络内可微分渲染器[30]将特定点的3D局部渲染器使用的视点是训练期间可优化的参数。渲染器可以将监督信号从渲染的像素反向传播到视点，从而实现渲染阶段与其他两个阶段的联合优化。接下来，为了提取每个渲染视图中的特征，我们利用在学习任务中非常成熟的ex-cnn1920单个补丁描述符[51，34]。最后，为了融合所有视图的特征，我们研究了最大视图池化的梯度流问题[50]，然后设计了一个新的软视图池化模块。前者仅考虑特征图中每个位置的视图间最强响应，而相比之下，我们的设计自适应地将所有响应与子网络估计的关注权重进行聚合。在向后传递中，我们的设计允许监督信号更好地流入每个输入视图以进行优化。在3DMatch基准测试[66]上进行的实验表明，我们的方法优于先前手工制作和学习的描述符，并且对旋转和点密度也具有鲁棒性。我们在这项工作中的贡献概述如下：（1）提出了一种新的端到端的3D点云局部多视图描述符学习框架，具有最先进的性能;（2）视点是通过网络内可微分渲染可优化的;（3）软视图池化模块以更好的梯度流专注地融合视图间的特征。我们将公开我们的代码2. 相关工作手工制作的3D本地描述符。在过去的几十年中，大量的文献研究了用于编码3D点的局部邻域的几何信息的描述符。全面审查超出了本文的范围。经典描述符包括，仅举几例，自旋图像[20]，3D形状上下文[11]，PFH [46]，FPFH [45]，SHOT [53]和唯一形状上下文[52]。这些手工制作的描述符主要是从低级别几何属性的直方图中构建的。尽管这些描述符取得了进展，但它们可能无法很好地处理真实扫描数据中常见的干扰，如噪声，不完整性和低分辨率[13]。已学习3D本地描述符。随着最近深度神经网络的发展[44]，已经转向开发基于学习的3D局部描述符[6，24，66，12，19]。一般来说，这些方法分为三类，根据输入表示，包括点云补丁，体素网格和多视图图像。点云面片是点的局部邻域的最直接的表示。PointNet是Qi等人所做的开创性工作[41]，专门设计用于处理点云的非结构化性质。像[6，5，61]这样的研究建立在PointNet上，以学习点云补丁的描述符。还存在基于PointNet的工作，其与其他任务联合学习本地描述符，例如关键点检测[62]和姿态预测[7]。在3DMatch [66]和3DSmoothNet [12]等作品中使用的体素网格是3D点云的常见结构化表示[33，58，42]。为了减少噪声和边界效应，Gojcic et al.[12]建议在3DSmoothNet中使用平滑密度值体素化。他们的方法在3DMatch基准测试中达到了最先进的性能[66]，大大优于上述基于PointNet的方法[6，5，7]。在3D形状识别和检索任务中，多视图图像表现出比体素网格更好的性能[50，42，43]，因为它们能够提供丰富的3D几何信息。受全局形状分析成功的启发，研究人员将多视图表示扩展到3D局部描述符学习[19，67]。Huang等人[19]将[50，26]中的CNN架构重新用于提取3D形状的局部描述符（例如，飞机或椅子），这些多视图图像是用聚集的视点离线渲染的。存在像[8，43]这样的研究，其使用2D滤波从点云生成网络内图像。相比之下，我们的工作将视点视为可优化的参数，并在神经网络中使用可微分渲染器[30]执行多视图渲染为了将视图特征融合到单个紧凑的表示中，最大视图池由于其计算效率和视图顺序不变性而被广泛使用[50，42，56，19，43，67]，但它往往会忽略[56，67，34，65，37]中讨论的细微细节。Zhou等人。[67]提出了Fusep- tion，一种用于特征融合的剩余学习模块，但他们的模块不是视图顺序不变的，其参数数量随着输入视图的数量而增长其他方法，如NetVLAD [2]和RNN [16]的特征聚合，也已经被探索过，但需要过多随后，通过分析最大视图池的梯度流，我们提出了软视图池，自适应地聚集功能与关注的权重在视图顺序不变的方式。差异化渲染。传统的3D图形绘制流水线涉及光栅化和可见性测试，这是关于投影点坐标和视图的不可微离散化操作。依赖深度[30]。因此，监督信号不能从2D图像空间流到3D形状空间，从而防止将该流水线集成到神经网络中以进行端到端学习。最近，研究人员设计了几种可微分渲染框架[31，21，29，28，39，64，3，30]，其中包含用于离散化操作的近似梯度公式其中，SoftRasterizer（SoftRas）是由Liu等人开发的最先进的可重构渲染器。[30]，将网格渲染视为三角形的概率聚合过程。在这项工作中，我们修改SoftRas扩展其应用程序的点云绘制，并采用硬前向软后向计划。3. 方法给定一个3D点云P，我们的目标是训练一个神经网络f，它可以提取一个有区别的局部描述符1921k=1J图1：学习点云本地多视图描述符的端到端网络。该网络将点云作为输入，并使用可区分的渲染器为感兴趣的点执行网络内多视图渲染从每个视图中单独提取特征图，并通过软视图池模块融合在一起，以获得最终的描述符。对于一个点p∈ P，以端到端的方式。为此，我们通过使用多视图表示对p与点云补丁或体素网格相比，多视图表示可以更容易地捕获不同级别的局部上下文[19，42]。我们的网络f由三个阶段组成，如图所示如图1所示。首先，网络f直接将点云P和兴趣点p作为输入，并使用SoftRas [30]渲染的局部邻域p作为多视图补丁（第第3.1节）。其次，我们从每个渲染的视图块通过轻量级的2D CNN（Sec. 3.2）。最后，所有提取的视图特征通过新颖的软视图池化模块被复杂地融合在一起以获得局部描述符（Sec.3.3）。f的三个阶段以端到端的方式联合训练，使得在几何和语义上相似的对应点的描述符彼此接近，而非对应点的描述符彼此远离（第二节）。第3.4段）。3.1. 多视图渲染可优化的观点。现有的多视图方法根据某些规则选择一组渲染视点，例如，通过聚类[19]或以固定步长[50，56，9]围绕观看中心然而，该视图选择过程与随后的多视图融合阶段分离，并且因此可能为后者产生较少代表性的输入SoftRas允许视点成为可优化的参数，可以在后期与其他网络参数联合训练。设置虚拟在以注视方式观察摄像机的情况下[1]，我们使用球面坐标将视点参数定义为{ck=（θk，φk，ρk，u）}n，其中n是视点的数量。每个视点ck由两个角度θk和φk、到局部原点的距离ρk和一致的直立方向u表示。给定兴趣点p作为原点，{ c k }的局部参考系（LRF）定义如下（图2）。2）：z轴与p的法线共线; x轴是u和z轴的叉积（一个小的每如果法线平行于u，则扰动到u）;y轴是z轴和x轴的叉积。我们约束{ck}位于点法线所在的半球内（第二节）。第 3.4段）。为了增强学习的描述符中的旋转不变性，我们以90度的间隔旋转每个渲染的视图块[19]（即，4个平面内旋转）。因此，如下面详细描述的，通过渲染获得一组4n个图2：视点ck的局部球坐标（θk，φk，ρk）。差异化渲染。为了解决传统3D图形渲染流水线的不可微问题（图11），3-a），SoftRas将网格渲染视为2D中三角形的概率聚合过程。为了将点云P渲染为具有{ck}的视图块，一种方法是首先通过表面重建将P变换为网格[22]，然而，这对于集成到我们的端到端框架中是具有挑战性的，并且可能不能很好地处理噪声（例如，在户外场景的激光扫描中）。相反，我们修改SoftRas，使其适合点云渲染（图。3-b）。我们将每个点qj∈ P视为一个球面[19]，其半径可以是一个固定值[19]或由qj与其局部邻居之间的平均距离导出。在用特定视点ck进行透视投影之后，点qj产生概率图Dj，其描述每个输出像素被qj覆盖的概率[30]。渲染输出I（大小为64× 64）中的第i个像素定义为：ΣIi=w（Di，zj）Cj+wbCb，（1）J1922k=1k=1KαKK=KK其中Cj是渲染的属性（例如，颜色或视图相关的深度），Cb是默认背景值，而zj是q j的深度。加权函数w（·）de-近似方案在我们的实验中工作良好。3.2. 特征提取[30]在[30 ]中签名的是偏向于更接近凸轮的点令{Ik}4n为所产生的多视图块的集合era和第i个像素，并且jw（·）+wb=1。这种线性在点P的渲染阶段中。这个2D代表-公式在Eq.1近似光栅化，vis-在传统的渲染流水线中进行测试（图。（3）自然是可分的。由于输入点云可能缺乏颜色信息，因此我们使用视相关深度作为Cj[8，60]，它对照明变化是不变的我们建议感兴趣的读者参考[30]，以获得Dj和w（·）的详细实现和讨论。自然地，这种方法可以适用于现有的补丁分析网络。我们采用类似于L2-Net [51，34]的轻量级CNN主干，L2-Net是一种用于学习局部图像描述符的最先进网络。具体地说，该网络由六个堆叠的卷积层组成，每个卷积层后面都是归一化[54]和ReLU层。我们将每个补丁Ik馈送到网络，并获得相应的特征图，记为Fk，其大小为8× 8，具有128个通道。3.3. 多视图融合给定特征映射{Fk}4n的集合作为输入，我们每-形成跨视图的特征融合以获得更紧凑的多视图表示。令Fi表示融合输出Fi（与Fk大小相同）的i上的locati处的特征并且i在所有空间和通道方向位置上迭代（图1）。（五）。最大视图池是一种被广泛采用的融合方法，它具有计算简单、不改变视图顺序等优点。然而，该操作遭受反向传播中的跟随梯度流问题。在数学上，最大视图池可以表示为 ΣFi=αiFi，（2）图3：点云的渲染管道：（a）Con-kkkventional 3D图形渲染;（b）Soft Rasterizer [30]扩展到3D点云渲染。哪里Ki=1，权重{αi}为one-hot选择最大值的表格沿向后通过，等式的梯度。2是.∂F˜ii=1 如果Fi是最大值，0否则。（三）图4：点p的多视图渲染样本（深度，大小= 64×64）。上图：我们的硬前向软后向方案的效果图（图3-a）;底部：[30 ]第30章：你是谁？3-b）。因此，根据链式规则，如果位置不具有最大特征值，则来自损失函数的监督信号不能流入Fk中的某些位置，这可能会引导CNN忽略特征提取中的一些细节另一种方法是平均视图池，I1k4n 以缓解梯度流问题。然而，在这方面，虽然Eq.1使它可能-对于网络内渲染，我们观察到了伪影，例如渲染输出中具有大深度不连续性的区域处的模糊像素（见图2）。4）. 为了减轻伪影对后续特征提取的影响，我们采用硬前向软后向方案来使用SoftRas渲染点云，与[21]共享类似的想法。具体来说，在前向通道中，我们执行光栅化和可见性测试，以与传统渲染流水线相同的方式获得渲染结果（图1）。3-a）。在后向传递中，我们使用等式计算渲染的近似梯度1SoftRas。我们发现这如现有研究所示[19]，这种方法可以比最大视图池更差，部分原因是在视图之间平等地对待特征可能会减少有用特征的贡献，同时增加不重要特征的影响，从而导致更少的区别性描述符。基于上述分析，我们提出了软视图池，自适应估计注意力权重{αi}与一个子网络。具体地，子网络将每个Fk作为输入，并遵循编码器-解码器设计以回归对应的权重。子网络使用3 × 3卷积，对空间大小和信道深度执行下采样，然后以2倍进行上采样。α1923图5：位置i处的多视图融合，其在所有空间和通道位置上迭代（顶部：每个视图的特征图;底部：融合特征图）。层和3× 3上卷积层，以及中间的ReLU层输出权重映射表示为αk（与Fk大小相同）。之后，对于如上定义的每个位置i，将softmax函数应用于{αi}4. 实验4.1. 3DMatch基准数据集。我们在3DMatch [66]中广泛采用的几何配准基准上评估了所提出的方法。该基准由62个室内场景的RGB-D扫描组成，这是几个现有RGB-D数据集的集合[55，49，59，27，14]。数据分为54个场景用于训练和验证，8个场景用于测试。在每个场景中，通过融合50个连续的深度帧来获得点云碎片对于测试集中的每个片段，提供5，000个随机采样点的集合作为用于描述符提取的关键点。公制。查全率度量用于比较平均匹配点云Σ进行归一化，K片段[6，5，12]。考虑一组点云碎片kαk=1成立。注意到上述计算对于查看订单是不变的最后，网络f将融合后的特征Ff嵌入到具有全连接层和随后的l2归一化层的d维描述符空间中。3.4. 培训为了训练网络f，我们在两个点云的重叠区域（至少30%重叠）中对匹配点对进行采样。给定一批匹配点对B={（pi，qi）}，我们遵循[12 ，18] 采用批处理硬（BH）三重损失对G={（P，Q）}，其中点云P和Q在对准之后具有至少30%的重叠对于特定的描述符提取方法g（·），在描述符空间中计算P和Q之间的推定匹配点的集合M={（p ∈ P，q ∈ Q）|g（p）= nn（g（q），g（P））（六）g（q）=nn（g（p），g（Q））}，其中p和q是关键点，并且nn（·）是最近邻搜索。然后，召回度量R被定义如下：1Σ|B|Σ1Σ|G|Σ。1R=ΣΣΣΣp− Ti（q）<$2<τ1Σ> τ2，LBH= |B|i=1m+<$f（pi）−f（qi）<$2−Σ（四）|i=1|i=1|Mi|p，q∈Mi（七）minj=1···|B|j/=i<$f（pi）−f（qj）<$2+，其中[·]是Iverson括号，并且Ti（·）是用于在其中[·]+=max（·，0），并且m是裕度并且被设置为1。对于训练三元组，qi是pi的正样本，并且LBH考虑pi的批次B内的最难负样本qj。如第3.1，我们还对可优化视点施加范围约束，如下所示：G.用于匹配点的距离阈值τ1内点比τ2 的范围为0.05至0.2。为了可靠地找到两个重叠点云之间的正确对准参数，对于τ 2 = 0，RANSAC [10]迭代的次数为55，000。05和860，τ2=0。2[6，12]。1ΣnΣX+xx−x4.2.评价结果LOV=[|x −ab|−ba]+，（5）n2 2k=1x∈{θk，φk，ρk}其中x a={0，0，0. 3}和xb={2π，π/2，1}。因此，总损耗为L=LBH+λLOV，其中λ根据经验设置为1。我们使用PyTorch实现了网络[38]。我们设置视点数n=8和描述符维数d=32（第二节）。4.4）。视点参数θk、φk和ρk在等式1中的范围内随机初始化。5，且u初始化为[0，-1，0]。我们使用Adam [25]进行随机梯度下降，|B|=24，初始学习率为0.001。该网络被训练了16个时期，并且学习速率每4个epoch衰减0.1。在[6，5，12]之后，我们将我们的方法（32-d）与几个现有的3D局部描述符的基准。对于手工制作的描述符，FPFH [45]（33-d）和SHOT [53]（352-d）进行了测试，它们的实现来自PCL [47]。对于学习的描述符，3DMatch [66]（512-d）、CGF [24]（32-d）、PPFNet [6]（64-d）、PPF-FoldNet [5]（512-d）和当前最先进的3DSmoothNet [12]（32-d）进行了测试。此外，我们还与LMVCNN [19]进行了比较，LMVCNN是一种学习的多视图描述符基线，使用视点聚类进行离线渲染，使用最大视图池进行多视图融合。原始的LMVCNN使用AlexNet [26]作为其CNN骨干并输出128- d描述符，但为了公平比较，我们重新1924实现了1925τ2FPFH0.05 0.2枪0.05 0.23DMatch0.050.2CGF0.05 0.2PPFNet0.050.2PPF-FoldNet0.050.23DSmoothNet0.05 0.2LMVCNN0.050.2我们0.05 0.2厨房50.28.774.326.158.19.761.312.389.7-78.7-97.462.898.876.599.489.5主场170.523.180.148.772.417.372.423.755.8-76.3-96.276.997.478.898.785.9主场260.124.070.737.561.517.858.223.159.1-61.5-90.966.390.968.394.781.3Hotel 171.26.277.426.554.40.962.88.858.0-68.1-96.578.899.691.699.695.1酒店257.75.872.118.348.16.756.75.857.7-71.2-93.372.199.090.4100.092.3酒店375.911.185.231.561.11.983.318.561.1-94.4-98.188.9100.090.7100.094.4研究46.90.364.06.251.72.444.92.453.4-62.0-94.572.395.277.495.580.1MIT实验室44.21.362.320.850.65.245.53.963.6-62.3-93.564.990.974.092.276.6平均59.610.173.326.957.37.760.612.362.3-71.8-95.072.996.581.097.586.9表1：不同方法在3DMatch基准上的平均召回率（%），τ1= 10 cm，τ2= 0。05或0。二、LMVCNN具有与我们的方法相同的CNN骨干和描述符我们使用作者为3DMatch、CGF和3DSmoothNet提供的实现和训练权重。由于PPFNet和PPF-FoldNet的实现不是公开的，为了完整性，我们包括了它们的报告性能。表1显示了基准上的比较结果。对于τ2=0。05，我们的方法达到了97.5%的平均召回率，优于所有竞争的描述符。然而，τ2=0。05 is a relatively loose thresh- old on3DMatch,since3DSmoothNet(95.0%),LMVCNN(96.5%) and our method all have achieved almost saturatedperformance with relatively small difference.即便如此，我们的方法在大多数测试场景中获得了比3DSmoothNet和LMVCNN更高的召回率。更值得注意的是，对于更严格的条件τ2=0。2.我们的方法比其他竞争对手有显著的改进。具体来说，我们的方法保持了86.9%的高平均召回率，而3DSmooth-Net和LMVCNN分别下降到72.9%和81.0%FPFH、SHOT、3DMatch和CGF的性能低于30%。在图6中，我们绘制了关于在τ2的范围内，说明了在不同的内围比条件下，我们的方法所带来的改进相对于所比较的描述子的一致性。此外，表2列出了每个描述符找到的正确对应的平均数，计算公式为1008060402000的情况。000. 040. 08012016020τ2图6：3DMatch基准上相对于内点比率τ2的FPFH枪3DMatchCGF3DSmoothNetLMVCNN我们厨房104154104131274276380主场1158207134168325344438主场2132183125159318314395Hotel 11031317495272347457酒店210512464101239286407酒店313116065134277301446研究65846658172239299MIT实验室841228484247301366平均11014689116266301398表2：在2010年12月21日至2011年12月31日期间，1|G| Σ|G|i=1Σp，q∈MiΣ Σp− Ti（q）<$2<τ1，使用相同的3DMatch基准测试。在Eq.7 .第一次会议。据观察，我们的多视图描述符分别约为3DSmoothNet和LMVCNN的平均对应数的1.5倍和1.3倍。这清楚地说明了我们的描述符的主要鲁棒性此外，图7可视化了一些点云配准结果通过不同的描述符与RANSAC。特别地，观察到我们的描述符在具有大的平坦区域（第二行）的片段的配准中是鲁棒的。旋转3DMatch基准。为了评估描述符对旋转的鲁棒性，我们通过旋转测试来构建旋转的3DMatch基准[5，12]在[0，2π]中随机采样轴和角度的碎片。每个片段的关键点索引保持不变。表3给出了旋转列中每个描述符的平均召回率当τ2=0.05和0.2时，我们的方法分别达到了96.9% 和 82.1% 的平均召回率，两者都超过了3DSmoothNet（94.9%和72.7%）和LMVCNN（95.7%和76.7%）的性能与其他描述符一样。评估结果表明，我们的方法可以很好地处理旋转。稀疏3DMatch基准测试。为了评估ro-FPFH枪3DMatch我们CGF3DSmoothNetLMVCNN召回率（%）1926输入准备推理总图7：通过RANSAC的不同描述符的点云1和点云2的几何配准描述符对点密度的鲁棒性，我们遵循[5，12]来构建稀疏3DMatch基准。具体而言，对于每个测试片段，首先保留关键点，然后随机选择剩余点的50%或25%。评价结果见表3（最后两列）。实验结果表明，由于采用了基于球体的绘制方法，该方法能够像LMVCNN和3DSmoothNet一样处理不同的点密度，并保持了优越的性能。τ2旋转0.050.2稀疏（0.5）0.05 0.2稀疏（0.25）0.05 0.2FPFH60.110.059.29.557.88.5枪73.3二十六点九分72.325.570.723.13DMatch11.6 1.473.115.873.315.9CGF60.7十二点五52.67.841.73.8PPFNet0.3-----PPF-FoldNet73.1-----3DSmoothNet94.9七十二点七94.471.794.870.1LMVCNN95.7七十六点七96.281.395.981.5我们96.982.197.287.297.386.1表3：旋转或稀疏3DM 匹配基准上的平均召回率（%），τ1=10 cm，τ2=0。05或0。二、3DMatch0.12.02.1CGF10.60.110.73DSmoothNet39.40.239.6我们7.21.58.7表4：3DMatch基准测试中每个点的平均运行时间（ms）。运行时间。表4总结了学习的描述符在标准3DMatch基准上的运行时间。所有的实验都在具有Intel Corei7@3.6GHz、32 GB RAM和NVIDIA GTX 1080Ti GPU的PC上进行。表4中的输入准备是指3DMatch的TDF[66]体素化，CGF的球面直方图计算[24]，LRF计算和SDV体素化[12]用于3DSmoothNet和多视图渲染（第12节）。3.1我们的方法表4中的推理是指用神经网络从准备好的输入中提取描述符结果表明，输入准备阶段主导了我们的方法的运行时间广告，用于基于球体的渲染（第3.1），通过使用FLANN [36]（在我们的实现中使用）的邻域查询来确定点半径需要0.16 ms，而备选地，可以通过使用固定半径来避免计算，如[19]中所述。尽管如此，我们的方法仍然表现出有竞争力的运行时间性能。4.3. 对室外场景的泛化我们进一步评估Gojcic等人构建的户外场景基准上的描述符的泛化能力。[12]与来自ETH数据集的点云[40] 。该基准测试包括四个场景，包括 Gazebo-Summer 、 Gazebo-Winter 、 Wood-Summer 和 Wood-Autumn。点云是通过激光扫描仪获得的，主要是关于户外植被的。因此，点云在具有低分辨率的大空间范围内，并且包含复杂且有噪声的局部几何形状。与3DMatch基准测试相同，在每个点云中随机采样5，000个关键点以进行描述符提取。评价指标与第二节中的评价指标相同。4.1.在[12]之后，没有对在3DMatch基准上训练的描述符进行微调为了适应点云的低分辨率和大空间范围，3DMatch和3DSmoothNet的体素网格比Sec中的体素网格增加了更长的边（分别为3×和5×四点二。CGF中球形直方图的半径为3。3倍长。对于LMVCNN和我们的方法，每个视点ck中的距离ρk乘以因子3。平均召回结果如表5所示。我们的方法（79.9%）实现了与3DSmoothNet（79.0%）相当的性能。同时，我们的方法显著优于 LMVCNN （ 39.7% ）和 SHOT（ 61.1% ），其他描述符（包括 CGF ， 3DMatch 和FPFH）低于25%。为了解释恶化的1927性能的LMVCNN，其使用的视图选择和多视图融合策略进行了进一步的实验，形成在第二节。4.4 上述结果表明，我们在3DMatch基准上训练的方法可以很好地推广到户外场景。特征响应。相应地，在我们的方法中，响应是自适应地收集的。100959085807570656016 32641281 2 4 8 16描述符维度% d视点编号% n表5：ETH基准测试的平均召回率（%），τ1= 10 cm，τ2= 0。05.4.4.消融研究描述符维视点编号。在图8中，我们绘制了我们的方法的平均召回率，其中具有不同的描述器维度d和视点数n（如在第12节中定义的）。3.3和Sec. 第3.1节）。研究发现，增加描述子维数（d≥32）和视点数目（n≥8）会导致性能饱和.因此，我们在实验中采用d=32和n=8的方法观点。在表6（顶部）中，我们展示了我们的网络f用不同的视点选择训练多视图渲染中的规则。具体地，直接随机采样规则将视点随机地放置五、LMVCNN [19]中使用的视点聚类规则通过K中心聚类选择三个代表性的观看方向环绕放置规则将视点设置为ρ=0。3，φ=π/6，θ为π/4步长（第3.1），类似于3D形状识别工作中使用的策略[50，56，9]。还提供了对渲染的视图片进行f无旋转增强的性能。实验结果表明，我们的优化视点比其他视点选择规则具有更好的性能，特别是在ETH室外数据集上的泛化能力。多视图融合。我们进行实验，以com-considering我们的软视图池与几种替代的多，视图融合方法，包括最大视图池[19]，Fuseption [67]和NetVLAD [2]。我们在表6（底部）中列出了使用上述融合方法训练的网络fWhile on the 3DMatch dataset theimprovement of soft-view pooling is small compared withmax-view pooling, our method shows significantly bettergeneralization on the ETH outdoor dataset. 这部分是因为ETH中室外植被的低分辨率扫描会产生相对嘈杂的渲染，这对选择最强图8：描述符维度d的和3DMatch基准上的视点数n。τ23DMatchETH0.05 0.2 0.05随机抽样97.084.164.8视点聚类96.783.553.3轨道放置92.555.242.2我们的没有旋转增强。96.985.654.9我们97.586.979.9最大视图池96.985.466.8融合97.185.155.9NetVLAD95.977.458.7我们97.586.979.9表6：3DMatch和ETH基准上的视点选择和多视图融合的消融研究。5. 结论我们提出了一种新的端到端的框架，用于学习3D点云的局部多视图描述符。我们的框架使用可优化的视点执行网络内多视图渲染，这些视点可以与后续阶段联合训练，并通过软视图池集中我们通过实验证明了对于未来的工作，值得研究点云的可微多视图渲染的加速以及我们的框架扩展到其他任务，如点云中的3D对象检测和识别。确认这项工作得到中国香港特别行政区研究资助局的资助（项目编号：城大 11212119 、香港科技大学16206819、香港科技大学16213520）及城大创意媒体学院应用电脑及互动媒体研究中心。τ 2 = 0。05τ 2 = 0。2平均召回凉亭合计温特木材合计自治区Avg.FPFH40.215.224.014.823.6枪73.945.764.060.961.13DMatch22.88.722.413.916.9CGF38.615.219.212.221.33DSmoothNet91.384.172.867.879.0LMVCNN53.331.842.431.339.7我们85.372.084.078.379.91928引用[1] Edward Angel和Dave Shreiner 交互式计算机图形：一种基于着色器的OpenGL自顶向下方法。第6版，2011年。3[2] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla，and Josef Sivic. NetVLAD：用于弱监督位置识别的CNN架构。在Proc.IEEE CVPR中，2016年6 二、八[3] 陈文正，高军，凌欢， Edward J. Smith ， JaakkoLehtinen，Alec Jacobson，and Sanja Fidler.学习使用基于插值的可区分渲染器预测 3d 对象。 CoRR ，abs/1908.01210，2019。2[4] Sungjoon Choi，Qian-Yi Zhou，and Vladlen Koltun.室内场景的鲁棒重建在proc IEEE CVPR，2015年。1[5] Haowen Deng ， Tolga Birdal ， and Slobodan Ilic. PPF-FoldNet：旋转不变3D局部描述符的无监督学习Proc.ECCV，2018。二五六七[6] Haowen Deng ， Tolga Birdal ， and Slobodan Ilic.PPFNet：全局上下文感知的本地特征，用于强大的3D点匹配。InProc. IEEE CVPR，2018. 一、二、五[7] Haowen Deng，Tolga Birdal，and Slobodan Ilic.直接成对配准的3D局部特征CoRR，abs/1904.04281，2019。2[8] G. Elbaz，T. Avraham和A.费舍尔使用深度神经网络自动编码器进行定位的 3D 点云注册。在 Proc. IEEECVPR，第2472-2481页，2017年。一、二、四[9] Yifan Feng，Zizhao Zhang，Xibin Zhao，Rongrong Ji，and Yue Gao. GVCNN: Group-view convolutional neuralnet- works for 3d shape recognition.在Proc. IEEE CVPR，2018年6月。一、三、八[10] Martin A. Fischler和Robert C.波尔斯随机样本一致性：模型拟合的范例，应用于图像分析和自动制图。Commun. ACM，24（6）：381-395，June 1981. 5[11] AndreaFrome ，DanielHuber，Ra viKolluri，ThomasBu？low和Jitendra Malik。使用区域点描述符识别距离数据中的对象。Proc. ECCV，第224-237页，2004年。一、二[12] 周彩发，詹戈伊契奇.Wegner和Andreas Wieser。完美匹配：具有平滑密度的三维点云匹配。InProc. IEEECVPR，2019. 一、二、五、六、七[13] Yulan Guo，Mohammed Bennamoun，Ferdous Sohel，Min Lu，Jianwei Wan，and Ngai Ming Kwok.三维局部特征描述符之综合效能评估IJCV，116（1）：66-89，Jan 2016. 2[14] Maciej Halber和Thomas A.放克豪瑟室内环境中rgb-d扫描的结构化CoRR，abs/1607.08539，2016。5[15] Han Xufeng，T.梁，Y.贾河，巴西-地Sukthankar和A.C.伯格。

下载后可阅读完整内容，剩余1页未读，立即下载