没有合适的资源?快使用搜索试试~ 我知道了~
3DMV: 用于3D语义场景分割的联合2D-3D架构
3DMV:用于3D语义场景分割的Angela Dai1和Matthias Nießner21斯坦福大学2慕尼黑工业大学Fig. 1. 3DMV将RGB-D扫描的重建连同其彩色图像(左)作为输入,并以每体素标签的形式预测3D语义分割(映射到网格,右)。我们的方法的核心是一个联合的3D多视图预测网络,利用几何和颜色特征之间的协同作用抽象。我们提出了3DMV,一种新的方法,用于在室内环境中使用联合3D多视图预测网络的RGB-D扫描的3D语义场景分割。与现有的方法,either使用几何或RGB数据作为输入,这项任务相比,我们结合了这两种数据形式在一个联合的,端到端的网络架构。而不是简单地将颜色数据投影到体积网格中并仅在3D中操作-这将导致细节不足-我们首先从相关的RGB图像中提取特征图。然后使用可区分的反投影层将这些特征映射到3D网络的体积特征网格中由于我们的目标是可能有许多帧的3D扫描场景,因此我们使用多视图池方法来处理不同数量的RGB输入视图。这种RGB和几何特征的学习组合与我们的联合2D-3D架构实现了比现有基线更好的结果例如,与现有的体积架构相比,我们在ScanNet 3D分割基准上的最终结果从52.8%提高到75%的准确性。https://github.com/angeladai/3DMV2A. Dai和M. 尼斯纳1介绍语义场景分割对于各种各样的应用是重要的因为它能够理解视觉数据。特别是,基于深度学习的方法在这方面取得了显着的成果,允许预测图像中准确的每像素标签[22,14]。通常,这些方法在单个RGB图像上操作;然而,人们可以很容易地在每个体素的基础上在3D中制定类似的任务[5,13,21,34,40,41],这是3D场景重建的背景下的常见场景与2D相比,第三维提供了一个独特的机会,因为它不仅预测语义,而且还提供了基于底层3D表示的场景内容的空间语义图。这与机器人应用特别相关,因为机器人不仅依赖于场景中的信息,而且还需要知道物体在哪里在3D中,场景的表示通常从RGB-D表面重建方法[26,27,17,6]中获得,其通常将扫描的几何形状存储在3D体素网格中,其中表面由隐式表面函数(诸如带符号距离场[4])编码分析这些重建的一种方法是利用具有3D卷积的CNN,其已用于形状分类[43,30],并且最近还用于预测密集语义3D体素图[36,5,8]。理论上,可以简单地将附加颜色通道添加到体素网格以便并入RGB信息;然而,有限的体素分辨率阻止了对特征丰富的图像数据进行编码。在这项工作中,我们专门解决这个问题,如何将RGB信息的3D语义分割任务,并利用组合的几何和RGB信号在一个联合的,端到端的方法。为此,我们提出了一种新的网络架构,作为输入的3D场景表示,以及附近的意见,以预测一个密集的语义标签集上的体素网格的输入。其核心思想是首先使用全分辨率RGB输入从2D图像中提取2D特征图,而不是将颜色数据直接映射到体素网格上。然后,通过2D域中的卷积对这些特征进行下采样,并且随后将所得的2D特征图反向投影到3D空间中。在3D中,我们利用3D卷积网络架构来从反向投影的2D特征以及3D几何特征两者中学习。通过这种方式,我们可以结合现有方法的优势,并利用所有可用信息,显著改进现有方法。我们的主要贡献是制定一个联合的端到端卷积神经网络,该网络学习从3D几何和2D RGB输入推断3D语义。在我们的评估中,我们提供了一个全面的分析的联合2D-3D架构的设计选择,并将其与当前的最先进的方法进行比较。最后,我们的方法提高了3D分割精度从52.8%提高到75%。2相关工作深度学习3D深度学习的最新进展为3D场景理解开辟了一条重要途径。类似于2D域,3DMV:用于3D语义场景分割的联合3D多视图预测3卷积神经网络(CNN)可以使用滤波器组的附加空间维度在体积域中操作。3D ShapeNets [2]是一个在这方面的第一个作品;他们从形状数据库中学习3D卷积深度信念网络。随后有几项工作使用3D CNN用于对象分类[23,30]或生成场景完成任务[7,10,8]。为了解决存储器和计算需求,已经提出了分层3D CNN来更有效地表示和处理3D体积[33,42,32,38,12,10]。3D CNN的空间范围也可以通过扩张卷积[44]来增加,扩张卷积已被用于预测丢失的体素并推断语义标签[36],或者通过使用全卷积网络来增加,以便分离训练和测试时间的维度[8]。最近,我们也看到了基于(非结构化)点表示的网络架构[29,31]。多视图深度网络。在3D输入上学习分类器的替代方式是渲染几何形状,运行2D特征提取器,并使用最大池化来组合所提取的特征。Su等人的多视图CNN方法[37]是最早提出这种对象分类体系结构的人之一。然而,由于输出是分类分数,因此这种架构不会在空间上关联累积的2D特征。最近,已经提出了一种多视图网络用于基于部分的网格分割[18]。在这里,每个部件标签的2D置信度图被投影到ShapeNet[2]模型的顶部,其中基于网格的CRF累积多个图像的输入以预测网格几何结构上的部件标签。该方法仅处理相对较小的标签集(例如,2-6部件标签),并且其输入是3D网格的2D渲染;即,多视图输入意味着作为3D几何学的替换输入虽然这些方法不是为3D语义分割而设计的,但我们认为它们是我们的多视图组件的主要灵感来源。在立体重建的背景下也已经提出了多视图网络例如,Choi等人。[3]使用RNN来积累来自不同视图的特征和Tulsiani等人。[39]提出了一种无监督的方法,该方法采用多视图输入来学习用于3D重建的潜在3D空间。多视图网络也已经用于立体重建的背景[19,20],利用特征投影到3D中以产生一致的重建。将多个输入视图与3D相结合的另一种方法是将颜色直接投影到体素中,每个体素为每个输入视图保持一个通道[16]。然而,由于存储器要求,这对于大量输入视图变得不切实际3D语义分割。2D图像上的语义分割是一项受欢迎的任务,并且已经使用尖端的神经网络方法进行了大量探索[22,14]。模拟任务可以在3D中制定,其中目标是在每个体素水平上预测语义标签[40,41]。虽然这是一个相对较新的任务,它是非常相关的大范围的应用程序,特别是机器人,其中推断的语义的空间理解是必不可少的。对于3D语义分割任务,有几个数据集和基准测试,4A. Dai和M. 尼斯纳最近开发的ScanNet [5]数据集引入了约3D语义分割任务。使用结构传感器获得的1.5k RGB-D扫描和重建它提供了地面实况注释,用于直接在3D重建上进行训练、验证和测试;它还包括大约。2.5使用渲染的3D到2D投影导出其2D注释的mio个RGB-D帧Matterport 3D [1]是另一个最近的数据集,包含大约90个建筑物规模的场景,与ScanNet具有相同的精神;它包括更少的RGB-D帧(约194,400),但有更完整的重建。3概述我们的方法的目标是基于商品RGB-D扫描的输入来预测3D语义分割。更具体地说,我们想要推断3D重建的网格的每体素级别上的语义类标签。为此,我们提出了一个联合2D-3D神经网络,它利用从3D扫描中获得的RGB和几何信息。对于几何形状,我们考虑其体素编码三元状态(已知占用、已知自由、未知)的规则体积网格。为了在不同大小的完整3D场景上执行语义分割,我们的网络以每个块为基础进行操作;也就是说,在测试时间通过xy平面以滑动窗口方式预测场景的列。对于场景中给定的xy位置,网络将周围区域的体积网格(31× 31× 62体素的块)作为输入。然后,网络使用一系列3D卷积来提取几何特征,并预测当前xy位置处的中心列的每体素类别标签。除了几何视图之外,我们选择在当前xy位置处与相关联的块重叠的附近RGB视图。对于所有这些2D视图,我们通过2D神经网络运行相应的图像,提取其相应的特征。注意这些2D网络都具有相同的架构,并共享相同的权重。为了结合的2D和3D功能,我们引入了一个微分反投影层,映射到3D网格的2D功能。然后,这些投影特征通过网络的3D卷积部分与3D几何信息合并。除了投影之外,我们还添加了体素池层,该体素池层能够处理与3D块相关联的可变数量的RGB视图;在每体素的基础上执行池化。为了对整个扫描运行3D语义分割,针对场景的每个xy位置运行该网络,将对应的局部块作为输入。在下文中,我们将首先介绍我们的网络架构的细节(参见第2节)。4),然后展示我们如何训练和实现我们的方法(见第2节)。(五)。4网络架构我们的网络是由一个3D流和几个2D流,结合在一个联合的2D-3D网络架构。3D部分将表示3D扫描的几何形状的体积网格作为输入,并且2D流将相关联的RGB图像作为输入为此,我们假设3D3DMV:用于3D语义场景分割的联合3D多视图预测5图二.网络概述:我们的体系结构由2D和3D部分组成。2D侧将几个对齐的RGB图像作为输入,从这些图像中学习具有代理损失的特征。这些被映射到3D空间使用一个可微的反投影层。来自多个视图的特征在每个体素的基础上被最大池化,并被馈送到3D卷积流同时,我们将3D几何输入到另一个3D卷积流中。然后,两个3D流被连接,并且预测3D每体素整个网络以端到端的方式进行训练。扫描由从商品RGB-D相机(诸如Kinect或结构传感器)获得的RGB-D图像序列组成;尽管注意到我们的方法推广到其它传感器类型。我们进一步假设使用RGB-D重建框架相对于它们的世界坐标系对齐RGB-D图像;在ScanNet [5]场景的情况下,使用BundleFusion [5]场景。[6]方法使用。最后,RGB-D图像在体积网格中融合在一起,这通常通过使用隐式符号距离函数[4]来完成网络架构的概述如图所示。二、4.13D网络我们的3D网络部分由一系列在规则体积网格上操作的3D卷积组成。体积网格是场景的体素化3D表示的子体积。每个子体积以31 × 31 ×62体素大小的特定xy位置为中心,体素大小为4。八厘米。因此,我们考虑1的空间邻域。5m× 1。5米和3米的高度。注意,我们使用3m的高度以便覆盖大多数室内环境的高度,使得我们仅需要训练网络以在变化的xy空间中操作。3D网络将这些子体积作为输入,并且以1×1× 62体素的分辨率预测相应子体积的中心列的语义标签它同时预测62个体素的标签对于每个体素,我们编码6A. Dai和M. 尼斯纳场景重构状态的相应值:已知占用(即,在表面上),已知自由空间(即,基于空的空间雕刻[4]),或者未知的空间(即,我们不知道体素)。我们表示这通过一个2通道的体积网格,第一个二进制编码的占用,和第二个二进制编码的已知/未知的空间。然后,3D网络用一系列九个3D卷积处理这些子体积,这些卷积扩展特征维度并减少空间维度,以及训练期间的丢弃正则化,然后是最终一组全连接层,这些层预测每个体素的分类得分。在下文中,我们示出了如何从关联的2D RGB视图合并学习的2D特征4.22D网络网络的2D部分的目的是从每个输入RGB图像中提取特征。为此,我们使用基于ENet [28]的2D网络架构来学习这些功能。请注意,尽管我们可以使用2D输入视图的数量变量,但所有2D网络在联合训练时共享相同的权重。我们选择使用ENet是因为它的简单性,因为它运行速度快,训练内存效率高。特别是,低内存需求至关重要,因为它允许我们以端到端的方式联合训练我们的2D-3D网络,每个训练样本有多个输入图像。虽然我们的目标是2D-3D端到端训练,但我们还为每个图像使用2D代理损失,这使我们能够使训练更加稳定;也就是说,要求每个2D流预测RGB图像分割任务的有意义的语义特征。在这里,我们使用2D图像的语义标签作为基础事实;在ScanNet [5]的情况下,通过从相应RGB图像姿势的相机点渲染注释的3D网格,从原始3D注释导出这些。2D网络的最终目标是在代理损失每像素分类得分之前获得最后一层中的特征;然后使用可微分的反投影层将这些特征图特别地,从大小为328× 256的输入RGB图像,我们获得大小为(128×)41×32的2D特征图,然后将其反向投影到相应的3D体积的空间中,获得大小为(128×)31×31× 62的特征图4.3反投影层为了将来自每个输入RGB视图的学习到的2D特征与3D网络连接起来,我们使用了一个可微分的反投影层。由于我们假设输入RGB图像相对于彼此和3D重建的已知6-DoF姿态对准,因此我们可以实时计算2D-3D关联。该层本质上是3D子体积中的每个体素上的循环,给定图像与该循环相关联对于每个体素,我们根据相应的相机姿态、相机固有函数和世界到网格的变换矩阵来计算我们使用RGB-D的深度数据3DMV:用于3D语义场景分割的联合3D多视图预测7在一个实施例中,所述方法包括对所述多个图像进行处理,以便修剪超出体素大小4的阈值的投影体素。8 cm;即,我们仅计算接近深度图几何形状的体素的关联。我们计算从3D体素到2D像素的对应关系,因为这允许我们获得独特的体素到像素的映射。虽然可以预先计算这些体素到像素的关联,但我们只是在层中动态计算此映射,因为这些计算已经高度受限于内存此外,它节省了大量的磁盘存储,因为这将涉及大量的完整场景的索引数据一旦我们计算了体素到像素的对应关系,我们就可以将2D网络最后一层的特征投影到体素网格上:nfeat×w2d×h2d→nfeat×w3d×h3d×d3d对于向后传递,我们使用向前传递的逆映射,其我们存储在一个临时索引映射中。我们使用2D特征图(特征尺寸)。的128)的大小(128×)41×31,并将它们投影到大小(128×)31×31× 62的网格为了处理多个2D输入流,我们计算相对于每个输入视图的体素到像素的关联。因此,一些体素将与来自不同视图的多个像素相关联。为了组合来自多个输入视图的投影特征,我们使用体素最大池化操作,该操作在每个特征通道的基础上计算最大响应。由于最大池化操作对输入的数量是不变的,因此它允许选择从任意数量的输入图像中提取感兴趣的特征。4.4联合2D-3D网络联合2D-3D网络使用来自反投影层的映射来组合2D RGB特征和3D几何特征。这两个输入用一系列3D卷积处理,然后连接在一起;然后用一组3D卷积进一步处理连接的特征。我们已经尝试了几个选项来连接这两个部分:在开始时(即,直接连接在一起而没有独立的3D处理),大约1/3或2/3通过3D网络,并且在末端(即,直接在分类器之前)。我们使用提供最佳结果的变体,在2/3的架构处将2D和3D特征融合在一起(即,在9)的第6个3D卷积之后;见table 5用于相应的消融研究。请注意,整个网络,如图所示。2,以端到端的方式训练,这是可行的,因为所有组件都是可区分的。选项卡.图1显示了我们的3DMV模型的可学习参数分布的概述。4.5滑动窗口模式我们的联合2D-3D网络以每个块为基础进行操作;也就是说,它将3D场景的固定子体积作为输入(连同相关联的RGB视图),并且预测给定块的中心列中的体素的标签。为了执行大型3D环境的语义分割,我们滑动子体积8A. Dai和M. 尼斯纳仅2D3D(仅2D输入) 3D(仅3D geo)3D(融合2D/3D)#可训练参数146,176379,74487,13610,224,300表1.我们的3DMV模型的可学习参数分布。请注意,大多数网络权重是组合3D流的一部分,就在每体素预测之前,我们依赖于强特征图;参见图1的左上角二、通过底层重建的3D网格。由于子体积的高度(3米)对于大多数室内环境来说已经足够了,我们只需要在场景的xy然而,注意,对于训练,训练样本不需要在空间上连接,这允许我们在随机的子体积集上训练训练和测试范围的这种解耦是特别重要的,因为它允许我们提供训练样本的良好标签和数据分布(例如,具有足够覆盖和多样性的块)。5培训5.1训练数据我们以端到端的方式训练我们的联合2D-3D网络架构为此,我们准备了相关的3D和RGB输入到网络中进行训练。3D几何形状被编码在三进制占用网格中,该三进制占用网格对每个体素的已知占用、未知空闲和未知状态进行编码。三进制信息在2个信道上被分割,其中第一信道编码占用率,并且第二信道编码已知的对未知状态为了从3D场景中选择训练子体积,我们随机地对子体积进行采样作为潜在的训练样本。对于每个潜在的训练样本,我们检查其标签分布并丢弃仅包含结构元素的样本(即,墙/地板),概率为95%。此外,丢弃具有空中心柱的所有样品以及具有小于70%的中心柱几何结构注释的样品。对于每个子体积,我们然后关联k个附近的RGB图像,其对准从6-DoF相机姿态信息已知。我们基于最大覆盖率贪婪地选择图像;即,我们首先选取覆盖子体积中最多体素的图像,并且随后获取覆盖当前集合未覆盖的最多体素的我们通常选择3-5个图像,因为覆盖范围的额外增益随着每个添加的图像而变得更小对于每个采样的子体积,我们用8个随机旋转来增加它,总共1,316,080个训练样本。由于现有的3D数据集,如ScanNet [5]或Matterport3D [1]在地面实况中包含未注释的区域(见图1)。3,右),我们在3D损失和2D代理损失中掩盖了这些区域。注意,该策略仍然允许在测试时对所有体素进行预测。5.2执行我们在PyTorch中实现了我们的方法。虽然PyTorch API已经提供了2D和3D conv层,但我们为3DMV:用于3D语义场景分割的联合3D多视图预测9背投影层。我们在python中实现了这个反投影,作为一个自定义的PyTorch层,将投影表示为一系列矩阵乘法,以利用PyTorch并行化,并通过PyTorch API在GPU上运行反投影对于训练,我们尝试只训练网络的一部分;然而,我们发现,联合优化2D和3D的端到端版本表现最好。在训练过程中,我们使用学习率为0的SGD优化器。001和0的动量。9;我们将批处理大小设置注意,我们的训练集非常偏向于结构类(例如,墙、地板),即使在丢弃大多数仅结构的样本时也是如此,因为这些元素在室内场景中占很大的主导地位。为了解决这种数据不平衡,我们使用训练集中表示的类的直方图来加权训练期间的损失。我们训练我们的网络20万次迭代;对于我们在3个视图上训练的网络,这需要约24小时,对于5个视图,约48小时。6结果在本节中,我们提供了我们提出的方法与现有方法的比较评估。我们在ScanNet数据集[5]上进行评估,该数据集包含由250万RGB-D图像组成的1513个RGB-D扫描我们分别使用1045、156、312个场景的公共训练/验证/测试分割,并遵循原始ScanNet基准测试中定义的20类语义分割任务我们评估我们的结果与每体素类的准确性,之前的工作[5,31,8]的评价此外,我们将我们的结果定性地可视化,并与图3中的先前工作进行比较,图4中显示了特写。请注意,为了便于可视化,我们将所有方法的预测映射回网格与最新技术水平的比较。我们的主要结果显示在Tab中。2,其中我们在ScanNet测试集上比较了几种最先进的体积(ScanNet[5],此外,我们在表中显示了关于我们设计选择的消融研究。3.第三章。我们的3DMV网络的最佳变体达到了75%的平均分类准确率,考虑到任务的难度和现有方法的性能,这是非常重要的。也就是说,我们比 现 有 的 体 积 提 高 了 22.2% , 比 最 先 进 的 PointNet++ 架 构 提 高 了14.8%。RGB输入有多大帮助?选项卡. 3包括我们的3D网络架构在使用RGB功能时与没有RGB输入的完全相同的3D网络之间的直接比较使用RGB输入时,性能从54.4%提高到70.1%,即使只有一个RGB视图。此外,我们尝试了使用每体素颜色而不是2D特征提取器的天真替代方案。在这里,我们看到与纯粹的几何基线相比只有微小的差异(54.4% vs.55.9%)。我们将这种相对较小的增益归因于有限的网格分辨率(≈5cm体素),这不足以捕获丰富的RGB特征。总的来说,我们可以清楚地看到RGB输入的好处,以及首先在2D域中提取特征的设计10A. Dai和M. 尼斯纳几何输入有多大帮助?另一个重要的问题是我们是否真的需要3D几何输入,或者几何信息是否是RGB输入的冗余子集;参见Tab。3.第三章。我们在此背景下进行的第一个实验只是将预测的2D标签投影到几何图形的顶部如果我们仅使用来自单个RGB视图的标签,则我们获得27%的平均准确度(与70.1%(1个视图+几何结构);对于3个视图,该标签反投影达到44.2%(与73.0%,3个视图+几何结构)。请注意,这与RGB反投影的有限覆盖范围有关(参见表1)。4).然而,有趣的实验是,如果我们继续运行在2D标记的反投影之后的一系列3D卷积。同样,我们省略了输入场景几何,但我们现在学习如何在3D网格中组合和传播反向投影特征;本质上,我们忽略了3D网络的第一部分;参见图二.对于3个RGB视图,这导致58.2%的准确度;这高于仅几何形状的54.4%;然而,它远低于我们从联合网络获得的最终3视图结果73.0%。总体而言,这表明RGB和几何信息的组合适当地相互补充,并且协同作用允许分别比单独输入提高14.8%和18.6%(对于3个视图)。壁地板 驾驶室床 椅子沙发 表门风德国广播公司pic Cntr书桌Curt 弗里格显示 辛劳水槽浴 其他 avgScanNet [5]70.1 90.3 49.8 62.4 69.3 75.7 68.4 48.9 20.164.63.432.1 36.87.066.4 46.8 69.9 39.4 74.3 19.550.8扫描完成[8]87.2 96.9 44.5 65.7 75.1 72.1 63.8 13.6 16.970.5 10.4 31.4 40.9 49.8 38.7 46.8 72.2 47.4 85.1 26.952.8PointNet++[31]89.5 97.8 39.8 69.7 86.0 68.3 59.6 27.5 23.784.30.0 37.6 66.7 48.7 54.7 85.0 84.8 62.8 86.1 30.760.23DMV(我们的)73.9 95.6 69.9 80.7 85.9 75.8 67.8 86.6 61.2 88.1 55.8 31.9 73.2 82.4 74.8 82.6 88.3 72.8 94.7 58.5 75.0表2.我们最终训练的模型(5个视图,端到端)与ScanNet数据集上其他最先进方法的比较[5]。我们可以看到,我们的方法取得了显着的改善,22.2%,比现有的体积和约。比最先进的PointNet++架构高14.8%。如何将2D要素输入3D网络? 一个有趣的问题是在哪里连接2D和3D特征;也就是说,在3D网络的哪一层,我们将源自RGB图像的特征与来自3D几何形状的特征融合在一起。一方面,人们可能会争辩说,将2D部分早期馈送到3D网络中以便具有更多的学习联合2D-3D组合的能力更有意义另一方面,尽可能长时间地保持两个流分离可能更有意义,以便在组合它们之前首先提取强独立特征。为此,我们使用不同的2D-3D网络组合进行实验(为简单起见,始终使用单个RGB视图,而不进行端到端训练);见table 5.我们尝试了四种组合,其中我们在开始时融合了2D和3D特征,在网络的前三分之一之后,在第二个三分之一之后,并在最后融合到3D网络中。有趣的是,结果相对相似,从67.6%,65.4%到69.1%和67.5%,表明3D网络可以很好地适应2D特征。在这些实验中,第二个第三个选项比其他选项高出几个百分点;因此,我们在所有其他实验中将其用作默认值3DMV:用于3D语义场景分割的联合3D多视图预测11图3.第三章。ScanNet [5]测试集上的定性语义分割结果我们与ScanNet [5]、ScanComplete [8]、PointNet++[31]的基于3D的方法进行了比较请注意,地面实况场景包含一些未注释的区域,用黑色表示我们的联合3D多视图方法实现了更准确的语义预测。额外的视图有多大 在选项卡中。3,我们还研究了每个附加视图对分类性能的影响仅对于几何形状,我们获得了54.4%的平均分类准确率;每个块仅添加单个视图增加到70.1%(+15.7%); 3次浏览,上升至73.1%(+3.0%);对于5次浏览,达到75.0%(+1.9%)。因此,对于每一个额外的视图,增量增益变得更小;这在某种程度上是预期的,因为大部分益处归因于具有2D特征的3D体积的附加覆盖。12A. Dai和M. 尼斯纳如果我们已经使用了大量的视图,那么每个额外添加的特性都会与以前的视图共享冗余,如Tab中所示。4.第一章联合2D-3D网络的端到端训练是否有用?在这里,我们研究了以端到端的方式训练2D-3D网络的好处,而不是简单地使用预先训练的2D网络。我们用1、3和5个视图进行这个实验。端到端变体始终优于固定版本,分别将准确率提高了1.0%、0.2%和0.5%。虽然端到端的变体严格来说更好,但增量比我们最初希望的要小。我们还尝试删除2D代理丢失,以执行良好的2D预测,这导致性能略低。总的来说,代理丢失的端到端训练总是表现最好,我们将其作为默认值。壁地板 驾驶室床 椅子沙发表门风德国广播公司picCntr书桌 Curt 弗里格显示 辛劳水槽 浴 其他 avg仅2D(1个视图)37.1 39.1 26.7 33.1 22.7 38.8 17.5 38.7 13.5 32.6 14.97.819.1 34.4 33.2 13.3 32.7 29.2 36.3 20.427.1仅2D(3视图)58.6 62.5 40.8 51.6 38.6 59.7 31.1 55.9 25.9 52.9 25.1 14.2 35.0 51.2 57.3 36.0 47.1 44.7 61.5 34.344.2我们的(无地理输入)76.2 92.9 59.3 65.6 80.6 73.9 63.3 75.1 22.6 80.2 13.3 31.8 43.4 56.5 53.4 43.2 82.1 55.0 80.89.358.2我们的(仅3D geo)60.4 95.0 54.4 69.5 79.5 70.6 71.3 65.9 20.7 71.44.220.0 38.5 15.2 59.9 57.3 78.7 48.8 87.0 20.654.4我们的(3D geo+体素颜色)58.8 94.7 55.5 64.3 72.1 80.1 65.5 70.7 33.1 69.02.931.2 49.5 37.2 49.1 54.1 75.9 48.4 85.4 20.555.9我们的(1视图,固定2D)77.3 96.8 70.0 78.2 82.6 85.0 68.5 88.8 36.0 82.8 15.7 32.6 60.3 71.0 76.7 82.2 74.8 57.6 87.0 58.569.1我们的(1视图)70.7 96.8 61.4 76.4 84.4 80.3 70.4 83.9 57.9 85.3 41.7 35.0 64.5 75.6 81.3 58.2 85.0 60.5 81.6 51.770.1我们的(3视图,固定2D)81.1 96.4 58.0 77.3 84.7 85.2 74.9 87.3 51.2 86.3 33.5 47.0 52.4 79.5 79.0 72.3 80.8 76.1 92.5 60.7 72.8我们的(3视图)75.2 97.1 66.4 77.6 80.6 84.5 66.5 85.8 61.8 87.1 47.6 24.7 68.2 75.2 78.9 73.6 86.9 76.1 89.9 57.273.0我们的(5视图,固定2D)77.3 95.7 68.9 81.7 89.6 84.2 74.8 83.1 62.0 87.4 36.0 40.5 55.9 83.1 81.6 77.0 87.8 70.7 93.5 59.674.5我们的(5视图)73.9 95.6 69.9 80.7 85.9 75.8 67.8 86.6 61.2 88.1 55.8 31.9 73.2 82.4 74.8 82.6 88.3 72.8 94.7 58.5 75.0表3.在ScanNet上对我们方法的不同设计选择进行消融研究[5]。我们首先测试简单的基线,其中我们从1和3个视图(第1-2行)反向投影2D标签然后,我们测试仅3D几何网络(行4)。用每体素颜色增强仅3D版本仅示出小的增益(行5)。在第6-11行中,我们使用不同数量的视图测试了我们的联合2D-3D架构,以及端到端训练的效果。我们的5视图端到端变体性能最佳。使用NYUv2在2D域中进行评估 虽然我们预测3D每体素标签,但是我们也可以将所获得的体素标签投影到2D图像中。在选项卡中。6,我们在NYUv2 [35]数据集上显示了这样的评估对于这项任务,我们在ScanNet数据以及投影到3D的NYUv2训练注释上训练我们的网络。虽然这不是我们的方法的实际任务,但它可以被视为通过使用3D几何形状作为学习框架的代理来从多个RGB-D帧总的来说,我们的联合2D-3D架构与这个13级任务的各自基线相比是有利的。1视图 3个视图5查看次数覆盖百分之四十点三64.4%72.3%表4.在标注的地面上不同数量的视图的覆盖量ScanNet [5]测试场景的真值体素3DMV:用于3D语义场景分割的联合3D多视图预测13壁地板驾驶室床椅子沙发表门风德国广播公司pic Cntr书桌 Curt 弗里格显示 辛劳水槽浴 其他 avg开始 78.8 96.3 63.7 72.8 83.3 81.9 74.5 81.6 39.5 89.6 24.8 33.9 52.6 74.8 76.0 47.5 80.1 65.4 85.9 49.467.61/379.3 95.5 65.1 75.2 80.3 81.5 73.8 86.0 30.5 91.7 11.3 35.5 46.4 66.6 67.9 44.1 81.7 55.5 85.9 53.365.42/377.3 96.8 70.0 78.2 82.6 85.0 68.5 88.8 36.0 82.8 15.7 32.6 60.3 71.0 76.7 82.2 74.8 57.6 87.0 58.5 69.1端82.7 96.3 67.1 77.8 83.2 80.1 66.0 80.3 41.0 83.9 24.3 32.4 57.7 70.1 71.5 58.5 79.6 65.1 87.2 45.867.5表5.用于在3D架构中加入2D和3D流的各种网络组合的评估(参见图2,顶部)。为了简单起见,我们在这里使用具有固定2D网络的单视图变体有趣的是,性能只有轻微的变化;然而,2/3版本表现最好,这是我们所有其他实验的默认值。见图4。Scan-Net [5]测试集上的其他定性语义分割结果(特写)。请注意我们的预测与其他基线相比的一致性简要评价。– RGB和几何特征是正交的,互相帮助– 更多的视图会有所帮助,但是每次视图的增量都会变小– 端到端的培训严格来说是更好的,但改进并不是很大。– 在何处连接2D和3D特征的变化在某种程度上改变性能; 2/3在我们的测试中表现最好。– 我们的结果明显优于最佳体积或PointNet基线(分别为+22.2%和+14.8%)。14A. Dai和M. 尼斯纳床书细胞椅子地板炉物镜pic.沙发表电视壁风avg.SceneNet [11]70.85.576.2 59.6 95.9 62.3 50.0 18.0 61.3 42.2 22.2 86.1 32.152.5Hermans等人[第十五条]68.4 45.4 83.4 41.9 91.5 37.1 8.6 35.8 58.5 27.7 38.4 71.8 48.054.3ENet [28]79.2 35.5 31.6 60.2 82.3 61.8 50.9 43.0 61.2 42.7 30.1 84.1 67.456.2SemanticFusion [24](RGBD+CRF)62.0 58.4 43.3 59.5 92.7 64.4 58.3 65.8 48.7 34.3 34.3 86.3 62.359.2SemanticFusion [24,9](本征+CRF)48.3 51.5 79.0 74.7 90.8 63.5 46.9 63.6 46.5 45.9 71.5 89.4 55.663.6ScanNet [5]81.4-46.2 67.6 99.0 65.6 34.6-67.2 50.9 35.8 55.8 63.160.73DMV(我们的)84.3 44.0 43.4 77.4 92.5 76.8 54.6 70.5 86.3 58.6 67.3 84.5 85.3 71.2表6.我们还可以通过以下方式在2D语义分割任务上评估我们的方法:将所预测的3D标签投影到相应的RGB-D帧中。在这里,我们展示了NYU2[25]上密集像素分类准确性的比较请注意,报告的ScanNet分类属于11类任务。局限性。 虽然我们的联合3D多视图方法在3D语义分割中比先前的现有技术实现了显著的性能增益,但仍然存在几个重要的限制。 我们的方法在密集的体网格上运行,这对于高分辨率来说很快变得不切实际;例如,在一个实施例中,RGB-D扫描方法通常产生亚厘米体素分辨率的重建;稀疏方法,如OctNet [33],可能是一个很好的补救措施。另外,我们目前仅联合预测场景的每一列的体素,而每一列是独立预测的,这可能在最终预测中引起一些标签不一致,因为可能选择不同的RGB视图;然而,注意,由于3D网络的卷积性质,几何形状保持空间相干。7结论和未来工作我们提出了3DMV,一个联合的3D多视图的方法建立在一个联合的网络架构中的几何和RGB功能相我们表明,我们的联合方法可以实现更好的准确性语义3D场景分割。在一系列的评估中,我们仔细检查我们的设计选择;例如,我们证明了2D和3D特征是互补的而不是冗余的;我们还表明,我们的方法可以成功地利用从RGB-D序列使用几个输入视图,以获得更高的覆盖率,从而导致更好的性能。最后,我们能够显示出比现有最佳3D分割方法高出14%以上的分类准确率。总的来说,我们相信这些改进将开辟新的可能性,其中不仅语义内容,而且空间3D布局也起着重要作用。在未来,我们仍然看到这一领域的许多开放问题。首先,3D语义分割问题远未解决,并且3D中的语义实例分割仍处于起步阶段。其次,关于实现3D卷积神经网络的场景表示,以及如何处理混合稀疏-密集数据表示,存在许多基本第三,我们还看到了在3D重建中将多模态特征组合用于生成任务的巨大潜力,例如扫描完成和纹理。3DMV:用于3D语义场景分割的联合3D多视图预测15引用1. Chang,A.,Dai,A.,Funkhouser,T.,Halber,M.,Niessner,M.,Savva,M.,Song,S.,Zeng,A.,张毅:Matterport3D:从室内环境中的RGB-D数据学习。3D视觉国际会议(3DV)(2017)2. Chang,A.X.,Funkhouser,T.,吉巴斯湖Hanrahan,P.黄,Q,Li,Z.,Savarese,S.,Savva,M.,Song,S.,Su,H.,肖,J.,Yi,L.,Yu,F.:ShapeNet:信息丰富的3D模型库。Tech. arXiv:1512.03012 [cs.GR],斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所(2015)3. Choy,C.B.,徐,D.,Gwak,J.,Chen,K.,Savarese,S.:3d-r2 n2:用 于 单 视 图 和 多 视 图 3D 对 象 重 建 的 统 一 在 : 欧 洲 会 议 上CommputerrVision.pp. 62802TheDog(2016)4. Curless,B.,Levoy,M.:从距离图像建立复杂模型的体积法。在:Proceedings of the 23rd annual conference on Com
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功