没有合适的资源?快使用搜索试试~ 我知道了~
1基于RGBD感知的增量式语义分割类发现Yoshikatsu Nakajima1,2 Byeongkeun Kang1 Hideo Saito2 Kris Kitani11卡内基梅隆大学{byeongkk,kkitani}@andrew.cmu.edu2庆应义塾大学{nakajima,saito}@hvrl.ics.keio.ac.jp摘要这项工作解决了开放世界语义分割的任务,虽然现实世界中存在多种类型的对象,但当前的语义分割方法假设为封闭世界,并且仅训练分割有限数量的对象类。朝着一个更开放的世界的方法,我们提出了一种新的方法,增量学习图像分割的新类。所提出的系统首先使用颜色和几何信息对每个RGBD帧进行分段,然后聚合该信息以构建环境的单个分段密集3D地图。分割的3D地图表示是我们的方法的一个关键组成部分,因为它是用来发现新的对象类,通过识别连贯的区域在3D地图,没有语义标签。在3D地图中使用相干区域作为原始元素,而不是传统的元素,如表面或体素,也显著降低了我们的方法的计算复杂度和内存使用。因此,当在每帧处递增地更新密集3D图时,其导致在10.7Hz通过在NYUDv2数据集上的实验,我们证明了该方法能够正确地聚类已知和未知类的对象。我们还展示了与最先进的监督方法的定量比较,每个步骤的处理时间,以及每个组件的影响。1. 介绍构建语义注释的3D地图(即,语义映射)已经成为计算机视觉和机器人领域中的重要研究课题,因为它提供3D位置信息以及对象/场景类别信息。它自然在广泛的应用中非常有用,包括机器人导航,混合/虚拟现实和远程机器人控制。在大多数这些应用中,重要的是要实现高精度和高效率。考虑到机器人导航,机器人需要准确和有效地识别物体,以主动地在不断变化的环境中导航。图1.所提出方法增量地发现新类(例如,图像)在重建的3D地图中。没有任何意外。在混合现实系统中,准确性和效率对于无延迟地实现更自然的交互非常重要。当远程控制手术机器人时,它们甚至更重要。因此,已经进行了许多研究来开发用于语义映射的准确且有效的系统[17,11,22,23,33,43,47,18,20]。大多数最近的语义映射系统由两个主要组成部分组成,从RGBD图像构建3D地图,并在图像或构建的3D地图上处理语义分割自从引入RGBD传感器(如Microsoft Kinect [48])以来,已经提出了许多方法用于从RGBD图像构建3D地图[24,14,16,19]。在语义分割方面,图像的语义分割算法已经在很多文献中得到了研究,大多数语义映射系统都采用了这些算法。最近,由于卷积神经网络(CNN)进一步提高了语义分割的性能[21,35,5],CNN972场景发现的类973已被纳入,以提高语义映射的准确性[22,23]。虽然这些进步提高了整个系统的准确性和效率,但这些方法在系统可以识别的对象方面存在限制。由于先前的语义映射系统通过训练像素级分类器(例如,随机测试或CNN),系统只能识别训练数据集中的类别。考虑到现实世界由许多对象/东西组成,这对于自治系统来说是一个巨大的限制因此,我们提出了一个新的系统,可以正确地集群已知的对象和看不见的东西,使发现新的categories。所提出的方法首先在3D中生成对象级段。然后,它执行对象级段的聚类以关联相同类的对象并发现新的对象类。本文的贡献如下:(1)据我们所知,我们提出了第一个语义映射系统,该系统可以正确地发现3D地图中已知对象和不可见对象的集群(参见图1);(2)为了有效地处理聚类中的深度特征和几何线索,我们建议使用CNN的概率分布的熵来估计CNN的深度特征的可靠性。然后,我们使用估计的置信度来对两种类型的特征进行加权;(3)我们建议利用段而不是元素(即,面元和体素)分配/更新特征和聚类以有效地降低计算成本和空间复杂性。它使整个框架能够半实时运行;(4)综合利用几何信息和颜色信息,改进了三维地图中的目标建议。对于具有不良几何特征的区域(例如,(5)我们通过在数据集中的类子集上训练CNN并通过使用所提出的方法发现类的其他子集来证明所提出的系统的2. 相关工作语义场景重建Koppulaet al.提出了使用RGBD图像进行语义场景重建的最早作品之一[17]。给定多个RGBD图像,他们首先将图像拼接到单个3D点云。然后,他们对点云进行过度分割,并使用图形模型标记由于许多2D语义分割方法取得了令人印象深刻的结果[21,35,5],Hermans等人。提出使用2D语义分割进行3D语义重建,而不是分割3D点云[11]。他们首先使用随机决策森林(RDF)处理2D语义分割,并使用密集的条件随机场(CRF)优化结果。他们然后将类别标签转移到3D地图上。由于最近卷积神经网络(CNN)进一步改进了2D语义分割,McCormac等人。提出了一个利用CNN进行2D语义分割而不是RDF的系统[22]。虽然我们专注于使用RGBD图像的语义场景重建方法,但存在使用立体图像对[33,43,47]和使用单目相机[18,20]的方法。虽然所有以前的作品[17,11,22,33,43,47,18,20]只能识别学习的对象类,但据我们所知,我们提出了第一个语义场景重建系统,它可以分割看不见的对象类以及训练的类。[3,29,41,44,12,26]直接在完全重建的3D图或3D点云上进行分割。与这些方法相对应,我们的目标是在RGB-D序列中的每一帧处递增地构建3D分割图图像分割图像分割在许多文献中进行了研究[30,36,4,8,6,9,13,10,1,2]。最近,Pont-Tusetet al.提出了一种自下而上的分层图像分割方法[27]。他们开发了一种快速归一化切割算法,并提出了一种使用多尺度信息的分层分割器。然后,他们采用了一种分组策略,将多尺度区域组合成高度准确的对象命题。由于卷积神经网络(CNN)已经成为语义分割中的流行方法,Xiaet al.提出了一种基于CNN的无监督图像分割方法[45]。他们通过学习自动编码器并考虑归一化切割来分割图像,并使用条件随机场来平滑分割输出然后,他们进行分层分割,首先将过度分割的分区转换为加权边界图,然后迭代合并最相似的区域。考虑到RGBD数据,Yanget al.提出了一种两阶段分割方法,该方法包括使用3D几何增强超像素的过分割和基于图形的合并[46]。他们首先将K均值聚类方法应用于RGBD数据,使用从颜色和3-D几何信息构建的8-D距离度量然后,他们采用基于图形的模型将超像素重新标记为考虑RGBD接近度,纹理相似性,边界连续性和标签数量的片段。与以前的作品[30,36,4,8,6,9,13,10,1,2,27,45,46],这项工作不同于他们在两个方面。首先,我们提出了一个分割算法的三维重建场景,而不是图像。其次,我们的目标是将具有相同语义含义的像素分组到一个集群中,即使它们距离很远或被另一个片段分开。974tt图2.拟议框架概览。3. 面向语义分割的为了发现语义段的新类别,我们需要一种用于聚集和聚类未知段的方法(即,不能被分类到已知类别中的图像片段我们提出的方法的一个中心组成部分是场景的密集3D重建图的分割,我们称之为3D分割图,它用于聚合关于每个2D图像片段的信息,并且该信息用于执行3D片段聚类以发现新的为了使用RGBD传感来增量地发现对象类,我们首先提出构建3D分割图图3. 构建3D分割图。该处理的输出是3D中的对象级段。我们通过将2D分割传播到现有的3D分割图来构建3D图。(第3.1节)。由Keller等人提出。[16]第10段。该表示是具有正常信息的基于点的描述,并且被称为surfel。我们用sk表示曲面。surfel是我们重建的3D地图中的基本元素(就像图像上的像素给定一个新的深度框架,我们生成曲面并将它们融合到现有的重建的3D地图中。因此,构建3D分割图包括使用SLAM构建重构的3D图并对重构的3D图中的面元进行分组。RGBD SLIC. 对于每个RGBD帧,我们首先实现修改的SLIC超像素分割算法,以针对每个帧生成大约250个超像素(小图像区域)。为了同时使用颜色信息和几何信息,我们定义了一个新的距离度量Ds,CIELAB颜色空间中的彩色图像Ilab(u)∈R3用于3D中的对象级分割。其次,我们执行t3对象级段的聚类以关联相同类的对象并发现新的对象类。图2显示了拟议框架的概况。给定输入RGBD流,我们构建3D分割图(第3.1节)并处理增量聚类(第3.2节)。增量聚类包括提取每个帧的特征(第3.2.1节)和使用特征进行聚类(第3.2.2节)。所提出的方法的输出是可视化的聚类成员在重建的3D地图。3.1. 构建3D分割图如上所述,3D分割图是用于聚合关于2D图像分割的信息以发现新的语义类的建立三维分割图是一个增量过程,它包括应用于每帧的以下四个过程:(1)用于密集三维图重建的SLAM(2)用于超像素分割的SLIC(3)集聚群聚;以及(4)更新3D分割图。我们在下面描述每个处理步骤的细节。密集SLAM。为了估计相机姿态并逐步构建3D地图,我们采用密集SLAM方法,InfiniTAM v3 [28]。该方法使用高效且可缩放的表示方法来构建3D地图,法线映射Nt(u)∈R,图像坐标u=(x,y)∈Z2.像素u和v之间的距离Ds计算如下:D s=d lab+αd n+βd xy,dlab=||Ilab(u)−Ilab(v)||二、(一)d n= ||Nt(u)−Nt(v)||二、d xy= ||u− v||二、其中α和β是用于加权dn和dxy的常数。给定来自SLIC分割的超像素集合,我们计算平均颜色clab∈R3,顶点v∈R3,以及每个超像素r的法线n∈R3,其将是用于进一步将超像素合并成更大的2D区域。集聚集群。由于SLIC超像素分割倾向于生成具有相似大小的片段的网格,因此我们执行凝聚聚类和合并以产生对象级片段。聚类和合并是基于超像素之间的clab、v和n具体来说,我们计算颜色空间中的相似性Λ,3D空间中的几何距离Λ,以及形状中的凸性Φ然后,如果所有测量的相似性/距离满足以下条件,则我们合并超像素。考虑两个相邻的超像素(ra,rb)。 该Λ,975计算公式如下:Λ(r a,r b)= ||a− b||二、n(r a,r b)=||(vb−va)·na||二、.(二)Φ(r,r)=1如果(vb−va)·na>0,一bna·nb否则。给定Λ、Λ和Φ,仅当超像素对(ra,rb)满足预定标准时才合并它们:(3)Λ<σΛ和<$<σ <$且Φ> σΦ其中,σΛ、σ和σΦ分别表示Λ、σ和Φ的对应阈值。关于凸性标准,其基于以下观察:捕获图像上的对象通常具有凸形形状[40]。因此,我们惩罚合并区域与凹形状。使用[25]中的噪声模型来计算στ,该模型给出了噪声与距传感器的距离之间的关系。3D分割图更新。给定当前帧的2D分割结果,我们更新3D分割图。我们采用[40]中的高效且可扩展的段传播方法来向每个面元sk分配/更新段标签li。3.2. 增量聚类在上一节中,我们通过聚类和合并超像素来生成对象级片段。然后使用对象级段来更新3D分割图。给定3D分割图中的对象级段,增量聚类旨在通过聚类对象级段来发现新的对象类。为了对片段进行聚类,我们首先使用输入的RGBD帧和3D分割图来提取特征。然后,我们通过计算段之间的加权相似性进行聚类。我们在第3.2.1节中描述了在线特征提取的细节,在第3.2.2节中描述了3D段聚类的细节(也见图4)。3.2.1在线特征提取为了准确地关联相同类别的对象或发现新的对象类别,我们需要一种方法来估计3D分割图中对象片段之间的相似性。虽然测量相似性可以像计算颜色空间中的距离一样简单,但需要更有意义的测量来准确地确定对象类。此外,由于对象经常出现在连续视频中的多个帧上,我们可以通过利用先前的帧来改进相似性度量。最后,由于记录来自先前帧的所有信息是昂贵的,我们需要一种有效的方法来存储过去的信息。图4. 增量3D段聚类。 这种聚类是为了关联相同类别的对象或使用3D分割图中的对象级段来发现新的类别。(Sec-第3.2节)。为了估计更有意义的相似性,我们利用彩色图像和几何特征,因为它们通常是互补的。特别是,由于卷积神经网络在每像素分类任务中取得了令人印象深刻的结果[21,35,5],我们使用CNN从彩色图像中提取特征。然后使用针对每个帧提取的深度特征和几何特征来更新3D分割图中的每个片段的特征。通过聚合来自所有先前帧的特征,我们提高了3D分割图中特征的鲁棒性。此外,存储/更新每个片段的特征对于节省存储器使用和减少3D片段聚类的计算都是非常有效的策略考虑到3D地图中的段的数量远小于曲面的数量,因此内存使用的减少具体地说,内存使用量从O( Ns(S+G+ 1))减少到O(Nl(S+G+ 1)),其中Ns和Nl分别表示3D分割图中的面元数目和对象级片段数目;S和G分别表示深度特征的维度虽然CNN已经显示出令人印象深刻的结果,但深度特征的可靠性可能会因输入图像的区域而异我们假设CNN可以高置信度预测一类的区域可以使用深度特征准确聚类。因此,我们使用来自CNN的预测概率分布来估计深度特征的可靠性。具体来说,我们通过计算预测概率分布的熵来然后,基于估计的可靠性,使用3D分割图中对象级片段之间的几何特征和深度特征的相似性来计算加权亲和度。对于深度特征和熵,我们采用U-Net架构[31],因为我们的目标应用程序(例如,机器人导航976LLLLie←,不不LΣ点火)通常需要短处理时间。该网络处理320×240分辨率的输入图像仅需36ms。此外,通过使用相同的网络进行两个处理,我们可以节省计算。几何特征提取/更新。为了提取平移/旋转不变和噪声鲁棒的几何特征,我们首先估计局部参考系(LRF)该更新被应用于所渲染的分割图R上的所有片段li。ZGEO表示非-我对GEO的特征向量进行归一化。我深度特征提取/更新。 我们利用最后一个分类层之前的层的输出进行深度特征映射。每帧深度特征图表示为FCNN(u)∈RS. FCNN的大小是W×H×S,其中t t对于每个段。然后我们提取几何特征对于每个片段,使用快速且唯一的几何特征描述符,即全局正交对象描述符(GOOD)[15]。给定深度图,为了估计每个片段的LRF,我们需要当前图像平面上的3D分割图。因此,我们首先将分割映射渲染到当前图像平面,并获得渲染的分割图R具有线段标签li。然后,我们通过处理主成分分析(PCA)来计算LRF,每一段。在关于处理PCA的更多细节W和H表示输入图像的宽度和高度,S表示信道的数目(即,特征的尺寸)为64。我们为每个片段li更新深度特征fCNN在3D分割图中,通过采用增量平均方法并通过使用每帧深度特征。由于针对每个像素提取深度特征和熵,而针对每个片段1i获得几何特征,因此用于更新的过程略有不同。CNN的深度特征更新如下:我我们首先计算归一化协方差矩阵,然后1ΓfCNN+FCNN(u)执行特征值分解。标准化的covari-CNNli=R(u) ZCNN ·li=R(u)t,Γ +1(七)Li每个段li的阶数矩阵Cli使用以下公式来计算:顶点图Vt和渲染的分割图R如下:Γ←Γ +1,其中ZCNN是fCNN的归一化常数;u是所有lili1CNNCl=(v−ol)(v−ol)T,Ft上的坐标。我奥里|Uli|1=|ULI|我我v∈UliΣV,v∈Uli(四)熵计算/更新。通过首先估计每个类别的概率分布并使用概率分布测量香农熵[34]来当网络被训练用于语义时,我在哪里Uli={Vt(u)|R(u)= l i},表示线段L1的几何中心;分割,通过网络的softmax层的输出获得概率分布熵E(u)∈R在每个像素u处计算如下:Uli表示属于线段li的顶点的集合在当前帧上;|·|表示集合中元素的数量。然后,我们执行特征值分解,E(u)=−ΣPc(u)logPc(u),(8)CC1i如下:CliXli=EliXli,(5)其中Pc(u)∈R是像素u处类别c的概率。然后,E(u)用于更新熵eli,其中Xli是具有三个特征向量的矩阵;Eli=diag(λ1,λ2,λ3)是具有相应特征值的对角矩阵. Xli直接用作LRF。3D分割图中的每个分段li如下:Γ eli=R(u)+E(u)l=R(u)最后,我们采用了一种快速而独特的几何特征描述符GOOD [15]。对于每个li,我们将集合我Γ← Γ +1,Γ +1(九)使用LRF的顶点U1i然后,我们将变换后的顶点馈送到描述符中以获得逐帧几何特征FGEO(li)∈R75。在使用当前深度图计算FGEO(1i)3D分割图中的几何特征fGEO我更新如下:其中u是E上的所有坐标。3.2.23D段聚类给定来自特征更新阶段的3D分割图中的语义和几何特征,我们应用图-F←977f←litGEOLi1GEOLiGEO+FGEO(li)·,1 + 1(六)基于无监督聚类算法对3D分割图中的区域进行聚类。我们特别采用马尔可夫聚类算法(MCL)[42],因为1.灵活的集群数量和计算成本。 以来Z978lljllj表1.NYUDv2数据集的定量比较[37]。监督方法与开集方法(我们的)。方法平均IoU训练数据集中的新颖类床书椅子地板炉物镜沙发表壁细胞pict.电视风U-Net [31]50.3222.4236.5555.6236.8527.2748.4433.7855.14-----Nakajima等人[23日]62.8227.2742.5668.4344.6224.6345.0442.3026.82-----[40]第四十话62.8023.9633.1063.4150.5827.2858.6840.2354.5331.4219.3743.9831.3041.59我们64.2222.2841.7967.3856.1528.6149.3140.9563.1829.3028.6952.2053.9246.05我们的目标是能够处理场景中的未知对象,我们需要灵活的聚类(类类别)数量,如MCL。此外,由于MCL的计算成本O(M3)来自于2的乘法,对于大小为M×M的矩阵,其中M表示图中的节点数,成本可以转化为O(M)通过在GPU中并行处理。因此,它减少了处理时间,并且更适合于在线系统。我们定义节点之间的相似性s(i,j)(即3D分割图中的区域Li和Lj)。权重值wi和wj首先使用U-网络的训练数据集中的类的条目和数量N计算如下:16GB RAM 我们对所有实验使用以下阈值和常数:σ~= 7。0,σΦ= 0。8,η= 6。0,α= 110。0,β=0。五、数据集。我们使用公开可用的NYUDv2数据集[37]来实验我们的系统,该数据集由206个测试视频序列组成。由于许多视频的帧速率有因此,以前的工作[11,22,23]仅使用了140个每秒至少2帧的测试序列这从原始测试集中的654个图像中产生360个标记的测试图像。U-Net培训。为了评估所提出的系统wi= 额利logN ,wj=埃勒杰logN.(十)类并使用整个类评估系统这使得能够对训练的类和看不见的类进行定量分析 我们使用SUN RGBD选择分母logN以使w在[0,1]考虑到eli的最大值是logN。然后使用wi和wj定义相似性s(i,j)如下:s(i,j)=e−ηd(i,j),d(i,j)=||(1−wi)fCNN−(1−wj)fCN N||第二章(十一)+的||wifGEO−wjfGE O||二、其中η是预定义的常数。基于属于未知对象类别的区域的熵高的假设,这些区域之间的相似性度量更多地依赖于几何特征而不是深度特征。我们计算每对区域(i,j)的相似度s(i,j),并将相似度馈送到MCL以更新聚类。4. 实验和结果为了证明使用RGBD传感发现新对象类的能力,我们在公开可用的RGBD数据集上进行了实验[37]。我们首先只使用对象类的子集来训练语义分割网络然后,我们应用所提出的方法来发现训练过的类和看不见的类。我们证明了所提出的方法的有效性,通过测量精度,过程-测试时间和测试数据集上的内存占用。所有准确度评价均在320× 240分辨率下进行。处理时间是使用配备Intel Core i7- 5557 U 3.1GHz CPU,GeForce GTX 1080GPU的机器测量的,训练数据集[39]由5,285个RGBD图像组成我们首先使用在ILSVRC数据集[32]上预训练的VGG模型[38]初始化然后,我们所选类别和全部类别如表1所示。在第4.1节中,所提出的方法和比较方法[31,23]都使用了相同的训练模型4.1. 结果我们的实验证明所提出的方法的性能定量和定性。为了进行定量比较,我们使用NYUDv2数据集[37]的测试集测量交集在表1中,我们将所提出的方法与两种完全监督方法进行了比较,并将我们的方法与不同的增量3D分割方法进行了比较[40]。对于监督方法,我们选择了一种最先进的语义映射方法[23]和一种用于2D图像的语义分割方法[31]。显然,这些方法只能预测训练数据集中的9个类由于我们提出了一种使用基于RGBD SLIC的分割方法构建几何3D地图的新方法,因此我们将所提出的方法与[40]的先前增量3D分割方法进行了比较。由于[40]仅使用不包括颜色信息的深度图,因此我们的方法在很大程度上优于具有较差几何特征的类(例如,979表2.深度特征和几何特征对聚类影响的消融研究方法训练数据集中的新颖类平均IoU床书椅子地板炉物镜沙发表壁细胞pict.电视风仅限我们的GEO-only51.9521.4735.9964.7550.2828.3648.9839.1455.8029.7625.3844.8852.4342.24我们的CNN专用60.0728.2337.5563.5349.4830.1651.2143.5959.9420.8222.6039.4142.3042.22我们64.2222.2841.7967.3856.1528.6149.3140.9563.1829.3028.6952.2053.9246.05输入RGBU-Net我们的地面实况场景(living_room_0030a)3D分割图Nakajima et al.图5.密集三维增量语义映射的定性结果。所提出的方法发现各种类,包括看不见的类和类的训练数据集的U-网。对于几何3D图和聚类3D图,将独特的颜色用于每个分段和每个聚类,从而。对于Nakajimaet al.[23],这是一种完全监督的方法,如表1所示,每个类别使用特定的颜色。图7.NYUDv2数据集的定性比较[37]。为了可视化所提出的方法的结果,我们为每个聚类使用不同的颜色。如表1所示,使用每个类别的特定颜色来可视化U-Net和地面实况标签的结果。Tateno等人我们用于测量(11)中的相似性的特征。通过比较图6.3D分割图的定性结果亲-提出的方法成功地分割了具有较差几何特征的图片和床头板,而[40]具有局限性。图片和窗口)。因此,它验证了所提出的基于SLIC的增量分割方法的有效性。总的来说,与最先进的监督方法[23]相比,所提出的方法实现了具有竞争力的准确性,并且能够成功地发现用于不可见对象的新类别。此外,所提出的方法在平均IoU方面优于[40]的方法4.46。在表2中,我们将所提出的方法的结果与仅使用几何特征(仅我们的GEO)的结果和仅使用深度特征(仅我们的CNN)的结果进行了比较,以证明适当利用两者的有效性。对于所有看不见的类,“我们的GEO-only”优于“我们的CNN-only”。因此,它证明了有效利用CNN特征和几何特征以在训练的类和看不见的类中实现高精度的重要性。通过应用所提出的置信度估计,所提出的方法在大多数类中与“Ours GEO-only”和“Ours CNN- only”相比实现了更高的准确性验证了基于熵估计置信度的深度特征和几何特征所提出的方法分别比“我们的GEO-only”和“我们的CNN-only”高出3.81和3.83图1、5、6和7显示了所提出的方法和比较方法的定性结果这些图表明,所提出的方法正确地聚类了训练类(对于U-Net)和未见过类的对象。不...980表3.每个阶段的平均处理时间。注意,可以同时处理带有 *的处理和带有 ** 的处理。组件处理时间构建3D分割图 * 18.2 ms深度特征提取 ** 35.9 ms几何特征提取8.2 ms熵计算2.3 ms特征/熵更新33.4 ms3D段聚类13.4 ms总计93.2 ms典型的训练对象包括图5中的椅子和图1中的桌子。典型的不可见物体包括图5中的窗口和图1中的图片。此外,图6显示了所提出的方法和[40]在构建用于生成对象提案的3D分割图方面的比较实验结果表明,该方法即使在几何特征不佳的区域(例如,墙上的图片),同时利用深度和颜色线索,而[40]有局限性。图7的底部两行显示了所提出的方法的失败情况。在第四行上,虽然所提出的方法成功地分割并为TV(看不见的对象)形成集群在第五排,工作台面上的小物体没有被准确地分割。这些类型的对象是具有挑战性的,因为它们远离深度传感器并且尺寸小,这通常导致不太准确的深度感测。4.2. 运行时性能和内存占用我们证明了所提出的方法的效率,通过测量处理时间和内存占用。每个阶段的平均处理时间见表3。总处理时间平均为93.2 ms(10.7 Hz)。通过对片段而不是元素进行聚类的策略,我们能够有效地将3D片段聚类的处理时间平均减少到13.4 ms。3D地图中的平均片段数为253。7 .第一次会议。两个最昂贵的处理是U-Net的前向处理和特征更新。我们还在图8中显示了序列中每个帧的处理时间,在图9中显示了内存占用图8显示,即使重建的3D图增加,处理时间也相当稳定图9显示了存储深度特征和几何特征的内存占用我们将所提出的方法与基线方法进行比较,该基线方法为每个元素分配/更新特征,类似于[11,22]。分析验证了存储功能的每个段显着抑制内存使用相比,存储功能的每个元素。如第3.2.1节所示,亲-2001501005000 100 200 300 400 500帧图8. NYUDv2数据集中序列床室0018 b的每帧处理时间[37]。101110101091081071061051041030 100 200 300 400 500帧图9.存储语义的内存使用比较,在NYUDv2数据集中使用序列bedroom 0018b的tic和几何特征[37]。虽然所提出的方法将特征分配/更新到3D地图的每个段,但是基线方法将特征分配/更新到每个元素(例如,surfel和voxel),类似于[11,22],其将类概率分配给每个元素。提出的方法的时间复杂度为O(Nl·(S+G+ 1)),而基线方法的时间复杂度为O(Ns·(S+G+ 1))。在重建序列卧室0018b、Nl和Nl中的所有帧之后,N分别为196和900,4785. 结论面向开放世界的语义分割,我们提出了一种新的方法,增量发现新的类使用RGBD传感。我们建议通过建立一个分段的密集的3D地图,并通过识别3D地图中的连贯区域来发现新的对象类。我们demonstrate,所提出的方法是能够成功地发现新的对象类通过实验上的公共数据集。实验结果还表明,与监督方法相比,所提出的方法在已知类别上具有竞争力的准确性。我们进一步表明,所提出的方法是非常有效的计算和内存使用。确认这项工作得到了日本JST CREST在Grant JPMJCR14E3和Grant JPMJCR 1683下的支持。基线我们处理时间(ms)内存使用(字节)981引用[1] P. Arbelaez,M.迈尔角Fowlkes和J.马利克 从轮廓到区域:实证评估。2009年IEEE计算机视觉和模式识别会议,第2294-2301页[2] P. Arbelaez,M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。IEEE Transactions on Pattern Analysis andMachine Intelligence,33(5):898[3] Iro Armeni,Ozan Sener,Amir R Zamir,Helen Jiang,Ioannis Brilakis,Martin Fischer,and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议集,第1534-1543页[4] Y.博伊科夫岛Veksler和R.扎比基于图割的快速近似能量最 小 化 IEEE Transactions on Pattern Analysis andMachine Intelligence,23(11):1222[5] L. Chen,G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。Deeplab:使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。IEEE Transactions on PatternAnalysis and Machine Intelligence,40(4):834[6] D. Comaniciu和P.米尔均值漂移:一种面向特征空间分析的鲁棒方法。IEEE Transactions on Pattern Analysisand Machine Intelligence,24(5):603[7] Camil leCouprie , Cle' mentFarabet , LaurentNajman 和Yann LeCun。使用深度信息的室内语义分割。在2013年国际学习代表会议上[8] Y. Deng和B. S.曼朱纳特图像和视频中颜色纹理区域的无监督分割。IEEE Transactions on Pattern Analysis andMachine Intelligence,23(8):800[9] 佩德罗·F.作者声明:Daniel P.Huttenlocher 高效的基于图 的 图 像 分 割 。 International Journal of ComputerVision,59(2):167[10] 布莱恩·富克森和斯特凡诺·索托。真正的快速转换:图像分割在gpu上。在Kiriakos N. Kutulakos,编辑,计算机视觉的趋势和主题,第350-358页,柏林,海德堡,2012年。施普林格柏林海德堡。[11] A. Hermans,G. Floros和B. Leibe rgb-d影像室内场景的密集三维语义映射。2014年IEEE机器人与自动化国际会议(ICRA),第2631-2638页[12] Binh-Son Hua、Minh-Khoi Tran和Sai-Kit Yeung。逐点卷积神经网络。在IEEE计算机视觉和模式识别会议集,第984-993页[13] Yu-Len Huang和Dar-Ren Chen。二维超声图像中乳腺肿瘤的分水岭医学和生物学中的超声,30(5):625[14] Shahram Izadi , David Kim , Otmar Hilliges , DavidMolyneaux , Richard Newcombe , Pushmeet Kohli ,Jamie Shotton,Steve Hodges,Dustin Freeman,AndrewDavison,和安德鲁·菲茨吉本运动融合:使用移动深度相机的实时3d重建和交互。在第24届ACM用户界面软件和技术研讨会论文集,UIST'11,第559- 568页,美国纽约州纽约市,2011年。ACM。[15] SHamidrezaKasaei,AnaMariaTome',Lu'ısSeabraLopes和Miguel Oliveira。好:一个全局的正交对象描述器,用于3D对象识别和操作。Pattern Recognition Letters,83:312[16] M. Keller , D. Lefloch , M. Lambers , S. Izadi , T.Weyrich和A.科尔布基于点融合的动态场景实时三维重建2013年国际3D视觉会议- 3DV 2013,第1-8页[17] 赫马S.Koppula,Abhishek Anand,Thorsten Joachims,and Ashutosh Saxena.室内场景三维点云的语义标注。在j.肖-泰勒河S. 泽梅尔山口L. 巴特利特F. Pereira和K.Q. Weinberger,编辑,神经信息处理系统进展,第244-252页Curran Associates,Inc. 2011年。[18] Abhijit Kundu,Yin Li,Frank Dellaert,Fuxin Li,andJames M.瑞格单目视频的联合语义分割与三维重建。在David Fleet 、 Tomas Pa-jdla 、 Bernt Schiele 和 TinneTuytelaars编辑的《计算机视觉施普林格国际出版社.[19] 李桂禄和阮忠使用手持rgb-d相机进行真实表面几何重建。Machine Vision and Applications,27(3):377[20] X. Li,H.奥河Belaroussi和D.格鲁耶快速半密集三维语义映射与单目视觉。在2017年IEEE第20届智能运输系统国际会议(ITSC)上,第385-390页[21] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网 络 。 在2015 年 IEEE计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第3431-3440页[22] J. McCormac,A. Handa,A. Davison和S.罗伊特内格语义融合:用卷积神经网络实现稠密三维语义映射。在2017年IEEE机器人与自动化国际会议(ICRA)上,第4628[23] Y.中岛角塔泰诺角,澳-地Tombari和H.斋藤通过基于几何 的 增 量 分 割 实 现 快 速 准 确 的 语 义 映 射 在 2018年IEEE/RSJ智能机器人和系统国际会议(IROS)上,第385-392页[24] R. A.纽科姆,S。伊扎迪河希利格斯,D。莫利诺,D。Kim,A. J.戴维森,P.作者简介:王建民Hodges,和A.菲茨吉本运动融合:实时密集表面映射和跟踪。2011年10月,第10届IEEE混合与增强现实,第127[25] Chuong V Nguyen,Shahram Izadi,and David Lovell. 改进kinect传感器噪声,以改善3d重建和跟踪。2012年第二届3D成像、建模、处理、可视化传输国际会议,第524-530页。IEEE,2012。[26] Quang-Hieu Pham , Thanh Nguyen , Binh-Son Hua ,Gemma Roig,and Sai-Kit Yeung. Jsis3d:联合语义实例982使用多任务逐点网络和多值条件随机场分割3D点云。在IEEE计算机视觉和模式识别会议的论文集,第8827-8836页[27] J. 蓬图塞特山口Arbelez,J.T. Barron,F.Marques和J·马利克 用于图像分割和对象建议生成的多尺度组合分 组 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,39(1):128[28] 作 者: AdrianPris acariu , OlafKaéhler , StuartGolodetz,Michael Sapienza,Tommaso Cavallari,Philip H.S.Torr,and David W.默里Infinitam v3:一个带循环闭合的大规模3D重建框架CoRR,abs/1708.00783,2017年。[29] Charles R Qi, Hao Su ,Kaichun Mo , and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。在IEEE计算机视觉和模式识别会议论文集,第652-660页[30] Siddheswar Ray和Rose H.图里k-means聚类中类数的确定在第四届模式识别和数字技术上,第137-143页[3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功