没有合适的资源?快使用搜索试试~ 我知道了~
椅子书桌灯内阁电视1用于三维场景布局预测的分层去噪递归自编码器石一飞1、常璇2、吴哲伦3、马诺利斯·萨瓦2、徐凯*11国防科技2西蒙弗雷泽大学3普林斯顿大学摘要室内场景在3D对象布局中表现出丰富的层次结构。3D场景理解中的许多任务都可以受益于对场景的层次上下文和对象的身份进行联合推理。我们提出了一种可变去噪递归自动编码器(VDRAE),它生成并迭代地细化3D对象布局的分层表示,交错自下而上编码用于上下文聚合,自上而下解码用于传播。我们在大规模3D场景数据集上训练VDRAE,以预测实例级分割和来自输入点云的过分割的3D对象检测。我们表明,我们的VDRAE提高了对象检测性能的真实世界的3D点云数据集COM-从以前的工作的基线。1. 介绍上下文在3D场景理解中的作用是核心。许多先前的工作都集中在利用上下文线索来提高各种感知任务的性能,例如对象分类[12],语义分割[35]和图像的对象关系图推理[62]。然而,使用深度学习的3D对象检测和3D实例级分割中的分层上下文先验的好处明显较少探索。使用深度网络公式来捕获层次对象布局的模式的关键挑战是,这些模式涉及改变具有不同语义身份和相对位置的对象的数量。在本文中,我们提出了一个递归的autoencoder1(RAE)的方法,训练预测和迭代*通讯作者1也称为递归神经网络(RvNN)自动编码器。图1:我们提出了一个层次感知变分降噪递归自动编码器(VDRAE)预测3D对象布局。输入是一个点云,我们过分割(左上). 我们的VDRAE构建并细化了3D对象层次结构,包括语义分割(右上角,类别着色的点云)和3D实例定向的边界框(底部)。细化的3D边界框紧密且完全包含观察到的对象。最近的工作已经证明,使用一组预先指定的“场景模板”和有限的当前对象集合对3D场景布局中的上下文进行编码然而,手动指定场景布局的模板以捕获真实3D环境的多样性是具有挑战性且昂贵的努力。真实的环境是分等级的:建筑物包含诸如厨房的房间,房间包含诸如餐桌布置的功能区域,并且功能区域包含诸如盘子和餐具的物体的布置。这意味着3D场景的层次结构的显式表示可以有利于3D场景理解任务,例如对象检测和3D布局预测。17711772给定表示为点云的场景,我们首先执行过分割。我们的RvNN被训练成在每段信息和段间关系的自下而上的上下文聚合中对所有段进行编码,从而形成段层次结构。解码阶段执行自顶向下的上下文传播,以重新生成层次结构的子树并生成对象建议。这种编码-解码细化过程是迭代的,交织上下文聚合和层次细化。通过以生成方式训练我们的去噪自动编码器,这个过程收敛到一组细化的对象建议,其布局位于生成模型学习的有效场景布局的流形中(图1)。总之,我们的方法是一种迭代的3D对象布局去噪自动编码器,它通过递归上下文聚合和推断层次结构内的传播来生成和细化对象建议。我们做出以下贡献:• 我们使用基于去噪递归自动编码器(DRAE)的分层上下文聚集和传播来预测和细化输入点云的多对象3D场景布局。• 我们学习变分DRAE(VDRAE)来模拟有效对象布局的流形,从而通过迭代推断和生成过程来促进布局优化。• 我们证明,我们的方法提高了三维物体检测性能的大型重建三维室内场景数据集。2. 相关工作我们的目标是通过利用上下文信息与3D场景的分层表示来改进3D对象检测。在这里,我们重点回顾对象检测中最相关的工作。我们描述了以前的工作,在对象检测过程中使用上下文,在3D中的对象检测工作,和层次上下文建模。2D中的物体检测。目标检测长期以来被认为是计算机视觉中的重要问题,在2D域中有许多先前的工作[11,13,14,16,17]。25、33、41、42]。使用上下文信息来提高对象检测性能也被广泛研究[5,6,17,38,54]。Choi等人。[7]表明,使用上下文信息可以从RGB图像中进行3D预测。最近,Zellers et al.[62]示出了通过使用场景图表示来学习全局上下文的改进的对象检测。这些方法在2D中操作,并且受到单个图像输入的视点依赖性的影响。有限的视野和投影过程中的信息丢失会严重限制背景信息的益处。使用RGB-D进行目标检测。商品化RGB-D传感器的可用性导致从RGB-D图像输入进行3D边界框检测的显著进步[9,15,51,52]。然而,在测试时,这些对象检测算法仍然仅查看来自单个视图输入的局部区域,并且不考虑对象之间的关系(即,上下文信息)。还有一条线通过多对象图元或点云片段的杠杆模式对单视图RGB-D图像输入[23,29,43,45,48,56,63]执行上下文推理的工作,以推断和分类小规模3D布局。 Zhang等人[63]使用四个预定义模板(每个模板定义一组可能出现的对象)来检测RGB-D图像输入中的对象的模型室。如果观察到的房间包含不在初始模板中的对象,则无法检测到它们。关于街道和城市RGB-D数据的另一工作线使用鸟瞰视图表示来捕获用于3D对象检测的上下文[ 2,49,59 ]。相比之下,我们使用整个房间的融合3D点云数据进行操作,从分层表示的3D场景布局的生成模型。3D点云中的物体检测。最近,大规模数据集的可用性[1,3,8]促进了3D场景理解的进步[58]。已经有了一个侧重于语义分割的方法的点云[10,18,19,24,28,30,39,53,60]。然而,在房间尺度或更大的融合3D点云中,解决实例分割或对象检测的工作要少得多。Qi et al.[39],Wang et al.[55]提出了基于连接组件的启发式方法来将语义分割转 换 为实例。Wang等人[55]是最先进的3D点云实例分割方法。 它们使用学习到的点相似性作为上下文的代理。相关的早期工作线将点云或3D网格输入分割成单个对象,然后从CAD数据库中检索匹配模型[4,27,36,45]以创建输入场景的合成3D表示。我们的方法直接表示对象检测作为一个层次结构的3D边界框,是由观察的动机,在3D房间的规模,建模的层次背景下的3D对象布局变得重要。3D中的层次上下文。分层表示已用于学习自然语言和图像[50],2D场景[46],3D形状[26,61]和3D场景[32]中的语法。一个相关的工作线使用与或图[20,21,34,40,65]分层解析RGB或RGB-D场景,用于各种任务。对于完整的3D场景,具有地面实况层次注释的可用训练数据量非常有限。因此,3D场景的语义解析中的现有工作没有利用高容量深度学习模型。例如,Liu等人[32]这是一个很大的问题。1773线段对亲和力分段图构造层次结构MLP图2:我们的系统包含两个神经网络组件:一个片段-片段亲和度预测网络,我们使用它来构建3D对象的分层分组,以及一个变分去噪递归自动编码器(VDRAE),它细化了3D对象的层次结构。在测试时,亲和力预测网络用于预测段-段亲和力。我们使用规范化的图切割从片段亲和力图构建层次结构。VDRAE然后对该层次结构进行编码以聚合上下文队列,并对其进行解码以在节点之间传播信息。迭代这两个阶段以产生更好地匹配输入场景的3D对象检测和实例分割的去噪集合需要在几十个手动注释的场景上进行训练和测试。Zhao和Zhu [64]仅对534张图像进行了评价。在本文中,我们使用递归自动编码器神经网络直接从大规模场景数据集学习整个3D场景的分层表示[1,3]。3. 方法我们的方法的输入是代表室内场景的3D点云。输出是由定向边界框(OBB)表示的对象的集合B,每个对象具有类别标签。我们从包含候选对象部分的初始过分割S开始(第3.1节)。然后,我们预测片段对的亲和性,并使用归一化切割[47]方法来构建用于上下文传播的初始层次h(第3.2节)。在构建层次结构之后,我们基于递归自动编码器网络迭代地细化3D对象检测和层次结构,该网络调整层次结构及其节点的结构,以在叶节点处产生3D对象检测(第3.3节)。我们将目标检测和构造的层次结构{B,h}的组合称为3D场景布局。我们输出的带标签的边界框集合B包含用于所有对象检测的类别标签,或者指示特定框不是对象的标签。图2显示了我们的方法的概述。3.1. 初始过度分割我们的输入是一个点云,我们为它创建一个初始过分割S作为我们的对象检测的起点。不同的对象由包含点云部分的定向边界框表示。我们使用对象点的特征以及对象之间的空间关系的特征来表征对象布局并训练我们的网络,使得它可以检测对象。有许多先前的工作可以用于提供点云的初始过分割。我们使用(a)(b)第(1)款图3:我们训练一个MLP来预测片段对亲和力,并创建一个片段亲和力图(a)。 然后,我们使用归一化切割(b)从所得的片段亲和度图构建层次结构。一种基于贪婪图方法的代表性无监督方法[11],该方法由[22]扩展用于点云。我们的方法遵循[22],基于点法线差异使用图切割对点云进行过度分割,以创建初始片段集。从点云中提取每个片段作为一组单独的点,我们计算定向边界框和点特征,如以下部分所述。3.2. 层次结构在层次结构的建设,我们解决以下问题。输入是初始过分割S,输出是表示对象的分层分组的二叉树h。 每个对象表示为具有定向边界框(OBB)和类别标签的3D点云。3D点云是一组点{pi}={xi,yi,zi,ri,gi,bi},其3D(x,y,z)位置和颜色(r,g,b)。这个初始层次结构h的叶子是段和内部节点表示将段分组为对象和对象组。树的根代表整个房间。为了从输入段构建初始层次结构,我们首先训练多层感知器(MLP),以预培训测试了解细分市场关联列车VDRAE过分割层次结构布局优化………1774clsn nnclsn nndict segment对属性,指示两个segment是否属于同一对象实例。MLP的输入是由先前的工作[57]提出的一组捕获片段-片段几何和颜色关系的特征。我们还尝试使用从对象级标签分类训练的网络中获得的学习特征,但根据经验发现[57]中的特征在我们的实验中效果更好。训练MLP以在平方铰链损失下从这些特征预测二元对亲和力。一旦我们计算了片段对的亲和度,然后通过使用归一化切割将片段分组到层次结构中[47]。从根节点开始,我们递归地将段分成两组分裂停止了RvNN编码RvNN解码当所有组只有一个段(叶节点)时。标准化切割中两个段u和v之间的切割成本E(u,v)=ecea最初等于段之间的亲和力ea,但随后在布局优化期间通过因子ec进行图3显示了我们的层次结构构建过程。3.3. 目标检测和布局优化我们描述我们的迭代优化预测的对象布局{B,h}。我们从用于上下文聚合和传播的基本递归自动编码器(RAE)开始。然后,我们讨论了一个去噪版本的RAE(DRAE),旨在调整对象布局,以更好地匹配训练集中的观察到的布局。在此基础上,我们提出了一种面向对象布局改进的生成式模型--变分动态随机优化模型(VDRAE)。它将一个布局映射到一个学习到的合理布局的流形上,然后生成一个改进的布局,以更好地解释输入点云。用于上下文传播的递归自动编码器。给定段和层次结构,递归自动编码器(RAE)执行用于上下文聚合的自底向上RvNN编码,随后执行用于上下文传播的自顶向下RvNN解码。编码器网络将任何两个要合并 的节点的特 征( 代 码) 作为输入( 根据 层 次结构),并输出其父节点的合并代码:xenc=fenc(xenc,xenc),其中xenc,xenc和输入段布局输出对象布局图4:我们的去噪递归自动编码器(RAE)从过分割中获取输入片段布局,并执行自下而上的编码用于上下文聚合(左侧),然后执行自上而下的解码用于上下文传播(右侧)。编码-解码过程生成一个细化的层次结构,其中3D对象检测作为叶节点。输出OBB的向量,编码其位置、维度和方向的偏移。fpnt是一个用于盒子编码的PointCNN [28]模块,fbox是一个用于盒子解码的两层MLP。PointCNN2模块在分类任务上进行预训练,用于从训练集中的对象的点云预测对象类别标签。用于对象检测和布局优化的去噪RAE。为了赋予RAE相对于目标布局(例如,在训练集中观察到的布局),自然的选择是训练去噪RAE。给定一个有噪声的输入段布局,我们学习一个去噪RAE(DRAE),去噪布局。所谓噪声,我们指的是对边界框的分类标签、位置、尺寸和方向的扰动。在DRAE中,去噪是由解码阶段生成一个新的层次来完成的细化、添加或删除单个对象的OBBplrENClrOBB。此生成的关键在于节点类型Xp表示两个兄弟节点及其父节点节点,分别。 fenc是具有两个隐藏层的MLP,节点分组解码器将层次结构的内部节点的代码作为输 入 , 并 生 成 其 两 个 子 节 点 的 代 码 : [xdec ,xdec]=fdec(xdec,xenc),其中fdec在每个节点处训练的分类器(图4),其确定节点是解码终止的叶“对象”节点还是解码继续的内部节点:on=fnode(xdec,xenc),其中on= 0表示lr p p是一个两层MLP解码器,用于节点解组(图4)。在自下而上通过之前,附加的盒编码器从OBB内的3D点云生成初始代码,并且盒解码器在自上而下通过之后从叶节点的代码生成最终调整的OBB。pass:xenc=fpnt(Pn),tn=fbox(xdec),其中xenc和一个叶子node对于“object”节点,另一个对象分类器被应用于确定语义类别:c n = f obj(x dec x enc),其中c n是节点n的类别标签。 对于训练,我们根据地面实况对象边界框计算编码层次中所有节点的IoU,并标记nDecnn所有IoU ≤ 0的节点。五是Xn表示编码和解码中节点n的代码ing. Pn是节点n的3D点的集合。 tn是参数2可以使用PointNet++等替代编码模块。fpntf级类型芬克类型f箱跨接fpnt芬克fdecfpnt类型f箱fencfdecfpntfpnt芬克KL损失类型f箱芬克fpnt1775CLS节点,n算法一:VDRAE 3D场景布局预测。输入:室内场景的点云:P;训练的VDRAE。输出:3D对象布局{B,h}。1S ←过分割(P);2h←HierarchyConstruction(S,P);3次重复4B←VDRAE(S,h,P);5h←HierarchyConstruction(B,S,P);6 直到满足终止条件;7 return{A,B};用于生成式布局优化的可变DRAE我们训练了一个变分DRAE(VDRAE),以从我们的训练数据中捕获训练损失是:ΣNL =(Lnode(on,on)+Lobj(cn,cn)+Lobj(tn,tn))+LKL图5:在我们的VDRAE网络的连续精化迭代(右侧列)下,初始对象布局(最左侧列)的迭代精化示例。用于细化层次结构。这个过程重复进行,直到迭代之间的层次结构保持不变。图5显示了迭代细化的一个示例。对于我们已经测试的所有场景,优化最多收敛5次迭代。这种迭代优化逐渐将对象布局“推入”VDRAE学习的布局流形。请参阅补充材料中关于收敛性的讨论。CLSnncls不,不,不4. 实现细节其中,N是所有解码节点,L节点是二进制交叉,两个类别上的熵损失o是地面实况标签,Lobj是多类交叉标签,ncls在本节中,我们将描述我们的网络架构的实现细节、相关参数以及训练和测试过程。语义类别上的熵损失,on是基础事实分类标签,Lobj是OBB上的L1回归损失参数OBBt是地面实况OBB参数,LKL是根节点处的KL发散损失注意Lobj和Lobj项只存在于初始过分割和特征提取。 对于初始过分割,我们使用阈值k =0的情况。01我们根据经验发现在火车上表现良好cls obb最后一项用作正则化器,其测量后验分布和正态分布之间p(z)在根节点上。这使得我们的VDRAE学习能够映射到观察到的布局的真实后验分布。使用VDRAE优化布局。训练后,VDRAE可用于改进对象布局。由于目标检测和层次结构之间的耦合,我们采用了一种迭代优化算法,在两个阶段之间交替(见算法1)。给定从输入点云提取的初始段布局,我们的方法首先执行VDRAE推断步骤(测试时间步骤)以生成解释输入点云的对象边界框的层次结构。然后,它使用解码功能来推断新的层次结构,该层次结构将用于下一次迭代中的VDRAE测试。在下一次迭代中,使用二进制分类设置场景(第3.1节)。 对于PointCNN [28]功能,我们使用训练集数据训练PointCNN来预测对象类标签。我们训练网络以最小化41个对象类的交叉熵损失,每个输入2048个点,并输出到256维向量进行分类。请注意,PointCNN是一个预训练的特征提取器,我们层次结构。 用于片段对亲和性预测的MLP由4个FC层(具有S形层)组成。输入是一个25维特征,输出是一个单一的属性值。我们将detult参数设置用于规范化切割中使用的求解器。它需要大约0。1s从段图构建层次结构。变分去噪递归自动编码器。 FENC具有两个1000-D输入和一个1000-D输出。fdec具有一个1000-d输入和两个1000-d输出。f节点需要1000-和v使用以下因子ec:CLSobj.ec(u,v)=−log(1 −cs),u和v在同一个叶子节点s中0的情况。1、否则d向量作为输入,并输出一个二进制标签。 fcls 需要一1000-d向量作为输入,并输出分类标签,OBB参数偏移。这是通过使用softmax层和全连接层来实现的。应对大其中cs是将被标记为“对象”的节点s缩放的亲和力E(u,v)=ecea,则在训练过程中,正(“对象”)和负(“非对象”)类之间的不平衡1776nCLScls obb培训和测试细节。我们使用PyTorch实现了段对亲和网络和VDRAE [37]。对于VDRAE,我们使用Adam优化器,基本学习率为0。001。我们使用默认的超参数β1=0。9,β2= 0。第999章没有重量批量大小为8。VDRAE可以在Nvidia Tesla K40 GPU上训练15小时。在测试时,VDRAE的正向传递大约需要1s。在VDRAE推理后,对检测到的盒子执行IOU 0.5的非最大抑制。5. 结果我们评估了我们提出的VDRAE在3D点云场景中的3D对象检测(参见补充语义分割评估)。5.1. 实验数据集我们使用两个RGB-D数据集来提供室内场景的3D点云:S3 DIS [1]和Matterport 3D [3]。S3DIS由六个大规模的室内区域组成,使用Matterport Pro Camera从三个不同的大学建筑中重建。这些区域被注释为270个不相交的空间(房间或不同的区域)。我们使用[1]中的k折交叉验证策略进行训练和测试。Matterport 3D由语义注释的3D重建的基础上RGB-D图像捕获90属性与Matterport专业相机。属性被划分为类似房间的区域。我们遵循原始数据集建立的训练/测试划分,训练集中有1561个房间,测试集中有408表1:我们的方法与先前在3D点云数据中进行对象检测的工作的比较。值报告IOU为0时的平均精度。S3DIS数据集上。我们的层次细化VDRAE优于所有先前的方法。定性实例。图6显示了Matterport3D测试集上的检测结果(更多示例请参见附录)。我们的VDRAE利用分层上下文来检测和细化3D边界框,以应对具有挑战性的情况,例如床上的枕头和床头柜上的灯与基线方法的比较。我们根据先前工作的几个基线来评估我们的方法,这些基线为室内3D场景点云产生对象检测• Seg-Cluster : [55] 提 出 的 方 法 应 用 了 语 义 分 割(SegCloud [53]),然后是Euclidean聚类[44]。• PointNet:预测点的类别[39],并使用广度优先搜索将附近具有相同类别的点分组,从而诱导对象实例。我们使用PointNet而不是其他基于点的神经网络,因为PointNet提出了这个对象检测管道。• Sliding PointCNN:使用PointCNN [28]功能的3D滑动窗口方法的基线• SGPN:一种最先进的点云语义实例分割方法[55]。• Ours(平面上下文):一个基线,它使用了一个可伸缩的上下文表示,而不是利用层次结构,其中xdec是编码特征xenc和平均编码特征ΣnN所有节点的(xenc)/n。nn5.2. 评价我们的主要评估指标是在阈值IoU为0时检测到的对象边界框相对于地面真实边界框的平均精度。5(即,具有大于0. 与其地面实况边界框的交叉-超并集重叠被认为是匹配)。我们将我们的方法与之前在3D点云中进行对象检测的工作的基线进行比较。然后,我们提出了我们的方法的消融版本演示不同组件对检测性能的影响,以及分析过分割粗糙度影响和连续细化迭代影响的实验。表1和表2报告了S3DIS和Matterport3D数据集的平均精度,表明我们的方法优于所有基线。在上下文基线上的测试比我们的层次感知VDRAE性能差,但比不显式表示上下文的基线好。图7定性地显示了Matterport3D测试集的结果,将我们的方法与使用SGPN的最高性能先前工作基线进行了比较。方法组件的消融。我们使用以下变量评估每个组件的影响• 无层次:我们使用PointCNN [28]特征来预测每个节点的对象类别和回归γ= 0表示阳性,γ= 5表示阴性。 这使得椅子表沙发板地图训练集中在所有阳性样本和硬阴性样本上Seg-Cluster [55]0.230.330.050.130.19样品L中的所有项目都可以联合训练然而,在这方面,[28]第二十八话0.360.390.230.070.26为了使训练更容易,我们首先通过L节点和LKL进行训练,PointNet [39]0.340.470.050.120.25使网络有能力区分是否节点是一个单一的对象,然后通过Lobj和Lobj进行微调。SGPN [55]Ours(我们的)0.410.350.500.470.070.320.130.100.280.31我们0.450.530.430.140.391777椅子书桌灯电视柜床垫沙发浴缸厕所图6:在Matterport3D测试集上使用VDRAE进行3D场景布局预测。第一列显示输入点云。第二列是过分割,我们从中构建初始段层次结构。第三列按类别显示了具有颜色的3D对象检测。最后两列显示检测的边界框。我们的方法预测层次结构一致的3D布局,如灯,枕头和橱柜的对象被检测到在合理的位置和方向相对于其他对象和全局结构的场景。椅子表内阁垫沙发床水槽厕所电视浴缸照明地图[28]第二十八话0.220.210.030.190.200.360.070.160.050.150.100.16PointNet [39]0.280.320.060.210.280.250.170.080.100.110.060.18SGPN [55]0.290.240.070.180.300.330.150.170.090.160.110.19Ours(我们的)0.240.180.080.210.180.270.220.250.070.210.070.18我们0.370.270.110.240.280.430.230.350.190.270.190.27表2:IoU为0时物体检测的平均精度。5在Matterport3D数据集上。我们将我们的完整方法(“我们的”)与几个基线进行比较。有关基线的详细信息,请参阅正文。一个OBB而不使用层次结构。我们在PointCNN层之后添加了4个FC层,以增加网络参数的数量并使比较公平。• 无OBB回归:我们关闭OBB回归模块的叶子节点和从头开始训练。• No iteration(bvh):没有迭代进行测试。该方法通过递归二进制分裂构造,只考虑seg-segn之间的几何分离。1778平均椅子表沙发板0.50.40.30.2(a)(b)(c)0.8平均椅子桌子沙发板0.5平均椅子桌子沙发板0.101 1.5 22.5分段长度(m)0.60.40.200 1 23迭代0.40.30.20.100 1 2 3迭代图7:使用我们的VDRAE(顶行)和先前工作的最佳基线(SGPN[55],底行)对Mat-terport 3D测试集进行定性3D对象检测的结果。我们的方法产生更准确的边界框检测和更少的类别错误。例如,椅子被正确地分类,并且在左上方和右上方具有紧密的边界框。椅子表沙发板地图没有等级之分0.340.410.350.080.30无OBB回归0.410.470.400.110.35无迭代0.370.470.380.100.33无迭代(我们的迭代)0.390.510.390.120.35我们0.450.530.430.140.39表3:我们的方法的组成部分的消融。值报告IoU为0时的平均精度。S3DIS数据集上。我们的完整VDRAE优于所有消融。段,即包围体层次(BVH)。• No iteration(我们的迭代):没有用于测试的迭代。该层次结构是由我们的层次结构初始化approach。表3显示了结果。完整的方法执行得最好。不使用层次结构会最大程度地降低性能。删除OBB回归和不执行迭代细化也是有害的,但程度较轻。对过分割粗糙度的敏感性。我们量化[22]中方法的过分割粗度阈值参数k对S3DIS的影响。 我们使用五个阈值k = 1。0,0。1,0。010 001,0。0001生成不同大小的片段,并分别重新训练affinity网络和VDRAE。较大的k产生较大的段。图8(a)显示当平均段大小为1时实现最佳性能。45 m(k= 0. 01)。迭代的效果。我们通过分析每一步的层次和3D对象检测来评估VDRAE细化迭代的效果。图8(b)显示了根据迭代次数绘制的地面实况对象的召回率。重新调用是通过计算每个OBB的IoU来计算的图8:(a)mAP相对于过度分割粗糙度(平均片段大小,以米为单位)绘制。(b)根据VDRAE迭代计数调用。(c)针对VDRAE迭代计数的mAP。地面实况对象与编码层次中的所有节点OBB。如果其中一个IoU值大于0。第五,我们认为这是与地面事实相匹配的。图8(c)示出了针对迭代次数绘制的对象检测mAP。迭代的好处是显而易见的。6. 结论我们提出了一种方法来预测融合点云的三维场景布局,利用层次编码的上下文。我们训练一个网络来预测段到段的属性,并使用它来提出一个初始段层次结构。然后,我们使用变分去噪递归自动编码器来迭代地细化层次结构并产生3D对象检测。我们在3D物体检测方面显示出相对于先前工作的基线的显着改进。局限性。我们目前的方法有几个局限性。首先,层次建议和VDRAE分别训练。对这两个阶段的优化将利用解析层次结构和细化3D场景布局之间的协同作用。其次,我们在VDRAE中使用的分段点特征是在分类任务中独立训练的。这些功能也可以端到端学习,从而进一步提高特定于任务的性能。今后的工作。我们只是朝着利用3D场景的分层表示迈出了一小步。未来的研究有许多途径可以追求。将场景的分层组成推理为对象、对象组、功能区域、房间和整个住宅,可以使3D对象检测之外的许多任务受益。我们希望我们的工作将在这一有前途的研究方向中起到催化剂的作用。确认我们感谢Thomas Funkhouser和Shuran Song进行的宝贵讨论。本工作得到了国家自然科学基金(61572507,61532003,61622212)和自然科学基金(61572507,湖南省杰出青年科学基金(2017JJ1002)。地图召回地图1779引用[1] Iro Armeni,Ozan Sener,Amir R Zamir,Helen Jiang,Ioannis Brilakis,Martin Fischer,and Silvio Savarese.大规模室内空间的3D语义解析 在proc CVPR,2016年。[2] Jorge Beltran 、 Carlos Guindel 、 Francisco MiguelMoreno、Daniel Cruzado、Fernando Garcia和Arturo dela Escalera。Birdnet:一个基于激光雷达信息的3d目标检测框架arXiv预印本arXiv:1805.01195,2018。[3] Angel Chang , Angela Dai , Tom Funkhouser , ,Matthias Nießner,Manolis Savva,Shuran Song,AndyZeng,and Yinda Zhang. Matterport3D:从室内环境中的 RGB-D 数 据 学 习 。 在 2017 年 3D 视 觉 国 际 会 议(3DV)上[4] Kang Chen , Yukun Lai , Yu-Xin Wu , Ralph RobertMartin , and Shi-Min Hu. 使 用 上下 文 信 息 从低 质 量RGB-D数据自动语义建模室内场景ACM Transactionson Graphics,33(6),2014。[5] Myung Jin Choi,Antonio Torralba,and Alan S Willsky.上 下 文 模 型 和 上 下 文 外 对 象 。 Pattern RecognitionLetters,33(7):853[6] Myung Jin Choi,Antonio Torralba,and Alan S Willsky.一种用于对象识别的基于树的上下文模型IEEE trans-actions on pattern analysis and machine intelligence,34(2):240[7] Wongun Choi,Yu-Wei Chao,Caroline Pantofaru,andSilvio Savarese. 使 用 3D 几 何 短 语 理 解 室 内 场 景 在CVPR,第33-40页。IEEE,2013。[8] 戴安琪,天使X. Chang,Manolis Savva,Maciej Hal-ber , Thomas Funkhouser , and Matthias Nießner.ScanNet : 室 内 场 景 的 丰 富 注 释 3D 重 建 。 在 Proc.CVPR,2017中。[9] Zhuo Deng和Longin Jan Latecki。3D对象的非模态检测:从rgb深度图像中的2d边界框推断3d边界框。在计算机视觉和模式识别会议(CVPR),第2卷,第2页,2017年。[10] 弗朗西斯·恩格曼,西奥多拉·康托吉安尼,亚历山大·赫曼斯,巴斯蒂安·莱布.探索点云三维语义分割 在proc ICCV,2017年。[11] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部 分 的 模 型 进 行 对 象 检 测 。 IEEE Transactions onPattern Analysis and Machine Intelligence,32(9):1627[12] Carolina Galleguillos和Serge Belongie基于上下文的对象分类:批判性的调查计算机视觉和图像理解,114(6):712[13] 罗斯·格希克。快速R-CNN。Proc. ICCV,2015年。[14] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。在Proc. CVPR,2014。[15] Saurabh Gupta , Ross Girshick , Pablo Arbelaez , andJitendra Malik.从RGB-D图像中学习丰富的特征用于对象检测和分割。在Proc.ECCV,2014中。[16] Kaiming He,Georgia Gkioxari,Piotr Dollár,and RossGir-shick.面具R-CNN。在计算机视觉(ICCV),2017年IEEE国际会议上,第2980IEEE,2017年。[17] Geremy Heitz,Stephen Gould,Ashutosh Saxena,andDaphne Koller.级联分类模型:Combin-1780使用模型进行整体场景理解。神经信息处理系统的进展,第641-648页,2009年[18] Binh-Son Hua、Minh-Khoi Tran和Sai-Kit Yeung。逐点卷积神经网络。 在proc CVPR,2018年。[19] Qiangui Huang,Weiyue Wang,and Ulrich Neumann.用于点云三维分割的重现切片网络。在Proc. CVPR,2018中。[20] Siyuan Huang,Siyuan Qi,Yinxue Xiao,Yixin Zhu,Ying Nian Wu,and Song-Chun Zhu.协同整体场景理解:统一3D对象、布局和相机姿态估计。在Proc.NIPS,2018中。[21] Siyuan Huang,Siyuan Qi,Yixin Zhu,Yinxue Xiao,Yuanlu Xu,and Song-Chun Zhu.从单个RGB图像进行整 体 3D 场 景 解 析 和 重 建 在 European Conference onComputer Vision中,第194Springer,2018.[22] Andrej Karpathy,Stephen Miller,and Li Fei-Fei.通过形状分析在3D场景中显示物体 在proc ICRA,第2088-2095页。IEEE,2013。[23] Jean Lahoud和Bernard Ghanem。RGB-D图像中的2D驱动的3D对象检测计算机视觉(ICCV),2017年IEEE国际会议,第4632IEEE,2017年。[24] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。在Proc. CVPR,2018中。[25] Karel Lenc 和Andrea Vedaldi 。R-CNN 减去R 。Proc.BMVC,2015.[26] Jun Li , Kai Xu , Siddhartha Chaudhuri , ErsinYumer,Hao Zhang,and Leonidas Guibas. Grass:用于形状结构的生成递归自动编码器。 ACM Trans. 关于Graphics(SIGGRAPH),2017.[27] Yangyan Li , Angela Dai , Leonidas Guibas , andMatthias Nießner. 实时三维重建的数据库辅助对象检索计算机图形论坛(Eurographics),2015年。[28] Yangyan Li , Rui Bu , Mingchao Sun , and BaoquanChen. 美 国 有 线 电 视 新 闻 网 。 arXiv预 印 本 arXiv:1801.07791,2018。[29] 林大华,桑雅· 菲德勒,拉奎尔· 乌尔塔孙。使用RGBD 相机进行3D对象检测的整体场景理解IEEEInternational Conference on Computer Vision,第1417-1424页,2013年[30] Di Lin,Yuanfeng Ji,Dani Lischinski,Daniel Cohen-Or,and Hui Huang.多尺度上下文交织语义分割。在欧洲计算机视觉会议(ECCV)中,第603[31] Tsung-Yi Lin,Priyal Goyal,Ross Girshick,KaimingHe,and Piotr Dollár.用于密集对象检测的焦点损失。IEEE关于模式分析和机器智能的交易,2018。[32] 放 大 图 片 作 者 : 刘 天 强 Siddhartha Chaudhuri ,Vladimir G. 放 大 图 片 作 者 : Kim , Xixing Huang ,Niloy J.作者声明:Thomas F
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功