没有合适的资源?快使用搜索试试~ 我知道了~
13D场景图:统一语义、3D空间和相机的结构IroArmeni 1Zhi-YangHe 1JunYoungGwak 1Amir R.Zamir1,2 Martin Fischer1Jitendra Malik2Silvio Savarese11斯坦福大学2加州大学伯克利分校http://3dscenegraph.stanford.edu摘要对场景的全面语义理解对于许多应用是重要的-但是在什么空间中应该多样化语义信息(例如,对象、场景类别、材质类型、3D形状等)它的结构应该是什么样的?希望有一个统一的结构,主机不同类型的语义,我们遵循场景图范式在3D中,生成一个3D场景图。给定3D网格和配准的全景图像,我们构建跨越整个建筑物并且包括关于对象的语义(例如,类别、材料、形状和其它属性),房间(例如,功能、照明类型等)和照相机(例如,位置等),以及这些实体之间的关系。然而,如果手动完成,该过程的劳动量过大为了缓解这一点,我们设计了一种半自动框架,该框架采用现有的检测方法并使用两个主要约束来增强它们:I.在相机上采样的查询图像的成帧以最大化2D检测器的性能,以及II.跨源自不同相机位置的2D检测的多视图一致性实施1. 介绍语义信息应该建立在什么地方?它应该有什么样的结构才是最有用和最不变的?这是一个基本的问题,内容,preoccupies一些领域,如计算机视觉和机器人。有一个明确的组成部分在发挥作用:对象和空间的几何形状、其中的实体的类别以及观察场景的视点(即,相机的姿势)。在这些信息的基础空间上,最常用的选择是图像。然而,图像用于此目的并不理想,因为它存在各种弱点,例如像素被图1. 3D场景图:它由4层组成,分别表示语义、3D空间和相机。元素是图中的节点,具有某些属性。在它们之间形成边以表示关系(例如,闭塞、相对体积等)。对于任何参数的变化,对象的整个几何体的缺失等都是高度可变的。为此目的的理想空间将至少(a)对尽可能多的5664C视野:75模态:RGB姿势:(3.8,4.2,7.2,0,-10,55)相机电视obj1:遮挡obj2:遮挡obj1obj1obj1obj2obj1obj2(0.8,0.3,-obj20.85obj2类别:床的颜色:蓝色,棕色材料:木材,织物面积:2.2m2形状:棱柱矩形动作启示:坐在,躺在obj1,obj2,S:真床烤箱花瓶水槽碗长凳钟图书卫生间躺椅冰箱微波盆栽餐桌S2(1.6、0.0、S1.75S1类别:客厅形状:棱柱矩形尺寸:(6. 5,4. 9,3. 5)照明:[18个天花板灯,三盏聚光灯,十一扇窗户,2盏灯]客厅卧室浴室走廊餐厅B1B1居民楼属性同源建筑同源空间遮挡关系空间相对数量级体积层数:3功能:住宅形状:棱柱体矩形面积:13. 8m2建筑对象客房相机5665尽可能地改变,以及(b)容易地和确定性地连接到不同域和任务所需的各种输出端口为此,我们指出,3D空间更稳定和不变,但与图像和其他像素和非像素输出域(例如,深度)。因此,我们在那里建立语义图像等)。具体地,这意味着信息基于建筑物的底层3D网格。这种方法提供了许多有用的值,例如自由3D、非模态、遮挡和开放空间分析。更重要的是,语义可以投射到任何数量的视觉观察(图像和视频)上,这为他们提供了注释,而无需额外的成本。结构应该是什么样的?语义存储库使用不同的表示,例如对象类和自然语言标题。场景图的想法有几个优势,其他表示,使其成为一个理想的候选人。它能够包含更多的信息,而不仅仅是对象类(例如,ImageNet [14] ) , 但 它 比 自 然 语 言 标 题 ( 例 如 ,CLEVR [22])。我们使用基本的3D信息来增强基本的场景图结构,例如Visual Genome [27]中的场景图结构,并生成3D场景图。我们将3D场景图视为分层图,每个级别代表不同的实体:建筑物、房间、物体和相机。可以添加更多的层来表示其他语义信息源。类似于2D场景图,每个实体被增强有若干属性,并且被连接到其他实体以形成不同类型的关系。为了构建3D场景图,我们将最先进的算法结合在主要自动方法中以进行语义识别。从2D开始,我们使用两个约束逐步聚合3D中的信息:框架和多视图一致性。每个约束提供更健壮的最终结果和一致的语义输出。本文的贡献可以概括为:• 我们将[27]中的场景图思想扩展到3D空间和地面语义信息。这为各种属性和关系提供了• 我们提出了一个两步鲁棒化的方法来优化语义识别使用不完美的现有检测器,它允许自动化的主要手动任务。• 我们用3D场景图作为额外的模型来增强Gibson环境 [44] 的 数 据 库 ,ity 并 在 3dscene-graph.stanford.edu上公开提供。2. 相关工作一个多样化的结构化存储库是可视化基因组[27],它由野外物体和人。每个图像的语义信息以场景图的形式编码。除了对象类和位置之外,它还提供属性和关系。图中的节点和边源于手动定义的自然语言标题。为了解决由于注释的自由形式而引起的命名问题,条目在转换为最终场景图之前被规范化。在我们的工作中,语义信息是以自动化的方式生成的虽然使用预定义的类别可能是限制性的,但它与当前的学习系统兼容。此外,3D场景图允许从3D计算无限数量的空间一致的2D场景图,并提供数值上精确的量化关系。然而,我们目前的设置仅限于室内静态场景,因此不包括室外相关属性或动作相关关系,如Visual Genome。使用场景图跟随视觉基因组,出现了几个作品,采用或生成场景图。示例包括场景图生成[30,46]、图像captioning/描述[26,3,23]、图像检索[24]和视觉问答[17,51]。除了视觉语言任务,还有焦点关系和动作检测[34,31,47]。除了常见的3D视觉任务外,3D场景图还将使其他任务能够以3D空间,2D-2.5D图像,视频流和语言的组合出现。在预测中利用结构在预测中添加结构,通常以图形的形式,已被证明对几项任务是有益的。一个常见的应用是用于语义分割的条件随机场(CRF)[28],通常用于为局部预测提供全局平滑和一致的结果[43,25]。在机器人导航的情况下,采用语义图来抽象物理地图允许代理通过理解独立于度量空间的语义节点之间的关系 图结构也是常用的在人机交互任务[39]和其他时空问题[20]中,在连续视频帧内和跨连续视频帧的节点之间创建连接结合几何、启示和外观的语法已用于图像中的整体场景解析,其中关于场景和对象的信息以分层树结构捕获[11,48,21,19]。节点表示场景或对象组件和属性,而边可以表示分解(例如,将场景转换为对象等)或关系(例如,支持等)。类似于这样的作品,我们的结构结合了不同的语义信息。但是,它可以捕获建筑规模的全局3D关系,并提供更大的自由度。5666dom在图的定义中通过将元素放置在不同的层中。这消除了对跨它们的直接依赖性的需要(例如,在场景类型和对象属性之间)。另一个有趣的例子是VisualMemex [36],它利用图形结构对对象之间的上下文和视觉相似性进行编码,而没有类别的概念,目标是预测位于掩蔽区域下的对象Zhu等人[50]使用了一个基于知识的表示方法来完成对象示能性推理的任务,该方法在对象、属性和示能性的不同节点之间放置边。这些示例将不同类型的语义信息结合在统一的结构中以用于多模态推理。上面的内容反映了拥有丰富结构化信息的价值。现有的语义存储库被分割成特定类型的视觉信息,其中它们的大多数集中在对象类标签和空间跨度/位置信息(例如,分割掩模/边界框)。这些可以基于视觉模态被进一步子分组(例如,RGB、RGBD、点云、3D网格/CAD模型等)和内容场景(例如,室内/室外、仅对象等)。其中,少数提供基于3D网格的多模态数据(例如,2D-3D-S [6],Matterport3D [10])。最近在[44]中提出的Gibson数据库由几个带有注册全景图像的3D 网 格 模 型 组 成 它 在 平 面 图 上 分 别 比 2D-3D-S 和Matterport 3D数据集大大约35倍和4.5倍,但是,它目前缺乏语义注释。其他储存库专门用于不同类型的语义信息,诸如材料(例如,上下文数据库中的材料(MINC)[8]),视觉/触觉纹理(例如,可描述纹理数据集(DTD)[12])和场景类别(例如,MIT Places[49]).自动和半自动语义检测语义检测是一个非常活跃的领域(详细的概述不在本文的范围内)。 需要强调的主要一点是,与知识库类似,作品集中在有限的语义信息范围上。对象SE-mantics范围从类识别到空间跨度定义(边界框/分割掩模)。最新的作品之一是Mask R-CNN [18],它提供RGB图像中的对象实例分割掩码。其 他 具 有 类 似 输 出 的 是 Blitz-Net [15] ( RGB ) 和Frustum PointNet [38](RGB-D)。除了检测方法之外,众包数据注释是一种常见的策略,特别是在构建新存储库时。虽然大多数方法只关注手工劳动,但有些方法采用自动化来最小化人类与数据交互的量,并提供更快的周转。与我们的方法类似,Andriluka et al.[4]采用在COCO-Stuff数据集上训练的Mask R-CNN来获取初始对象实例分割随后由用户验证和更新的掩码。Polygon-RNN [9,2]是另一种机器辅助注释工具,它在给定用户定义的边界框的情况下提供图像中对象的轮廓。两者都保持在2D世界中,并专注于对象类别和分割掩码。其他人采用较低级别的自动化来加速3D中的注释。ScanNet [13]提出了一种用于手动注释室内空间3D网格模型的Web界面。 它开始于使用基于图切割的方法对场景进行过分割。然后提示用户标记这些段的目标对象实例分割。[37]有着相似的起点;基于几何形状和外观线索将所得到的过段进一步分组为更大的区域。这些区域由用户编辑[41]采用对象分割掩模和标签从二维注释自动恢复三维场景几何。尽管结合了自动化,但上述方法在很大程度上依赖于人的交互来实现足够准确的结果。3. 3D场景图形结构我们方法的输入是3D扫描仪的典型输出,包括3D网格模型,注册的RGB图像和相应的相机参数,例如Matterport3D [10]或Gibson [44]数据库中的数据。输出是扫描空间的3D场景图,我们将其表示为四层图(参见图1)。每一层都有一组节点,每个节点都有一组属性,节点之间有表示它们之间关系的边。第一层是整个建筑物并且包括图中的给定网格模型的根节点(例如,住宅楼)。建筑物的房间组成3D场景图的第二层,并且每个房间用唯一的节点(例如,客厅)。房间内的对象形成第三层(例如,椅子或墙壁)。最后一层引入相机作为图的一部分:每个相机位置是3D中的节点和可能的观察(例如,RGB图像)与之相关联。属性:图形中的每个建筑物、房间、对象和摄像机节点(从现在起称为元素)都有一组属性。例如,对象类、三维形状、材质类型、姿势信息等。关系:元素之间的连接是用边建立的,并且可以跨越不同的层(例如,对象-对象、照相机-对象-房间等)。属性和关系的完整列表见表1。4. 构建三维场景图为了构建3D场景图,我们需要识别它的元素,它们的属性和关系。给定元素的数量和比例,注释输入RGB和566775(a)输入(b)成帧(c)多视图一致性(d)空间图图2. 构建3D场景图。(a)该方法的输入是具有配准的全景图像的3D网格模型。(b)对于直线图像,对每个全景进行密集采样。Mask R-CNN检测结果通过加权多数投票方案聚合回全景图。(c)然后在3D网格上聚合单个全景投影。(d)这些检测成为3D场景图的节点。随后的自动步骤计算剩余的属性和关系。具有对象标签和空间跨度的三维网格数据是构建三维场景图的主要劳动瓶颈因此,本文的主要重点是通过提出一种自动方法来解决这个问题,该方法使用现有的语义检测器来引导注释管道并最大限度地减少人工劳动。图2显示了管道的概述。在我们的实验中(第5节),我们使用图3.它使用两种化学方法:(a)将对象放置在图像的中心,以及(b)使图像在其周围适当地放大以提供足够的上下文。我们通过利用不同的ya w(θ)、间距(θ)和视场(FoV)相机参数对全景上的直线图像进行密集采样来开始,目标是具有满足场景中每个对象的几何特性的至少一个图像:Mask R-CNN网络的最佳表现[18]○ ○ ○○ ○ ○并且只得到了置信度分数为0.7或更高的检测结果。然而,由于检测结果是不完善的,我们提出了两个鲁棒机制,以提高其性能,即分帧和多视图一致性,分别在2D和3D域上操作表1. 3D场景图形属性和关系元素属性关系θ=[-180,180,15],θ=[-15,15,15]FoV= [○、105○、15○]这导致每个全景总共225个大小为800 × 800像素的图像为了剔除直线检测结果中的缺陷,我们使用加权投票方案将它们聚集在全景上,其中权重考虑:对象(O)空间(S)动作示能表示、区域、类别、颜色、ID、位置、材质、占用、形状、大小、空间跨度、触觉纹理、视觉纹理、体积区域、ID、照明、位置、占用、场景类别,无模式掩码(O,C),父空间(O,S),闭塞关系(O、O、C),相同父房间(O,O,S),空间顺序(O,O,C)相对大小(O,O)空间顺序(S,S,C)、父建筑物(S,B)、相对大小(S,S)预测具体来说,我们计算每个类的每个像素的权重如下:形状、大小、空间跨度、体积面积,建筑参考中心,XSdijB栋功能、ID、楼层数、wi,λ=形状、大小、体积j,L=λkCdij-Cjk摄像机(C)视野、ID、模态、姿势,分辨率父空间(C,S)国际新闻报其中wi,λ是类别λ的全景像素i的权重Ldij是直线帧j中i的检测类dij,全景图像2D语义分帧算法操作直线图像和最常见与它们的输出相关联的误差是对图像边界处的部分捕获对象的不正确检测当从稍微不同的视点观察相同的物体时,将它们放置在更靠近图像中心的位置并且不部分地捕获它们,检测精度得到提高。将RGB图像作为输入提供了制定一种框架方法的机会,该框架方法从它们中采样直线图像,目的是最大化检测精度。 该方法总结于Sdij是置信度分数,并且Cdij是中心像素I0。阳离子的检测,和C j是中心的j。给定这些权重,我们计算每个像素的最高得分类。然而,对各个像素执行聚合可能导致局部不一致,因为它忽略了关于哪些像素可能属于对象实例的信息。因此,我们查看每个直线检测,并使用所包含的全景像素的最高得分类我们将其中最具代表性的在这个阶段,全景图是按类而不是按实例进行分割的。到C视野:75模态:RGB姿势:(3.8、4.2、7.2、0、-10、55)分辨率:1024x1024obj1obj2obj1obj1obj2obj2obj2类别:床的颜色:蓝色,棕色材料:木材,面料面积:2.2m2形状:棱柱矩形动作启示:坐在,躺在SS2S1类别:客厅形状:棱柱矩形尺寸:(6. 5,4.9,3. 5)照明:[18个天花板灯,3盏聚光灯,11扇窗户,2盏灯]客房对象相机5668活动摄像机固定框架1 23 4214盆栽炉本沙发冰箱餐桌钟碗椅微波炉233243123(a) 全景图像(b)MaskRCNN检测(c)聚合实例分割结果漏检图3. 成帧:使用成帧鲁棒化机制的采样直线图像的示例在虚线彩色框中示出。对各个帧的检测(b)不是无误差的(用箭头示出了未检测)。通过加权多数投票剔除错误,得到最终的全景图标签。解决这个问题,我们找到每类连通分量;这给出了实例分割掩码。多视图一致性通过在3D网格上配准RGB全景,我们可以通过将2D像素标签投影到3D表面上来对其进行注释。然而,由于全景图结果不完美(图4(b)),以及某些对象的常见重建不良或图像像素与网格表面之间的未对准,仅投影单个全景图并不能产生准确的分割(a) 输入(b) 成帧(c) 3D上的单全景(d) 多视图一致性(摄像机配准错误)。这会导致标签“泄漏”到相邻对象上(图4(c))。然而,场景中的对象从多个视点可见,这使得能够使用多视图一致性来修复这样的问题。这是我们的第二个鲁棒机制。我们首先将所有全景标签投影到3D网格表面上。为了汇总投票,我们根据观察点与表面的接近程度制定了一个加权具体来说,我们将权重定义为:PkP-Fk图4. 多视图一致性:通过多视图一致性将来自不同视图的语义标签组合在最终网格上。即使各个投影带有来自全景标签的误差和较差的3D重建/相机配准,从不同的视点观察物体可以修复它们。4.1. 用户在环验证作为最后一步,我们对自动提取的结果进行手动验证。我们开发了Web界面,用户可以在必要时对其进行验证和纠正。[5]中提供了此步骤的屏幕截图和更多细节wi,j = i ,jicjkPi-Fcjk我们在Amazon Mechanical Turk(AMT)中进行了众包验证。然而,我们并不认为这是至关重要的一步其中wi,j是面部Fj相对于相机位置Pi的权重,Fcj是Fj的中心的3D坐标与成帧机制类似,在检测级别上执行投票。我们在从全景中的相同对象实例接收投票的一组面F〇 bj上寻找标签一致性我们首先对各个面孔进行加权的多数投票,以确定Fobj的标签候选池,因为它是从铸造所有的马赛克中产生的,然后使用最多的一个将其分配给组。在3D中找到连接组件的最后一步该信息可以被投影回全景图上,因此提供一致的2D和3D标签。由于无需任何验证的自动结果具有足够的鲁棒性,可用于某些实际用途(参见第5.3节和[5])。手动验证主要用于评估目的,并为某些研究用例形成无错误的数据。流水线由两个主要步骤组成(所有操作都在直线图像上执行)。验证和编辑:在panora- mas上投影最终的3D网格标签后,我们渲染直线图像,该图像在中心和最大程度上显示每个发现的我们要求用户(a)验证所显示对象的标签-如果错误,图像将从该过程的其余部分中丢弃;(b)验证对象的分割烤箱表隐形椅沙发微波炉碗水槽冰箱花瓶植物背景5669掩码;如果掩码不满足标准,则用户(c)添加新的分割掩码。添加缺少的对象:上一步细化了我们的自动结果,但仍可能存在缺少的对象。我们将经验证的掩模投影回全景图上,并将其分解为5个重叠的直线图像(每个图像72〇该步骤(a)询问用户是否遗漏了对象类别的任何实例,并且如果发现不完整,(b)他们递归地添加掩码,直到对象类别的所有实例都被屏蔽掉。4.2. 属性和关系所描述的方法给出图的为了计算属性和关系,我们使用现成的学习和分析方法。有关它们的完整描述和结果的视频,请参见[5]。5. 实验我们在Gibson环境[44]数据库上评估我们的自动管道5.1. 数据集统计数据烤箱沙发花瓶碗植物水槽表椅子冰箱微波吉布森环境建筑它是从真实的室内空间收集的,并为每个建筑物提供相应的3D网格模型、RGB位图和相机姿态信息1。我们用我们的自动流水线注释所有2D和3D模态,并在Gisbon的微小分裂上手动验证此输出。使用的语义类别来自COCO数据集[33]的对象,MINC [8]的材料,和DTD [12]的纹理。数据集的更详细分析以及每个属性和关系的见解见[5]。5.2. 自动化流水线的评价我们在2D panora- mas和3D网格模型上评估我们的自动化管道。我们遵循COCO评估协议[33]并报告两种模式的平均精确度(AP)和召回率(AR)。我们使用在COCO数据集上训练的最佳现成Mask R-CNN模型具体来说,我们选择来自Detectron [1]的Mask R-CNNwith Bells Whis- tles。根据模型注释,它使用ResNeXt-152(32 x8 d)[45]与特征金字塔网络(FPN)[32]相结合。它在ImageNet-5 K上进行了预训练,并在COCO上进行了微调。有关实施和训练/测试的更多细节,请读者参阅Mask R-CNN [18]和Detectron [1]。基线:我们在2D中比较了以下方法:•掩码R-CNN [18]:我们在全景上采样的6个没有重叠的rectilin-ear图像上运行Mask R-CNN。检测结果被投影回全景图上。•使用框架掩码R-CNN:这里的全景结果是从我们的第一个鲁棒化机制获得的。1更多详情请访问gibsonenv.stanford.edu/database图5. 对蟑螂的检测结果:(a)图像,(b)Mask R-CNN[18],(c)Mask R-CNN w/ Framing,(d)Mask R-CNN w/Framing和多视图一致性(我们的最终结果),(e)地面实况(在屏幕上最好)。对于更大和更多的可视化,请参见[5]。•Mask R-CNN with Framing and Multi-View Consis-tency(MVC)-我们的:这是我们的自动化方法。在应用两种鲁棒化机制之后获得全景结果这些是3D的:•Mask R-CNN [18]和Pano投影:Mask R-CNN的全景结果投影在3D网格表面上,每个面都有简单的多数投票。•Mask R-CNN with Framing and Pano Projection:从我们的第一种机制得到的全景结果遵循类似的2D到3D投影和聚合过程。•Mask R-CNN with Framing and Multi-View Consis-tency(MVC)-我们的:这是我们的自动化方法。如表2所示,我们的方法中的每种机制都有助于提高最终的准确性。这在定性结果中也是可见的,其中每个步骤进一步去除错误检测。例如,在图5的第一列中,Mask R-CNN(b)将窗外的树木检测为盆栽植物、绘画上的花瓶和镜子中的床反射具有framing(c)的Mask R-CNN能够移除树检测并恢复高度遮挡的错过的厕所具有框架和多视图一致性的Mask R-CNN(d)进一步去除了a.B.C.D.e.5670表2. 2D全景图和3D网格上的自动流水线评估。我们根据COCO评估计算两种模式的平均精度(AP)和平均召回率(AR)[33]。2D 3D方法面具R-CNN我们的我们的面具R-CNN我们的我们的画花瓶和床的反射,实现的结果非常接近地面的真相。在3D的情况下可以看到类似的改进(图6)。即使它们可能在数量上看起来不那么大,但它们对于获得一致的3D结果至关重要,其中大多数变化与一致的局部区域和更好的对象边界有关。人力:我们进行用户研究,将检测性能与人力(花费的时间)相关联。结果在表3中。请注意,针对全手动3D注释[7]报告的小时数是针对12个对象类(与我们的62)和专家3D注释(与我们的非熟练劳动力)。表3.每个模型的人工注释者所花费的平均时间。每个步骤由2个用户独立完成,以进行交叉检查。方法我们的w/o我们的w/人类[七]《中国日报》人(FA)人(MV)仅(FM2D)(FM3D)AP0.3890.9711时间(h)003:18:02十二点四十四分十分十点十八分零六秒FA:全自动-FM:全手动-MV:手动验证a.B.C.D.使用不同的探测器:在此之前,我们一直使用性 能最好的 Mask R-CNN网络,其中41.5报道了关于COCO的AP [18]。我们想进一步了解当使用不太精确的检测器时两种鲁棒机制的行为。为此 , 我 们 使 用 BlitzNet [15] 进 行 了 另 一 组 实 验 ,BlitzNet是一种推理速度更快但在COCO数据集上报告性能更差的网络(AP 34.1)。我们注意到,两种检测器的结果在不同基线之间提供了AP的类似相对增加(表4)。这表明,无论初始预测如何,鲁棒化机制都可以在提高标准检测器的性能和纠正错误方面提供类似的价值5.3. 2D场景图预测到目前为止,我们专注于自动检测结果。这些将通过自动化步骤生成最终的3D场景图并计算属性和关系。这方面的结果可以在[5]中看到。我们使用此输出进行2D场景图预测的实验。2D场景图(SG)有3种标准评估设置[35]:(a)SG检测,(b)SG分类,以及(c)关系分类(用于说明椅子沙发微波花瓶植物背景烤箱表看不见碗水槽冰箱图6. 网格模型上的3D检测结果:(a)Mask R-CNN [18]+Pano投影,(b)Mask R-CNN w/Framing + Pano投影,(c)Mask R-CNN w/Framing和多视图一致性(我们的最终结果),(d)地面实况(在屏幕上最佳观看)。对于更大和更多的可视化,请参见[5]。参见[5])。与仅存在稀疏和实例特定关系的VisualGenome相比,我们的图是密集的,因此一些评估(例如,关系检测)不适用。我们专注于关系分类,并提供以下方面的结果:(a)空间顺序和(b)相对体积分类,以及(c)作为遮挡关系的应用的非模态掩模分割。空间秩序:给定RGB直线图像和对象对的(可见)分割掩码,我们预测查询对象是否在另一个对象的前面/后面、左边/右边。我们使用我们的方法自动生成的分割掩码训练ResNet34,并使用中等Gibson数据分割。基线是从训练数据中提取的统计信息猜测。相对成交量:我们遵循相同的设置并预测Mask R-CNNMask R-CNNMask R-CNNMask R-CNN[18个国家]w/框架使用框架+MVC+ Pano投影w/框架+ Pano投影使用框架+MVCAP0.0790.1600.4850.2220.3060.409AP.500.1660.3160.6100.4450.5390.665AP.750.0700.1470.4950.1910.3220.421AR0.1510.2560.5370.1870.2610.3645671表4. 使用不同探测器的AP性能。方法检测器检测器w框架检测器使用框架+MVC检测器+ 帕诺投影检测器w Framing + Pano投影检测器使用框架+MVC[18]第十八话0.079+0.081+0.4060.222+0.084+0.187[15]第十五话0.095+0.103+0.1890.076+0.089+0.169查询查询右前方查询左前查询右后遗留查询查询小于查询大于查询图7. 场景图关系的分类结果。查询对象的体积是否小于或大于另一对象。图7显示了两个任务的预测结果,而定量评估则在表5中。表5. SG同品种器械分类的平均AP。SG同品种器械基线我们空间秩序0.2550.712相对体积0.5550.820非模态掩模分割:我们预测的2D amodal分割的一个对象部分被别人遮挡给定的相机位置。由于我们的语义信息驻留在3D空间中,我们可以在没有额外注释的情况下以完全自动的方式推断对象遮挡的完整范围,考虑到以前工作中数据收集的困难[29,52,16]。我们训练了一个U-Net [40]对语义类的不可知性,以预测以RGB图像为中心的对象的可见/遮挡掩模的每像素分割(非模态预测(Ours))。作为基线,我们在训练数据 上 取 非 模 态 掩 码 ( a ) 的 平 均 值 ( Avg. AmodalMask)和(b)假设其在测试时的完美知识的每语义类(Avg.类特定的非模态掩码)。有关数据生成和实验设置的更多信息,请参见[5]。我们报告的f1分数和交集-超过工会作为每像素分类的三个语义图8. 非模态掩模分割的示例结果,非模态预测(我们的)。蓝色:可见,红色:遮挡。表6. 非模态掩模分割的定量结果。f1得分空闭塞可见avgAvg. Amode面罩0.9340.0000.5050.479Avg.类特定非模态掩码0.9390.0970.5990.545非模态预测(我们的)0.9460.4140.6550.672IOU空闭塞可见avgAvg. Amode面罩0.8770.00.3370.405Avg.类特定非模态掩码0.8860.0510.4270.455非模态预测(我们的)0.8980.2610.4880.549在对象、三维空间和摄影机之间传送。我们发现,这样的设置可以提供一些现有的任务的见解,并允许新的出现在语义信息源的交集为了构建3D场景图,我们提出了一种主要是自动的方法,该方法通过框架和多视图一致性来增加当前学习系统的鲁棒性。我们在Gibson数据集上证明了这一点,其中3D场景图结果是公开的。我们计划扩展对象类别以包括更多通常存在于室内场景中的对象,因为当前的注释往往在某些地方是稀疏的。类(空的,被遮挡的和可见的)以及宏观平均值(表6)。尽管由于空类的严重偏差,性能差距可能看起来不显著,但我们的方法在预测闭塞区域方面始终显示出显著的性能提升,表明它成功地学习了与基线不同的非模态感知(图8)。6. 结论我们讨论了多模态3D语义信息在一个统一结构中的基础,鸣谢:我们 感 谢Google ( GWNHT ) 、 ONR MURI( N00014 -16-l-2713)和Nvidia(GWMVU)的支持。引用[1] 探测器模型动物园。https://github.com/facebookresearch/Detectron/blob/master/MODEL_ZOO.md。访问时间:2019-08-12。[2] David Acuna,Huan Ling,Amlan Kar,and Sanja Fidler.分割数据集的高效交互式注释,相对体积空间秩序非模态掩码预测图像地面实况5672polygon-rnn++.在IEEE计算机视觉和模式识别会议论文集,第859-868页,2018年。[3] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould. Spice : 语 义 命 题 图 像 帽 评 估 。 在European Conference on Computer Vi-sion,第382-398页中。施普林格,2016年。[4] Mykhaylo Andriluka , Jasper RR Uijlings ,and VittorioFerrari.流体注释:用于完整图像注释的人机协作接口。arXiv预印本arXiv:1806.07527,2018。[5] Iro Armeni , Jerry He , JunYoung Gwak , Amir RZamir , Martin Fischer , Jitendra Malik , and SilvioSavarese.补充材料:3D场景图:统一语义、3d空间和摄像机的结构。http://3dscenegraph.stanford.edu/images/supp_mat.pdf。2019-08-16.[6] Iro Armeni , Sasha Sax , Amir R Zamir , and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv:1702.01105,2017。[7] Iro Armeni,Ozan Sener,Amir R Zamir,Helen Jiang,Ioannis Brilakis,Martin Fischer,and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议集,第1534-1543页[8] Sean Bell,Paul Upchurch,Noah Snavely,and KavitaBala.利用上下文数据库中的材料进行野外材料识别.在IEEE计算机视觉和模式识别会议论文集,第3479-3487页,2015年。[9] Lluis Castrejon,Kaustav Kundu,Raquel Urtasun,andSanja Fidler.使用多边形rnn注释对象实例。在CVPR,第1卷,第2页,2017年。[10] Angel Chang,Angela Dai,Thomas Funkhouser,MaciejHalber , Matthias Nießner , Manolis Savva , ShuranSong,Andy Zeng,and Yinda Zhang. Matterport3d:室内 环 境 中 rgb-d 数 据 的 学 习 。 arXiv 预 印 本 arXiv :1709.06158,2017。[11] Wongun Choi,Yu-Wei Chao,Caroline Pantofaru,andSilvio Savarese.使用三维几何短语理解室内场景。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,第33[12] Mircea Cimpoi , Subhransu Maji , Iasonas Kokkinos ,Sammy Mohamed,and Andrea Vedaldi.描述野外的纹理。IEEE计算机视觉和模式识别会议论文集,第3606-3613页,2014年[13] Angela Dai,Angel X Chang,Manolis Savva ,MaciejHal- ber,Thomas A Funkhouser,and Matthias Nießner.Scan-net:室内场景的丰富注释3D重建。在CVPR,第2卷,第10页,2017年。[14] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在计算机视觉和模式识别,2009年。CVPR2009。IEEE会议,第248-255页。Ieee,2009年。[15] Nikita Dvornik,Konstantin Shmelkov,Julien Mairal,and Cordelia Schmid. Blitznet:一个实时深度网络场 景 理 解 在 ICCV 2017-International Conference onComputer Vision,第11页,2017年。[16] Kiana Ehsani、Roozbeh Mottaghi和Ali Farhadi。Segan:分割和生成不可见的东西。 在IEEE计算机视觉和模式识别会议论文集,第6144-6153页[17] Akira Fukui , Dong Huk Park , Daylen Yang , AnnaRohrbach,Trevor Darrell,and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv:1606.01847,2016。[18] Kai m ingHe , Geo r giaGkioxari , PiotrDol la'r ,andRossB. 娘娘腔。面具R-CNN。2017年IEEE计算机视觉国际会议(ICCV),第2980-2988页[19] Siyuan Huang,Siyuan Qi,Yixin Zhu,Yinxue Xiao,Yuanlu Xu,and Song-Chun Zhu.从单个rgb图像进行整体三 维场 景解 析和 重构 。在欧洲 计算 机视 觉会 议(ECCV)的会议记录中,第187-203页[20] Ashesh Jain , Amir R Zamir , Silvio Savarese , andAshutosh Saxena.结构-rnn:时空图的深度学习。在IEEE计算机视觉和模式识别会议论文集,第5308-5317页[21] Chenfanfu Jiang , Siyuan Qi , Yixin Zhu , SiyuanHuang,Jenny Lin,Lap-Fai Yu,Demetri Terzopoulos,and Song-Chun Zhu. 可配置的3d场景合成和2d图像渲染与每像素地面真相使用随机抽搐语法国际计算机视觉杂志,126(9):920[22] Justin Johnson , Bharath Hariharan , Laurens van derMaaten , Li Fei-Fei , C Lawrence Zitnick , and RossGirshick.Clevr : A diagnostic dataset
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功