没有合适的资源?快使用搜索试试~ 我知道了~
Johanna Wald 1, *Helisa Dhamo 1, *Nassir Navab 1Federico Tombari 1,21 Technische Universit¨at M¨unchen2 Googlechairchairstanding onstanding onsame as, behindfloorsame as, front39610从3D室内重建学习3D语义场景图0摘要0场景理解一直是计算机视觉领域的热点。它不仅包括识别场景中的对象,还包括在给定上下文中它们之间的关系。为了实现这个目标,最近的一系列工作致力于3D语义分割和场景布局预测。在我们的工作中,我们专注于场景图,这是一种将场景的实体组织成图的数据结构,其中对象是节点,它们的关系被建模为边。我们利用场景图的推理来进行3D场景理解,映射对象及其关系。具体而言,我们提出了一种从场景的点云中回归场景图的学习方法。我们的新颖架构基于PointNet和图卷积网络(GCN)。此外,我们引入了3DSSG,一个半自动生成的数据集,其中包含3D场景的语义丰富的场景图。我们展示了我们的方法在领域无关的检索任务中的应用,其中图像用作3D-3D和2D-3D匹配的中间表示。01. 引言03D场景理解涉及从3D数据中感知和解释场景,重点关注其语义和几何特性,其中不仅包括识别和定位3D空间中存在的对象,还包括它们的上下文和关系。这种全面的理解对于各种应用非常重要,如机器人导航、增强现实和虚拟现实。当前的3D场景理解工作包括感知任务,如实例分割[12, 21,44, 50],语义分割[34, 36, 5,38]以及3D物体检测和分类[40, 34, 35,54]。尽管这些工作主要关注对象的语义,但它们的上下文和关系主要用于提高每个对象的类别准确性。最近,图像场景理解探索了使用场景图来帮助理解对象之间的关系,以及对对象进行表征。0* 作者对本文贡献相同0图1. 概述给定一个无类别实例分割的3D场景(左),我们的图预测网络从点云中推断出一个语义场景图G(右)。0在此之前,场景图已经在计算机图形学中用于排列图形场景的空间表示,其中节点通常表示场景实体(对象实例),而边表示两个节点之间的相对变换。这是一种灵活的场景表示,还包括复杂的空间关系和操作分组。其中一些概念已经在计算机视觉数据集中逐渐被适应或扩展,例如支持结构[32]、语义关系和属性[19]以及场景实体的分层映射[3]。已经证明场景图在图像搜索中具有重要意义,例如部分匹配[46]和完全匹配[17],以及图像生成[16]。在3D中,场景图最近才获得更多的流行[3]。在这项工作中,我们希望专注于3D场景图的语义方面及其潜力。我们的目标是获得具有标记实例(节点)、语义有意义的关系(边)(如“位于”或“相同”)以及包括颜色、形状或可用性在内的属性的密集图(参见图1)。这些类似于与图像相关联的场景图表示[17]。我们认为语义场景图在3D中特别重要,因为a)它们是一种紧凑的表示,描述了一个(可能很大)的3D场景,b)它们对小的场景变化和噪声具有鲁棒性,c)它们弥合了不同领域之间的差距,如文本或图像。这些特性使它们适用于跨领域任务,如2D-3D场景检索或VQA。where each node is an object while edges represent interac-tions between them. Additionally, the object nodes con-tain attributes that describe object properties.Later, Vi-sual Genome [19], a large scale dataset with scene graphannotations on images, gave rise to a line of deep learn-ing based advances on scene graph prediction from im-ages [48, 11, 37, 51, 25, 49, 24, 33]. These methods pro-pose diverse strategies for graph estimation and processing,such as message passing [48], graph convolutional networks(GCN) [49], permutation invariant architectures [11] and at-tention mechanisms [37]. Most of these methods rely on anobject detector to extract node- and edge-specific featuresprior to the graph computation [48, 49, 24]. Recent worksexplore the reverse problem of using scene graphs to gener-ate new images [16] or manipulate existing images [6].39620我们认为,能够回归给定3D场景的场景图能够成为3D场景理解的基本组成部分,作为学习和表示环境中物体关系和上下文信息的方式。为此,我们提出了一种基于PointNet[34]和图卷积网络(GCNs)[18]的学习方法,用于预测3D语义图。给定3D点云的类别无关实例分割,我们联合推断由节点(场景组件)和边缘(它们的关系)组成的3D场景图。为此,我们引入了一个3D语义场景图数据集,其中的节点(实例)包含详细的语义信息,包括属性和边缘(关系),该数据集将公开发布。从真实世界的扫描中生成3D语义场景图特别具有挑战性,因为数据缺失和杂乱以及物体之间的关系的复杂性。例如,两个风格相同的椅子可能外观差异很大,而放在其中一个椅子上的夹克可能遮挡了大部分可见表面。虽然我们的方法优于基线,但它能够端到端地操作,并能够预测每个边缘上的多个关系。我们进一步展示了在跨领域场景中,场景图在3D和2D之间作为一种常见编码在不断变化的条件下进行场景检索任务。给定一张单独的图像,任务是从一组扫描中找到匹配的3D模型。场景图非常适合这个任务,因为它们对动态环境具有固有的鲁棒性,这些环境表现出照明变化和人类活动引入的(非)刚性变化。总之,我们探索了语义场景图在3D室内环境中的预测和应用,具体贡献如下:0•我们提出了3DSSG,一个大规模的3D数据集,它通过语义场景图注释扩展了3RScan[45],包含关系、属性和类别层次。有趣的是,可以通过渲染3D图形来获得2D场景图,从而得到363k个图形-图像对。0• 我们提出了第一个从3D点云生成语义场景图的学习方法。0•我们展示了如何在跨领域检索中使用3D语义场景图,具体是在不断变化的室内环境中进行2D-3D场景检索。02. 相关工作01 https://3DSSG.github.io03D理解:从物体到关系。在3D场景理解中,3D语义分割[34, 4, 36, 7, 38, 12]和物体检测与分类[41, 34, 35,52]是一个活跃的研究领域。这些工作主要关注物体的语义,而上下文只用于提高物体类别的准确性。而全面的场景理解[40]不仅预测物体的语义,还预测场景的布局,有时甚至预测相机的姿态[13]。场景上下文通常通过一个层次树来表示,其中叶子节点通常是物体,中间节点将物体分组为场景组件或功能实体。一系列的工作使用概率语法来解析场景[28,53]或控制场景合成[15]。Shi等人[39]表明,通过联合预测层次上下文,可以改善物体检测任务。GRAINS[23]使用层次图来合成多样化的3D场景,使用递归VAE生成布局,然后进行物体检索。在从单个图像生成3D场景的情况下,Kulkarni等人[20]考虑物体之间的相对3D姿态(作为边缘),结果表明其优于无关邻居的6D姿态估计。另一系列的工作将图结构纳入物体级别的理解中,而不是整个场景。Te等人[43]使用图卷积神经网络进行物体部分的语义分割。StructureNet[31]将物体的潜在空间表示为由组成部分构成的层次图,目标是生成合理的形状。然而,所有这些工作要么专注于物体的部分,要么不考虑超越通用边缘(没有语义标签)或相对变换的语义关系。在合成数据的语义场景图的背景下,Fisher等人[9]使用图核函数进行3D场景比较,基于支持和空间关系。Ma等人[30]将自然语言解析为语义场景图,考虑成对和组关系,逐步检索子场景进行3D合成。最近,社区开始探索语义关系的语义场景图。sofa:seat:furniturecoffee table:table:furnituresize: lowshape: rectangulartexture: woodenshape: L-shapedcolor: brownstanding close byottoman:seat:furniturehand bag:itemshape: rectangularcolor: white, brownmaterial: leathershape: rectangularcolor: brown, darkaffordance: sittinglying onassigned a single object category C only, but instead aredefined by a hierarchy of classes c = (c1, ..., cd) wherec ∈ Cd, and d can vary.Additionally to these objectcategories each node has a set of attributes A that de-scribe the visual and physical appearance of the object in-stance. A special subset of the attributes are affordances[47].We consider them particularly important since wedeal with changing environments. The edges in our graphsdefine semantic relationships (predicates) between thenodes such as standing on, hanging on, morecomfortable than, same material.To obtainthe data in 3DSSG we combine semantic annotations withgeometric data and additional human verification to ensurehigh quality graphs. In summary, our dataset features 1482scene graphs with 48k object nodes and 544k edges. An in-teresting feature of 3D scene graphs is that they can easilybe rendered to 2D. Given a 3D model and a camera pose,one can filter the graph nodes and edges that are presentin that image. Support and attribute comparison relationsremain the same, while directional relationships (left,right, behind, front) must be updated automati-cally for the new viewpoint. Given the 363k RGB-D imageswith camera poses of 3RScan, this results in 363k 2D scenegraphs. A comparison of our dataset with the only otherreal 3D semantic scene graph dataset, namely Armeni et al.[3] is listed in Tbl. 1. More information and statistics about3DSSG are provided in the supplementary. In the follow-ing a detailed description of the different entities of our 3Dsemantic scene graphs are given.39630属性(形状、颜色等)0类别层次结构(词汇关系)0节点(物体实例)0关系(支撑、空间等)0图2. 3DSSG中的场景图表示,包括每个节点的层次类别标签c和属性A,以及节点之间的关系三元组。03D和真实世界数据中的物体之间的语义关系。Armeni等人[3]提出了一个四层的大空间3D模型的分层映射:相机、物体、房间和建筑。虽然他们的图较小(见Tbl.1),但他们的重点不是语义上有意义的物体之间的关系,如支撑关系。此外,缺乏场景变化,无法实现所提出的3D场景检索任务。03D场景检索许多基于图像的3D检索工作侧重于从RGB图像中检索3DCAD模型:IM2CAD通过检测物体、估计房间布局并为每个边界框检索相应的CAD模型来从单个图像生成3D场景[14]。另一方面,Pix3D提出了一个基于2D图像中高度准确的3D模型对齐的单图像3D形状建模数据集[42]。刘等人通过模拟局部上下文生成虚假遮挡来改进2D-3D模型检索[27]。SHREC基准[1,2]使得可以检索各种场景(海滩、卧室或城堡)的2D-3D,而[30]和[9]仅在室内环境中操作,但也只关注合成数据而不是真实的3D重建。03. 3D语义场景图0通过这项工作,我们发布了3DSSG,为3RScan提供了3D语义场景图,这是一个大规模的真实世界数据集,包含了478个自然变化的室内环境的1482个3D重建。在3DSSG中,语义场景图G是节点N和边R之间的一组元组(N,R)(见图2)。节点表示3D扫描中特定的物体实例。与之前的工作[19,3,4,45]不同,我们的节点不仅仅被分配一个单一的物体类别C,而是由类别层次结构c=(c1,...,cd)定义,其中c∈Cd,d可以变化。除了这些物体类别,每个节点还有一组描述物体实例的视觉和物理外观的属性A。属性的一个特殊子集是可行性[47]。我们认为它们特别重要,因为我们处理的是变化的环境。我们图中的边定义了节点之间的语义关系(谓词),如站在、悬挂在、比...更舒适、相同材料等。为了获得3DSSG中的数据,我们将语义注释与几何数据和额外的人工验证相结合,以确保高质量的图。总之,我们的数据集包含1482个场景图,48k个物体节点和544k个边。3D场景图的一个有趣特点是它们可以很容易地渲染成2D。给定一个3D模型和一个相机姿态,可以过滤出在该图像中存在的图节点和边。支撑和属性比较关系保持不变,而方向关系(左、右、后、前)必须根据新的视点自动更新。鉴于3RScan的363k个带有相机姿态的RGB-D图像,这将导致363k个2D场景图。我们的数据集与唯一的其他真实3D语义场景图数据集Armeni等人[3]的比较列在Tbl.1中。关于3DSSG的更多信息和统计数据请参见补充材料。下面详细描述了我们的3D语义场景图的不同实体。0* 我们与最新发布的tinyGibson数据集上的3D场景图数据进行比较,这是提交时的最新版本0表1. 语义3D场景图比较. 数据集大小 实例 类别 物体 关系0Armeni等人[3]* 35个建筑物3k 28 40727个房间03DSSG(我们的)1482个扫描48k 534 400478个场景armchairchairottomanstoolcoffee tabletabledeskseatsofacabinetfurniturefurnishingpillowcushionpaddingartifact396403.1. 节点0我们图中的节点是定义为3D对象实例,每个实例都分配给一个3D场景。每个实例由一个类层次结构定义,其中第1个类c1在c中是相应的注释标签。通过递归解析c1的词汇定义中的上义词,使用WordNet[8]获得后续的类标签。定义“两侧都有支撑的椅子”给出了c1 =扶手椅的上义词c n + 1=椅子。词汇的歧义导致类标签(词素)的多重解释;因此,需要选择步骤,以获得在室内环境中最有可能的每个类的单个定义。鉴于1.5k3D重建中有534个不同的类标签,提供了534个词汇描述及其相应的类层次结构。图3可视化了一小部分类的词汇关系。更完整的图可以在补充材料中找到。0图3. 对一小部分类的词汇关系进行了简化的图形可视化03.2. 属性0属性是描述对象实例的语义标签。这包括静态和动态属性,以及可供性。由于对象实例的数量众多和所需属性的语义多样性,高效的提取和注释设计至关重要。接下来,我们定义不同类型的属性及其获取方式。0静态属性包括视觉对象特征,例如颜色、大小、形状或纹理,以及物理属性,例如(非)刚性。几何数据和类标签用于确定对象与同一类别的其他对象相比的相对大小。由于某些特征是类特定的,我们在类级别上分配它们。一个例子是从词汇描述中自动提取的属性,例如一个球是球形的。其余更复杂的属性,例如材料(木制、金属)、形状(矩形、L形)或纹理(颜色或图案),是实例特定的,并由专家手动注释。0通过为参考扫描注释静态属性并复制到每个重新扫描中,我们为此目的专门设计了一个界面,以便注释者进行注释,因为它们不会发生变化。0动态属性是特别重要的对象属性,我们将其称为状态,例如开/关,满/空或开/关。我们将状态类别定义为类特定的,而其当前条件是实例的问题,因此也与前面提到的接口一起注释,以及通用静态属性。由于对象的状态属性可以随时间变化,因此在重新扫描中单独注释特定实例。0根据之前的研究[10, 47,3],我们将可供性定义为特定对象类的节点的交互可能性或对象功能,例如座位是用来坐的。然而,我们将其与状态属性相结合:只有关闭的门才能打开。这特别有趣,因为我们的3D扫描来自不断变化的场景。这些变化通常涉及由人类交互引起的状态变化(请参见补充材料中的示例)。总体而言,3DSSG在约21k个对象实例和48k个属性中具有93个不同的属性。03.3. 关系03DSSG具有丰富的关系集,可分为a)空间/接近关系b)支撑关系和c)比较关系。0支撑关系支撑关系指示场景中的支撑结构[32]。根据定义,一个实例可以有多个支撑;墙壁默认由地板支撑,而地板是唯一一个根据定义没有任何支撑的实例。由于真实3D扫描的噪声和部分性质,自动提取支撑关系非常具有挑战性。对于场景中的每个对象,我们在一个小半径(例如5cm)内考虑相邻实例作为支撑候选。然后,这些支撑候选经过验证过程,以消除错误的支撑并补充缺失的候选。剩余的类对类(例如瓶子-桌子)支撑对然后被注释为所谓的语义支撑(例如站立,躺着),并针对数据集中的每个实例进行指定。0接近关系接近关系描述了与参考视图相关的空间关系(例如旁边,前面)。为了限制39650为了避免冗余计算,我们只计算共享支撑父节点的节点之间的接近关系。因此,桌子上的瓶子与椅子之间没有接近关系,但是支撑桌子的接近关系存在,因为可以从其支撑父节点自动推导出瓶子的接近关系。0比较关系最后一组关系是通过属性比较得出的,例如比...更大,比...更暗,比...更干净,与...形状相同。我们使用前面提到的属性(参见第3.2节)生成这些关系。04. 图预测0给定场景s的点集P和类别不可知的实例分割M,场景图预测网络(SGPN)的目标是生成描述场景中对象N及其关系R的图G=(N,R),如图4所示。我们的学习方法基于场景图预测中的一个常见原则[29,48,49],即为每个节点φn和边φr提取视觉特征。我们使用两个PointNet[34]架构分别提取φn和φr,我们将它们分别称为ObjPointNet和RelPointNet。对于场景s,我们单独提取每个实例i的点集,使用M Pi 进行掩码,其中M Pi = {δ m k i ⊙ p k} k=1,|P|(1)0其中δ表示Kronecker delta2,p、m是P、M的实例,|∙|是P的基数,即点的数量。每个单独的点集Pi是ObjPointNet的输入。此外,我们使用相应3D边界框B的并集提取每对节点i和j的点集。0Pij = {pk | pk ∈ (Bi∪Bj)} k =1,|P|。(2)0RelPointNet的输入是点集Pij,与相应的掩码Mij连接在一起,如果点对应于对象i,则掩码为1,如果点对应于对象j,则掩码为2,否则为零。保留边缘上下文Pij的方向对于推断左右等接近关系很重要。因此,我们禁用旋转增强。在将它们输入到相应的网络之前,我们对对象和边缘点云的中心进行归一化处理。我们将提取的特征以图结构的形式排列,形成关系三元组(主语,谓词,宾语),其中φn占据主语/宾语单元,而边缘特征φr占据谓词单元。我们采用图卷积网络(GCN)[18](类似于[16])来处理获取的三元组。由于场景02δ ij = 1 �� i = j0由于具有不同的复杂性,我们希望GCN能够在输入节点数量上具有灵活性。GCN的每个消息传递层l由两个步骤组成。首先,将每个三元组ij输入到MLP g1(∙)中进行信息传播。0(ψ(l)s,ij, φ(l+1)p,ij, ψ(l)o,ij) = g1(φ(l)s,ij, φ(l)p,ij, φ(l)s,ij) (3)0其中ψ表示处理后的特征,s表示主语,o表示对象,p表示谓词。其次,在聚合步骤中,来自该节点的所有有效连接的信号(无论是作为主语还是对象)被平均在一起。0ρ(l)i = 10|Ri,s| + |Ri,o|0�0j∈Rsψ(l)s,ij 0j∈Roψ(l)o,ji � (4)0其中|∙|表示基数,Rs和Ro分别是节点作为主语和对象的连接集合。将得到的节点特征输入到另一个MLPg2(∙)中。受[22]启发,我们采用残差连接来克服图上的潜在拉普拉斯平滑,并获得最终的节点特征。0φ(l+1)i = φ(l)i + g2(ρ(l)i). (5)0最终的特征φ(l+1)s,ij,φ(l+1)p,ij,φ(l+1)o,ij然后通过下一个卷积层l以相同的方式进行处理。在每一层l之后,节点的可见性被传播到更高一级的邻居。因此,层数等于模型能够捕捉的关系的顺序。GCN的最后一部分由两个MLP组成,用于预测节点和谓词类别。0损失函数:我们通过端到端训练模型,优化对象分类损失Lobj以及谓词分类损失Lpred。0Ltotal = λobjLobj + Lpred (6)0其中λobj是一个权重因子。我们假设对于某个对象对,存在多个描述它们交互的有效关系。例如,在图1中,一个椅子可以在另一个椅子前面,同时具有相同的外观(sameas)。因此,我们将Lpred制定为每类二元交叉熵。这样,可以独立地判断是否应该为边分配某个标签(例如standingon)或none。为了处理类别不平衡,对于两个损失项,我们使用了一种聚焦损失[26]L = −αt(1−pt)γlogpt (7)0其中pt表示预测的逻辑回归,γ是超参数。αt是多类损失(Lobj)的归一化逆频率,是每类损失(Lpred)的固定边/无边因子。具体实现细节请参见补充材料。......“There are two armchairs of the same type one with a bag lying on it.“G3DGL...G2D39660GCN0RelPointNet0ObjPointNet0输入:场景的点集 输出:3D场景图0吉他0地板0枕头0沙发0无0无0躺在0站在0站在0右边0图4.场景图预测网络:给定一个带有实例分割M的场景点集P,我们推断出一个场景图G。左:从每个对象(按颜色编码)和每个边提取视觉点特征φ。中:将特征φ按图结构排列,以便进行进一步的图神经网络处理。右:预测的图,由带有标签的对象节点和有向标记边组成。05.场景检索0a)2D图像 c)自然语言0输出:3D场景0输入:扫描池和查询a)、b)或c)场景图0b)3D场景0图5.跨域2D-3D场景检索:在我们的跨域场景检索任务中,场景图被用来消除2D图像、3D场景和其他模态之间的领域差距。0我们引入了一个名为基于图像的3D场景检索的新的跨域任务,该任务涉及在不断变化的室内环境中通过给定的单个2D图像从一系列扫描中识别3D场景,可能存在全局和局部变化(见图5)。这是一个特别具有挑战性的任务,因为它涉及到a)多个领域(2D图像和3D模型)和b)场景变化(移动物体,光照变化)。为了评估,我们从3RScan的重新扫描序列中选择了语义丰富的2D图像。由于2D图像和3D之间存在领域差距,我们提出了0通过场景图进行这种新颖的检索任务,场景图在场景变化方面更加稳定,并且作为2D和3D之间的共享领域。这种方法还可以从任何可以生成场景图的输入域中检索3D场景,例如自然语言或直接的3D。我们展示了如何使用不仅仅是对象语义而且还包括对象实例之间的语义有意义的关系来成功地找到正确的3D场景。计算图之间的相似性是一个NP完全问题,因此我们首先将我们的场景图转换为包含节点类别和它们的(语义)边/元组的多重集合。请注意,这些可能具有元素的重复。为了获得两个图的相似性,对应的多重集合s(G)分别应用相似性得分τ。对于我们的测试,我们探索了两种不同的相似性函数:JaccardτJ(A,B),公式8和Szymkiewicz-SimpsonτS(A, B),公式9。0τJ(A, B) = |A0|A∪B| (8)0τS(A, B) = |0min(|A|, |B|) (9)0尽管Jaccard系数是一种广泛使用的度量标准,但Szymkiewicz-Simpson系数可以提供更有意义的相似性得分,特别是当两个集合A和B的大小非常不同时,这在2D-3D场景中经常发生。当匹配两个图G和G'时,我们结合对象语义的相似度度量、通用节点边E以及语义关系R,并得到39670图6. 我们场景图预测模型的定性结果(在数字文件中最佳查看)。绿色:正确预测的边,蓝色:缺失的基准线,红色:错误分类的边,灰色:当GT是有效关系时错误预测为none。0f(ˆG, ˆG′) = 10|ˆG|0i = 1 τ(s(ˆG(i)), s(ˆG′(i))) 3 (10)0其中τ是Jaccard或Szymkiewicz-Simpson系数,ˆG被定义为增强图ˆG = (N, E,R),其中E是二进制边。有趣的是,我们可以使用我们的检索方法来找到满足特定要求的房间,例如具有电视、白板等对象语义,还可以包括可行性:可以容纳20人的会议室。06. 评估0接下来,我们首先通过将其与关系预测基线进行比较,根据我们新创建的3DSSG数据集,报告了我们的3D图预测的结果。我们重新实现并调整了他们的方法以适应3D数据。基线从图像中提取节点和边特征,我们将其转换为3D中的PointNet特征,类似于我们的网络。边和节点特征直接传递给谓词和对象分类器。为了评估,我们使用与[45]最初提出的相同的训练和测试划分。我们在消融研究中验证了我们的多谓词分类器和GCN在我们提出的网络中的有效性。在第二部分中,我们通过匹配变化的场景来评估2D-3D和3D-3D检索中的不同图匹配函数。0我们定义fS和fJ分别使用τS和τJ。06.1. 语义场景图预测0在这里,我们报告了我们场景图预测任务的结果。根据之前的工作[48],我们首先单独评估谓词(关系)预测与对象类别预测。整体场景图预测性能是联合评估的,其中给定一组定位对象,需要预测关系和对象类别。由于我们的方法独立地预测关系和对象类别,我们通过乘以相应的分数[49]获得了一个有序的三元组分类分数列表。与谓词预测类似,报告了对象类别的性能。我们采用[29]中使用的召回率指标以一种自顶向下的方式评估最有信心的(主体,谓词,客体)三元组与基准的匹配情况。表2显示我们在图相关指标上超过了基准线,而在对象分类上与基准线相当。此外,如预期的那样,多谓词预测模型导致更高的谓词准确性,我们将其归因于单一分类问题中的固有歧义,当存在多个可能的输出时。此外,我们比较了我们模型的两个版本,其中对象分类分别在PointNet特征φn上直接执行和在GCN的输出上执行。我们观察到前者在对象和谓词准确性上略有改善。图6展示了预测的场景图。在所有的边和节点中,我们展示了预测结果以及括号中的基准线。更多示例可以在补充材料中找到。τS(s(N3D), s(N3D))GT0.860.991.00fS(G3D, G3D)GT0.961.001.00τJ(s(N3D), s(N3D))GT0.890.950.95fJ(G3D, G3D)GT0.950.960.98τJ(s(N3D), s(N3D))➀0.150.400.45fJ(G3D, G3D)➀0.290.500.59τJ(s(N3D), s(N3D))➁0.320.460.50fJ(G3D, G3D)➁0.340.510.56τJ(s(N2D), s(N3D))GT0.490.750.84τS(s(N2D), s(N3D))GT0.980.991.00fJ(G2D, G3D)GT0.550.850.86fS(G2D, G3D)GT1.001.001.00τS(s(N2D), s(N3D))➀0.170.360.42fS(G2D, G3D)➀0.100.250.32τS(s(N2D), s(N3D))➁0.170.360.41fS(G2D, G3D)➁0.130.380.4239680表2. 在3DSSG上评估场景图预测任务。我们展示了三元组预测、物体分类以及谓词预测的准确性。关系预测 物体类别预测谓词预测0方法 R@50 R@100 R@5 R@10 R@3 R@50� 关系预测基线 0.39 0.45 0.66 0.77 0.62 0.880单谓词,来自PointNet特征的ObjCls 0.37 0.43 0.68 0.78 0.42 0.580� 多谓词,来自PointNet特征的ObjCls 0.40 0.66 0.68 0.78 0.89 0.930多谓词,来自GCN特征的ObjCls 0.30 0.60 0.60 0.73 0.79 0.9106.2. 场景检索0表3和4报告了两个场景检索任务。目标是将单个2D图像(表4)或室内场景的3D重新扫描(表3)与3RScan验证集中的3D参考扫描中最相似的实例进行匹配。我们计算每个重新扫描(2D或3D)与目标参考扫描之间的场景图相似性。然后按照它们的相似性对匹配进行排序,并报告top-n指标,即从我们的算法中放置在top-n匹配中的真正正面分配的百分比。在我们的实验中,我们使用查询和源图的真实图或预测(请参阅Tbl.3和4中的图列)。为了衡量不同相似性函数的影响,与图预测准确性无关,我们首先评估了τ J ( A, B)和τ S ( A, B)使用真实图。由于图像和3D场景图的大小差异显著,使用Szymkiewicz-Simpson系数在2D-3D匹配中导致更好的结果,而Jaccard系数在3D-3D场景中的性能相当或更好。我们观察到,将语义关系添加到图匹配中改善了场景检索。结果还证实,与基线模型相比,我们预测的图2实现了更高的匹配准确性。请注意,为了这个实验的目的,预测的2D图是通过按照第3节中描述的方法渲染预测的3D图获得的。0表3.评估:在3RScan中将变化的3D重新扫描与参考3D扫描进行3D-3D场景检索。图形 Top-1 Top-3 Top-50表4.评估:在3RScan中将变化的重新扫描与参考3D扫描进行2D-3D场景检索。图形 Top-1 Top-3 Top-507. 结论0在这项工作中,我们探索了3D语义场景图。我们发布了3DSSG,这是一个基于3RScan[45]的语义丰富关系的3D场景图数据集。我们使用我们的数据来训练一个能够估计物体语义和物体之间关系的3D场景图预测网络。此外,我们通过将其应用于一个称为基于图像的3D场景检索的新的跨领域任务,展示了图在3D场景中的有用性。这显示了语义场景图在2D-3D之间构建领域差距方面的有用性,为文本-3D场景检索或VQA等新应用打开了大门。我们进一步认为,场景图(及其变化)有可能有助于更好地推理在不断变化的室内环境中的人类活动。0致谢0我们要感谢Mariia Gladkova,AlinaKarimova和PremankurBanerjee对数据准备和注释的帮助。这项工作得到了德国研究基金会(DFG)#381855581,巴伐利亚州教育、科学和艺术部在巴伐利亚数字化中心(ZD.B)框架内的资助,以及谷歌AR/VR大学研究奖励。39690参考文献0[1] Hameed Abdul-Rashid, Juefei Yuan, Bo Li, Yijuan Lu,Song Bai, Xiang Bai, Ngoc-Minh Bui, Minh N. Do, Trong-LeDo, Anh-Duc Duong, Xinwei He, Tu-Khiem Le, Wenhui Li,Anan Liu, Xiaolong Liu, Khac-Tuan Nguyen, Vinh-TiepNguyen, Weizhi Nie, Van-Tu Ninh, Yuting Su, Vinh Ton-That, Minh-Triet Tran, Shu Xiang, Heyu Zhou, Yang Zhou,and Zhichao Zhou. 基于二维图像的三维场景检索.在欧洲计算机图形学研讨会上,2018年。30[2] Hameed Abdul-Rashid, Juefei Yuan, Bo Li, Yijuan Lu, To-bias Schreck, Ngoc-Minh Bui, Trong-Le Do, Mike Holen-derski, Dmitri Jarnikov, Khiem T. Le, Vlado Menkovski,Khac-Tuan Nguyen, Thanh-An Nguyen, Vinh-Tiep Nguyen,Tu V. Ninh, Perez Rey, Minh-Triet Tran, and Tianyang Wang.扩展的基于二维场景图像的三维场景检索. 在SilviaBiasotti,Guillaume Lavou和RemcoVeltkamp编辑的欧洲计算机图形学研讨会上,2019年。30[3] Iro Armeni, Zhi-Yang He, JunYoung Gwak, Amir R. Za-mir, Martin Fischer, Jitendra Malik, and Silvio Savarese.三维场景图:统一语义、三维空间和相机的结构.在国际计算机视觉会议(ICCV)中,2019年。1,3,40[4] Angela Dai, Angel Xuan Chang, Manolis Savva, MaciejHalber, Tom Funkhouser, and Matthias Nießner.ScanNet:室内场景的丰富注释的三维重建。在国际计算机视觉和模式识别会议(CVPR)中,2017年
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功