局部场景中对象定位的空间常识图方法

63 浏览量更新于2023-10-25 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

19518局部场景中目标定位的空间常识图方法Francesco Giuliari1，2 Geri Skenderi3 Marco Cristani1，3 Yiming Wang1，4 Alessio Del Bue11Istituto Italiano di Tecnologia（IIT）2热那亚大学3维罗纳大学4布鲁诺·凯斯勒基金会（FBK）摘要我们解决了部分场景中的对象定位，这是一个新的问题，估计对象的未知位置（例如，包在哪里？）给出了场景的部分3D扫描。所提出的解决方案是基于一种新的场景图模型，空间常识图（SCG），其中对象是节点和边缘定义它们之间的成对距离，丰富的概念节点和关系，从常识知识库。这使得SCG能够更好地将其空间推断推广到未知的3D场景。SCG用于估计目标对象的未知位置，分为两步：首先，我们将SCG馈送到一个新的邻近预测网络中，该网络是一个图形神经网络，它使用注意力来执行代表目标对象的节点和代表SCG中观察到的对象的节点之间的距离预测;其次，我们提出了一个基于圆形交叉的定位模块，使用所有预测的成对距离来估计对象位置，以便独立于任何参考系统。我们创建了一个新的部分重建场景数据集，以基准我们的方法和基线，在部分场景中的对象定位，我们提出的方法实现了最佳的定位性能。代码和数据集可以在这里找到：https：//github。com/IIT-PAVIS/空间常识图1. 介绍在对场景进行部分观察的情况下，定位未观察到的物体是人类在日常生活中经常解决的基本任务，如图1所示。这样的任务对于许多自动化应用是有用的，包括用于帮助视力受损的人找到日常物品的domotics[10]，用于具体代理的视觉搜索[3]，以及用于室内设计的布局建议[23]。然而，局部场景中的物体局部化从未被正式研究过该项目获得了欧盟Hori- zon 2020研究和创新计划“MEMEX”的资助图1：给定部分已知场景中的一组对象（以绿色圆圈表示），我们的目标是估计目标对象（以橙色圆圈表示）的位置。我们把这个定位问题作为一个边缘预测问题，通过构建一个新的场景图表示，空间常识图（SCG），它包含从重建的场景中提取的空间知识，即接近（黑色边缘）和常识knowl-边缘表示的一组相关的概念（表示在粉红色的圆圈）连接的关系，例如UsedFor（橙色边缘）和AtLocation（蓝色边缘）。在文献中。我们正式的问题作为推理的任意对象的位置在一个未知区域的场景的基础上，只有部分观察的场景。人类不仅通过使用部分观察到的环境来执行这个对象定位任务，而且还依赖于我们一生中获得的常识例如，通过知道枕头通常靠近床（空间关系），以及椅子和床通常用于休息（示能关系），即使只观察到床和椅子，也可以推断枕头的位置。在本文中，我们质疑是否有可能通过在场景图表示中注入常识知识来计算解决这个任务[19，12，32]，以便机器也可以合理地定位场景中看不见的部分中的对象，而无需使用任何视觉/深度信息。在这项工作中，我们提出了一个新的场景图表示-19519空间常识图（SCG），其具有异质节点和边，所述异质节点和边将常识知识与在场景的部分3D扫描中潜在的直觉是，从外部知识库中提取的常识知识并不特定于任何观察到的视觉场景，因此允许更好的概括，但以较粗糙的局部化为代价。同时，场景的已知部分中的对象这里的主要挑战是设计一个模型，促进常识的泛化，同时提高场景特定指标的准确性。提出的场景图，如图所示 2，首先由表示场景中的已知对象的节点定义，这些节点通过表示邻近度的边缘完全连接，即，一对物体之间的相对距离。我们将这种空间表示称为已知部分3D扫描的空间图（SG）然后，通过添加和连接通过从ConceptNet提取的相关常识关系表示概念的节点，SG进一步扩展为SCG [29]。SCG有助于解决本地化问题。在这项工作中，我们提出了一个两阶段的解决方案，被称为SCG对象本地化（SCG-OL）。首先，我们通过基于图形的邻近预测网络（PPN）预测具有未知位置的目标对象节点与每个已知对象节点之间的成对邻近度，然后，我们使用我们的定位模块根据成对距离计算目标的位置定位模块将最可能的位置估计为由所有成对对象距离定义的圆形区域请注意，通过仅使用对象对之间的距离，我们的模型不依赖于场景我们还介绍了一个新的数据集，该数据集是使用来自ScanNet [7]的RGB-D序列从真实世界室内场景的部分重建中构建的，我们将使用该数据集作为这个新问题的基准。我们构造的数据集，以反映不同的完整性水平的重建场景。我们通过一组性能指标来定义评估协议，以量化本地化的成功和准确性。概括而言，我们的核心贡献如下：• 我们确定了一个新的任务，在部分场景中的对象定位我们提供了一个新的数据集和评估协议，并表明我们的方法达到了最佳性能w.r.t.其他比较方法。• 提出了一种新的异构场景图--空间常识图，以有效地整合常识知识和空间信息。场景，使用基于注意力的消息传递用于图更新，以优先考虑与任务相关的知识的同化。• 我们提出了SCG对象定位器，一个两阶段的本地化解决方案，是不可知的场景坐标。首先估计看不见的物体和所有已知物体之间的距离，然后基于圆形交叉点将其用于定位。2. 相关工作我们将涵盖与场景图推理相关的先前工作，用于实验验证的当前数据集以及空间推理的常识使用。场景图建模与推理。场景图最初用于基于它们所包含的元素以及它们如何连接来描述场景的图像。[18]的工作表明，对于某些应用，例如，在图像检索中，通过对图像的高层概念进行抽象，与使用标准像素空间相比，可以提高检索效果。从那时起，场景图已成功用于许多其他任务，如图像字幕[39，40，14]和视觉问答[27，20]。最近，场景图的使用也被扩展到3D领域，为3D场景描述提供了一种有效的解决方案。3D场景图可以从场景及其内容的简单表示变化，其中对象是节点，对象之间的空间关系是图的边[ 12，32，38 ];到更复杂的分层结构，它在不同级别描述场景：从图像级别仅从某个角度描述场景，移动到[42]的工作使用场景图来增强3D室内场景，其中使用消息传递方法使用与其周围环境匹配的新对象。一个相对类似的任务是室内场景合成[33]，其目标是使用关系图将对象编码为节点，并将对象之间的空间/语义关系编码为边来生成新的场景布局图卷积生成模型合成新的关系图，从而合成新的布局。在[9]和[23]中，作者使用3D场景图来描述对象的排列，然后修改场景图并生成新的场景。像这些作品一样，我们使用底层场景表示，但与它们不同的是，我们将常识知识嵌入到场景图中。通过这种方式，我们的方法可以更好地利用先前的语义知识来概括具有看不见的对象布置的看不见的房间。对象本地化数据集。现有文献中的数据集不适合这种类型的对象定位任务。例如，场景合成数据集[34]在场景结构中没有足够的可变性，因为所表示的所有环境都具有相同的形状和相似的大小。此外，场景大多包含相同的对象集19520H{|}图2：我们提出的方法的总体架构。首先，我们构建一个空间常识图（SCG）从已知的场景丰富的场景图的概念关系，导致三种类型的边缘：UsedFor（橙色边缘），AtLocation（蓝色边缘）和接近（黑色边缘）。然后，SCG被馈送到邻近预测网络（PPN）中，该邻近预测网络（PPN）执行消息传递，并注意更新节点特征，同时考虑到异构边缘。然后，PPN将目标节点和场景对象节点之一的节点特征连接起来，并将其通过MLP来预测成对距离。然后，定位模块使用预测的成对距离来估计目标对象在大多数距离重叠的区域内的位置。这些特征导致数据集不能反映真实世界，并且不能用于训练要部署在真实室内环境中的模型实验数据集的另一个主要限制是它们假设房间的整个布局是已知的，并且对象位于场景的观察部分的边界内[33，22]，这是非典型的。在机器人应用中，如视觉搜索[37，13，5]，机器人只有关于环境的部分信息，这些信息在导航过程中更新一般来说，搜索对象必须在场景的未探索部分中找到，尚未被发现。我们的工作是基于部分观察到的场景，并在没有导航的情况下进行定位。神经网络中的常识知识常识推理是模仿人类在解决问题时所使用的高级推理。通常，我们不仅使用与任务直接相关的信息，而且还依赖于通过先前经验获得的知识自然语言处理领域[11]利用ConceptNet [29]来创建更丰富的，具有BERT架构的上下文化句子嵌入[8]。在[2]作者利用知识图Freebase（现在的Google知识图）来丰富基于知识的问答系统中的文本在计算机视觉中，[21]利用常识知识使用动态记忆网络进行视觉问题分类（VQA），指出它有助于网络超越图像内容进行推理。在场景图生成任务中，[15]利用ConceptNet [29]知识图来细化对象和短语特征，以提高模型的泛化能力作者指出，围绕感兴趣主题的知识也有利于推断与之相关的对象，帮助模型更好地概括和生成有意义的场景图。在这项工作中，我们利用常识知识来丰富一个空间场景表示-用于预测场景上下文中的对象对之间的接近度的站。3. 空间常识图我们的场景模型的目标是将com-monsense知识嵌入到从区域的部分扫描中提取的几何场景图如示于图2，我们用以下节点构建SCG：i）对象节点，包括部分已知环境中的所有观察对象和任何待定位的目标不可见对象，或ii）从ConceptNet检索的概念节点[29]。每个SCG构建在由完全连接的对象节点组成的空间图（SG）之上每个对象节点还经由语义关系连接到SCG的边缘具有三种异质类型：• 邻近度涉及给定部分3D扫描的所有对象节点之间的成对距离• AtLocation是从ConceptNet中检索的，表示对象经常位于哪个环境中;• UsedFor是从ConceptNet中检索的，描述了对象的常用用法。邻近边以完全连接的方式连接SCG的所有对象节点，而语义AtLocation和UsedFor边将每个对象节点与从ConceptNet 查询的其相关概念节点（例如，床AtLocation公寓或床UsedFor resting）连接。这两种语义边缘类型提供了有用的提示，对象可以在物理空间中的聚类，从而有利于室内对象的位置推断。我们将SCG表示为由一组节点组成的无向图=hii其中，N=N0+Nc是SCG中的节点的总数，N0 是对象节点的数量，Nc是对象节点的数量。19521−·NH{|∈}∈}{H{|∈HΣMSEΣN -一个i，tNd i，t）。E{|{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}1 Σ2概念节点D向量hi是NumberBatch [ 30 ]中节点D=300）。边由集合= ei，ji，j（0，N]，i = j定义，其中e i，j是节点i和节点j之间的边。设i是由任意边连接的节点i的相邻节点。其中Wv、bv分别表示用于计算缩放点积注意力机制的值向量v的权重矩阵和偏置。更新后的状态h′i然后被定义为：h′=ReLU（LNorm（（1−β）h+βWh+b）），（3）我们使用4维特征向量，即ei，j∈R4，其i我我前三个元素以独热（one-hot）方式指示先前定义的边缘类型，而最后一个元素是指示两个场景对象之间的成对距离的标量请注意，距离仅在3D扫描的观察部分（即已知对象节点之间）可测量。否则，我们将距离值初始化为1当边缘是AtLocation、UsedFor或涉及未知目标对象节点。4. SCG对象定位器（SCG-OL）我们定义了一个两阶段的解决方案，以解决本地化的任意未观察到的目标对象使用SCG的任务。在第一阶段，我们提出了一个接近预测网络（PPN）的SCG的顶部。PPN的目标是预测未看到的目标对象和部分已知场景中的对象之间在第二阶段中，我们的定位模块将成对距离集作为输入，并基于概率圆形交叉输出目标对象的位置。以下部分提供了有关邻近预测网络和本地化模块的更多详细信息。4.1. 邻近预测网络PPN的目标是预测未看到的对象和观察到的场景对象之间的所有成对我们利用图Transformer [28]的变体，并在异构边缘上迭代更新节点，以允许常识知识和度量测量之间的有效融合。网络的输入是节点特征集，输出是新的节点特征集′=h′ii（0，N]，其中h′iRD。图中的每个节点i通过经由两轮消息传递聚合其相邻节点i的特征来更新。由此产生的h′i形成其邻域的上下文表示在每一轮消息传递中，我们首先学习其中βi是门控剩余连接的输出[28]，它防止所有节点收敛到不可区分的特征。Wr、Br分别表示hi的线性变换中使用的权矩阵和偏置。在消息传递之后，我们获得最终节点嵌入的集合*=湖里我（0，N]，其中h为iR2D=Concat（hi，h′i），其中Concat（）表示关联运算.这样，每个节点包含场景中的原始对象嵌入和其上下文的聚集嵌入。最后，我们通过级联将两个节点hi，t=Concat（hi，ht）的特征结合起来，并预测两个节点的目标对象节点t与目标对象节点t之间的距离di，t通过全连接层服务对象节点iSCG-OL丢失。为了训练我们的PPN，我们计算平均值目标节点i和目标节点t的预测成对距离di，t与地面实况成对距离di，t的集合之间的平方误差（MSE）。损失表示为：No−1L（d，d）=（d−（4）i=1注意，目标对象的类别可以在场景的未知部分中具有多个实例，即多个地面实况位置。作为定位器，我们的方法使用最接近预测位置的实例的GT位置来计算MSE损失。4.2. 位置距离：定位模块在定位模块中，我们解决了将预测的对象到对象距离的集合转换为空间中的单个位置p_t的问题，该空间定义了搜索的目标在鸟瞰图中。距离di，t由PPN预测的，以及已知的对象位置pi，注意系数αi、j使用基于图形的可以用来定义一组半径为d=1，t的圆在位置P1。如果有完美的预测，缩放的点积注意机制[28]，以从节点j到节点i的每个边特征ei，j以及两个节点的这允许网络了解每个邻居对于节点表示的更新的重要性vj=Wvhj+bv，（1）作为所有圆的交点获得在这种情况下，我们需要至少三个已知的对象节点来明确定义pt。由于这个原因，在本研究中，我们只考虑具有三个或更多已知对象的实例。让我们定义pt为空间中最小化所有圆的平方距离的点h =αijj∈Ni（vj+ei，j）、（2）pt=argminptNo−1我（pt−pi2−di）2.（五）O19522虽然可以获得方程的封闭形式解5通过线性最小二乘法[36]，这对测量距离中的噪声不鲁棒，噪声可能存在于PPN预测中。另一种方法是通过蛮力来最小化这个然后，我们取最低值的位置，并将其用作Nelder-Mead单纯形算法[ 24 ]的初始猜测，5. 实验我们评估我们提出的方法在一个新的数据集的部分重建的室内场景。首先，我们提供了我们的方法的实施细节，其次是用于评估的met-rics。实施详情。我们使用Adafactor优化器训练我们的网络[26]。该网络被训练了100个epochs。第一消息传递投影的维度被设置为D=256，并且对于第二轮设置为2D两使用4个注意头。对于本地化，我们忽略边，超过5米的预测距离，如此高的距离值对于本地化来说不可信。评价措施。我们评估的性能方面的接近预测和目标对象定位。对于边缘邻近预测，我们报告平均预测邻近误差（mPPE），其是预测距离与目标对象与部分已知场景中的对象之间的地面实况成对距离之间的平均绝对误差我们通过本地化成功率（LSR）来量化本地化性能，LSR被定义为成功本地化的数量与测试数量如果目标对象的预测位置在预定义距离内接近目标实例，除非另有说明，否则成功的距离阈值设置为1m。我们认为LSR作为我们的任务的主要评价措施。最后，为了量化成功案例中的定位精度，我们报告了平均成功定位误差（mSLE），这是所有成功测试中预测目标位置和地面真实位置之间的平均绝对误差。5.1. 数据集我们使用ScanNet [7]中可用ScanNet包含使用RGB-D摄像机以常规频率拍摄的RGB-D序列。它为每个重建场景的完整点云数据（PCD）提供对应于每个捕获图像的相机姿态以及点级注释，即类和实例id。ScanNet中的原始采集频率非常高，(a) 完整场景（b）部分场景图3：建议的数据集（a）来自ScanNet数据集的完整场景，以及（b）与空间图重叠的重建部分场景。因此，使用ScanNet帧25 k，ScanNet基准1中提供的子集，其频率约为初始频率的1/100我们进一步将每个场景的完整RGB-D我们改变子序列的长度以反映重建场景的不同完整性水平。对于每个子序列，我们将RGB-D信息与摄像机内在和外在参数相结合，以使用Open3D以5cm的分辨率重建PCD [41]。通过在ScanNet提供的完整PCD场景中查找对应的最近点来获得部分PCD中每个点的注释。从每个部分重建的场景中，我们提取具有其对象节点的对应空间图，即仅具有邻近边缘的图（参见图3的示例）。图的节点包含对象信息：例如定义为包含对象的边界框的中心的位置，以及对象类。我们将每个场景对象的位置视为地平面上的2D点（x，y），因为Scan-Net的室内场景中的大多数对象都位于类似的海拔高度。每个节点都被标记为如果它表示部分已知场景中的对象，则被观察到;或者如果它表示场景的未知部分中的对象，即要定位的目标对象，则被观察到此外，我们通过添加两个语义关系AtLocation和UsedFor以及由关系链接的概念来构建我们的SCG我们从概念网中提取查询返回一组相关概念及其相应的权重w，权重w指示每个相关概念对查询的“安全性和可信度”。我们仅在SCG具有权重w >1时才将概念包括到SCG中。图4示出了SCG中由不同类型链接的节点的平均数量。平均而言，每个SCG包含的概念节点比SG中的对象节点多约5倍，这表明在SCG中引入了丰富的常识知识箱形图可视化中的异常值是由具有大量对象的不常见房间类型引入的，例如高（30Hz），意味着大多数图像与用于场景重建的冗余信息。我们1http://kaldir.vc.in.tum.de/scannet基准19523\图4：数据集的训练和测试分割中SCG中不同类型节点的平均数量图书馆有几本书。关于我们数据集的更多统计数据可以在补充材料中找到。最后，我们将数据集分为训练集、验证集和测试集。虽然我们可以访问ScanNet训练和验证数据（分别为1201和312个场景），但我们无法访问其测试数据。为了解决这个问题，我们使用ScanNet通过将ScanNet的序列分割19461个部分场景用于训练和验证，以及5435个用于测试的部分场景，其中每个部分场景具有其对应的SCG。5.2. 实验比较我们通过将SCG-OL在我们的新数据集上的性能与一组基线和最先进的布局预测方法进行比较来验证SCG-OL所有基线都遵循两阶段管道，首先预测成对距离，然后使用定位模块估计位置我们在下面总结了所有评估的方法。• 基于统计的基线使用训练集的统计数据，即目标对象和场景对象之间的成对距离的平均值、众数和中值，作为预测距离。• MLP学习预测目标对象和场景中每个其他观察对象之间的成对距离，而不考虑空间或语义上下文。该模型的输入是一对目标对象和观察对象，每个对象由指示类的独热向量表示，该向量被传递到预测成对距离的MLP。• MLP w Commonsense学习预测目标对象和场景中每个其他观察对象之间的成对距离，而不考虑空间上下文。我们首先使用GCN将概念网信息传播到对象节点，然后将特征传递到预测成对距离的MLP。• LayoutTransformer[16]使用transformer表1：部分场景中对象定位的方法比较。mPPE：平均预测接近误差。mSLE：平均成功定位错误。LSR：本地化成功率（主要衡量标准）。SG：空间图。SCG：空间常识图。方法数据类型mPPE（m）↓mSLE（m）↓LSR↑统计-平均值成对1.1670.630.140统计模式成对1.4710.630.149统计-中位数成对1.2050.640.164MLP成对1.1650.620.143MLP w Commonsense成对1.0900.640.163[第16话]列表-0.590.176GNN w\ o CommonsenseSG0.9980.610.212SCG-OL（Ours）-LearnedEmbSCG0.9740.610.234SCG-OL（Ours）-概念。EMBSCG0.9650.610.238倒退的方式。我们将观察到的对象描述为一个元素序列，如[16]所示，其中每个元素包含对象类和位置（x，y）。然后，我们提供目标对象的类以生成其对应的位置（x，y）。为了进行公平的比较，我们使用训练集重新训练模型。• GNN wo Commonsense 是我们的方法的一个变体，我们已经实现了它来测试我们的方法在没有常识知识的情况下使用时的能力。输入是空间图，它仅由对象节点和邻近边组成初始节点特征不是单词嵌入，而是在训练过程中通过嵌入层学习的• SCG-OL（Ours）是我们的方法，有两个变体，分别使用可学习的节点嵌入和来自ConceptNet的预训练节点嵌入进行训练。讨论表1报告了在由部分重建场景组成的数据集上评估的所有组合方法的mPPE、LSR和mSLE方面的定位性能测量。我们可以观察到，与考虑观察场景中存在的其他对象的方法相比，仅具有成对输入的方法，例如基于几何学的方法或MLP，会导致更差的性能。然而，在这些方法之上引入一些语义推理似乎可以提高性能，如MLP w Commonsense所示，与标准MLP相比，LayoutTransformer通过将所有观察到的场景对象的列表作为输入并将目标类用作最后一个输入标记来直接预测目标对象的2D位置LayoutTransformer可以更好地编码空间上下文，并且优于基于几何的基线和MLP基线。基于图的方法实现了最高的性能，这表明对于这个问题，基于图的场景表示比基于列表的场景表示更有效。我们使用完整SCG的SCG-OL能够改进所有指标，没有常识知识的GNN，当使用在训练期间学习的嵌入和预训练的ConceptNet嵌入时。这表明SCG可以有效地19524(a) 定位误差（b）LSR图5：不同场景完整性水平下的本地化性能。(a)估计的目标位置和地面真实位置之间的定位误差（MAE）。(b)不同阈值水平下的LSR。用于改善定位问题。预训练嵌入的更好性能可能是由于这些嵌入是在更广泛的任务集合上学习的，因此包括无法直接从本地化任务中学习的额外信息。图5示出了已知场景的完整性水平如何影响SCG-OL的定位性能。图5a报告了根据场景完整性的估计位置和地面实况位置请注意，MAE是根据所有测试用例计算的，包括成功和失败的测试用例。通常，随着场景完整性的增加，SCG-OL可以更准确地预测目标对象的位置。图5b呈现了LSR如何随着场景变得更完整而变化。通常，当定位误差减小时，LSR我们在三个不同的阈值，即LSR报告。1m、2m和3m，其中较大的阈值导致较大的LSR值。定性结果。图6显示了使用我们的方法SCG-OL获得的定性结果。图6a示出了“包”对象类被成功地定位在包实例所在的区域附近。类似地，在图6b中，房间中的第二沙发（目标对象）的位置被正确地估计在SCG中与第一沙发相对的位置处。有趣的是，图6c呈现了失败情况，其中该方法将电视定位在地面实况电视实例的相对侧尽管估计的位置远离真实实例，但由于场景的对称性，预测是合理的我们在补充材料中提供5.3. 消融研究我们进一步分析SCG-OL，以证明常识关系和注意力图网络类型的有用性。我们还研究了增加消息传递层的数量以及在预测距离时仅使用更新的特征的影响哪种常识性关系更重要？为了更好地了解使用不同COM的效果-表2：不同ConceptNet关系对拟议SCG-OL的影响。LSR：本地化成功率。边缘类型由n个语义边链接的对象（%）LSR↑012接近100000.226位置，接近89200.233UsedFor，接近198100.227地点、用途、邻近性812800.238为了实现无常识关系，我们将SCG-OL与其变体进行比较，其中SCG包含：i）仅邻近边缘而没有常识关系，ii）邻近边缘与AtLocation边缘，iii）邻近边缘与UsedFor 边缘，以及 vi ）邻近边缘与 AtLocation 和UsedFor边缘。我们报告了所有变体的主要定位成功率（LSR）测量，以及由0，1或2种类型的se-mantic边缘（即AtLocation和UsedFor边缘）链接的对象节点的场景平均讨论表2显示了在定位对象方面，AtLocation比UsedFor更有效。一个可能的原因是，使用AtLocation边会导致在同一位置连接的对象之间传递消息，从而优先考虑与本地化任务更相关的信息。然而，当SCG可以依赖于所有类型的边缘时，获得最佳性能。此外，大多数对象节点（80%）都通过AtLocation和UsedFor边链接到概念节点。这比在SCG中仅使用一种类型的语义边缘时更有效地促进了知识融合。哪一种注意力网络更有效？我们研究了SCG-OL组件的注意网络对其他注意模块在定位任务中的有用性。• 无注意：我们在消息传递过程中使用GINEConv[17]，没有任何注意模块。• 顺序GAT：我们使用GAT [31]作为我们的注意力信息传递层。由于GAT不能区分异质边缘，也不能与边缘特征一起使用，因此我们对每个语义边缘依次使用它：首先在AtLocation边缘上，然后在UsedFor 边缘上。然后，我们使用GraphTransformer在邻近边缘上传递消息，对边缘特征上的成对距离进行编码。• 顺序GATv2：这种方法的操作类似于顺序GAT，但使用GATv2 [4]作为注意层而不是GAT。• HAN[35]：该方法定义了多个元路径，通过特定节点或边缘类型连接相邻节点它采用注意力消息传递顺序首先计算语义特定的节点嵌入，然后更新它们的另一轮注意力消息传递。使用SCG，我们定义了三组Meta邻居，即邻近邻居，在地邻居，和使用的-19525图6：SCG-OL获得的定性结果。部分已知场景用黄色背景着色，而未知场景用灰色指示。彩色圆圈表示SCG中存在的对象节点。红色星号表示目标对象的GT位置，而青色菱形表示预测位置。该网络能够正确预测（a）中的包和（b）中的沙发的位置在（c）的故障情况下，网络将电视定位在桌子的错误一侧。最好用颜色看。表3：不同注意网络对目标定位任务的影响LSR：本地化成功率。注意力网络传播模式LSR↑没有注意-0.207GAT [31]顺序0.212GATv2 [4]顺序0.206HAN [35]顺序0.205SCG-OL同时0.238对于由特定边连接的邻居讨论如表3所示，不同的注意力模块可以产生在LSR方面差异很大的结果。其中，HAN的性能最差。序贯GAT和序贯GATv 2也不如SCG-OL有效。这可以通过将语义和空间信息集成到对象节点表示中的失败来解释，因为语义边缘和空间上下文以顺序的方式单独聚合。相比之下，SCG-OL在所有边缘类型上同时执行消息传递，从而获得最佳定位精度。消息传递层的数量和SCG-OL的最终节点连接是否有影响？我们研究了一组我们的SCG-OL之间的1到4个消息传递层的变体。表4显示了使用两个消息传递层如何导致最佳性能：使用单个层导致最差结果，使用两个以上无法进一步提高性能。这是因为过度平滑问题[6，25]，在多个消息传递轮之后，不同节点的嵌入彼此无法区分。给定最佳层数，我们还验证了将原始嵌入连接到聚合表4：SCG-OL中不同数量的消息传递层的影响。LSR：本地化成功率。层数1234LSR↑0.1900.2380.2380.234最初的代表。6. 讨论结论. 我们解决了新的问题，对象本地化给定的部分三维扫描的场景。提出了一种新的场景图模型--常识空间图模型，通过对空间图进行常识知识扩充来提高空间推理能力。有了这样的图形配方，我们提出了一个两阶段的解决方案，看不见的对象定位。我们首先使用基于图的邻近预测网络预测目标节点与其他对象节点之间的成对距离，然后通过圆形相交来估计目标对象的位置。我们在一个由部分重建的室内场景组成的新数据集上测试了我们提出的方法和基线，并展示了我们的解决方案如何实现最佳的定位性能。另一种是比较方法。作为未来的工作，我们将研究我们的方法在更广泛的地理区域，例如大规模场景的适用性一个城市局限性。所提出的定位管道不是端到端可训练的，因为我们对成对对象距离的中间信息而不是目标对象位置实施监督。这种选择允许模型是无参考的，从而产生更好的泛化。对目标位置进行端到端监控可能会导致更准确的定位，但上下文的，而不是只使用聚合功能。当LSR得分为0时，串联更有利。238直接使用聚合节点表示获得0的LSR。224级联使网络能够更好地了解消息传递后的上下文，同时仍然记得在不损害概括能力的情况下实现。更广泛的影响。我们的数据集建立在ScanNet之上，具有静态室内场景，没有人类主体的参与。该数据集和所提出的场景图公式可以促进和激励进一步的研究，以向场景理解。19526引用[1] Iro Armeni ， Zhi-Yang He ， JunYoung Gwak ， Amir RZamir ， Martin Fischer ， Jitendra Malik ， and SilvioSavarese.3d场景图：统一语义、3d空间和摄像机的结构。在IEEE/CVF国际计算机视觉会议（ICCV）的会议记录中，2019年。2[2] 包俊伟，段南，周明，赵铁军。以知识为基础的问题回答作为机器翻译。在计算语言学协会2014年年会的会议记录中。3[3] Dhruv Batra、Aaron Gokaslan、Aniruddha Kembhavi、Olek-sandr Maksymets 、 Roozbeh Mottaghi 、 ManolisSavva 、 Alexander Toshev 和 Erik Wijmans 。 Objectnavrevisited：关于对导航到对象的具体代理的评估arXiv预印本arXiv：2006.13171，2020。1[4] 动摇布罗迪，乌里阿隆，和埃兰Yahav。图形注意力网络有多专注arXiv预印本arXiv：2105.14491，2021。七、八[5] Devendra Singh Chaplot ， Dhiraj Gandhi ， AbhinavGupta，and Ruslan Salakhutdinov.使用面向目标的语义探索的对象目标导航。在神经信息处理系统（NeurIPS）的程序，2020年。3[6] Deli Chen，Yankai Lin，Wei Li，Peng Li，Jie Zhou，and Xu Sun.从拓扑观点度量和缓解图神经网络的过平滑问题。在AAAI人工智能会议（AAAI）的会议记录中，2020年。8[7] 戴安琪，天使 X.Chang ， Manolis Savva ， MaciejHalber，Thomas Funkhouser，and Matthias Nießner.扫描网：丰富的注释三维重建的室内场景。IEEE/CVF计算机视觉和模式识别会议，2017年。二、五[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在计算语言学协会（NAACL）北美分会会议论文集，2019年。3[9] Helisa Dhamo ， Fabian Manhardt ， Nassir Navab ， andFederico Tombari.Graph-to-3d：使用场景图的3D场景的端到端生成和操作。IEEE/CVF计算机视觉和模式识别会议（CVPR），2021年。2[10] Wafa Elmannai和Khaled Elleithy。视觉障碍者的传感器辅助设备：现状、挑战和未来方向。传感器， 17（3）：565，2017年。1[11] 基尤·法尔杜，阿米特·谢斯，普拉尚特·基卡尼，和赫芒·阿克巴里.Ki-bert：为更好的语言和领域理解注入知识背景arXiv预印本arXiv：2104.08145，2021。3[12] 保罗·盖伊詹姆斯·斯图尔特和阿莱西奥·德尔·布埃运动视觉图（vgfm）：使用对象几何推理的场景理解2018年亚洲计算机视觉会议（ACCV）论文集。一、二[13] Francesco Giuliari，Alberto Castellini，Riccardo Berra，Alessio Del Bue，Alessandro Farinelli，Marco Cristani，Francesco Setti ， and Yiming Wang. Pomp++ ：基于Pomcp的未知室内环境主动视觉搜索在IEEE/RSJ智能机器人与系统国际会议（IROS），2021年。3[14] Jiuxiang Gu，Shafiq Joty，Jianfei Cai，Handong Zhao，Xu Yang，and Gang Wang.通过场景图对齐的不成对图像字幕IEEE/CVF国际计算机视觉会议（ICCV）论文集，2019年。2[15] 顾久香，赵汉东，李哲。Lin，Sheng Li，Jianfei Cai，and Mingyang Ling.基于外部知识的场景图生成与图像重建。在IEEE/CVF计算机视觉和模式识别会议论文集（CVPR），2019。3[16] 放大图片创作者：Michael S. Davis，Vijay Mahadevan，and Abhinav Shrivastava.布局- Transformer：布局生成和完成与自我关注. 在IEEE/CVF计算机视觉国际会议（ICCV）的论文集，2021。6[17] Weihua Hu ， Bowen Liu ， Joseph Gomes ， MarinkaZitnik，Percy Liang，Vijay Pande，and Jure Leskovec.预训练图神经网络的策略。在国际学习代表会议（ICLR），2019年会议记录。7[18] 作者：Justin Johnson，Ranjay Krishna，Michael Stark，Li-Jia Li，David A.作者：Michael S.伯恩斯坦和李飞飞。使用场景图进行图像检索。IEEE/CVF计算机视觉与模式识别会议（CVPR），2015年。2[19] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A.作者：Michael S.伯恩斯坦和李飞飞。 Visual genome ： Connectinglanguage and vision using crowdsourced dense imageannotations. International Journal of Computer Vision ，123：32-73，2016。1[20] Soohyeong Lee 、 Ju-Whan Kim 、 Youngmin Oh 和 JooHyuk Jeon。场景图上的可视问答。在2019年第一届图形计算国际会议（GC）上。2[21] 李国浩、苏航、朱文武。利用动态记忆网络扩展arXiv预印本arXiv：1712.00733，2017。3[22] Manyi Li ， Akshay Gadi Patil ， Kai Xu ， SiddharthaChaud- huri，Owais Khan，Ariel Shamir，Changhe Tu，Baoquan Chen，Daniel Cohen-Or，and Hao Zhang.颗粒：生成递归式自动编码器的室内场景.ACM Transactions onGraphics（TOG），3

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

局部场景中对象定位的空间常识图方法

基于局部区域目标识别算法

3D 动态场景图：对地点、物体和人类的可操作空间感知

arcgispro实现局部场景二三维数据的完全联动

在写代码的时候，方法里面应该返回局部对象的值还是全局对象的值

c++中 函数中返回一个局部类对象

unity 局部坐标 和 世界坐标的区别

js的对象方法不定义全局的对象方法，改为局部的，该怎么修改

Java中匿名对象是局部内部类吗

调用局部内部类中的方法

java中创建的对象如何定位，如何分配，以及对象是如何创建出来的，创建过程如何，对象在内存中的存储布局？

局部保持投影与局部投影保存的区别

图像中的空间链接是局部与局部相关的吗

方法中的局部变量在何时被创建

用二维高斯函数计算各像元的局部SSIM并绘制SSIM图像的matlab代码；用于构建三维立体场景并计算场景中各角度的方法或者软件

局部空间自相关lisa图

定义在类中的变量叫成员变量，定义在方法中的变量叫局部变量。

最新资源

c++中函数中返回一个局部类对象

unity 局部坐标和世界坐标的区别