3D物体接地技术的可视化模型及公开代码

33 浏览量更新于2023-10-15 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

GGGGG自由形式描述引导的点云三维可视化图形网络冯明涛1 †李珍1 †李琦1 †张良1†张向东1朱光明1张辉2†王耀南2阿杰马勒勉31西安电子科技大学、2湖南大学、3西澳大学摘要3D对象接地旨在基于自由形式的语言描述在原始点云场景中定位最相关的目标对象。由于点云的不规则性和稀疏性，理解复杂多样的描述并将其直接提升到点三维物体背景化主要有三个挑战：在复杂多样的描述中找到主要焦点;了解点云场景;并定位目标对象。在本文中，我们将解决所有这三个挑战。首先，我们提出了一个语言场景图模块来捕获丰富的结构和长距离短语相关性。其次，引入了多层次的三维提案关系图模块，提取了对象与对象、对象与场景的共现关系，增强了初始提案的视觉特征。最后，我们开发了一个描述引导的三维可视化图形模块，通过节点匹配策略对短语和建议的全局上下文进行编码。在具有挑战性的基准数据集（ScanRefer [3]和Nr3D [42]）上进行的广泛实验表明，我们的算法优于现有的最先进技术。我们的代码可在 www.example.com 上获得https://github.com/PNXD/FFL-3DOG。图1. 3D场景中物体接地的建议模型。形成多层次提案关系图o以强化初始提案的视觉特征，然后在语言场景图的指导下构建三维视觉图u它细化了最初的粗略建议。语言情景图l预测与3D视觉图u1. 介绍想象一个场景，一个行动不便的老人早上醒来，感觉不舒服，并指示机器人从棕色桌子上取药。Heshe可以说“一张棕色的桌子位于房间的角落，它在白色橱柜的右边，黑色鞋子的左边。它的前面是一个淡蓝色的窗帘。” For a human, finding 然而，对于辅助机器人来说，基于自然语言描述的大型三维视觉场景的解析这些句子描述了目标物体（桌子）的外观、它相对于其他物体（柜子、窗帘和鞋子）的空间位置以及全局*同等贡献†通讯作者并且将匹配得分φ1和φ2融合以使得最终得分φ1和φ 2是一致的。接地预测场景（房间），它提供了丰富的信息源，以定位目标对象和引导机器人。随着LiDAR、深度相机和光场相机的广泛可用性[13，12]，点云形式的3D场景表示在许多应用领域（例如机器人、自动驾驶等）中变得越来越可用且可负担得起。理解自由形式的描述并将其提升到三维点云场景中是视觉和语言领域的一个新课题和挑战。研究使用复杂的描述三维物体接地点云仍处于起步阶段，只有少数方法存在于文献中。为了推进这一研究路线，ScanRefer [3]引入了第一个大规模的372223723将自由形式的描述与3D场景中的对象耦合的数据集。ScanRefer [3]方法包括两个阶段：第一阶段旨在使用3D对象检测器VoteNet [24]基于输入点云生成一组3D对象提议，第二阶段将全局语言表达与每个提议的3D视觉特征相关联，计算每个融合特征的置信度分数，然后将具有最高分数的提议作为目标对象。类似于ScanRefer [3]，Yuan等人[42]用3D全景分割主干替换3D对象检测器以获得实例级候选，并捕获每个候选的上下文以进行视觉和语言特征匹配，其中具有最高分数的实例被视为目标对象。由于复杂语言处理和不规则3D点云识别两者的固有困难，上述方法遭受若干问题。首先，自由形式描述在本质上是复杂和多样的，并且包含其中存在强上下文和长期关系依赖的多个句子。 ScanRefer [3] 和InstanceRefer [42]都不考虑这一点，只学习描述的整体表示。其次，这些两阶段解决方案严重依赖于3D对象检测器或3D全景分割主干，并且在第一阶段中获得的对象提议的质量是粗糙的，这严重影响了整体性能。传统的两阶段方法在以下步骤中直接使用粗略对象提议，并且没有考虑周围对象提议与杂乱3D场景中的全局信息之间的关系第三，宾语提议语和短语之间的关系还没有得到充分的探讨。所有现有的方法[3，42]都忽略了语言和视觉结构，并且仅将全局输入描述嵌入与3D视觉特征融合用于接地。为了解决上述限制，我们提出了一种自由形式的描述引导的3D视觉图形网络，用于点云中的3D对象接地，如图1所示。特别地，为了融合丰富的结构和语言上下文，我们将复杂的自由形式描述解析为三个组件（名词短语、代词和关系短语），并构建语言场景图，通过消息传播计算上下文感知短语表示，其中节点和边分别对应于名词短语+代词和关系短语。此外，通过VoteNet [24]的3D对象检测器，从输入的原始点云中提取一组初始3D对象提案我们引入了一个多层次的3D关系图，利用两个同现关系（对象对象和对象场景），这加强了最初的建议，以提高后续操作的性能的此外，我们使用语言场景图来指导冗余提案的修剪然后对所选的进行细化。建立在完善的建议集之上，我们引入了一个3D视觉图，通过消息传播生成一个上下文感知的具体地，节点是与名词短语相关的所选择的提议，并且边编码对象提议之间的关系。最后，将3D视觉图的节点与语言场景图的节点进行自适应匹配，并在建议剪枝时与匹配得分进行融合，最终实现3D对象的基础化。总而言之，我们的主要贡献包括：（1）我们提出了一种用于对象接地的自由形式描述引导的3D视觉图，其直接利用原始点云并且是端到端可训练的。(2)我们提出了一个语言场景图模块，捕捉丰富的结构和长距离短语的相关性;（3）提出了多层次的三维提案关系图模型，提取了对象-对象、对象-场景共现关系，增强了初始提案的视觉特征;（4）提出了一种描述三维可视化图模型，通过节点匹配对短语和提案的全局上下文进行编码。在基准ScanRefer [3]和Nr3D [3]数据集上进行了实验，并获得了最先进的结果[3，2，42]。2. 相关工作图像中的2D对象接地：2D视觉基础旨在定位图像中与给定语言描述中的名词短语相对应的对象[26，8]。大量的2D视觉基础作品可以在文献中找到，这些文献专注于来自输入语言描述的边界框级别[35，31，7，41，11，17]和像素级别[40，18，39]的理解大多数2D对象基础方法遵循两阶段方法，其中首先使用预训练的对象检测器（如Faster RCNN [28]）基于输入图像生成一组2D边界框候选，然后在第二阶段根据每个2D边界框候选与查询语句之间的排名匹配得分预测所引用的对象然而，大多数2D对象接地方法主要关注包括单个句子的语言描述[14，23，19]。虽然在2D对象基础领域已经取得了令人印象深刻的进展，但在将自然语言处理任务提升到3D点云方面仍有一些工作。3D视觉语言任务的有效建模需要在语言和3D点云数据之间建立精心设计的连接。虽然2D视觉接地方法可以为3D关系学习提供一些指导，但它们不能直接用于点云中的3D对象接地。点云中的3D对象检测：点云通常转换为规范形式，如2D图像[6，34，27]或规则网格[43，33，16]，用于卷积神经网络的3D对象检测。最近，23724.Σmation[15]. 我们生成名词短语通过梳理G.ΣR=r是节点集和边集。因为每个物体都是IJt=1我J我i=1--G{V R}V。Σ--Qi等人[24]提出了一种直接处理原始点云的框架，然后通过PointNet++ [25] back-bone和Hough voting的组合预测杂乱场景中的3D边界框然而，VoteNet [24]专注于独立地回归每个3D对象，并且没有很好地考虑局部几何信息。Chen等人。[4]提出了一种分层图网络来聚合点云中对象的特征并捕获其形状信息。Point-GNN [29]与以前的作品不同，它引入了一个图神经网络来检测图中每个节点所属的3D对象的类别由于3D真实世界场景包含具有物理连接、密集放置、改变大小和各种各样的挑战性关系的部分扫描对象，因此当前3D对象检测方法的准确性仍有很大的改进空间3D视觉与语言：与语言和图像联合推理取得的重大进展相比，将3D视觉连接到自然语言是一个相对较新的研究课题。最近的数据集[20]将RGB-D图像与语言表达相结合，以探索在单个RGB图像之外添加深度通道的潜在Kong等人[15]利用场景的单视图RGB-D图像的语言描述Chen等人[5]提出了从文本中有条件地生成3D模型，这在增强现实应用中可能很有用。Achlioptas等人[2]介绍了一种新的大规模数据集和任务，该任务使用已知的3D边界框从相同类别中识别特定对象实例。与这些方法不同，我们专注于从ScanRefer [3]扩展的3D对象接地任务，通过捕获自由形式描述中的丰富结构，提取3D场景中的对象-对象和对象-场景共现关系，并通过节点匹配策略编码短语和对象提议的全局上下文3. 该方法图2示出了我们的自由形式描述引导的3D对象接地方法的概述它包括一个语言场景图模块，一个多上下文建议关系图模块和一个描述引导的三维可视化图模块。3.1. 语言场景图模块与大多数图像语言任务中使用的单句不同[36，44，32，37]，我们在工作中采用由多个句子组成的自由形式语言具体地，我们首先从自由形式的3D场景描述L构建语言场景图l以捕获短语之间的丰富结构和关系(1) 解析自由格式的说明：由于语言描述不仅倾向于描述所引用的3D对象的属性，而且倾向于描述其与附近3D对象的关系对象或3D场景，我们通过采用现成的语言场景图解析器[1]将复杂的自由形式的语言描述解析成三个子组件。我们通过基于规则的后处理改进了语言场景图解析器[1]，用于我们的自由形式语言描述引导的3D视觉基础任务。名词短语：我们首先使用训练数据集中感兴趣的地面真实3D对象类构建名词库，然后向名词库添加同义词和复数。我们从自由形式的描述中提取名词，并将它们与3D对象类相匹配。我们不仅将名词连接到3D对象类，还连接到其同义词和复数形式。为了获得名词的3D对象属性，例如颜色，形状和大小，我们在场景图解析器[1]依赖信息中搜索修饰感兴趣的名词的所有属性词。Li属性词和名词，例如。代表“桌子很轻我们代词：我们考虑由几个句子组成的自由形式的描述，这些句子不是独立的，但通常多次引用相同的3D对象。因此，我们面临着长距离共指问题。例如，在通过对数据集中的自由形式描述进行统计分析，我们发现代词在大多数情况下都指代所指代的三维对象。为了解决这个问题，我们使用语言场景图解析器[1]提取描述L中所有单词的词性，并将描述中所指3D对象的代词替换为名词短语，以便包含多个句子的自由形式描述可以处理长距离相关性。关系短语：为了准确地解析在自由形式描述中连接名词短语vl和vl的关系短语rl，我们从训练数据集构建关系短语库。当一个关系词不能直接解析时，我们在库中查找所有相关词并与最相似的词进行匹配，然后按照标准形式进行扩展。(2) 语言场景图构造：给定自由形式的描述L，我们首先使用解析的子组件来构造初始语言场景图，其中图的每个节点和边分别对应于对象以及该对象与L中提到的另一对象之间的关系。我们将语言场景图定义为有向图l=l，l，其中l=v，l，并且L lIJ表示为具有一组属性的名词短语，我们首先使用GLoVe [22]将描述L中的每个单词编码为单词嵌入序列htT，其中T是描述L中的单词数量。然后，我们使用最后一个23725GG GGGvRIJGR我NGvi我IJvJ我里季我图2.我们建议的网络的概述。该方法分为三个模块，语言场景图l包含了丰富的语言结构和语境;多上下文建议关系图利用两种出现关系（对象-对象和对象-场景）来加强初始建议集合的视觉特征;在l的指导下，在修剪和细化的建议上定义描述引导的3D视觉图u，然后将u的节点与l的节点自适应地匹配，然后将其与建议修剪中的匹配得分融合，以用于最终的3D对象基础。双向GRU的隐藏状态[9]。最后，我们得到其中x cl 是精炼的名词短语特征，Fl是多-名词短语嵌入xVV对于相应的节点L1具有全连接层的lv分层网络，以及wllij是一在图G中。与名词短语类似，我们也计算a节点V1和V2之间的注意力权重，其被定义为向量表示xlIJ 对于边rl在图G1中。I j如下所示此外，我们使用另一个双向GRU [9]wvl =softmax（Fl（[xv;xcTFl（[xv;xc]）），（3）对完整的描述L进行编码并获得描述表示xl，其提供了全局描述。vijj∈N（i）jrijvjrij在单个名词短语的编码中丢失的文本信息此外，融合3D点云特征，然后使用该描述表示xl来构造3D视觉图。(3) 短语特征细化受[ 17 ]中提出的消息传播算子的启发，我们首先学习图l中具有其连接节点的所有边的上下文感知特征，其中所有节点与名词短语的嵌入特征相关联。我们聚合来自节点的消息以更新其对应边的关系特征：其中softmax计算归一化的注意力值。3.2. 多层次三维方案关系图模块作为我们模型的第一个视觉处理步骤，我们需要使用3D对象检测框架来预测3D对象提案的初始集合。在该步骤中获得的3D对象提议的质量可能严重影响后续3D对象接地性能。事实上，由于现有技术的3D对象检测方法在现实世界3D场景中仍然产生有限的性能，因此在所生成的3D边界框候选与地面实况3D对象之间通常存在大的未对准这XC= xl +Fl（[xl;xl;xl]，（1）可能会妨碍下一阶段的学习过程lrrIJvivj里季利用两个同现关系（对象-对象其中xcl里季 ∈RD1是细化关系特征，并且F1是和对象-场景），我们引入多层次的3D建议关系图来编码上下文之间的依赖关系。具有完全连接的层的多层网络。然后，我们通过自注意机制[30]聚合来自连接的所有节点（i）和到它的边的消息来更新图1中的每个节点vlxcl=xvl+ΣwvFl（[xvl;xcl]），（2）j∈N（i）vRIJ23726一全局信息，其通过在3D场景中并入同现关系线索来加强初始提议的视觉特征我们采用VoteNet [24]主干来处理输入的点云，并输出一组带有en的点簇丰富的表观特征xo∈RKo×D2，其中KO 是23727IJi=1IJi=1pi，ki，kj，li，kIJvvGi、jvpi、ji、j公司简介我i=1IJi，j=1IJ我J={V，R}在3D ob的细化集合之上xco=xoroFf（xo），（5）最终节点特征xvui，k我们计算边缘特征xvu预注册pvvfapR {}GG伊杰两个建议vu提案数量。接下来，3D物体检测模式-这样，我们计算匹配得分Φ1对于每个名词短语ule接受点簇并处理它们以预测和3D对象建议对，以及引导的名词短语3D边界框候选者B={bi}K。及其对象边界框偏移量ψi，j∈RD3取决于每个名词类，其中每个bi∈RD3表示短语特征xcl和3D对象视觉特征xco，3D对象位置。此外，我们使用平均池计算全局场景特征x s∈ RD2 取决于viviΦ1=Hn（xcl，xco），（6）点簇的集合。对空间要素进行编码i、jpvivi每个建议，我们结合两种类型的功能，几何ψi，j=Hb（xcl，xco），（7）regvivi由相关参数表示的结构特征Sb每个边界框和相对空间位置特征其中Hn和Hb是学习的步骤由每个边界框的相对中心坐标表示。为了获得捕获不同方案之间的共现关系的强大表示能力，外观和空间特征都被考虑：如[21]中的输入特征。在获得所有名词短语和3D对象提议对的匹配得分Φ1之后，我们对得分进行排序以选择每个名词短语的前K个提议并获得它们的新3D边界框B’={bi}K根据Xo=Fo（[xo;Fo（[Sb;Lb]）]），⑷回归偏移ψi，j.我们表示细化的建议集将每个名词短语vl表示为Vu={vu}K。然后我们申请其中Xo∈RD4是3D建议视觉特征，F。i i i，k k=1PV和F0表示MLP层。vf3D非最大值抑制（NMS），以过滤掉与其他方案具有显著重叠的方案。得到了我们将多级3D建议关系图定义为Go={Vo，Ro}，其中Vo={vo}Ko+1是节点的集合所选的3D对象建议节点稀疏并且比最初的一组提议更准确。包括初始3D对象建议和全局场景; o=r oKR 是边的集合，并且r〇是从v〇到v〇的边。考虑到对象通常仅与全局场景和附近的对象交互，图G〇聚合来自其所有相邻节点N（i）和全局场景经由自注意机制[30]来生成（2）三维可视化图形：代替使用ScanRefer [ 3 ]的噪声密集3D对象建议，我们引入了3D可视图uuu反对提案类似于Eq。（4），我们通过融合每个提案的外观fea，为每个提案提取一个新的视觉特征xvu增强输入视觉特征，真实与空间特征。然后我们将新的视觉效果特征xvuΣviPV +IJPVj∈N（i）描述的整体特征xl为C其中X〇l 是增强的上下文感知3D对象视觉和vu使用覆盖它们的最小盒区域vi表示MLP层，并且表示自我-我们采用一组消息传播算子来生成ate所有节点和边的上下文感知表示节点v〇和v〇之间的注意力权重[30]。ui j在图G.类似于Eq。（1），Eq.（2）、Eq.（3）我们3.3. 描述引导的三维可视化图形模块获得更新的关系特征xcu伊杰、上下文感知虽然最初候选人的视觉特征在对象特征xcui，k 使用相应类型的消息前面的步骤已经被进一步细化，但是仍然存在数百个建议和大量噪声，这使得通过探索语言场景图L的知识来识别目标对象是不可行的。我们通过引入描述引导的3D视觉图来捕获传播算子4. 预测模型在给定语言场景图和三维视觉图的情况下，我们将三维背景问题转化为一个节点匹配问题在3D视觉图形Gu和语言场景之间全球场景上下文通过消息传播为少数选定的建议，并减少3D可视化之间的差距语义信息到语言结构。图Gl. 我们引入一个匹配分数Φ2短语V1和提议Vu配对，对于每个名词（1）节点修剪和细化：最新3D对象亲-I jΦ2=Hu（xc，voc），（8）positions不太可能与语言i、jpli我场景图1中的对象建议通常是冗余的，因为大型3D场景中的对象建议通常是冗余的。为了模拟这些规律其中Hu是两层MLP网络。然后，我们将其与对象修剪中使用的得分Φ1融合以生成本文提出了一个描述引导的节点剪枝模块节点匹配得分Φi，j=Φ12i、j3D可视化图形。此外，委员会认为，23728G. 最后是盒子其利用我们的语言场景图1的知识来有效地估计名词短语节点和3D对象提议节点的相关性，并且细化所选择的3D边界框的实现从K个提议框中选择得分最高的提议这里，仅选择对应于对象的目标3D边界框。23729--LLLL--方法唯一Acc@0.5多个Acc@0.5总体Acc@0.5由中心坐标表示的边界框，方向和尺寸。单级[38]22.826.499.04Nr3D是一个真实世界的3D场景数据集，具有广泛的免费[24]第二十四话我们的（GT箱）19.3575.402.8130.205.2843.16形成自然语言描述。它包含41，503个hu-通过部署在线参考我们的（xyz）64.0424.1332.47游戏中的AMT在官方的Nr3D [2]拆分之后，我们使用我们的（xyz+rgb）我们的（xyz+rgb+nor.）66.8767.9425.0025.7033.5534.0129，500个描述和验证集的训练集共7650个描述。每个描述都由一个我们的（不含LSG）66.9223.1532.87由中心坐标Ours（w/oMLPG）Ours（w/o LGVG）67.1065.3424.9823.7533.1431.90室内场景中的位置、方向和尺寸。为了增加训练数据，我们遵循以下操作表1. ScanRefer [3]确认集上的消融研究。我们测量其与地面实况框的IoU大于0.5的预测的百分比我们还报告了“独特”（场景中类的单个对象）和“多个”子集的分数损失函数最终损失是投票损失Lvt、损失的客观性Lobj、边界框损失Lb、语义分类损失Lsm、描述分类损失Lcls和参考损失Lrf的线性组合：在[24]中，在两个水平方向上随机翻转每个场景，围绕Z轴随机旋转场景点，旋转角度在[ 30◦; 30◦]之间均匀选择，全局缩放场景点在[0. 9; 1. 1]中。报告了验证拆分的结果和分析。5.2.实现细节我们使用VoteNet [24]生成K〇=256个 3D对象提议的初始集合在图Gl模块中，细化关系特征维度Dl被设置为128。在图G中L=λ1Lvt+λ2Lobj+λ3Lb+λ4Lsm+λ5Lcls+λ6Lrf，其中，λ1、λ2、λ3、λ4、λ5和λ6是个别损失条款。特别是，Lvt监督投票重新-模块中，外观特征D2的尺寸被设置为256;由于每个3D边界框由外观特征D2模块参数化，因此外观特征D2的框中心、框大小和语义类，参数维度D3设置为24; 3D建议视觉特征在[24]中定义的回归步骤，L obj 表示是否尺寸设置为128。在图形Gu模块中，选定的通过投票和聚合获得的点簇属于某个实例对象，b监督框中心回归，分别对框大小分类和框大小回归过程进行分类，sm监督N个ScanNet数据集类的语义分类过程，cls应用于基于输入描述的对象分类，rf分别监督相似性得分和偏移（补充材料中的细节）。5. 实验我们介绍了两个实验的3D对象接地数据集和我们的方法的实施细节。我们进行详细的分析，我们的方法来证明所提出的模块的功效，并比较性能与国家的最先进的。5.1. 数据集实验在ScanRefer [3]和Nr3D [2]数据集上进行，这些数据集构建在ScanNet [10]之上。ScanRefer包含800个ScanNet [10]真实世界场景的11，046个3D对象的51，583个描述是第一大规模数据集，通过复杂多样的自然语言描述在点云中引入3D对象接地。平均有13个。81个物体，64个。48描述每场景，和4. 每个对象67个描述。按照官方的ScanRefer [3]分割，我们使用36，665个描述的训练集和9，508个描述的验证集。每个描述都由地面实况3D建议数K被设置为20。对于模型训练，我们使用初始学习率为 1e3 的 ADAM 优化器。我们训练了 30 个epoch，批量大小为32，并在5，15和25个epoch后将学习率衰减10倍。回归项λ1和λ3的损失权重被设置为1，而λ2被设置为0.5并且λ4= λ5= λ6被设置为0.1。5.3. 消融研究我们选择ScanRefer [3]数据集进行三组消融研究，因为它包含复杂和多句描述，使其更具挑战性任务复杂度：表1的顶部示出了使用2D对象接地方法[ 38 ]的效果，其中具有最高置信度分数的2D提案使用该视图的记录的相机参数投影到3D。2D图像中的接地导致不准确的3D绑定框，因为其遭受3D场景的有限视图。因此，有必要设计一种用于3D场景中的直接对象接地的方法。接下来，我们从VoteNet [24]骨干中随机选择与地面实况语义类标签匹配的建议之一，并发现仅从语义标签识别所引用的3D对象是不够的此外，我们研究了我们的模型使用地面真实3D边界框的情况，并观察到24的巨大改进。97%以上-所有访问@0。五、这证实了当前的3D对象检测骨干有很大的改进空间，我们的描述引导的3D视觉图形模块是细化初始3D边界框候选所必需的。（九）23730∼∼方法输入唯一多个总体Acc@0.25Acc@0.5Acc@0.25Acc@0.5Acc@0.25Acc@0.5单级[38]2D图像29.3222.8218.726.4920.389.04[42]第四十二话xyz+rgb+法线77.1366.4028.8322.9238.2031.35扫描参考[3]xyz+rgb+法线67.6446.1932.0621.2638.9726.10我们xyz+rgb+法线78.8067.9435.1925.7041.3334.01表2. 与ScanRefer [3]数据集上的最新技术水平进行比较最佳性能用粗体标记，次佳性能用下划线标记。ScanRefer [3]数据集上的ScanRefer [3]。特别地，一阶段[38]是基于2D图像的方法，其预测扫描视频的每个帧中的参考2D对象。然后，他们选择具有最高概率值的2D边界框，并使用表3.与Nr3D [2]数据集上的最新技术水平进行比较。这里，VD/VI表示视图相关/视图无关，即语言描述是否取决于相机视图。不同的输入：我们对我们的模型进行消融研究，以检查哪些组件和点云特征有助于性能。结果报告在表1的中间部分。当rgb信息作为输入被添加到位置xyz特征时，我们的模型的性能得到改善当法线（或。）也包含在ScanNet [10]网格中。颜色信息和附加的几何信息可以增强我们的网络的性能，因为它们通常作为语言描述中的属性和语言场景图节点的特征的一部分包含在名词短语如果输入点云同时包含颜色信息和附加的几何信息，则三维视觉场景图的表现力更强，两次匹配过程将获得更高的相似度匹配分数，从而提高最终的预测精度。单位有效性：我们进行了消融研究的影响，在我们的模型中提出的模块。结果报告在表1的底部。当我们的完整框架使用空间坐标、颜色和法线信息作为输入时，我们设置基线 XYZ+RGB+也不是。）. 当语言场景图模块（LGS）或如果不使用多级建议图模块（MLPG）这主要是因为上下文感知的短语在语言描述中的呈现方式和相互之间的出现关系能够更好地处理复杂场景。当不使用描述引导的3D视觉图形模块（LGVG）时，在基线上存在更高的性能下降。原因在于，在复杂且多样的描述下，3D对象提议和短语之间的关系在没有LGVG的情况下可能是模糊的。5.4. 定量比较我们首先将我们的方法与最先进的方法进行比较，包括单阶段[38]，IntanceRefer [42]和该帧的相机参数。请注意， IntanceRefer [42] ，ScanRefer [3]和我们的方法都使用点云的坐标，RGB信息和法线作为输入。我们使用其与地面实况框的IoU大于0.25和0.5的预测的百分比作为评估指标来报告精度。如表2中所总结的，我们的方法大幅优于现有方法。基于2D的方法One-stage [38]无法获得令人满意的结果，因为它受到单帧视图的限制值得注意的是，我们的方法实现了1。百分之五改进的Acc@0.5的场景与一个单一的对象，它的类，并取得了显着的二、对于包含多个复杂场景的更复杂场景，Acc@0.5提高8%对象的类。此外，我们还发现，我们的亲提出的方法执行更好的一个更大的利润率在“多”比“独特”的情况下。这支持了我们的主张，即我们提出的包括三个新颖模块的管道可以更好地处理3D对象之间的复杂交互和从自由形式描述到点云的跨模态通信。表3将我们的方法与Nr3D [2]数据集上的最先进方法ScanRefer[3]、IntanceRefer[42]和ReferIt3D[2ReferIt3D [2]假设每个3D场景的真实3D边界框已经在输入中给出，并且任务只是选择哪个3D边界框是所引用的3D对象。如表3所示，我们的方法实现了最佳性能，其为2。9%高于IntanceReference [42]，6. 1%高于ReferIt3D [2]和7。比ScanRefer [3]高5% 也注意，我们的方法在以下情况下具有最高的精度增益：“硬”的情况下，再次支持我们的主张，我们提出的框架，包括三个新的模块，可以有效地处理复杂的场景和自由形式的描述。此外，我们的3D视觉信息的图形公式化在对自由形式描述和几何背景进行建模方面比ReferIt3D [2]5.5. 可视化定性可视化结果：图3显示了ScanRefer [3]方法和我们的方法在ScanRefer数据集（前四列）和Nr3D数据集（最后一列）上产生的5个定性视觉基础结果。方法整体容易硬VDVI扫描参考[3]34.241.023.529.935.4[42]第四十二话38.846.031.834.541.9[42]第四十二话35.643.627.932.537.1我们41.748.235.037.144.723731图3. ScanRefer [3]方法和我们的方法在ScanRefer [3]数据集（第1-4列）和Nr 3D [2]数据集（最后一列）上的结果。在我们的描述引导三维可视化图形模块，如图所示。4第二排很明显，语言场景图中的每个名词短语节点匹配场景中相同类别的所有实例和与其具有强关系的所有对象，这修剪和细化了初始冗余建议集以提高后续步骤的性能6. 结论提出了一种自由形式描述引导的三维可视化图形网络，用于点云中的三维对象接地图4.描述引导的3D视觉图形模块中的每个名词短语的最相关的3D边界框的结果前两列中的对象的成功检测表明，我们的多级3D建议图模块和描述引导的3D视觉模块可以处理空间关系，以回归比ScanRefer更准确的3D边界框。最后三列中的失败案例表明，ScanRefer无法区分具有复杂多样描述的3D场景中的模糊对象。ScanRefer的性能是有限的，因为它融合了整体的语言表示与视觉特征，忽略了建议和短语之间的关系。模型可视化：我们将顶部的结果可视化K=20个由相关名词短语选择的3D建议我们的方法通过捕获自然语言描述和3D场景之间的模态内和跨模态关系来实现准确的检测。首先解析复杂的自由形式描述，然后构造语言场景图，通过消息传播计算上下文感知的短语表示。引入了一个多层次的三维关系图，利用两个同现关系（对象-对象和对象-场景），并加强了初始提案的视觉特征。在语言场景图的指导下，对改进后的建议构建了一个三维可视化图，对短语和命题的全局上下文进行编码。在两个具有挑战性的基准数据集上的实验表明，我们的方法在定量和定性上都优于现有的最先进的3D对象接地。23732引用[1] https://github.com/vacancy/scenegraphparser的网站。三个[2] Panos Achlioptas ， Ahmed Abdelreheem ， Fei Xia ，Mohamed Elhoseiny，and Leonidas Guibas.Referit3d：用于现实世界场景中细粒度3D对象识别欧洲计算机视觉会议，第422- 440页，2020年。二三六七八[3] Dave Zhenyu Chen ， Angel X Chang ， and MatthiasNießner. Scanrefer：使用自然语言在rgb-d扫描中定位3d对象2020年第16届欧洲计算机视觉会议（ECCV）。一二三五六七八[4] Jintai Chen，Biwen Lei，Qingyu Song，Haochao Ying，Danny Z Chen，and Jian Wu.点云上三维目标检测的层次图网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第392-401页，2020年。三个[5] Kevin Chen 、 Christopher B Choy 、 Manolis Savva 、Angel X Chang、Thomas Funkhouser和Silvio Savarese。Text2shape：通过学习关节嵌入从自然语言生成形状。在亚洲计算机视觉会议上，第100-116页。Springer，2018. 三个[6] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页二个[7] Xinpeng Chen，Lin Ma，Jingyuan Chen，Zequn Jie，Wei Liu，and Jiebo Luo.单级接地网实时引用表达式的压缩。arXiv预印本arXiv：1812.03426，2018。二个[8] Zhenfang Chen ， Peng Wang ， Lin Ma ， Kwan-Yee KWong，and Qi Wu. Cops-ref：一个关于组合指称表达理解的新数据集和任务。在IEEE/CVF计算机视觉和模式识别会议论文集，第10086-10095页，2020年。二个[9] Junyoung Chung、Caglar Gulcehre、Kyung Hyun Cho和Yoshua Bengio。门控递归神经网络对序列建模的实证评估arXiv预印本arXiv：1412.3555，2019。四个[10] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页，2017年。六、七[11] Pelin Dogan，Leonid Sigal，and Markus Gross.神经序列短语接地（seqground）。在IEEE/CVF计算机视觉和模式识别会议论文集，第4175-4184页，2019年。二个[12] Mingtao Feng，Syed Zulqarnain Gilani，Yaonan Wang，Liang Zhang，and Ajmal Mian.基于关系图网络的点云三维目标检测。IEEE Transactions on Image Processing，30：92-107，2020。一个[13] Yulan Guo，Hanyun Wang，Qingyong Hu，Hao Liu，LiLiu，and Mohammed Bennamoun. 3D点云的深度学习：一个调查。IEEE Transactions on Pattern Analysis andMachine Intelligence，2020。一个[14] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在pho中引用对象-自然景物的地形图。在 Proceedings of the 2014conference on empirical methods in natural languageprocessing（EMNLP），pages 787-798，2014中。二个[15] Chen Kong ， Dahua Lin ， Mohit Bansal ， RaquelUrtasun，and Sanja Fidler.你在说什么啊？文本到图像共指。在IEEE计算机视觉和模式识别会议论文集，第3558-3565页，2014年。三个[16] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在IEEE/CVF计算机视觉和模式识别会议论文集，第12697-12705页，2019年。二个[17] Yongfei Liu，Bo Wan，Xiaodan Zhu，and Xuming He.学习跨模态上下文图的视觉基础。在AAAI人工智能会议论文集，第34卷，第11645-11652页，2020年。二、四[18] Gen Luo，Yiyi Zhou，Xiaoshuai Sun，Liujuan Cao，Chenglin Wu，Cheng Deng，and Rongrong Ji.多任务协作网络联合指称表达理解与切分。在IEEE/CVF计算机视觉和模式识别会议论文集，第10034-10043页二个[19] Junhua Mao，Jonathan Huang，Alexander Toshev，OanaCamburu，Alan L Yuille，and Kevin Murphy.无歧义对象描述的生成和理解。在IEEE计算机视觉和模式识别会议论文集，第11-20页，2016年。二个[20] Cecilia Mauceri Martha Palmer和Christoffer Heckman太阳黑子：一个带有空间引用表达式的rgb-d数据集在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页，2019年。三个[21] 牟丽丽、芮门、葛丽、徐燕、张璐、芮燕、金志。基于树卷积和启发式匹配的自然语言推理。在ACL，2016年。五个[22] 杰弗里·彭宁顿，理查德·索彻

下载后可阅读完整内容，剩余1页未读，立即下载