没有合适的资源?快使用搜索试试~ 我知道了~
++= 95%17910InstanceRefer:通过实例多级上下文引用在点云上进行视觉定位的合作式整体理解0袁志豪1,†,严旭1,†,廖英红1,张瑞茂1,王胜2,李振1,*,崔曙光101 香港中文大学(深圳),深圳大数据研究院 2 南方科技大学CryoEM中心0{ zhihaoyuan@link., xuyan1@link., lizhen@ } cuhk.edu.cn0摘要0与2D图像上的视觉定位相比,基于点云的自然语言引导的3D物体定位更具挑战性。在本文中,我们提出了一个名为InstanceRefer的新模型,通过匹配策略实现了优越的3D视觉定位。在实践中,我们的模型首先使用简单的语言分类模型从语言描述中预测目标类别。然后,基于类别,我们的模型从点云的全景分割中筛选出少量实例候选(通常少于20个)。因此,非平凡的3D视觉定位任务已经被有效地重新定义为一个简化的实例匹配问题,考虑到实例级候选比冗余的3D物体提议更合理。随后,对于每个候选,我们进行多级上下文推理,即从实例属性感知、实例到实例关系感知和实例到背景全局定位感知。最终,通过协作的整体视觉语言特征匹配,选择并定位最相关的候选者,这些候选者的置信度得分通过排名获得。实验证实,我们的方法在ScanRefer在线基准和Nr3D/Sr3D数据集上优于先前的最新技术。01. 引言0视觉定位(VG)旨在基于与对象相关的语言查询在图像或视频中定位所需的对象或区域,在2D计算机视觉社区取得了巨大进展[12, 18, 29, 17,19]。随着3D传感器和3D表示的快速发展,VG任务逐渐融合了更多的信息0* 通讯作者:李振。† 共同第一作者。1https://github.com/CurryYuan/InstanceRefer0输入查询:墙边有一把灰色和蓝色的皮革椅子。它是三把椅子中的一把,位于最左边。0输入3D扫描:实例级候选0属性感知0灰色、蓝色、皮革?0仅候选者0关系感知0三把椅子中的一把,最左边的一把?0在侧面0墙边?0定位感知0自信的0分数0定位预测0候选者和0相邻实例0图1.多级上下文引用。对于每个实例级候选,我们将其与属性、局部关系和全局定位的语言查询进行匹配。属性、关系和定位描述在橙色、蓝色和绿色框中。03D数据。与具有规则和有序像素的2D图像不同,3D数据主要以点云的形式出现,这是稀疏、不规则和无序的。因此,以前的基于2D的方案通常对真实的3D场景不足。陈等人[2]是点云上视觉定位的先驱。他们提出了第一个数据集ScanRefer,并通过将2D基于检测的定位流程扩展到3D来解决该问题。具体而言,它首先使用3D物体检测器[24]生成数百个提议。然后,将每个提议的特征与语言查询的全局表示合并,以预测匹配分数。具有最大分数的提议被认为是17920然而,将2D方法转移到3DVG时存在以下几个问题:1)大型3D场景中的对象提议通常是冗余的。与实际实例相比,提议的数量较多,提议之间的关系复杂,这不可避免地引入了噪声和歧义。2)未能充分捕捉外观和属性信息。由于噪声和遮挡,获取的点云通常是稀疏和不完整的,导致对象感知提议中缺失几何细节。传统的基于点云的方法无法有效提取属性信息,例如红色、灰色和木质,这可能忽略了一些重要的语言线索。3)提议之间以及提议与背景之间的关系尚未得到充分研究。0为了解决上述问题,本文研究了一种新的框架,即InstanceRefer,采用匹配策略在点云上实现了优越的视觉定位。具体而言,通过全局全景分割,我们的模型从原始场景中提取了几个实例点云。然后,通过自然语言描述的预测类别对这些实例进行了筛选,得到了候选集。与基于对象提议的候选集相比[2],这些经过筛选的实例点云包含更多原始的几何和属性细节(例如颜色、纹理等),同时保持数量较少。我们注意到最近的工作TGNN[10]也使用实例分割来减少定位的难度。然而,他们直接利用分割主干中学习到的语义分数作为实例特征,这会导致几何和属性信息的丢失。相比之下,我们的InstanceRefer应用了经过筛选的候选对象及其原始信息进行进一步的定位。因此,它不仅可以减少候选对象的数量,还可以保持每个候选对象的原始信息。此外,为了充分理解整个场景,我们还提出了多级上下文学习模块,即从实例属性、实例之间的关系和实例与背景之间的全局定位等方面明确捕捉每个候选对象的上下文。最后,通过精心设计的匹配模块和对比策略,InstanceRefer可以高效而有效地选择和定位目标。因此,我们的模型在任何设置下都能大幅优于先前的方法,即利用任何分割主干。0总结起来,本文的主要贡献如下:1)我们提出了一种新的基于点云的视觉定位框架InstanceRefer,该框架利用全景分割和语言线索选择实例点云作为候选对象,并以匹配的方式重新定义了任务。2)我们提出了三个新的组件,用于选择最相关的实例候选对象。0通过属性、局部关系和全局定位等方面共同选择候选对象。3)在ScanRefer和Sr3D/Nr3D数据集上的实验结果证实了InstanceRefer的优越性,在ScanRefer基准和Nr3D/Sr3D数据集上取得了最先进的结果。02. 相关工作02D图像上的视觉定位。在图像上进行视觉定位的任务是定位自然语言查询描述的图像特定区域。根据语言查询的类型,它可以进一步分为短语定位[12, 23, 29]和指代表达理解[20,16,30]。大多数方法在边界框级别和两阶段方式下进行定位。第一阶段是使用无监督方法或预训练的对象检测网络生成候选提议。第二阶段根据语言查询选择最佳匹配的提议。这些方法主要关注提高第二阶段的排名准确性。MAttNet[36]提出了一个模块化注意网络,将语言查询分解为不同的组件(即主体外观、位置和与其他对象的关系),并分别在不同的模块网络中处理它们。受到MAttNet的启发,但与MAttNet不同,我们的工作专门研究了3D点云的特点,每个提出的模块与MAttNet中的模块有很大的不同。3D点云上的视觉定位。Chen等人[2]发布了第一个3DVG数据集ScanRefer,其中室内场景中的对象边界框通过相应的语言查询进行引用。ReferIt3D[1]还提出了两个用于3DVG的数据集,Sr3D(由机器标注)和Nr3D(由人工标注)。与ScanRefer不同,ReferIt3D假设所有对象都被很好地分割,因此不需要定位。最近,TGNN[10]提出了一个类似的任务,称为指代3D实例分割,旨在分割出目标实例。它首先提取每个点的特征,并预测对象聚类的偏移量。然后,应用文本引导的图神经网络来实现更准确的指代。然而,TGNN未能捕捉实例的属性和实例与背景之间的关系。Goyal等人[6]还提出了一个名为Rel3D的仅用于定位对象空间关系的数据集。本文关注的是在原始点云上进行视觉定位的任务,这是从ScanRefer和ReferIt3D扩展而来的。点云上的3D表示学习。与具有规则网格的2D图像不同,点云是不规则且常常是稀疏分布的。最近,基于点的模型利用原始点云的置换不变性进行增强的3D处理[25,26]。具体而言,大多数基于点的模型首先从初始点云中采样子点,然后在每个子点上应用特征聚合函数。 ... ...IPˆ... ...(0.95)(0.31)(0.03)EˆAFˆRFˆGFˆ... ...IPˆIPˆIPIPˆ , P, Eˆ,17930实例掩码 I0输入点云 P0语义 S0实例 候选对象0全景0分割0描述0这是一把灰色和蓝色的皮椅。放在一排其他椅子中。0墙的一侧。0GloVE0词嵌入 W0BiGRU0词特征 E0提取0(仅椅子)0目标0预测0“椅子”0AP RP GLP0多层次0视觉上下文0相似度得分 Q0注意池化0视觉语言0匹配0(桌子)0(椅子)0(椅子)0(椅子)0图2.InstanceRefer的流程。首先使用全景分割模型从大型3D场景中提取所有实例点云。在语言描述的目标预测的指导下,将属于目标类别的实例过滤出来形成初始候选集合 ˆ P I 。同时,通过注意池化实现了汇总的语言编码 ˆ E 。随后,通过比较多层次的视觉感知(即 ˆ F A , ˆ F R 和ˆ F G )与 ˆ E 的相似度,视觉语言匹配模块输出相似度得分 Q 。最终,得分最高的实例的3D边界框被视为最终的定位结果。0在分组后的局部点云集群中,每个子点都是一个代表。基于点的方法的代表有基于图的学习[31, 39, 15,14]和类似卷积的操作[38, 28, 32, 8,34]。随着点云表示学习的发展,与点云上的视觉定位相关的各种下游任务也得到了快速探索,例如3D物体检测[24],实例分割[11]和语义场景补全[33]。03. 方法0InstanceRefer是一种新颖的点云视觉定位框架,它通过多层上下文引用来选择最相关的实例级对象。如图2所示,通过利用点云全景分割,InstanceRefer首先从整个场景中提取具有语义标签的实例(第3.1节)。随后,将句子嵌入到高维特征空间中,并进行文本分类作为语言引导(第3.2节)。最后,在从所有实例中过滤出候选对象之后,使用三级渐进引用模块,即属性感知(AP)模块,关系感知(RP)模块和全局定位感知(GLP)模块(第3.3节),来选择最佳候选对象。03.1. 实例集生成0与ScanRefer[2]不同,我们的框架首先从输入点云中提取所有前景实例以生成一组实例。然后,我们将3D视觉定位问题重新定义为实例匹配问题。为此,我们的模型采用了全景分割[13],旨在解决语义分割问题。0tion和实例分割。给定点云 P ∈ R N × 3 和其特征 F ∈ RN × D 作为输入,InstanceRefer返回两个预测集合,语义S ∈ R N × 1 和实例掩码 I ∈ R N × 1,分别记录每个点的语义类别和实例索引。通过实例掩码,InstanceRefer从原始场景点云中提取实例点云。所有前景中的实例点云表示为 P I = { P I i } M i =0 ,其中 P I i 表示第i 个实例的点,总共有 M个实例。类似地,所有实例的特征和语义分别表示为 F I 和S I 。03.2. 描述编码0首先,通过预训练的GloVE词嵌入[22]将语言描述的每个标记映射为300维向量。然后,整个序列被输入到双向GRU层[3]中提取上下文词特征E={ei}∈RNw×D,其中Nw是查询长度,D是特征维度。最终的语言编码是通过注意池化实现的。在实践中,注意池化通过更新每个词特征并将它们聚合到一个全局表示中来实现。0ˆei=AvgPool({Rel(ei,ej)⊙ej,�ej∈E}),(1)ˆE=MaxPool({ˆei}Nwi=1),(2)0其中聚合函数AvgPool(∙)和MaxPool(∙)被设置为平均池化和最大池化,配对关系函数Rel(∙)是两个标记特征之间的归一化点积相似度,符号⊙表示逐元素乘法。每个标记ei∈E的特征首先通过关系加权聚合更新为ˆei。rik = MLP([C( ˆP Ii ) − C(P Ik ); SIi ; SIk]),(3)Edge rik),ˆ(iKPNIIPiˆIFiˆ,hik = MLP([P Ik ; SIk]), ∀ P Ik ∈ N( ˆP Ii , K),(4)ˆF Ri = MaxPool({rik ⊙ hik}Kk=1),(5)17940然后,获得查询的全局表示,即ˆE∈R1×D。此外,通过附加一个额外的GRU层和线性层,InstanceRefer通过语言特征预测查询的目标类别。这个输出有助于模型随后从所有实例中过滤出候选者。03.3. 多级视觉上下文0在将实例输入以下模块之前,InstanceRefer首先使用语言编码器预测的目标类别来过滤候选实例。例如,如图2所示,对于从原始点云提取的所有实例,我们只保留属于目标类别“椅子”的剩余实例。随后,获得候选点云和特征的对应值ˆPI和ˆFI。需要注意的是,语言查询的目标分类准确率超过97%。因此,利用的过滤操作不会引入明显的噪声,同时可以极大地提升唯一实例候选场景的接地性能。然后,将过滤后的实例与以下多级视觉上下文模块进行比较。AP模块。考虑到句子中有许多形容词(例如,“一本长书架”表示尺寸,“一把棕色椅子”表示颜色,“一张方形桌子”表示形状等),属性感知(AP)模块旨在明确捕捉来自属性短语的此类信息。具体而言,AP模块将第i个候选的信息,即点云ˆPIi和其属性特征ˆFIi作为输入,并生成候选的全局表示向量FAi。如图3(a)所示,我们的模型构建了一个四层稀疏卷积(SparseConv)[7]作为特征提取器。提取器首先将点云体素化为3D体素,然后以更高效的方式仅对非空体素进行卷积运算。随后,通过平均池化,获得特征表示ˆFA∈R1×D。0RP模块。由于存在许多关于不同实例之间关系的描述,例如“桌子在黑色椅子和床之间”,仅使用属性相关的方式无法捕捉到这些信息。因此,提出了一个关系感知(RP)模块来编码候选实例与其周围实例之间的关系。图3(b)说明了RP模块的设计。给定第i个候选点云ˆPIi,RP模块首先搜索与实例ˆPIi的中心最近的K个实例级邻域。随后,采用基于图的聚合方法来融合局部邻域的特征。为了定义第i个候选和第k个邻近实例之间的边关系rij,RP模块采用了DGCNN[31]:0(a)AP模块(b)RP模块0A Fi ˆ0R Fi ˆ0图0构建0{'椅子','桌子',相对位置}0GCN和最大0池化0k-NN0实例0体素化0SparseConv0层0平均池化0I Pi ˆ0图3.AP和RP模块的内部结构。部分(a)说明了属性感知(AP)模块,它使用四层SparseConv提取每个候选物体的全局特征。在部分(b)中,关系感知(RP)模块聚合了候选物体与其相邻实例的信息。0其中C(∙)是选择实例的中心坐标,S I i和S Ik分别表示第i个和第k个实例的语义实例掩码。MLP(∙)表示多层感知器。符号[∙;∙]表示按通道连接。通过公式(3),RP模块不仅考虑了相对位置,还考虑了候选物体与其邻居之间的语义关系。最终,通过将插值特征与候选特征连接起来,通过最大池化的另一个MLP聚合第i个候选物体的特征,得到全局表示ˆ F G i。0其中N(ˆ P I i,K)表示ˆ P I i的K个最近邻实例,hik是第k个实例的坐标和语义实例掩码的统一表示。请注意,上述MLP(∙)的输出维度与公式(3)中的输出维度相同。0GLP模块。全局定位感知(GLP)模块旨在补充前述两个模块忽略的背景信息。还有其他关于全局定位信息的描述,例如“在角落”和“靠墙边”,但这些信息不能包含在AP和RP模块中。如图4所示,GLP模块以整个点云作为输入。通过使用另一个SparseConv编码器,该模块首先提取整个场景的逐点特征。然后在高度轴上进行平均池化,生成鸟瞰图(BEV)特征。请注意,每个输入点云在BEV平面上分为3×3个区域。通过重复连接语言特征ˆ E并通过MLP流动,+ˆfi,k =||ˆpIi,k − acj||−12· apj,(6)17950体素化0SparseConv0层0候选特征0鸟瞰图特征0池化0高度0定位预测 E ˆ0MLPs0G Fi ˆ0插值0注意力池化0P I P i ˆ0插值0特征0Figure 4.GLP模块的示意图。GLP模块首先预测目标在3×3的鸟瞰图平面上的位置。然后使用插值特征和候选特征生成聚合特征ˆ F G i。0GLP模块预测目标候选物体在九个区域之一的位置。此外,每个区域的概率被插值到第i个候选物体的点云中,ˆ p I i,k和ˆ f i,k分别是第i个候选物体中第k个点的坐标和插值特征。n =9表示区域的总数,a p j和a cj分别是总共九个区域中第j个区域的定位概率和中心坐标的概率。最后,将插值特征与候选特征连接起来,通过另一个具有最大池化的MLP将第i个候选物体的特征聚合为全局表示ˆ F G i。0n=0其中ˆ p I i,k ∈ ˆ P I i和ˆ fi,k分别是第i个候选物体中第k个点的坐标和插值特征。n =9表示区域的总数,a p j和a cj分别是总共九个区域中第j个区域的定位概率和中心坐标的概率。最后,将插值特征与候选特征连接起来,通过另一个具有最大池化的MLP将第i个候选物体的特征聚合为全局表示ˆ F G i。03.4. 视觉-语言匹配0利用候选物体的多层次视觉特征(即ˆFA,ˆFR,ˆFG)和语言特征ˆE,我们进行匹配操作,为每个实例获取置信度分数。考虑到获得的多个特征,一种简单的确定所指目标的方案是通过它们的相似性找到与语言特征最相关的视觉特征。然而,这种方法忽略了三个感知模块的不同比例。为了解决这个问题,我们利用MCAN[37]中的模块化共同注意力进行自适应的视觉-语言匹配。对于第i个实例,我们将三个视觉特征连接到合并的特征ˆFi ∈R1×(D×3)。然后,我们进一步使用三个共同注意力层将语言特征聚合到更新实例特征。最后,利用sigmoid激活函数输出实例分数。03.5. 对比目标0对于目标函数,我们采用对比的方式来训练我们的网络。在这里,如果一个实例与GT物体边界框的IoU超过阈值Γ,则将其定义为查询的正例,否则为负例。如果一个查询没有正例,我们不计算其损失。直观上,正例的匹配分数应该高于负例。因此,我们根据[27]的考虑,考虑到多个正例,得到我们的匹配损失如下:0Lmat = -log ∑i=1exp(Q+i)0∑i=1exp(Q+i) + ∑Mi=L+1exp(Q−i),(7)0其中,Q+和Q-表示正样本和负样本的分数,L和M分别是场景中正候选和总候选的数量。所有候选都参与优化过程。语言分类损失Lcls和BEV定位损失Lbev也包括在联合目标分类和定位预测中。最终损失是匹配损失的加权和,包括对语言查询的对象分类损失和定位损失,L = Lmat + λ1Lcls +λ2Lbev,其中λ1 = λ2 =0.1是调整每个损失比例的权重。IoU阈值Γ设为0.3。04. 实验0在本节中,我们详细介绍实验过程和分析,以证明我们的InstanceRefer在3D视觉定位中的有效性。04.1. 实现0在我们的实验中,我们采用官方预训练的PointGroup[11]作为骨干网络来进行全景分割。对于语言编码,我们使用与ScanRefer[2]相同的GloVE和BiGRU来生成256通道的词特征。自注意力的输出保持相同的256通道。AP模块由四个3D稀疏卷积块组成,每个块内部有两个3D稀疏卷积。随着网络的加深,我们逐渐增加通道数(即32、64、128、256)。GLP模块应用相同的稀疏卷积块结构,但块数较少(即32、128、256的3个块)。在RP模块中,kNN实例数K为8,两个MLP的通道数分别为(256,256)和(256)。我们使用批量大小为32的Adam优化器对网络进行30个epoch的训练。网络的学习率初始化为0.0005,每10个epoch衰减为0.9。所有实验都在PyTorch和单个NVIDIA 1080TiGPU上实现。我们将发布我们的代码和预训练模型供未来研究使用。17960表1.定位结果的比较。TGNN将原始的GRU层替换为预训练的BERT来提取语言特征。我们的方法遵循TGNN的策略,只使用坐标(Geo)和颜色信息(RGB)作为输入,而ScanRefer在基准测试中使用了额外的法线(Nor)和来自预训练的2D特征提取器的多视图特征。测试集的分数来自在线评估。只比较已发布的方法。于2021年3月18日访问。0唯一 多个 总体 方法 输入 Acc@0.25 Acc@0.5 Acc@0.25 Acc@0.5 Acc@0.25 Acc@0.50验证结果0SCRC [9] RGB图像 24.03 9.22 17.77 5.97 18.70 6.45 One-stage [35] RGB图像 29.32 22.82 18.72 6.49 20.38 9.040ScanRefer [2] Geo + RGB 65.00 43.31 30.63 19.75 37.30 24.32 TGNN [10] Geo + RGB 64.50 53.01 27.01 21.88 34.2927.92 TGNN[10]+BERT [5] Geo + RGB 68.61 56.80 29.84 23.18 37.37 29.70 InstanceRefer (我们的方法) Geo + RGB 77.4566.83 31.27 24.77 40.23 32.930测试结果(ScanRefer基准测试)0ScanRefer [2] Geo+Nor+Multiview 68.59 43.53 34.88 20.97 42.44 26.030TGNN [10] Geo + RGB 62.40 53.30 28.20 21.30 35.90 28.50 TGNN [10]+BERT [5] Geo + RGB 68.34 58.94 33.12 25.2641.02 32.81 InstanceRefer (我们的方法) Geo + RGB 77.82 66.69 34.57 26.88 44.27 35.8004.2. 数据集和指标0ScanRefer。ScanRefer数据集是一个新提出的3D场景视觉定位数据集,据我们所知,它包含了51,538个对ScanNet场景的描述[4]。该数据集分为36,655个样本用于训练,9,508个样本用于验证,5,410个样本用于测试。评估指标计算了预测边界框与真实边界框之间的3D交并比(IoU)。采用Acc@ m IoU作为评估指标,其中m ∈ {0.25,0.5}。准确率分别在“unique”和“multiple”类别中报告。如果场景中只存在一个类别的单个对象,我们将其视为“unique”,否则为“multiple”。此外,为了全面评估我们的模型,我们在验证集和测试集上进行了公平比较。ScanRefer基准测试2进行在线测试,每种方法只允许提交两次结果。Nr3D和Sr3D。ReferIt3D[1]数据集与ScanRefer在ScanNet上使用相同的训练/验证划分,但使用手动提取的实例作为输入,即为每个场景提供对象掩码,并旨在选择唯一的参考对象。具体而言,它包含两个数据集,其中Sr3D(3D空间参考)有83.5K个由模板生成的合成表达式,而Nr3D(3D空间自然参考)由类似于ReferItGame[12]的方式收集的41.5K个人类表达式组成。由于ReferIt3D直接使用实例的点云作为输入,因此可以看作是我们的InstanceRefer的实例匹配阶段,而不涉及与环境(即墙壁和地板)的交互。02 http://kaldir.vc.in.tum.de/scanrefer_benchmark0我们在ReferIt3D上对AP和RP模块进行了实证验证,以验证我们提出的模块的有效性。我们使用与他们论文相同的评估策略和指标。04.3. 定量比较0我们首先在ScanRefer数据集上将InstanceRefer与最先进的方法进行比较,结果显示在表1中。在这些方法中,SCRC[9]和One-stage[35]是基于图像的方法,以RGB图像作为输入。具体来说,它们选择具有最高置信度得分的2D边界框,并使用该帧的深度图将其投影到3D空间中。ScanRefer [2]和TGNN[10]是基于点云的方法,它们将点云的坐标和其他特征作为输入。在本文中,我们遵循TGNN[10]的输入模态,仅利用几何坐标(XYZ)和颜色信息(RGB)作为输入。如表1所示,我们的模型在验证集和在线基准测试中获得了最高分数。需要注意的是,基于图像的方法(即SCRC和One-stage)无法取得令人满意的结果,因为它们受限于单个帧的视角。尽管TGNN也应用了Point-Group进行实例分割,但我们的方法在很大程度上优于它,特别是在“unique”情况下,这主要得益于过滤候选项的合理策略。此外,我们的模型改进明显,当将GloVE和GRU作为语言编码器时,在Acc@0.5方面“unique”提高了11.8%,“multiple”提高了6.7%。我们的改进源于精心设计的流程和三个新模型,而TGNN的改进主要基于预训练的BERT嵌入。更重要的是,我们在验证集和测试集上进行了公平比较。17970表2.Nr3D和Sr3D数据集上指代对象识别的比较。这里的“简单”和“困难”是根据场景中是否有两个以上相同对象类别的实例来确定的。“视角相关”和“视角无关”是根据指代表达是否依赖于摄像机视角来确定的。0数据集 方法 简单 困难 视角相关 视角无关 总体0Nr3D ReferIt3DNet [1] 43.6% ± 0.8% 27.9% ± 0.7% 32.5% ± 0.7% 37.1% ± 0.8% 35.6% ± 0.7% TGNN [10] 44.2% ± 0.4% 30.6% ± 0.2%35.8% ± 0.2% 38.0% ± 0.3% 37.3% ± 0.3% IntanceRefer (我们的方法) 46.0% ± 0.5% 31.8% ± 0.4% 34.5% ± 0.6% 41.9% ± 0.4% 38.8% ±0.4%0Sr3D ReferIt3DNet [1] 44.7% ± 0.1% 31.5% ± 0.4% 39.2% ± 1.0% 40.8% ± 0.1% 40.8% ± 0.2% TGNN [10] 48.5% ± 0.2% 36.9% ± 0.5%45.8% ± 1.1% 45.0% ± 0.2% 45.0% ± 0.2% IntanceRefer (我们的方法) 51.1% ± 0.2% 40.5% ± 0.3% 45.4% ± 0.9% 48.1% ± 0.3% 48.0% ±0.3%0图5.ScanRefer和我们的InstanceRefer的定性结果。如果预测的边界框与真实边界框的IoU得分大于0.5,则标记为绿色,否则标记为红色。真实边界框以黄色显示。0更重要的是,即使ScanRefer利用了基准上预训练的ENet[21]的额外多视图特征,我们的整体结果在Acc@0.5上仍然实现了约10%的改进。此外,由于我们采用了预训练的全景分割模型并离线存储分割结果,我们的方法训练时间更短,内存消耗更低。0表2的结果说明了在Nr3D和Sr3D数据集上的实例匹配准确性。我们提出的InstanceRefer在Nr3D和Sr3D数据集上取得了最好的结果。实验证明,我们提出的感知模块是准确地将点云场景与文本描述进行关联的有效组件。0纯实例匹配性能显著。因此,我们的InstanceRefer在3D点云VG任务上表现出更强的能力,优于ScanRefer和TGNN。0图5显示了ScanRefer和我们方法产生的可视化结果。如果预测的边界框与真实边界框的IoU得分大于0.5,则标记为绿色,否则标记为红色。ScanRefer的失败案例表明其架构无法根据空间关系区分模糊的对象。相反,InstanceRefer可以在复杂场景中准确定位描述的对象,即使有长文本描述,例如,第一列和第二列的结果展示了我们准确的实例选择,第五列展示了我们的方法。66.4320.3229.4662.6619.6728.0162.8516.2125.2966.5921.5630.4966.8022.1831.0466.8324.7732.93ScanRefer43.3119.7524.32PG [11] + ScanRefer60.0521.6129.07PG [11] + ReferIt3DNet60.2221.4128.94InstanceRefer66.8324.7732.93InstanceRefer⋆68.7824.8233.35GT Box + ScanRefer73.5532.0040.06GT Inst + ScanRefer79.3536.0844.48GT Inst + ReferIt3DNet79.0437.1945.38GT Inst + InstanceRefer90.2439.3249.2017980表3.在ScanRefer验证集上对不同网络架构的消融结果,其中以Acc@0.5作为度量标准。这里MAT.表示匹配模块。0AP RP GLP MAT. 唯一 多个 总体0我们的方法可以更精细地生成边界框。04.4. 综合分析0消融研究。表3展示了不同模块的有效性。一方面,如果只使用单个感知模块,AP模块可以取得最好的结果。另一方面,当额外使用RP和GLP模块时,可以看到比AP模块更显著的改进。具体来说,RP模块的增益略大于GLP模块。原因是场景中实例之间的关联描述与定位相比更常见。此外,我们应用的视觉-语言匹配方法优于简单的余弦相似度排名。0使用相同骨干进行实例匹配。为了进一步说明所提模块的有效性,我们比较了使用相同全景分割骨干或真实实例提取的实例匹配结果。对于ScanRefer [2],我们使用PointNet++[26]提取每个实例的特征,并替换其提案特征。此外,我们还评估了使用真实边界框中的点作为输入的ScanRefer。对于ReferIt3DNet[1],由于其原始框架是应用于手动分割的实例上的,我们直接使用其原始模型。它们都使用了与我们模型相同的训练策略,以进行公平比较。由于TGNN[10]最初使用PointGroup进行实例分割,我们在本节中不讨论它。实验结果总结在表4中。从表4的上半部分可以看出,PointGroup[11]的全景分割可以提升ScanRefer的性能,特别是在“unique”情况下。此外,当使用PointGroup提取的实例时,ReferIt3DNet的性能与ScanRefer相似。需要注意的是,InstanceRefer在Acc@0.5上仍然显著优于它们,对于“unique”是6.6%,对于“multiple”是3.1%。这证实了我们的改进不仅来自基于全景分割的过滤策略,还来自精心设计的多层次感知模块。此外,使用0表4.在ScanRefer验证集上使用相同全景分割骨干的实例匹配结果,其中使用Acc@0.5作为指标。�表示使用GT语言分类。0骨干和方法 Unique Multiple Overall0由于语言分类的准确率足够高(超过97%),因此使用真实目标作为输入的ground-truth目标受到了限制。从表4的下半部分可以看出,使用GT实例点云要优于使用GT边界框中的点,这部分归功于3D边界框中遮挡的干扰。此外,InstanceRefer在ReferIt3DNet和ScanRefer上取得了最先进的性能,这要归功于实例匹配策略。总之,我们提出的框架可以有效提升性能。05. 结论0在本文中,我们提出了一种名为InstanceRefer的新型框架,用于3D视觉定位。我们的模型通过统一实例属性、关系和定位感知,实现了更准确的定位。具体来说,InstanceRefer通过语言查询创新地预测目标类别,并通过全景分割筛选出少量候选对象。此外,我们提出了合作整体场景-语言理解的概念,即多层次的上下文引用实例属性、实例之间的关系以及实例与背景的全局定位。实验结果表明,InstanceRefer在性能上大大优于之前的方法。我们相信我们的工作为3D视觉定位制定了一种新的策略。0致谢0该工作部分得到了国家自然科学基金青年项目61902335的支持,广东省重点领域研发计划2018B030338001号的支持,国家重点研发计划2018YFB1800800号的支持,深圳市杰出人才培养基金的支持,广东省研究项目2017ZT07X152号的支持,广东省区域联合基金重点项目2019B1515120039的支持,国家自然科学基金61931024&81922046的支持,helixon生物技术公司基金的支持以及CCF-Tencent开放基金的支持。17990参考文献0[1] Panos Achlioptas,Ahmed Abdelreheem,FeiXia,Mo- hamed Elhoseiny和LeonidasGuibas。Referit3d:用于细粒度3D对象识别的神经听众在现实场景中。在欧洲计算机视觉会议上,页码422-440。Springer,2020年。2,6,7,80[2] Dave Zhenyu Chen,Angel X Chang和MatthiasNießner。Scanrefer:使用自然语言在RGB-D扫描中定位3D对象。第16届欧洲计算机视觉会议(ECCV),2020年。1,2,3,5,6,80[3] Junyoung Chung,Caglar Gulcehre,KyungHyunCho和YoshuaBengio。对序列建模的门控循环神经网络的实证评估。arXiv预印本arXiv:1412.3555,2014年。30[4] Angela Dai,Angel X Chang,Manolis Savva,MaciejHalber,Thomas Funkhouser和MatthiasNießner。Scannet:室内场景的丰富注释的3D重建。在IEEE计算机视觉模式识别会议上,页码5828-5839,2017年。60[5] Jacob Devlin,Ming-Wei Chang,KentonLee和KristinaToutanova。Bert:用于语言理解的深度双向变压器的预训练,2018年。60[6] Ankit Goyal,Kaiyu Yang,Dawei Yang和JiaDeng。Rel3d:用于在3D中接地空间关系的最小对比基准。神经信息处理系统的进展,33,2020年。20[7] Benjamin Graham,Martin Engelcke和Laurens VanDerMaaten。带有亚流形稀疏卷积网络的3D语义分割。在IEEE计算机视觉和模式识别会议上,页码9224-9232,2018年。40[8] Qingyong Hu,Bo Yang,Linhai Xie,StefanoRosa,Yulan Guo,Zhihua Wang,Niki Trigoni和AndrewMarkham。RandLA-Net:大规模点云的高效语义分割。IEEE计算机视觉模式识别会议,页码11108-11117,2020年。30[9] 胡荣航,徐华哲,Marcus Rohrbach,冯家石,KateSaenko和TrevorDarrell。自然语言对象检索。在IEEE计算机视觉模式识别会议上,页码4555-4564,2016年。60[10] Pin-Hao Huang,Han-Hung Lee,Hwann-TzongChen和Tyng-LuhLiu。用于引用3D实例分割的文本引导图神经网络。第35届AAAI人工智能会议,2021年。2,6,7,80[11]江立,赵恒爽,石少帅,刘舒,傅志荣和贾佳亚。Pointgroup:双集0用于3D实例分割的点分组。在IEEE计算机视觉模式识别会议上,页码4867-4876,2020年。3,5,80[12] Sahar Kazemzadeh,Vicente Ordonez,MarkMatten和TamaraBerg。Referitgame:在自然场景的照片中引用对象。在2014年经验方法在自然语言处理(EMNLP)会议上的论文集,页码787-798,2014年。1,2,60[13] Alexander Kirillov,Kaiming He,RossGirshick,Carsten Rother和PiotrDoll´ar。全景分割。在IEEE计算机视觉模式识别会议上,页码9404-9413,2019年。30[14] Loic Landrieu和MohamedBoussaha。使用图结构深度度量学习的点云过分割。在IEEE计算机视觉模式识别会议,页码7440-7449,2019年。30[15] Loic Landrieu和MartinSimonovsky。使用超点图的大规模点云语义分割。在IEEE计算机视觉模式识别会议上,页码4558-4567
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功