没有合适的资源?快使用搜索试试~ 我知道了~
6814FS6D:新对象的少镜头6D姿态估计何义生1王耀2范浩强2孙健2陈奇峰11香港科技大学2旷视科技摘要6D对象姿态估计网络由于闭集假设及其对高保真对象CAD模型的依赖而在其缩放到大量对象实例的能力方面受到限制。在这项工作中,我们研究了一个新的开集问题:少镜头6D物体姿态估计:估计一个未知物体的6D姿态由几个支持视图没有额外的训练。为了解决这个问题,我们指出了充分探索给定支持视图和查询场景片之间的外观和几何关系的重要性,并提出了一个稠密原型匹配框架,通过提取和匹配稠密RGBD原型与transformers.此外,我们表明,来自不同外观和形状的先验知识对问题设置下的泛化能力至关重要,因 此 提 出 了 一 个 大 规 模 RGBD 光 度 学 数 据 集(ShapeNet6D)用于网络预训练。本文还提出了一种简单有效的在线纹理混合方法,消除了合成数据中的域间隙,以较低的代价丰富了外观多样性最后,我们讨论了这个问题的可能解决方案,并在流行的数据集上建立基准,以方便未来的研究。[项目页面]1. 介绍6D物体位姿估计旨在预测从物体坐标系到相机坐标系的刚性变换,这有利于各种应用,包括机器人操作、增强现实、自动驾驶等。深度学习的爆炸性发展为这个问题带来了重大改进。 最近的作品[15,16]达到近99%在现有基准[18,22,58]上的召回准确度,人们可能会得到6D对象姿势问题已经解决的印象,但情况并非如此。我们认为,目前的问题已经被简化了严格的限制。它们是在闭集假设下,即训练和测试数据来自同一对象空间,然而,这并不符合真实的动态世界。此外,奢侈的高保真CAD模型和大型-一些看法查询场景面片估计姿态少镜头姿态估计网络图1. 少数拍摄的6D姿态估计问题。给出了一个带有姿态标签的新对象的几个RGBD视图少镜头姿态估计网络旨在估计该对象在新的查询场景中的6D姿态,而无需额外的训练。也不需要精确的CAD模型。需要比例数据集用于训练,以在当前实例级姿态估计设置下获得对新对象的良好性能。最近提出的类别级姿态估计任务[55]放松了对相同类别内新对象的可然而,它仍然局限于预定义类别的闭集假设相反,在这项工作中,我们研究了一个新的开集问题,少数拍摄6D对象姿态估计:仅通过对象的少数视图来估计未知对象的6D姿态,而无需额外的训练。如图1所示,在我们的设置中,仅提供了一些新对象的标记RGBD图像,并且不需要高保真CAD模型。这个问题的目标是弥合机器学习算法和灵活的人类视觉系统之间的能力差距,后者可以定位和估计一个新对象的姿态,只需给出它的几个视图此外,它还具有广泛的6815机器人视觉系统中的实际应用,即,用于机器人操作和家用机器人的新对象的快速配准。根据人类同时利用表观和几何信息来匹配和定位新对象的特点具体地说,变换器被用来充分探索查询场景片和新对象的支持视图此外,我们指出,大规模数据集因此,我们引入了一个具有不同形状和外观的大规模照片级真实感数据集(ShapeNet6D)用于先验学习。据我们所知,我们的(12K对象的800K图像为了弥补RGB渲染图像与真实场景之间的域差距,本文提出了一种简单有效的在线纹理混合增强方法,该方法以较低的代价进一步丰富了图像的外观多样性,提高了网络性能。总结一下,这项工作的贡献是:• 本文介绍了一个具有挑战性的开集问题--少镜头6D目标位姿估计,并建立了一个基准点来研究它。• 我们通过密集的RGBD原型类型匹配来表达这个问题,并引入了FS 6D-Rank,它充分利用了外观和几何信息来解决这个问题。• 数据集:我们介绍了ShapeNet6D,这是一个具有不同形状和外观的大规模照片级真实感数据集,用于少数拍摄6D姿态估计算法的先验学习。我们还介绍了一个在线纹理混合增强,以获得纹理丰富的对象,没有域间隙的场景,在一个低成本。2. 相关工作2.1. 近距离环境下的6D目标位姿估计实例级姿态估计检索已知对象实例的姿态参数基于匹配的方法[13,17,24,47,59]需要精确的CAD模型来渲染数千个模板,并建立手工或学习的码本进行匹配。基于学习的方法包括直接姿态回归[53,58],密集对应探索[29]和最近的基于关键点的方法[15,16,38],这些方法可以大幅提高性能。尽管结果令人信服,但这些方法只能处理具有高保真CAD模型的已知对象的场景。 相反,最近的类别级姿态估计[55]第55话,看不见的东西,已知类别中的对象实例。提出了归一化对象坐标空间(NOCS)[55]或基于形状变形的方法[14,48]然而,假设训练和测试数据在相同的预定义实例或类别空间内,则训练实例级和类别级姿态估计问题都在闭集设置虽然这种闭集设置不符合真实的动态世界,但我们定义了一个新的开集问题,即少镜头6D姿态估计。在我们的开集设置中开发的算法可以灵活地应用于未知对象,而无需额外的训练,只需少量标记的RGBD图像,无论它们是否在训练的类别内。2.2. 可能的少镜头姿态估计解决方案局部图像特征匹配。局部特征匹配可以建立两幅图像之间的对应关系,用于少数镜头的姿态估计问题。现有的方法可以分为基于检测器的[33和无检测器[28,31,41,46]。虽然这些算法只利用灰度图像,但在无纹理对象上性能相反,我们充分利用外观和几何信息,并在更多的情况下进行推广。点云配准。一行点云注册算法通过检测3D关键点[1,27],提取特征描述符[7,8,12,20,40,40]并估计相对变换来解决问题还提出了几种端到端方法[57然而,这些算法严重依赖于精细点云,并且在深度传感器未捕获的对象上失败,即,反思的人相反,我们充分利用RGBD图像中的互补信息进行密集原型提取和匹配,以检索更好的对象姿态参数。2.3. 小样本学习问题的度量学习度量学习技术已被应用于几个少数学习问题,包括分类[11,44,52]和分割[10,32,49,61]。用于分类的代表性原型网络[44]将支持和查询图像映射到全局嵌入空间,然后基于支持嵌入检索查询图像的类标签,称为原型。在更具挑战性的分割领域中,最近基于度量学习的方法利用类似的技术,但通过将每像素查询特征与全局平均原型[10,49,64]或部分级原型[32,61]匹配来输出虽然稀疏支持原型足以解决上述问题,但少镜头姿态估计需要对像素级支持原型和查询特征进行更密集的对应探索,这更具挑战性。6816--3. 该方法3.1. 问题公式化我们介绍了少镜头6D物体姿态估计的问题设置少量拍摄的6D物体姿态估计。我们用公式表示新的开集任务,即少量6D姿态估计,如下所示。给定k个支持RGBD补丁P=p1,p2,.,p k,推断任务是在查询新颖场景图像I中检索该新颖对象的6D姿态参数。与目前的闭集设置相比,所提出的开集设置消除了对精确CAD模型的依赖,并专注于训练模型对不可见对象的泛化能力具体来说,一旦模型被训练,我们希望通过一些视图将其应用于新对象的新场景,它弥合了机器学习算法和灵活的人类视觉系统之间的差距。此外,它还支持实际应用,即,用于机器人操作和服务家用机器人的新对象的快速注册开集问题的推广需求也衍生出另一个有趣的研究问题:领域泛化。 领域泛化的目标是减少在合成数据和真实世界数据上训练的模型之间的领域差距。它已被引入到6D姿态估计领域,以处理数据的缺乏[26,36,45,54]。然而,该领域很少被探索,因为已经很好地建立了用于闭集问题的现有真实世界基准数据集[21,22]:待估计对象的真实世界训练数据可用。虽然存在-数据集模态N猫诺布日NimgLineMOD [18]RGBD-1518,273YCB-V [4]RGBD-21133,936TLESS [21]RGBD-3047,664NOCS-REAL [55]RGBD64280,000NOCS-CAMERA [55]RGBD61,085300,000ShapeNet6DRGBD5112,490800,000表1. 不同数据集的统计。ShapeNet6D在形状和外观上是多样的,这对于少数镜头6D姿势算法的通用性至关重要。Ncat:类别数;Nobj:对象实例的数量。Nimg:图像数量。对象姿态估计很小,并且缺乏形状和外观的多样性,无法为泛化能力提供足够的先验。因此,我们保留了它们作为真实世界基准数据集的角色,并提出了一个新的大规模数据集,ShapeNet6D,具有不同的形状和外观,可用于先验学习。3.2.1ShapeNet6D所提出的ShapeNet 6D是一个大规模照片级真实感数据集,包含来自ShapeNet [5]存储库的超过12K个对象实例的RGBD场景图像。每个场景图像都标记有用于6D姿态估计问题的地面真实信息,包括每个对象的实例语义分割和姿态参数。正如我们经验证明的那样,形状和外观的多样性对于网络的泛化至关重要。虽然由于成本(时间和金钱)高,在现实世界中收集和标记如此大规模的多样化数据集是不切实际的,但我们可以生成逼真的图像在我们的少镜头开集环境中,形状和外观的多样性对少镜头6D物体姿态估计算法的通用性至关重要。然而,捕获和标记这样一个大规模的真实世界数据集是不切实际的,因为成本很高(金钱和时间)。充分利用我们的大规模照片逼真数据集中的几何和外观多样性并推广到现实世界至关重要因此,对于少镜头6D位姿估计,主泛化问题是要研究的重要问题。3.2. 数据集从大规模数据集中学习到的先验知识对小样本学习算法的性能和泛化能力至关重要。例如,ImageNet [9]已被广泛用于几个少数学习任务中的网络预训练,即,目标检测和分割。虽然2D视觉任务更多地依赖于RGB图像中的语义先验,但对于少量6D对象姿态估计,形状和语义先验对于网络的泛化性都是至关重要的然而,现有的数据集[21,22,58]的6D ob-基于物理的渲染。我们的方法受到[22,62,63]中真实感数据集的成功应用的启发,同时提高了物体形状和外观的多样性。具体地说,我们利用基于物理的渲染引擎Blender1,通过光线跟踪来模拟光能量的流动,从而渲染出逼真的场景图像。为了安排要渲染的场景,我们首先从ShapeNet中随机选择几个对象,应用随机材质和纹理,然后将它们放入一个集成了PyBullet物理引擎的盒子为了丰富背景的多样性,我们从HDRIHaven2中随机选择了基于物理的渲染材料,并将它们应用到盒子的墙壁上。还添加了随机环境灯光,以生成各种照明条件。最后,从一个随机的摄像机姿态渲染RGBD场景图像,并获得地面真值实例语义分割标签和每个对象的姿态参数。与现有的6D姿态基准数据集相 比 , ShapeNet6D 的 统 计 数 据 如 表 1 所 示 。ShapeNet6D是1https://www.blender.org2https://hdrihaven.com/hdris网站6817图2. 在线数据扩充。在线纹理混合增强通过直接将真实世界图像混合到对象网格模型来生成纹理。不应用额外的人工模拟,即,模拟照明和现实世界的RGB图像的域被保留。随着在线变形增强[6],我们可以以低成本获得具有不同外观和形状的数据在更大的尺度上,并且在形状和外观上更多样化,这提供了更好的在少数拍摄姿态估计问题之前的估计,如我们经验所示。3.2.2在线纹理混合纹理场作为解决少镜头6D姿态估计问题的关键线索之一,对少镜头6D目标姿态估计的性能然而,这是劳动密集型和耗时的生成纹理和材质的对象,可以渲染为照片级逼真。渲染的RGB图像往往在真实世界之间也有更显著的域间隙。此外,为了产生逼真的图像,需要像光线跟踪这样耗时和计算的技术。因此,在网络训练之前,需要对图像进行离线预处理和存储,这对于大规模数据集来说会消耗大量另一方面,从各种相机捕获的真实世界RGB图像易于访问,即,ImageNet[9]和MS-COCO [30]。它促使我们利用高效的纹理包装技术来生成具有丰富真实世界纹理的物体场景,以作为在线数据论证。具体来说,首先将网格展开以获得UV贴图。对于每个三角形,我们得到每个顶点的UV坐标,然后在光栅化过程中利用它通过线性插值来确定每个像素的UV坐标。然后应用UV坐标从真实世界ImageNet [9]和MS-COCO [30]随机采样的纹理映射中查找颜色值以前的作品[22,37]用人工模拟渲染图像,即,Beckmann模型[2],其改变了畴并导致畴隙。相反,我们没有应用模拟,因此合成图像保持在实域中,即,保留了真实世界图像的照明条件、传感器噪声此外,这种简单的混合策略可以快速实现在线服务。此外,我们可以将其与在线形状变形[6]相结合,以产生具有丰富外观和形状变化的数据。如图2所示,3.3. 公司简介3.3.1预赛基于原型的少数镜头学习。我们首先简要介绍了基于原型的少样本学习算法它已成功应用于各种少数拍摄的2D视觉任务,即,分类和语义分割。具体而言,预先训练的暹罗骨干用于从支持和查询图像中提取特征。然后,将全局平均池化应用于提取的支持特征图以获得支持原型。然后应用该全局平均原型来计算来自查询图像的全局特征(在分类中)或密集像素特征(在语义分割中)之间的相似性以进行预测。然而,这些任务相反,这项工作提出了一个密集的原型提取模块,以建立本地到本地的支持RGBD图像和查询场景补丁之间的对应关系,用于姿态估计。Transformer [51]. Transformers网络首先在自然语言处理中引入,并被引入许多视觉任务中。多头注意机制使它能够捕捉长期的依赖性,即使在一个无序的集合。具体地,给定三个向量作为输入,即查询Q、键K和值V。注意机制是从值s. t中检索信息IQ和K之间的相似性,表示为:I检索= softmax(QK T)V。(一)Transformer网络[51,56]具有捕获长期依赖性的能力,已被广泛应用于聚合局部特征匹配[43,46]和点云配准[23]领域的上下文信息在这项工作中,我们进一步扩展到稠密随机背景原始形状场景在线变形真实世界纹理随机背景变形形状场景6818全流双向融合网络密集原型匹配姿态估计CNN编码器CNN解码器支持查看查询场景对应矩阵梅山算法支持查看点云编码器点云解码器支持原型查询特征线性Transformer查询场景图3. 我们的管道概述。利用Siamese全流双向融合网络[15]分别从支持视图和查询场景补丁中提取丰富的外观和几何特征。然后将提取的特征送入自注意和交叉注意模块,以获得密集支持原型和查询特征进行对应推理。最后,应用Umeyama算法[50]来恢复查询场景块中的新对象的姿态参数。RGBD原型从支持视图和逐点本地功能从查询场景补丁的相似性计算。最后,在建立密集原型和场景特征之间的对应关系之后,利用Umeyama算法[50]来估计6D姿态参数。图4. RGBD图像中的补充信息用于少数拍摄的6D姿态估计。(1)RGB图像中的纹理信息对于具有光滑表面的物体是至关重要的线索。(2)深度图像中的几何信息是无纹理物体的重要线索.RGBD原型匹配,用于少量6D姿态估计。3.3.2概述为了构建能够很好地通用于新对象的少量姿态估计算法,关键是充分探索给定支持视图与查询场景块之间的语义和几何关系,如图4所示。在本节中,我们将介绍我们的密集原型匹配框架来解决这个具有挑战性的问题。如图3所示,我们的框架由三个主要部分组成。首先,利用Siamese RGBD特征提取主干为每个像素/点提 取 丰 富 的 语 义 和 几 何 特 征 。 然 后 , 采 用 基 于transformers的稠密原型抽取网络抽取稠密原型,3.3.3特征提取主干第一步是从给定的RGBD图像中提取丰富的语义和几何特征。作为一个基本问题,许多著作[15,53,60]研究了这种表征学习任务。最近,FFB6D [15]引入了用于6D姿态估计的全流双向融合网络,并显着提高了闭集姿态估计的性能具体而言,在每个编码和解码层中添加双向局部特征融合块,以弥合信息鸿沟并提高外部语义和几何特征的质量(详情参见[15])。在这项工作中,我们利用FFB6D构建一个暹罗网络,用于从支持图像和查询场景中提取特征。3.3.4密集原型提取与匹配现在我们已经从暹罗特征提取主干中获得了密集特征。然后,我们提取密集的支持原型和查询功能来计算相似性,并建立对应关系。为了从支持视图中提取具有描述性和代表性的密集RGBD原型,从查询场景中提取密集查询特征,充分利用点云中的结构几何信息和RGB图像中的语义信息至关重要。此外,上下文信息((6819OΣ||ΣL =||q−(Rp+T)||-是的(2)lsqi i⟨··⟩联系我们M支持镜头和查询片之间的匹配对于提高相似度计算和对应性探索的精度也是至关重要的。考虑到变压器在长期依赖性捕获方面的功率,我们利用优化的线性变压器[56]来实现上述两个目的。如图3的中间部分所示,我们首先在提取的特征图上建立自我关注,以加强提取的密集原型和密集查询特征中的几何和语义信息。我们将这些外部特征看作查询、键和值,并将它们送入线性Transformer网络,以增强语义和几何特征。同时,交叉注意模块也被用来探索支持原型和查询场景特征之间的上下文信息。准确地说,为了从支持原型中提取上下文信息到查询场景特征,我们将每个场景特征作为一个查询,并将密集原型作为线性变换器的键和值。类似地,增强了来自查询场景特征的上下文信息以支持原型类型。在提取上下文信息的基础上,引入另一个自注意模块,进一步增强几何特征和语义特征。在这4. 实验4.1. 基准数据集LineMOD [18]和YCB-Video [4]是用于6D对象姿态估计的两LineMOD数据集包含13个低纹理对象的13个视频,而YCB-Video数据集包含21个YCB对象的92个RGBD视频。对于少镜头的姿态估计问题,我们为每个对象选择16个镜头进行姿态估计。我们还遵循其他成熟的少数问题的策略,即,分割,并将数据集分成不同的组。具体来说,我们将每个数据集的对象分为三组,每次选择一组进行测试,剩下的两组进行训练(详细信息请参阅补充材料)。4.2. 评估指标平均距离度量ADD和ADDS被广泛用于6D姿态估计的性能评估。 为对象由顶点v、具有预测姿态R、T的非对称对象的ADD和地面真实姿态R,T通过下式计算方法,我们获得密集的支持原型和查询功能,具有丰富的语义,几何和上下文信息,ADD=1M||.||.(三)v∈Omation与基于原型的少镜头分类和分割算法不同,对于对称对象,基于最近点距离的ADDS定义为:正弦距离,我们遵循局部特征匹配管道[43]通过计算建立稠密对应关系C(i,j)=<$P(i),Q(j)<$P(i)是第i个原型,Q(j)ADDS=1M v∈O最小值(Rv1v2∈O+T)−(Rv2+T)||.(四)第j个查询特征和内积。 Sinkhorn算法[39]也适用于可微优化。4.2.1姿态参数估计在建立密集原型和查询场景特征之间的对应关系之后,我们利用Umeyama [50]算法来恢复姿态参数。具体地说,给定一组匹配对其中pi,qi是匹配的原型和查询的3D坐标,Umeyama算法通过最小化以下各项来估计旋转R和平移TN22i=1消除异常值的影响。RANSAC算法也被应用。给定一个新对象的K个支持视图,我们可以获得K个预测的姿态参数以及它们的损失。我们选择损失最小的一个作为我们的最终预测。在YCB视频数据集中,通过改变距离阈值(ADDS和ADD AUC)获得的准确度-阈值曲线下面积报告如下[15,16,58]。在LineMOD数据集中,我们报告了距离小于10%的对象直径召回率(ADD-0.1d),如[19,38]所示。4.3. 基线少数拍摄的6D对象姿态估计问题的可能解决方案我们在每个方向上选择最先进的解决方案作为我们的基线。LoFTR[46]是一种用于局部图像特征匹配的无检测器深度学习架构。它使用变形金刚中的自我和交叉注意层来获得高质量的匹配。PREDATOR[23]是一种用于成对3D点云配准的神经架构,对重叠区域给予了高度关注。它学习检测两个未注册扫描之间的重叠区域,并在采样特征点时聚焦于该区域。模板匹配。模板匹配方法[13,17,24]将离散姿态估计问题转化为分类问题。这些方法依赖于CAD模型,6820GT捕食者YCB视频LineMODLoFTR公司简介图5. YCB-Video(左)和LineMOD(右)数据集的定性结果。我们可视化了PREDATOR [23],LoFTR [46]和拟议的FS 6D-BTR的结果。地面实况也在第一行中可视化。组对象捕食者[23日]LoFTR [46个]TP-UB公司简介添加添加添加添加添加添加添加添加002主厨可以73.017.487.250.662.221.492.636.8003饼干盒41.78.371.825.565.65.083.924.5004糖盒53.715.363.913.466.721.595.143.90005番茄汤罐头81.244.477.152.975.243.193.054.2006芥末瓶35.55.084.559.047.14.097.071.1007金枪鱼罐头78.234.272.655.772.838.494.553.9008布丁盒73.524.286.568.186.318.494.979.6009明胶盒81.437.571.645.290.943.298.332.1010罐装肉罐头62.020.967.445.159.828.987.654.9011香蕉57.79.924.21.679.254.594.069.11019投手垒83.718.158.722.317.50.791.140.4021漂白洁面乳88.348.136.916.720.30.689.444.1024碗73.217.432.71.430.70.074.70.9025马克杯84.829.547.323.646.013.986.539.2035电钻60.612.318.81.342.30.773.019.8036木块70.510.049.91.413.51.394.727.9037剪刀75.525.032.314.689.571.874.227.72040大标记81.838.920.78.482.551.997.474.2051大夹钳83.034.424.111.249.020.082.734.7052特大型夹具72.924.115.01.850.29.465.710.1061泡沫砖79.235.559.431.491.860.595.745.8是说71.024.352.526.259.024.288.442.1表2.在YCB-Video数据集上对不同的几次拍摄6D姿势基线进行定量评估其中,所提出的FS 6D-充分利用的外观和几何信息实现了最佳的性能。TP-UB:模板方法的上限组[23]第二十三话LoFTR [46]TP-UB公司简介ADD-0.1dADD-0.1dADD-0.1dADD-0.1d055.138.08.170.0140.430.410.086.8246.830.313.293.4是说48.033.410.183.4表3.在LineMOD数据集上定量评估不同的少数拍摄6D姿势基线。所提出的FS 6D-ESTA充分利用了外观和几何信息,实现了最佳性能。TP-UB:基于模板方法的上限6821×领域泛化。如表5所示,我们的模型在具有在线数据增强的ShapeNet6D上训练为4。1%落后于微调后的1.考虑到LineMOD数据集中较小的形状和外观多样性,与ShapeNet6D相比,我们认为性能下降主要来自域间隙。预计未来将有更多的作品填补这一空白,以充分挖掘ShapeNet6D中形状和外观多样性的力量,例如,设计域不变算法。表4.在线纹理混合的效果。w/o OTB:不带在线纹理混合; w/OTB:带在线纹理混合。组从头预训练预训练+微调062.873.970.0157.777.986.827586.193.4是说65.279.383.4表5. ShapeNet6D对LineMOD数据集进行预训练的效果。形状和外观先验的多样性大幅提高了可推广性。生成数千个模板并检索最接近场景的然而,在我们的问题中,我们消除了对精确对象CAD模型的依赖性此外,捕获、标记和存储数千个支持镜头非常耗时和存储。我们将旋转最接近地面真实值的视图和中心偏移分配为平移,以揭示这些方法的上限。为了公平比较,所有基线和拟议基线都没有配备迭代细化,例如,国际比较方案[3]。4.4. 培训和实施我们为我们的模型裁剪带有地面实况边界框的对象补丁,并将其大小调整为255 255作为输入。通过负对数似然损失优化对应关系[43]。为了进行公平的比较,我们在ShapeNet6D上对所有模型进行了两个时期的在线数据增强预训练,并在基准数据集上进行了五个时期的微调。我们为每个对象选择16个不同的视图作为支持图像。4.5. 基准测试结果LineMOD和YCB-Video数据集上的结果 YCB-Video和LineMOD数据集的定量结果分别见表2和表3。由于支持和查询图像之间的外观和几何关系的联合推理,我们的方法优于最先进的局部图像特征匹配方法和点云配准算法的大幅度提高。一些定性结果如图5所示。4.6. 消融研究预训练对大规模ShapeNet6D的影响如表5所示,在ShapeNet 6D上训练的FS 6D-SVM比在LineMOD数据集上从头开始训练的FS 6D-SVM表现更好(+11%),证明了ShapeNet 6D中形状和外观多样性的有效性。在线纹理混合的效果 如表4所示,所提出的在线纹理混合提供了不同的纹理先验,并大幅提高了YCB-Video数据集中纹理丰富的物体的性能。5. 讨论和限制在这项工作中,我们研究了一个具有挑战性的开集问题,少镜头的6D物体姿态估计。我们指出了解决这个问 题的外观 和几何 信息的本 质,并 提出FS 6D-Boundary作为一个坚实的基线来解决它。此外,我们表明,从不同的形状和外观的先验是至关重要的几个镜头的6D姿态估计算法的推广性,并引入了一个大规模的数据集(ShapeNet 6D)的网络预训练。提出了一种在线纹理混合增强方法来弥补域间的差异。然而,这项工作仍然存在一些局限性。首先,我们专注于姿态估计问题,并依赖于对象检测算法裁剪出感兴趣的对象的区域。虽然有各种现成的少数拍摄对象检测算法[25],但联合框架更实用。其次,尽管形状和外观多样,但所提出的大规模ShapeNet6D是合成的,并且尚未解决域间隙问题。未来的方向包括域不变姿态估计算法或大规模真实世界数据集。最后,在少数镜头al-出租和在近集设置下训练的那些之间仍然存在显著的性能差距。我们期待更多的未来研究,例如,利用基于3D关键点的技术[15,16]来弥合这一差距。鸣谢本工作得到广州奥凯信息技术有限公司的项目GZETDZ18EG05的支持。对象不含OTB带OTB添加添加002主厨可以23.450.0003饼干盒15.142.0004糖盒12.352.5005番茄汤罐头52.874.7006芥末瓶55.475.4007金枪鱼罐头54.556.5008布丁盒34.442.2009明胶盒50.794.2010罐装肉罐头38.754.8是说37.560.36822引用[1] 白旭阳、罗紫欣、周磊、符洪波、龙泉、戴洁兰。D3feat:3D局部特征的密集检测和描述的联合学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第6359-6367页,2020年。2[2] 彼得·贝克曼和安德烈·斯皮齐奇诺。电磁波从粗糙表面散射。诺伍德,1987年。4[3] Paul J Besl和Neil D McKay。三维形状配准方法。在SensorfusionIV : controlparadigmsanddatastructures,第1611卷,第586国际光学与光子学会,1992年。8[4] Berk Calli、Arjun Singh、Aaron Walsman、SiddharthaSrini-vasa、Pieter Abbeel和Aaron M Dollar。YCB对象和模型集:面向操作研究的公共基准。2015年国际先进机器人会议(ICAR),第510-517页IEEE,2015年。三、六[5] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimo Li,SilvioSavarese,Manolis Savva,Shuran Song,Hao Su,et al.Shapenet:An information-rich 3d model repository. arXiv预印本arXiv:1512.03012,2015。3[6] Wei Chen,Xi Jia,Hyung Jin Chang,Jinming Duan,Linlin Shen,and Ales Leonardis. Fs-net:快速基于形状的网络,用于类别级6d对象姿态估计,具有解耦旋转机制。在IEEE/CVF计算机视觉和模式识别会议论文集,第1581-1590页4[7] Christopher Choy,Jaesik Park和Vladlen Koltun。完全卷积几何特征。在IEEE/CVF计算机视觉国际会议论文集,第8958-8966页,2019年。2[8] Haowen Deng,Tolga Birdal,and Slobodan Ilic. Ppfnet:全局上下文感知局部特征,用于鲁棒的3d点匹配。在IEEE计算机视觉和模式识别会议论文集,第195-205页,2018年。2[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。三、四[10] 董南青和邢P.具有原型学习的少量语义在BMVC,第3卷,2018年。 2[11] 维克多·加西亚和琼·布鲁娜。图神经网络的少样本学习arXiv预印本arXiv:1711.04043,2017。2[12] Zan Gojcic 、 Caifa Zhou 、 Jan D Wegner 和 AndreasWieser。完美匹配:平滑密度的三维点云匹配。在IEEE/CVF计算机视觉和模式识别会议论文集,第5545-5554页,2019年。2[13] Chunhui Gu and Xiaofeng Ren.用于视点分类的判别性混合模板。欧洲计算机视觉会议,第408施普林格,2010年。二、六[14] Yisheng He , Haoqiang Fan , Haibin Huang , QifengChen,and Jian Sun.朝向自我监督的类别层级物体姿态与大小估测。arXiv预印本arXiv:2203.02884,2022。2[15] Yisheng He , Haibin Huang , Haoqiang Fan , QifengChen,and Jian Sun.Ffb6d:一个用于6D姿态估计的全流双向融合网络在IEEE/CVF计算机视觉和模式识别会议(CVPR),2021年6月。一、二、五、六、八[16] Yisheng He, Wei Sun,Haibin Huang,Jianran Liu ,Haoqiang Fan,and Jian Sun.Pvn3d:一个用于6dof姿态估计的深度逐点3d关键点投票网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第11632-11641页,2020年。一、二、六、八[17] Stefan Hinterstoisser、Cedric Cagniart、Slobodan Ilic、Peter Sturm 、 Nassir Navab 、 Pascal Fua 和 VincentLepetit。用于实时检测无纹理物体的梯度响应图IEEETransactionsonPatternAnalysisandMachineIntelligence,34(5):876-888,2011。二、六[18] Stefan Hinterstoisser、Stefan Holzer、Cedric Cagniart、Slobodan Ilic、Kurt Konolige、Nassir Navab 和VincentLepetit。多模态模板用于在严重杂乱的场景中实时检测无 纹 理 物 体 。 2011 年 国 际 计 算 机 视 觉 会 议 , 第858IEEE,2011年。一、三、六[19] Stefan Hinterstoisser,Vincent Lepetit,Slobodan Ilic,Ste- fan Holzer , Gary Bradski , Kurt Konolige , andNassir Navab.基于模型的训练,检测和姿态估计无纹理三维物体在严重混乱的场景。亚洲计算机视觉会议,第548-562页。Springer,2012. 6[20] Stefan Hinterstoisser、Vincent Lepetit、Naresh Rajkumar和Kurt Konolige。进一步介绍点对特征。欧洲计算机视觉会议,第834施普林格,2016年。2[21] 汤姆·马尔斯·霍丹、帕维尔·哈卢扎、斯特 普 ·奥布德·扎列克、伊日·马塔斯、马诺利斯·卢拉基斯和色诺芬·扎布利斯。T-less:用于无纹理对象的6D姿态估计的rgb-d数据集 。 2017 年 IEEE 计 算 机 视 觉 应 用 冬 季 会 议(WACV),第880-888页。IEEE,2017年。3[22] 我的朋友是马丁·桑德姆、伯特伦·德罗斯特、扬·拉布、埃里克·布拉克曼、米歇尔神父、卡斯滕·罗特和吉尔·马塔斯。国际收支平衡表挑战2020年的6d物体定位。欧洲计算机视觉会议,第577Springer,2020年。一、三、四[23] Shengyu Huang , Zan Gojcic , Mikhail Usvyatsov ,Andreas Wieser,and Konrad Schindler. Predator:3D点云低重叠的配准。在IEEE/CVF计算机视觉和模式识别会议论文集,第4267-4276页,2021年。四、六、七[24] Daniel P Huttenlocher , Gregory A Klanderman , andWilliam J Rucklidge. 使 用 Haus-Dorff 距 离 比 较 图 像 。IEEE Transactions on Pattern Analysis and MachineIntelligence,15(9):850-863,1993。二、六[25] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在IEEE/CVF计算机视觉国际会议论文集,第8420-8429页,2019年。86823[26] Wadim Kehl , Fabian Manhardt , Federico Tombari ,Slobodan Ilic,and Nassir Navab.Ssd-6d:使基于rgb的3d检测和6d姿态估计再次伟大。在IEEE计算机视觉国际会议论文集,第1521-1529页,2017年。3[27] Jiaxin Li and Gim Hee Lee. Usip:从3D点云中进行无监督的稳定感兴趣点检测。在IEEE/CVF计算机视觉国际会议论文集,第361-370页,2019年。2[28] Xinghui Li,Kai Han,Shuda Li,and Victor Prisacariu.双分辨率对应网络。神经信息处理系统的进展,33,2020。2[29] Zhigang Li,Gu Wang,and Xiangyang Ji. Cdpn:基于坐标的解缠姿态网络,用于实时基于rgb的6-dof对象姿态估计。法律程序中IEEE计算机视觉国际会议,第7678-7687页,2019年。2[30] 林宗义、迈克尔·梅尔
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功