没有合适的资源?快使用搜索试试~ 我知道了~
15870空间宽深度范围6D目标位姿估计YinlinHu1,Se′ bastienSpeierer2,WenzelJak ob2,PascalFua1,MathieuSalzmann1,31EPFL计算机视觉实验室,2EPFL真实感图形实验室,3ClearSpace SA{firstname.lastname}@ epfl.ch摘要空间中的6D姿态估计提出了在陆地环境中不常见的独特挑战。最显著的区别之一是缺乏大气散射,允许物体从很远的距离可见,同时使照明条件复杂化。目前可用的基准数据集没有充分强调这方面,并且大多描述了非常接近的目标。解决大尺度变化下的姿态估计的先前工作依赖于两阶段方法来首先估计尺度,然后对调整大小的图像块进行姿态估计相反,我们提出了一个单阶段分层端到端可训练网络,它对规模变化更鲁棒。我们证明,它优于现有的方法,不仅在图像合成类似于在空间拍摄的图像,但也在标准的基准。1. 介绍可靠的6D姿态估计是自动化许多空间机动的关键,例如对接或捕获惰性物体,如图1所示。这种机动的一个重要后果是,它们极大地改变了观测目标的规模和方位。虽然6D姿态估计是计算机视觉和机器人技术中的一个活跃研究领域,但迄今为止,这一重要方面尚未得到显著关注-例如,大多数基准数据集[8,20,42,9]的特征是深度在有限范围内变化的对象。缺乏能够从远距离进行观测的大气散射也导致了其他挑战:强烈的对比度、曝光不足和曝光过度的区域以及来自空间工程中使用的反射材料(铝和碳纤维板等)的显著镜面反射。为了应对这些挑战,欧洲航天局(ESA)和斯坦福大学最近组织了一项基于航天器姿态估计数据集(SPEED)的卫星姿态估计挑战本次比赛中表现最好的方法使用两步方法来处理(a)(b)( c ) 第(1)款图1:对接和空间清洁。(a、b)在第一次空间对接过程中,两个不同的视角下的“阿尔法”目标飞行器。大尺度和视点变化强烈地影响了图像的外观,这表明应该使用不同的图像特征在1966年,这个对接程序是手动控制的。(c)2025年,将发射ClearSpace One追踪卫星,回收一颗非运行卫星并使其脱离轨道在这种情况下,捕获将完全自动化。这里显示的合成图像突出了算法必须处理的挑战,例如反射,图像某些部分的过度曝光以及其他部分的细节缺乏。深度变化大:检测器找到界定目标的轴对准框,将其重新采样为均匀尺寸,并最终由6D姿态估计器处理。这种方法在几个方面是次优的。首先,检测和姿态估计被视为单独的过程,这排除了联合训练。第二,它仅向正在使用的编码器-解码器架构的最后一层而不是向解码金字塔的所有级别提供监督信号,这将增加鲁棒性。第三,许多类似的特征提取计算由两个过程执行,这导致不必要的重复工作。最后,这些方法依赖于基于深度学习的6D对象姿态估计的主导方法[33,11,2],包括训练网络以最小化预定义3D关键点的2D重投影误差,这无法应对大的深度范围变化:如图2所示,重投影误差受到各个关键点到相机的距离的强烈影响,并且不明确考虑这一点会降低性能。为了解决这些缺点,我们引入了一个单一的分层的端到端的可训练网络,如图所示。3,其产生鲁棒且尺度不敏感的6D姿势。15871p1天体p2p1图像平面输入图像分层处理多尺度融合姿态结果O ZOZ图像平面(a) 对不同关键点的灵敏度(b)对目标位置的图2:最小化2D重投影误差的问题。(a)红线表示点p1和p2的二维重投影误差。因为一个比另一个更靠近相机,所以这些2D误差具有大约相同的幅度,即使相应的误差是相同的。以蓝色显示的3D错误非常不同。(b)对于不同位置的同一物体,相同的2D误差可以产生不同的3D误差。这使得姿态精度取决于目标与相机的相对位置。为了使用跨尺度的信息,它逐步缩小所学习的特征,为所得到的金字塔的每个级别导出3D到2D的对应关系,最后使用基于RANSAC的Pestrian策略从这些对应关系集合中推断出单个可靠的姿势。这与大多数仅从最后一层估计姿态的网络不同。为了解决图2中的问题,我们基于3D位置而不是2D投影来最小化训练损失,使该方法对目标距离不变我们使用特征金字塔网络(FPN)[24]作为我们的骨干,但与大多数依赖此类网络的方法不同,我们将每个训练实例分配给多个金字塔级别,以促进多尺度信息的联合使用。简而言之,我们的贡献是一个新的6D姿态估计架构,可以在具有挑战性的条件下可靠地处理大规模的变化。我们将证明它在已建立的SPEED数据集上的性能优于此外,我们引入了一个更大规模的卫星姿态估计数据集,其图像比SPEED更逼真,更复杂,我们表明我们的方法在这个更具挑战性的场景中具有相同的优势。最后,我们证明了我们的方法甚至在具有较小深度变化的图像上也优于现有技术我们的代码和新数据集将公开发布。2. 相关工作用于空间中的6D姿态估计的最常用的传感器仍然是相机,它们可以是RGB、单色或红外(尽管更罕见)。因此,在我们的工作和下面的讨论中,我们都关注基于图像的6D姿态估计。执行6D姿态估计图3:我们的单阶段方法。我们使用一个编码器-解码器架构来逐步地对图像进行下采样,然后重新扩展它。在解码器的每一级,我们建立3D到2D对应。最后,我们使用基于RANSAC的Pestrian策略[21]从这些对应集合中推断出一个可靠的姿势。包括首先建立3D到2D的对应关系,然后使用Pestrian求解器计算姿态[27,41,30]。虽然许多手工制作的方法已经被设计用于提取所需的对应关系[26,39,40],但它们往往在具有挑战性的条件下产生低质量的输出因此,大多数现代6D对象姿态估计方法使用神经网络建立这种对应关系该网络通常被训练来预测3D对象边界框角点的图像位置,无论是以单一的全局方式[18,33,37,42],还是通过聚合多个局部预测来提高对遮挡的鲁棒性[29,16,11,31,43,23]。无论是全局还是局部,这些方法都旨在对标准计算机视觉基准有效,其特征是尺度变化最小。正如我们将在实验中展示的那样,当对象在不同图像中被描绘的深度范围变化很大时,它们的表现就很差。尝试处理尺度问题的少数作品依赖于对象检测网络作为预处理组件[22,23,2]。虽然[23]中引入的缩放采样策略旨在在训练姿态网络时考虑对象检测噪声,但它仍然没有反映检测网络输出的补丁的真实分布,并且所得到的框架没有统一检测和姿态估计阶段。虽然这在原则上可以通过空间Transformer网络[15]来实现,但是这样的改变将显著地使架构复杂化,在检测和姿态估计模块之间引入冗余操作,并且最终排除实时推断。我们的主要贡献是使用单个网络的固有层次结构,在各级之间共享权重来处理规模问题。lem. 我们证明这是强大的和有效的。分层处理,如图像金字塔[1,13,17],是多尺度图像理解的经典思想[14,12]。 最近,这个想法已经通过特征金字塔网络(FPN)[24]被转化为深度学习领域,现在是许多对象检测框架的标准组件[25,38,45]。在这里,我们撬-15872(a) SPEED数据集(b)拟议的SwissCube数据集图4:数据集的比较。(a)SPEED数据集[19]是用非物理渲染器生成的,只能很好地反映空间照明的复杂性。(b)我们介绍了通过基于物理的渲染创建的SwissCube数据集将此想法用于6D对象姿态估计。然而,与大多数将每个金字塔级别明确关联到单个预定义尺度的对象检测方法这允许我们在推断时融合来自不同级别的预测,从而产生更鲁棒的6D姿态估计。我们的实验集中在6D姿态估计的星载物体,因为规模的鲁棒性是非常重要的,在这种情况下,特别是当接近非合作目标(如太空垃圾),需要运动同步。空间工程界有自己的关于6D姿态估计主题的文献。虽然它的发展方式类似于计算机视觉的进步,但它主要集中在手工制作的方法上[44,5,32,35],只有少数作品提出了基于深度学习的方法[2]。其主要原因是缺乏大量的空间物体注释数据。最近,ESA和斯坦福大学发布的SPEED数据集[19]解决了这一问题,作为卫星姿态估计挑战的一部分。然而,这个数据集有几个局限性。首先,它不提供卫星的3D模型,虽然它可以从图像中重建,但最终的姿态估计将不仅取决于姿态估计算法,而且取决于该重建的质量。其次,SPEED图像是通过非物理渲染技术合成的,只能很好地反映空间照明的复杂性,如图4所示。最后,SPEED数据集的深度分布并不均匀,只有很少的图像描绘了距离相机很远的卫星。然而,对于空间交会来说,远距离物体的精确姿态是至关重要的;它们给了对接器或追逐器足够的时间来调整自己的运动,并为实际操作做好准备。我们提出了一种新的卫星姿态估计数据集,解决了这种偏见,并构成了本文的第二个贡献。该数据集中的图像是使用基于物理的光谱光传输模拟创建的,该模拟涉及立方体卫星的精确参考3D模型,该模型考虑了太阳,地球,恒星等的影响。3. 方法我们的目标是估计一个已知的刚性物体在RGB图像中描绘的3D旋转和3D transla- tion。为此,我们设计了一个深度网络,可以回归预定义的3D点的2D投影。然而,我们使用特征金字塔网络(FPN)[24],在多个尺度下执行回归,并将所得的多个估计融合在稳健的姿态预测中,而不是以单一固定尺度回归2D投影,这对大的在下面的部分中,我们首先介绍了我们的网络构建的FPN架构,然后介绍了一种基于采样的训练策略,以利用每个训练实例的每个最后,我们讨论了我们的融合方法,以获得一个单一的姿态估计在推理。3.1. 金字塔网络架构大多数6D姿态估计深度网络依赖于编码器-解码器架构。因此,为了处理6D对象姿态估计的大尺度变化,我们使用编码器网络的固有分层架构,而不是具体来说,我们使用Darknet-53 [34]作为我们框架的骨干,并采用与FPN [24]中相同的网络架构,该架构设计用于对象检测,由k=5个级别的特征图组成,{F1,F2,F3,F4,F5},每个都具有越来越大的感受野。我们不是仅从特征图F5计算单个姿态估计,而是从该金字塔的每一层回归对象3D关键点为此,我们依赖于[11]的分割驱动方法,并在每个特征图中的每个空间位置处生成特征向量因此,每个单元的特征向量是一个C×(2× 8+ 1)维向量,由8个2D偏移量和C对象类的对象性指示符组成。为了对分割掩码进行编码,所有特征单元都需要参与对象预测,包括不包含目标对象的那些相比之下,如下所述,只有选定的单元参与训练姿态回归器。3.2. 环境感知采样大规模的变化给网络在每个尺度上进行准确预测带来了巨大的困难。训练FPN的标准方法遵循分而治之的策略,包括根据对象大小将整个训练实例集划分为几个不重叠的组,然后分配不同的组15873N1N2N3N4N5i=1我我p我我我 我我近远近远1010. . .. . .. . .. . .. . .5 5F5 F4 F3 F2 F1 F5 F4 F3 F2 F1(a) 标准战略[24](b)拟议战略图5:培训期间的抽样战略。让圆圈0163264 128S(λ=1)2560163264 128S(λ=10)256表示按深度递增顺序排序的所有训练实例自左而右环行(a)传统的抽样策略在训练过程中根据每个实例的大小将其分配到单个金字塔级别例如,红色实例仅被馈送到金字塔级别F2,从而仅鼓励该级别产生该样本的合理预测。(b)我们建议将每个实例分配到多个金字塔级别,鼓励每个金字塔级别为每个实例产生合理的姿势估计。在训练过程中,不同的金字塔水平,如图5(a)所示。这种简单的策略可能足以用于对象检测,其中可以简单地选择基于测试期间的对象性分数产生最佳预测的水平。然而,对于6D姿态估计,它阻止人们联合利用多个级别的预测来提高鲁棒性,因为对于给定的尺度,大多数级别将产生高度噪声估计,因为它们为了解决这个问题,我们设计了一个采样策略,允许每个级别的对象分割掩码内的每个特征向量以一定的概率参与预测,如图5(b)所示。令sk(1≤k≤ 5)为金字塔的级别k的参考对象大小,基于目标数据集中的对象大小分布来选择。例如,在我们的SwissCube数据集中,我们分别将sk设为16、 32、 64、128和256。然后,对于大小为S的对象,取其2D边界框的宽度和高度中的最大值,我们均匀随机采样图6:每个金字塔级别的样本计数Nk作为对象大小S的函数。通常,当λ> 20时,Nk退化为FPN采用的简单“硬”分配策略。请注意,对于给定的对象大小,多个Nk是非零的,这意味着到不同金字塔等级的软分配给定的对象大小、多个金字塔等级将被包括在训练中,从而使它们对于尺度变化是鲁棒的。3.3. 3D空间如前所述,通过我们的采样过程选择的每个特征向量然后用于回归3D对象边界框的8个角的2D投影。当回归2D位置时,大多数现有的方法-ods[33,11]寻求直接最小化图像平面中的误差,即损失函数n|乌伊乌伊|得双曲余切值.ui是地面实况2D投影,并且ui是预测的。然而,如图2所示,该损失函数是次优的,特别是在存在大深度变化的这是因为它对某些关键点的重视程度高于其他关键点,并且还取决于对象为了克服这个问题,我们在3D空间中引入了一个损失函数,它对3D关键点的深度是不变的。在透视相机模型下,图像中的3D对象关键点pi的投影由下式给出:Σ Σu−λ∆2Kλii1=K(Rpi+t),(3)Nk=α5j=1−λ∆2eJ(一)其中,ui是2D图像位置,λi是比例因子,K是相机内参数的3× 3矩阵,R和在对象分割掩码内的那些特征向量中的k级特征向量,t是表示6D对象姿态的旋转矩阵和平移向量。那就让−1 ⊤Sv=K[u,v,1](4)k=|log2K| and α = 10.(二)pc=Rpi+t(5)超参数α指定任何级别上的活动特征向量的最大数量,λ≥0控制活动单元格数量在级别上的分布。当λ=0时,所有Nks相等,因此在每个金字塔级别使用相同数量的特征单元,而与对象大小无关。相反,当λ较大时,即λ >20时,是分别穿过预测的2D位置ui=[ui,vi]和在相机坐标系中表示的对应的3Dky点pi的3D相机射线,其中R和t是地面实况旋转矩阵和平移向量。然后,我们可以通过计算将重新投影误差映射采样策略退化为FPN通常使用的在图6中,我们展示了对于不同的λ值,每个Nk如何作为S的函数而变化注意,对于ei=pc−ViC=(I−V<$i)pc,. . .N1N2N3N4N5eS15874(六)15875我我哪里V=vivvvi(七)4. 实验在本节中,我们首先在SPEED数据集上评估我们的框架,然后介绍SwissCube数据集,是将3D点正交投影到相机的矩阵[27]如图所示, 二、最后,我们将姿态回归损失设为卢恩其中包含精确的三维网格和物理建模的天文对象,并进行彻底的烧蚀研究。我们进一步显示了同一卫星的真实图像上的结果。最后,为了证明我们的AP的通用性Lreg=i=1sl1(ei).(八)我们在描述小深度变化的标准Occluded-LINEMOD数据集上对其进行评估其中sl1(·)是平滑的L1范数[6]。如图10所示,该3D误差在所有3D关键点上是一致的,并且受观察对象的深度和相对位置的影响较小此外,它可以通过简单的代数运算来计算,因此可以很容易地纳入端到端学习形式主义。最终,我们将此损失函数与监督预测的客观性得分的损失函数相结合,从而产生整体训练损失Σ5L={Lobj(k)+Lreg(k)},(9)k=1我们从ImageNet [4]上预先训练的主干开始训练我们的模型,并且对于任何6D姿势数据集,通过标准的在线数据增强策略(如随机移位,缩放和旋转)为其提供3M个唯一的为了评估精度,我们将使用标准ADI-0.1d [11,10]精度指标报告不同深度范围下的个体性能,该指标对3D重建误差低于物体直径10%的样本百分比进行编码。然而,在SPEED数据集上,我们使用不同的度量,因为我们无法访问3D SPEED模型,因此无法计算ADI相反,我们使用来自竞争的度量,即eq+et,其中eq是角度误差其中Lobj(k)和Lreg(k)是对象性损失和姿态回归损失在水平k分别。在这项工作中,我们将损失Lobj作为焦点损失[25]。3.4. 多尺度融合由于我们的整体感知采样策略,我们的训练网络可以在任何测试图像的每个金字塔级别上生成有效的姿势估计,而与其规模无关。这些估计可以通过对每个级别的每个特征向量预测的对象性得分进行阈值化来选择,并且在实践中我们使用阈值τ= 0。3.原则上,这些估计可以直接通过RANSAC+ PSNR策略[21]或使用[10]的基于学习的方法进行融合。为了简单起见,我们使用RANSAC+ PSNR方法,但结合我们的集合感知采样方案。要在测试时应用此方案,我们首先需要估计对象大小。为此,我们选择导致最高对象性得分的特征向量,并从8个边界框角投影的相应预测计算大小S给定这个大小,然后我们为每个金字塔级别k选择给出最高对象性得分的Nk个这使我们可以为每个3D关键点构建一组3D到2D对应关系{piParticiuijk}其中uijk是像元针对piCj在特征图Fk上,其中1≤i≤ 8, 1≤j≤ Nk,1≤k≤ 5。最后,我们使用一个基于RANSAC的粒子群算法从这些对应关系中获得一个鲁棒的6D姿态估计。我们将在我们的实验中表明,这优于从任何单个金字塔水平获得的预测。在地面实况四元数和预测的四元数之间,并且ET是归一化的平移误差。此外,由于SPEED的深度分布不均匀,只有少数图像描绘了距离相机较远的卫星,我们只报告了整个测试集的平均误差,就 像 在 竞 争 中 源 代 码 和 数 据 集 可 在https://github.com/cvlab- epfl/wide-depth-range-pose上公开获得。4.1. 对SPEED数据集的评价尽管SPEED数据集有几个缺点,在第2节中讨论过,但它仍然是一个有价值的基准,因此我们首先在它上面评估我们的方法。由于测试注释不是公开的,竞争也不是正在进行的,我们将训练集分为两部分,10K图像用于训练,其余2K图像用于测试。我们使用公开可用的代码对这些新的拆分评估了竞争中的两种最佳方法[2](DLR)和[11请注意,我们的方法,如DLR和SegDriven-Z,使用3D模型来定义我们预测其图像位置的关键点。因此,我们采用[7]的方法首先从数据集重建卫星。表1将我们的结果与该数据集上两个性能最好的方法的结果进行了比较。请注意,DLR合并了6个姿态估计网络的结果,然后采用了额外的姿态细化策略以提高准确性。因此,我们还报告了我们的方法的结果,有和没有这个姿势细化策略。然而,请注意,15876精度型号尺寸FPS原始精炼SegDriven-Z [11]0.022 - 89.2 M 3.1DLR [2] 0.017 0.012 176.2 M 0.7表1:与关于SPEED的最新技术水平的比较。我们的方法在挑战中优于两个表现最好的方法,并且更快,更轻。我们仍然使用单个姿态估计网络。此外,对于我们的方法,我们报告了在不同输入分辨率下训练的两个独立网络的结果。在960×的分辨率下,我们的性能优于两种最先进的方法,而我们的架构更小,更快。为了进一步加快我们的方法,我们以原始图像分辨率的三分之一(640×)训练网络。该网络与DLR保持一致,但运行速度快20倍以上。4.2. 对SwissCube数据集的评价为了便于在宽深度范围场景中评估6D对象姿态估计方法,我们引入了一种新的SwissCube数据集。该数据集中的渲染图考虑了卫星的精确3D形状,包括恒星背景、太阳、地球和目标卫星的逼真模型,包括全局照明的效果,主要是太阳和地球从卫星表面的光泽反射为了创建SwissCube的3D模型,我们从原始CAD文件中建模了每个机械部件,包括太阳能电池板、天线和螺钉,并仔细为每个部件分配了材料参数。渲染图以基于地球和太阳的相对位置和大小的空间环境为地球的正向建模是最重要的,因为它是在图像中直接观察到的,并且通过相互反射显著我们从NASA可见光红外成像辐射计套件(VI-IRS)仪器获得的已公布的数据产品中提取了地球表面和大气的高分辨率光谱纹理这些图像说明了典型的云层覆盖范围,并提供了6个波段的准确光谱颜色信息。来自太阳的照明也使用地外太阳辐射光谱进行光谱建模。使用开源Mitsuba 2渲染器[28]执行的光谱模拟最终产生可以被标准计算机视觉工具摄取的RGB输出。渲染图还包括星系、星云和星团的背景,这些背景基于HYG数据库恒星目录[3],包含大约120K天文物体以及关于位置和亮度的信息。天体的辐射比太阳低几个数量级为了增加数据集的多样性图7:SwissCube物理呈现的设置。我们对太阳、地球以及太空中可能出现的复杂为了确保网络最终学会忽略这些细节,我们提高了渲染中天文观测的亮度,使它们更加明显。按照这些步骤,我们将SwissCube放置在距离地球表面约700公里的实际轨道我们绘制具有不同相对速度、距离和角度的序列。 为此,我们使用宽视场(100nm)摄像机,其到目标的距离均匀地在1d到10d之间变化,其中d表示:在不考虑天线的情况下计算了瑞士立方体的直径。高级设置如图7所示。请注意,当SwissCube进入地球的阴影时,渲染基本上是黑色的,我们检测并删除了我们生成500个场景,每个场景由100帧序列组成,总共有50K张图像。我们从400个场景中获取40K图像用于训练,从剩余的100个场景中获取10K图像用于测试。 我们以1024×1024的分辨率渲染图像,其中一些如图8所示。在网络处理过程中,我们将输入调整为512×512。我们报告了ADI-0.1d在三个深度范围的精度,我们称之为近、中和远,分别对应于深度范围[1d-4d]、[4d-7 d]和[7 d-10 d]。4.2.1我们的整体感知抽样我们首先评估了我们的集合感知采样策略的有效性,进一步将我们的方法与单尺度基线SegDriven [11]进行比较,后者使用与我们相同的主干。请注意,原始的SegDriven方法不依赖于探测器来放大对象,而是在SPEED竞争中使用YOLOv 3 [34]进行扩展为了公平地比较SwissCube数据集,我们还报告了SegDriven-Z的结果此外,我们还评估了我们数据集上SPEED数据集DLR [2]的最佳表现图9证明了我们抽样的有效性目标观察员Earth孙地球你是谁我们的 640×0.0180.01351.5 M35960×0.0160.01051.5 M1815877图8:SwissCube数据集上的定性结果。我们的方法在所有尺度上都能得到准确的姿态估计。附近中远全部[11] 2016年12月21日[11]第十一届中国国际汽车工业展览会43.2DLR [2] 63.8 47.8 28.9四十六点八我们的65.248.731.9四十七点九表2:我们的方法优于SwissCube上的所有基线。战略我们的结果与不同的λ值,控制集成感知采样,表明大的值,如λ >10,产生较低的准确性。对于如此大的值,我们的采样策略退化为基于FPN的对象检测器中常用的采样策略。因此,这证明了鼓励每个金字塔级别在多个对象尺度上产生有效估计的重要性还请注意,λ=0对应于将每个训练实例均匀分布到所有级别,不会产生最佳结果,这表明强制每个级别在所有尺度上产生高精度是次优的。换句话说,每个级别都应该在合理的比例范围内表现良好这在λ=1时近似实现,我们将在下面的实验中使用。表2总结了与其他基线的比较结果。因为它不显式地处理缩放,所以Seg- Driven在远对象上的性能很差.SegDiven-Z中使用的探测器对此进行了改进然而,这种两阶段方法的性能仍然比我们的框架差得多我们的方法也优于DLR,尽管我们的方法比DLR快20倍图8描述了一些渲染图像和相应的姿态估计与我们的方法。4.2.2多尺度融合为了更好地理解多尺度融合过程中每个金字塔级别的作用,我们研究了使用每个金字塔级别的预测所获得的准确度直觉上,我们期望具有较大感受野的水平(具有低空间分辨率的特征图)对于近距离观察表现良好48464442401 5 9 13λ图9:集成感知采样的效果。一般来说,训练中涉及的跨水平样本越多,即λ越小,结果越好。附近介质远所有L1025.231.819.5L236.548.427.738.2L362.347.419.942.6L459.220.21.726.3L525.50.908.3融合65.248.731.947.9表3:多尺度融合的效果。每个金字塔级别都支持特定的深度范围,我们的多尺度融合策略利用这些深度范围来超越每个单独的级别。和那些具有小感受野(具有高空间分辨率的特征图)的人,以产生更好的结果远离那些。虽然表3中的结果证实了L1、L2和L3级的这种直觉,但我们观察到L4和L5级的性能下降。我们认为这是由于相应特征图的空间分辨率非常低,分别为8×8和4×4,使得这些级别难以输出精确的姿势。然而,多尺度融合后的精度优于每个单独的水平,我们把不同数量的金字塔水平的研究留给未来的工作。4.2.33D损失在表4中,我们比较了通过使用常用的2D重投影损失或我们在3D空间中的损失函数训练我们的方法所获得的结果。请注意,我们的3D损失在所有深度范围内都优于2D损失,对象越远,两者之间准确度(ADI-0.1d)15878附近介质远所有二维损失64.642.024.043.1三维损失65.248.731.947.9三角洲+0.6+6.7+7.9+4.8表4:3D损失的影响。所提出的3D损失在每个深度范围内都优于2D损失物体越远,3D损耗的优势就越明显。图11:真实数据的定性结果。我们的模型很容易适应真实数据,只使用20张带注释的图像。0.200.150.150 100 150 200到图像中心的距离(像素)250我们的PVNet SimplePandroid混合动力猿15.8 19.2 20.922.3加拿大63.3 65.1 75.377.8类别16.7 18.9 24.925.1司钻65.7 69.0 70.270.6鸭子25.2 25.3 27.930.2蛋盒50.2 52.0 52.452.5胶水胶49.6 51.4 53.854.9洞39.7 45.6 54.255.6Avg.40.8 43.347.5图10:作为对象位置函数的位姿误差。对于图像中心附近的对象,2D损失的性能明显降低,而我们的3D损失则没有。下面的几何形状见图2(b)。请注意,随着对象移动到更接近图像边界,它会被截断,这会降低两种损失的性能。损失函数图10,我们将平均精度绘制为对象图像位置的函数。当物体位于图像中心附近时,2D损失的性能显着降低请注意,它们在图的右侧部分变得更糟的原因是由于图像边界的对象截断。4.3. 真实图像图11,我们说明了我们的方法在真实图像上的性能请注意,这些真实图像不是在太空中捕获的,而是在实验室环境中使用目标的实体模型和OptiTrack运动捕获系统来获得一些图像的地面真实姿态信息。然后,我们对在合成SwissCube数据集上预先训练的模型进行了微调,只使用了20张带有姿势注释的真实图像。由于该过程只需要少量带注释的真实数据,因此它适用于实际任务,其中图像可以发送到地面,手动注释,并将更新的网络参数上传回太空。4.4. 闭塞LINEMOD的评价最后,为了证明我们的方法是通用的,因此适用于描述 小深 度变 化的 数据 集, 我们 在标准 Occluded-LINEMOD数据集上对其进行了评估[20]。在[10]之后,我们使用分辨率为640×480的原始图像作为网络的输入,训练我们的模型表5:闭塞LINEMOD的比较。我们将我们的结果与PVNet[31],SimplePaddle [10]和Hybrid [36]的结果进行对称对象用“X“表示在LINEMOD [8]数据集上进行测试,并在没有重叠数据的闭塞- LINEMOD上进行测试。虽然我们的框架支持多对象训练,但为了公平评估,我们为每个对象类型训练一个模型,并将其与不依赖于另一个细化过程的方法进行比较。考虑到这个数据集中的小深度变化,我们从我们的框架中删除了具有最大接收场的两个金字塔级别,只剩下F1,F2和F3。如表5所示,即使在这种一般的6D对象姿态估计场景中,我们的模型也优于现有5. 结论我们已经提出使用单个分层网络来估计受到大尺度变化的对象的6D姿态,就像在空间场景中的情况一样。我们的实验证明,针对不同的对象尺度训练所得到的金字塔的不同我们还介绍了SwissCube数据集,这是第一个具有精确3D模型,基于物理的渲染以及太阳,地球和恒星的物理模拟的卫星数据集我们的方法在宽深度范围的场景和更经典的遮挡LINEMOD数据集方面都优于在未来,我们将集中在其他重要方面的6D物体姿态估计在空间,如消除抖动的6D姿态跟踪,并训练一个可用的模型与完全无监督的真实数据。致谢。这项工作得到了瑞士创新机构(Innosuisse)的支持。我们要感谢EPFL航天中心(eSpace)提供的数据支持。二维损失三维损失平均位姿误差(ADI)15879引用[1] AdrienBartoli , VincentGay-Bellile , UmbertoCastellani,Julien Peyras,Søren Olsen,and Patrick Sayd.由粗到细的低秩结构运动。计算机视觉与模式识别会议,2008年。[2] Bo Chen,Jiewei Cao,Alvaro Parra,and Tat-Jun Chin.利用深度地标回归和非线性姿态精化的卫星姿态估计。在2019年的计算机视觉研讨会上[3] 大卫纳什HYG数据库http://www.astronexus.com/hyg,2006年。[4] 贾登、魏东、理查德·索彻、李力佳、李凯、李菲菲。ImageNet:一个大规模的分层图像数据库。2009年计算机视觉与模式识别会议[5] Simone D'Amico、Mathias Benn和John L.乔根森从实际空间图像估计不合作航天器的位姿。国际空间科学与工程杂志,2014年。[6] 罗斯·格希克快速R-CNN。2015年国际计算机视觉[7] 理查德·哈特利和安德鲁·齐瑟曼计算机视觉中的多视图几何学。剑桥大学出版社,2000年。[8] 斯特凡·欣特斯托伊瑟,文森特·莱佩蒂特,斯洛博丹·伊利克,斯特凡·霍尔泽,加里·布拉德斯基,库尔特·科诺利格,纳西尔·纳瓦布.基于模型的训练,检测和严重杂乱场景中无纹理3D物体的姿态估计。2012年亚洲计算机视觉会议[9] Toma'shoodanhoul , FrankMichel , EricBrachmann ,WadimKehl,Anders Glent Buch,Dirk Kraft,BertramDrost,Joel Vidal,Stephan Ihrke,Xenophon Zabulis,Caner Sahin , Fabian Man- hardt, Federico Tombari ,Tae-KyunKim , JiZir'sMatas , andCarstenRother.BOP:用于6D对象姿态估计的基准。在2018年欧洲计算机视觉会议[10] Yinlin Hu , Pascal Fua , Wei Wang , and MathieuSalzmann.单阶段6D物体姿态估计。在计算机视觉和模式识别会议上,2020年。[11] 胡因林,约阿希姆·雨果诺特,帕斯卡·福阿,马蒂厄·萨尔茨曼。分割驱动的6D物体姿态估计。在计算机视觉和模式识别会议上,2019年。[12] Yinlin Hu , Yunsong Li , Rui Song , Peng Rao , andYangli Wang.最小障碍超像素分割。图像和视觉计算,70,2018。[13] 胡茵琳,宋瑞,李云松。用于大位移光流的有效的从粗到细的块匹配。在2016年计算机视觉和模式识别会议[14] Yinlin Hu , Rui Song , Yunsong Li , Peng Rao , andYangli Wang.基于超像素树的高精度光流估计。图像和视觉计算,52,2016。[15] Max Jaderberg,Karen Simonyan,Andrew Zisserman,and Koray Kavukcuoglu.空间Transformer网络。神经信息处理系统的进展,2017-2025页,2015年[16] Omid Hosseini Jafari , Siva Karthik Mustikovela , KarlPertsch,Eric Brachmann,and Carsten Rother. IPose:部分遮挡物体的实例感知6D姿态估计。在2018年亚洲计算机视觉会议上[17] 景龙龙,陈玉成,田颖丽。从图像级标签的粗到细语义分割。IEEE Transactions on Image Processing,29:225[18] Wadim Kehl , Fabian Manhardt , Federico Tombari ,Slobo- dan Ilic,and Nassir Navab.SSD-6D:让基于RGB的3D检测和6D姿态估计再次变得强大。在2017年国际计算机视觉会议[19] 马特·基桑塔尔、苏曼特·夏尔马、泰河·帕克、达里奥·伊佐、马库斯·马滕斯和西蒙娜·达米科。卫星姿态估计挑战:数据集,竞赛设计和结果。IEEETransactionson Aerospace and Electronic Systems,2020。[20] Alexander Krull , Eric Brachmann , Frank Michel ,Michael Ying Yang , Stefan Gumhold , and CarstenRother.用于RGB-D图像中的6D姿态估计的学习合成分析。2015年国际计算机视觉会议[21] Vincent Lepetit , Francesc Moreno-Noguer , and PascalFua.时间复杂度为O(n)的问题。国际计算机视觉杂志,2009。[22] 易 离 , 古 望 , 向 阳 季 , 于 翔 , 迪 特 尔 福 克 斯 。DeepIM:用于6D姿态估计的深度迭代匹配。在2018年欧洲计算机视觉会议[23] Zhigang Li,Gu Wang,and Xiangyang Ji. CDPN:用于实时基于RGB的6自由度对象位姿估计的基于坐标的解纠缠位姿网络。在2019年国际计算机视觉会议[24] 林宗义、彼得·多尔、罗斯·格希克、何光明、巴拉斯·哈里哈兰和塞尔日·贝隆吉。用于目标检测的特征金字塔网络。在计算机视觉和模式识别会议上,2017。[25] 林宗义,普里亚·戈亚尔,罗斯·格希克,何开明,彼得·多尔。密集目标检测的局部损失在2017年的国际计算机视觉会议[26] 大卫·G·洛从尺度不变的关键点中提取独特的图像特征.International Journal of Computer Vision,20(2):91[27] 放大图片作者:Gregory D. Hager和Eric Mjolsness。基于 视 频 图 像 的 快 速 全 局 收 敛 位 姿 估 计 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,22(6):610[28] 默林·尼米尔-大卫,德里奥·维奇尼,提齐安·泽尔特纳,和温泽尔·雅各布。Mitsuba 2:可重定向的正向和反 向 渲 染 器 。 ACM Transactions on Graphics , 38(6):1[29] Markus Oberweger,Mahdi Rad,and Vincent Lepetit.制作对部分遮挡鲁棒的深度热图用于3D物体姿态估计。在2018年欧洲计算机视觉[30] Georgios Pavlakos , Xiaowei Zhou , Aaron Chan ,Konstanti- nos G Derpanis,and Kostas Daniillo. 6-基于语义关键点的DoF对象姿态。2017年
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功