没有合适的资源?快使用搜索试试~ 我知道了~
6876R,tR,t利用等变特征进行绝对姿态回归穆罕默德·阿德尔·穆萨拉姆mohamed. uni.luVincentGaudillie` revincent. uni.lu米格尔·奥尔蒂斯·德尔卡斯蒂略邮箱:uni.lu卡西姆·伊斯梅尔kassem. gmail.com贾米拉·阿瓦达djamila. uni.lu卢森堡大学安全、可靠性和信任跨学科中心摘要虽然端到端方法在许多感知任务中已经实现了最先进的性能,但它们还无法在姿态估计中与基于3D几何的方法竞争。此外,绝对姿态回归已被证明与图像检索更相关。因此,我们假设经典卷积神经网络学习的统计特征没有携带足够的几何信息来可靠地解决这个固有的几何任务。在本文中,我们演示了平移和旋转等变卷积神经网络如何直接将相机运动的表示然后,我们表明,这种几何属性允许隐式地增加整个组的图像平面保持transformations下的训练数据。因此,我们认为直接学习等价特征比学习数据密集型中间表示更可取。全面的实验验证表明,我们的轻量级模型优于现有的标准数据集。11. 介绍在计算机视觉中,摄像机的姿态估计及其参考坐标系反演,即. 在过去的几十年中,物体姿态估计已经被广泛研究[38,42,54]。传统上,姿态估计已经使用3D几何结构来解决。在实践中,生成一组2D-3D特征对应,然后在统计上利用这些特征来恢复相机姿态[18,39,49,64]。最近,引入了直接绝对姿态回归(APR)方法,借鉴了深度学习的早期成功[1]。1这项工作由卢森堡国家研究基金(FNR)资助,项目编号为BRIDGES 2020/IS/14755859/MEET- A/Aouada,并由LMO(https:www.lmo.space)资助。图1. 我们的方法的说明-我们的方法采用平移和旋转等变卷积神经网络来提取直接编码相机平面运动R,t的几何感知特征。当摄像机移动时,所提出的特征提取器F的等方差导致显式图像(I)和特征(F)变化。该属性被用来提出对绝对姿态回归问题的这些方法包括使用适当训练的卷积神经网络(CNN)将图像直接映射到其姿态。因此,端到端可训练方法具有提供完全可区分的结果的优点,从而能够以全面的方式优化所有参数此外,预测以稳定的速度和功耗实现,而基于随机样本一致性(RANSAC)的方法[18]的可预测性6877并且当输入速率低时可能遭受效率下降。然而,最先进的APR方法已在理论上得到证明,并在实验上显示,与基于3D结构的方法相比,其精度较低[50]。事实上,前者与图像检索的关系比与3D结构的关系更密切[50]。我们在这项工作中提出的问题是:为什么目前的APR方法在准确性方面不足?他们如何才能充分发挥自己的潜力?我们的假设是,缺乏对数据几何属性的利用。这通常发生在经典深度学习方法中常用的特征提取层。具体地,我们证明,在APR和姿态估计的情况下,具有与刚性运动组等变的表示,即,3D中的旋转和平移,可能是提高网络性能的有效方法。这应该通过组等方差来发挥隐式数据增强的作用,并反过来减轻对用于训练的显式数据增强的需求。事实上,最近,已经有越来越多的兴趣,设计更多的几何模型,是等变的群体,这样的转换。这些方法利用了群论、表示理论、调和分析和基础深度学习的理论贡献[8更具体地说,群等变神经网络或群等变CNN(G-CNN)是几何深度学习的更广泛和有前途的领域的一部分[4],其目的是利用数据中可能存在的任何特别地,在2维和3维中的特殊欧几里得群,记为SE(2)和SE(3),并且包括R(1)和R(2)。在3D方面,刚性运动是特别感兴趣的。计算机视觉[13,61]。尽管它们代表了概念上的进步,但据我们所知,在APR上下文中使用深度等变特征仍然是相当未探索的。本文首次提出研究和证明使用深度等变特征来解决APR(见图1)。捐款. 我们的贡献概述如下:(1) 等变CNN如何将平面相机运动的表示(位于SE(2)中)直接引入特征空间的公式。(第4.1节)(2) 提供了关于如何利用SE(2)-等变特征来恢复位于SE(3)中的任何相机运动的直观解释。(第4.2节)(3) 一个轻量级的等变姿态回归模型,简称E-PoseNet。(第五节)(4) E-PoseNet的广泛的实验评估显示其竞争力的性能相比,现有的APR方法的标准数据集。(第6节)纸组织。本文综述了APR方法的发展现状和深层等变有限元分析的发展趋势,在第2节中给出了tures。 第3节介绍了- 提出了等方差的错误定义和平均年利率公式。关于SE(2)-等变特征如何可以显式地编码平面相机运动的理论论证在第4节中给出,而完整的姿态回归流水线在第5节中介绍。在第6节中给出了广泛的实验验证以及局限性的讨论。第7节结束了论文。2. 相关工作本文的目标是在APR的上下文中利用等效特征的力量。因此,我们将此部分分为:(1)回顾了APR的相关文献;(2)综述了近年来应用于计算机视觉问题的深度等变特征提取方法。绝对姿势回归。自2010年初深度学习和CNN兴起以来,许多研究都在探索CNN在APR中的应用。这始于Kendal等人引入PoseNet。 [35],他使用GoogLeNet模型[55]作为特征提取骨干,结合回归头来估计平移和旋转向量。大多数后续改进在于特征提取架构的变化[3,35,62],修改的目标函数[32,43,57],和额外的中间表示[25,27]。在[50]中,Sattler等人对APR的现有工作进行了深入分析[6,34,44,62,63]。特别是,他们表明,基于结构和图像检索方法比APR更准确。此外,他们表明,APR算法不明确利用知识的射影几何。相反,它们直接从数据中学习图像内容和相机姿态之间的映射,并且以一组基本姿态的形式,使得所有训练样本可以表示为这些参考实体的线性组合。Wang等人 [60]提出了一种在端到端可训练管道内集成基于密集对应的中间几何表示的方法。然而,这种方法仍然依赖于经典(非等变)的功能,从而需要大量的数据进行推广。此外,[25,27,60]等方法提出学习间接等变的中间表示,如分割掩码、对象检测和深度或法线图。然而,这是以参数冗余为代价的。这一核心观察表明,直接学习等价特征可能是一个有价值的方向,以提高姿态估计的准确性,同时减少模型参数的数量。深度等变特征。计算机视觉在手工制作的等同特征的设计上有着丰富的历史(例如,尺度不变特征变换(SIFT)[41],定向滤波器[65],可控滤波器[19],6878P⊂⊂GXGEFFFGGGGG旋转等变专家领域(R-FoE)[51],基于李群的过滤器[17,46])。在深度学习文献中,卷积层[37]已被证明与图像移位等变,而最大池化层仅对输入图像的小移位不变[20]。虽然卷积层本质上与平移是等变的,但有大量关于输入的空间信息不是由CNN以精确的方式编码的[28,31]。更具体地说,如果将本地和全局池添加到CNN中,则会使翻译信息不可恢复,从而丢弃前述等方差[40]。最近的一项研究表明,CNN中的许多神经元学习稍微转换(例如,相同基本特征的旋转)版本[47]。这些在以下国家特别常见:给定由相机捕获的图像x,APR方法预测6自由度(6-DoF)姿态,即,位置和方向,相机相对于其环境让我们用IRm表示矢量化的m维图像(或图像区域)的线性空间,用FRn表示特征的潜在空间考虑基于CNN的特征提取函数F,我们写为:F: I → Fx → F(x).设G是一般变换群,g是G的一个元素,我们将g的作用记为:早期视力,例如, 在曲线检测器、高低频检测器和线检测器中。已经有人尝试将G-CNN扩展到更广泛的变换组。在[5,48]中,Mallat et al. 使用具有预定义小波的散射变换,将CNN扩展为与SE(2)等变。在[2,29]中,Bekkers等人还通过B-样条将CNN扩展为与SE(2)群等变。在[9]中,Cohen等人提出了群卷积图像空间和特征空间。定义1F对G不变当且仅当f∈ G,f ∈ I,F(f(I)x)= F(x).(一)定义2F与G等变当且仅当f∈ G,f ∈ I,F(f(I)x)= f(F)F(x).(二)G g网络等变的p4m离散群通过90次,tations和flips,在那里他们展示了分类任务的组卷积的有效性。最近,已经研究了使用等变特征来解决各种计算机视觉任务,例如3D点云分析[8],空中目标检测[22]和2D跟踪[21]。在[14]中,Esteves等人提出使用从2D图像到球形CNN潜在空间的投影和嵌入来估计对象的相对方向类似地,Zhang等人提出使用球面CNN来学习全向定位中的相机姿态估计[66]。然而,据我们所知,等变特征尚未明确杠杆年龄的背景下,APR为单一的2D输入图像,这是本文的重点。3. 预赛本节提供必要的数学背景.首先,我们引入不变和等变特征的概念。然后,我们提出了APR的一般框架,最后显示了在这种情况下依赖于等变特征的附加值。记法。将采用以下符号:向量和列图像用黑体字母x表示,矩阵用斜体字母X表示,标量用斜体字母x或X表示,函数用X表示,空间用X表示。维数为n的特殊正交群、欧氏群和特殊欧氏群分别记为SO(n)、E(n)和SE(n)不变和等变特征。注意,不变性可以看作是等价性的一种特殊情况,其中,f(F)= I,单位映射,f g∈ G。APR的等变特性。Sattler等人提出了姿势函数P的以下公式[50]:P(x)=b + P。E(F(x)),(3)其中首先将特征提取器应用于图像X,接着是特征的非线性嵌入,将它们提升到更高维空间。然后,应用到由矩阵P表示的相机姿态的空间中最后,添加偏置项b。如第2节所述,[50]中的工作表明,经典APR与通过图像检索的姿态近似比利用3D结构的准确姿态估计更密切相关,因此存在准确度差距。我们的假设是,这可能是由于缺乏经典CNN特征所携带的地理信息。事实上,经典CNN的感知能力可以被认为是一种统计现象,而姿势估计是一个几何问题。因此,在这项工作中,我们建议将特征提取器的经典卷积层替换为它们的组等变对应层[9],然后评估这如何影响模型的准确性和数据效率。因此,假设它与G是等变的,即,验证定义2,并且将变换f(I)应用于图像x,(3)中的姿态回归函数P变为:P(I)x)=b+P· E。(4)第一次见面。6879−›→›→−›→FZZZ0−−R,t−. Σ=.Σ。ΣR,t图2. 插图-场景平面(Z = Z 0)-平行图像平面(Z = f)-相机中心(0,0,0)。场景被定义为平面Z=Z0内的光强度值S(X,Y)的集合。然后将光线投射到相机中心。投影光线与图像平面的交点(考虑图3. 等方差图-平面场景的摄像机平面运动变换(S 1 S 2,第一列),图像(x1x2,第二列)和功能(v1v2,第三栏)导出SE(2)的表示。换句话说,这些变换与场景投影仪P和特征提取器F互换。R是平面旋转。这种运动对场景中任意点p的影响可以通过应用t然后R来获得,使得p′=R(p t)。在3D中,考虑到t=(TX,TY,0),我们有作为无穷大)定义图像强度值I(x,y)。 摄像机运动′X′cos(θ)sin(θ)0则仅限于SE(2),即 沿ux,uy的平移和旋转围绕uz(由滚转角θ表征)。p=Y′=−sin(θ)cos(θ)0Y−TY。Z′0 01Z(五)遵循经典投影规则[23],图像坐标其中v =(x)。 这表明,G对图像在潜在空间中具有直接效果,(x,y)则由x=fX给出0且y=fY,其中f为0具体地,图像的相机运动变换,即相机姿态的改变,显式地引起对特征向量v的动作,并且隐式地引起对回归姿态的动作。考虑G为SE(2)或SE(3),我们认为这些等价的特征将有助于提高APR的性能。4. 来自SE的姿势(2)-等变特征从照相机中心到图像平面的距离,以及Z0是到场景平面的距离。将(5)乘以f,然后将坐标限制为前两个,得到:x′cos( θ)sin( θ)x−tx(6)y′−sin( θ)cos( θ) y− ty其中tx=fTX,且ty=fTY。通过表示R(2),我们考虑一个分段平面场景,其中场景平面平行于图像平面。然后,我们考虑相机运动,局部保存后者。4.1. SE(2)-等变特征我们在此将相机运动限制为SE(2)群的那些,即,图像平面内的平面平移和旋转(图2)。在此基础上,我们分析了摄像机平面运动对图像空间和特征空间的影响,假设特征提取器F与SE(2)等变。摄像机平面运动对图像的影响根据图2中介绍的符号,以滚动角θ旋转相机相当于以角度θ围绕uz(相机观察方向)旋转场景[30]。类似地,沿ux和uy平移相机中心等效于沿相反方向平移场景Z0Z0由于角θ的旋转矩阵和t(2)=(t x,t y)<$,因此任何平面相机运动R,t对图像的任何点p(2)的影响由p(2)′=R(2)<$(p(2)t(2))给出,其中p(2)′是p(2)在变换下的图像。最后,我们将摄像机运动对图像x1的影响表示为x(I),从而产生另一图像x2,即, x2= x(I)x1。在下文中,我们证明了由于摄像机的平面运动引起的图像变换与投影算子P可交换(图3)。实际上,将平面运动R1、t1和随后的第二平面运动R2、t2应用于凸轮,具有以下效应2:t3),其中R3=R2R1,t3=t1+ R1t2。类似地,可以容易地观察到,组合两个相机运动对图的任何点p(2)具有类似的效果图像使得p(2)′=R(2)<$(p(2)-t(2)),其中R(2)=让我们表示相机沿其图像3 33的任何刚性运动平面(即,在SE(2)中)由R,t表示,其中t是平面平移2请参阅补充材料了解更多详情6880F. .Σ。.ΣΣΣR,t∈(2)(二)≃≃→图4. 从平面运动到三维运动图像的欧几里德变换可交换。最后,图像和特征的相机运动变换诱导SE(2)的表示。因此,图像和特征空间明确地编码相机的平面运动。4.2. 从SE(2)到SE(3)在演示了SE(2)-等变CNN如何将平面相机运动的表示直接引入特征空间之后,我们在本文中讨论了这些与平面相机运动等变的特征,即,在SE(2)中,用于SE(3)中的一般姿态回归。(二)(二)(二)(二)(2)(二)实际上,用F提取的SE(2)-等变特征是r2r1和t3 =t1 +R1t2。因此,我们认为,现在通过γ:=P·E映射到SE(3)中的相机姿态。(一)(一)(一)(一)这是找到P(x)的最后一步,如R1,t1.(七)方程(3)2211(一)SE(3)群可以写成半直积这证明了从R,t到εR,t的对应是来自SE(2)的群同态。换句话说,其中R,tSE(2),是SE(2)在像空间中的表示的像。相机平面运动对特征的影响。本文考虑基于SE(2)-等变CNN的特征提取器。为了清楚和简单起见,我们抛弃了数值象的离散性,而把它们的支集看作是连续的。经典卷积层只与平移群(R2,+)等变。实际上,在每个层l处,常规CNN将中间特征映射v(l):R2→Rk(l)的堆栈作为输入,并将其与K(l+1)个滤波器的集合v(l):R2→Rk(l)卷积。因此我们有n∈ R2,.(2)(1)()=.(2).v(l)(. )的情况下,其中t(2)是t(2)在(R2,+)表示下的像。换句话说,如果输入图像被平移,则输出特征图以相同的方式平移。然而,一般来说,对于旋转来说,情况并非如此,即。 如果输入图像被旋转,则输出特征图将不被相应地旋转。 [61]中的工作将CNN等方差扩展到SE(2)群,即 连续群我们的旋转和平移在R2,图像域。通过将经典CNN的平移群等方差替换为SE(2)的等方差,这样的特定CNN可以由以下等式表征:EURR,t∈SE(2),(2),t(2)v(l)(. )=的R(2),t(2) v(l)(. )的情况下,(九)其中R(2),t(2)是R(2),t(2)在SE(2)表示下的像。特别地,考虑到最后的卷积层输出,我们获得特征提取F和SE(3)=R3<$SO(3),类似地SE(2)=R2<$SO(2).因此,我们可以将讨论限制在映射γ:SO(2)SO(3)[4,11]。我们依赖于商空间SO(3)/SO(2)S(2)是3D中的球面的观察,其中表示同胚。对于S(2)上的每个点,都可以通过旋转移动到另一个点。因此,S(2)是SO(3)的齐次空间,SO(3)可以看作S(1)的元素的丛,即, S(2)上的平面圆,对它存在连续映射γ_n[11].这些映射γ通过与平移组合而直接与γ相关图4示出了围绕固定轴的平面旋转(图4(a))如何可以被视为3D中球体上的局部补丁(图4(b));因此,与3D中的旋转相关,以及最后这如何可以通过平移被推广到如图4(c)所示的完全刚性运动映射γ作为端到端APR的一部分被学习直觉上,可以将其解释为通过有限的一组学习的相机姿态对相机姿态空间的近似,其中特征等方差用于在空间内概括和扩展覆盖。实际上,SE(2)-等变模型能够从每个学习的姿势推广到每个保持图像平面的姿势(即,原始相机的z旋转和x,y平移版本)。换句话说,不是像经典CNN那样学习一些裁剪的图像平面,而是依赖于SE(2)-等变CNN,而在于学习几个无限图像平面,因此提供场景空间的更密集覆盖。5. 拟议的E-PoseNet本节概述了我们提出的等效姿态回归模型E-PoseNet。为了能够评估如何将姿态信息明确编码到特征空间中,3为了清楚起见,在不失一般性的情况下,我们放弃了偏见。B在这场辩论中(八)6881.ΣFN站损耗LR=<$q0−q× ×ר ,是从预-图5. E-PoseNet-我们的姿态回归管道利用旋转平移等变ResNet 18 [24]主干,两个完全连接的多层感知器(MLP)将特征提升到更高维的空间,然后是两个分支,分别回归相机的位置和方向。和数据有效的姿态回归器,我们从PoseNet的体系结构出发[35]。我们遵循相同的管道,除了我们用ResNet[24]的SE(2)-等变[61]版本替换GoogLeNet主干,以提取平移和旋转等变特征。再-选择模型如图5所示。损失函数。为了回归相机姿态,我们使用[34]中引入的损失函数,并定义为:LP=Ltexp(−st)+st+LRexp(−sR)+sR,(10)其中位置<$lossLt=<$t0−t <$2,2002年2网络架构。 E-PoseNet由一个旋转-平移等变ResNet18主干,两个完全连接的多层感知器(MLP),用于将特征提升每个分支由一个独立的完全连接的MLP头.SE(2)-等变骨架。我们的脊梁,也就是说,特征提取器是ResNet的SE(2)旋转平移等变版本。具体来说,我们使用e2 cnn [61]实现E(2)-等变卷积,池化,归一化和非线性,以构建等变ResNet 18。为了减少计算量,我们将SE(2)群离散化,使模型只与R2,+<$CN群等变,这意味着R2中的所有平移和2π的角度倍数的旋转。 提取的特征现在是具有大小(KNHW)的旋转等变特征映射V,其中K是通道的数量,N是特征方向的数量(对于我们的模型,我们使用N =8),H,W分别是高度和宽度。除了经典的平移信息之外,所获得的特征因此对可以增强姿态回归的旋转信息进行此外,更广泛变换的等方差以有助于泛化的方式约束网络,特别是由于图像旋转下共享的权重[9]。最后,这种旋转等变的ResNet显示出模型大小的显着减少,与常规的ResNet架构相比,大约减少了1/N的参数真的,以获得相同的特征尺寸。的确,经典的特征映射的形式是(K×H×W)。dicted(q,t)和groundtruth(q0,t0)摄像机姿势,考虑-执行方向的四元数表示st,sR是学习参数。6. 实验和分析所提出的方法旨在通过利用能够学习几何感知特征图的等变特征提取骨干来提高APR准确性我们首先使用来自T-Less数据集的样本显示SE(2)-等变模型对旋转特征图的影响[26]。然后,我们在室内和室外摄像机定位的两个数据集上对我们提出的E-PoseNet进行T-Less的等方差分析。在这项研究中,我们使用了来自无T训练数据集的“对象5”序列[ 26 ]。在场景中仅存在一个无纹理对称对象并经历连续旋转的情况下,该序列表示用于测试不同旋转参数化和通道化的影响的理想情况。为了评估等方差的影响,我们的主干由10个卷积层组成,其中内核大小等于2,ELU非线性和Max Pooling每两层下采样,其中内核大小等于2。测试了不同程度的等变,即经典CNN蚂蚁18°(N=20),等变10°(N=36),最后,等变SO(2).等变模型是基于关于E2CNN的实现[61]。我们只在一个序列上训练了模型,没有任何数据增强,训练了100个epoch。参数、优化器、学习率和随机种子的数量是固定的。6882∼−图6. 提取的特征图-差异:(b)等变CNN和(c)经典CNN。使用的样本(a)来自T-LESS数据集[26]。图8. Cambridge Landmarks的特征可视化-来自CambridgeLandmarks数据集[35]的样本图像的可视化(左),以及由E-PoseNet学习的各自的SE(2)组表示(右)。图7.等变模型比较-在来自无T训练数据集[ 26 ]的“对象5”序列图7报告了预测位姿误差低于10 cm,10°的样本比例。我们观察到,增加等方差水平,即, 减小离散采样角导致姿态估计模型的性能增加。此外,SO(2)连续旋转等方差已取得这里使用的度量不遵循标准的T-LESS度量,因为它仅用于模型变量比较。旋转等变和经典CNN特征之间的差异在图6中突出显示。通过使用具有不同方向的图像(图6(a))作为输入,相同的变换链接从模型(b)的不同阶段提取特征图。相比之下,经典CNN的情况并非如此,其中获得的特征图不是彼此的旋转版本(c)。数据集。剑桥地标-评估E-PoseNet在户外摄像机重定位中的性能。这是一个大规模的数据集采取了剑桥大学,包含原始视频标记为6自由度相机构成和视觉重建的场景(空间范围为900- 5500平方米)。我们在四个场景上训练和评估E-PoseNet(见表1)。此外,一些样本被用来可视化所获得的E-PoseNet特征字段。图8表明,它们直接支持SE(2)的表示,因此丰富了方向的概念,以向量场的形式可视化。相反,经典的CNN不将几何信息直接编码到其特征空间中。7-场景- 对于室内0.1- 10m2。在我们的实验中只使用RGB图像。最后,这两个数据集提出了各种挑战,即,遮挡、反射、运动模糊、照明条件、复制纹理以及视点和轨迹的变化。相机姿态回归的比较分析。我们比较了E-PoseNet与最先进的APR方法在室外和室内场景中的摄像机定位性能首先,我们测试了凸轮桥地标数据集的性能,我们在表1中提供了位置和方向误差的中位数。我们还比较了E-PoseNet与最先进的单目姿态回归器在7-Scenes数据集上的性能。表2包含结果。从两个数据集的结果,并与APR方法相比,我们6883−×国王旧医院店铺外观圣玛丽DenseVLAD + Inter.(基线)[56]1.48/4.452.68/4.630.90/4.321.62/6.06[35]第35话1.92/5.402.31/5.381.46/8.082.65/8.48PN学习权重[34]0.99/1.062.17/2.941.05/3.971.49/3.43[33]第三十三话1.74/4.062.57/5.141.25/7.542.11/8.38[58]第五十八话0.99/3.651.51/4.291.18/7.441.52/6.68[45]第四十五话1.06/2.811.50/4.030.63/5.732.11/8.11GPoseNet [7]1.61/2.292.62/3.891.14/5.732.93/6.46MapNet [3]1.07/1.891.94/3.911.49/4.222.00/4.53IRPNet [52]1.18/2.191.87/3.380.72/3.471.87/4.94MS-变压器[15]0.83/1.471.81/2.390.86/3.071.62/3.99[第16话]0.60/2.431.45/3.080.55/3.491.09/4.99E-PoseNet(我们的)0.95/1.631.43/2.640.60/2.781.00/3.16表1. Cambridge Landmarks数据集(室外定位)上姿态回归的比较分析[35] -我们报告了每种方法的位置/方向误差中位数(以米/度为单位)。最佳结果以粗体突出显示。象棋火头办公室南瓜厨房楼梯DenseVLAD + Inter. [56个]0.18/10.00.33/12.40.15/14.30.25/10.10.26/9.420.27/11.10.24/14.7[35]第35话0.32/8.120.47/14.40.29/12.00.48/7.680.47/8.420.59/8.640.47/13.8PN学习权重[34]0.14/4.500.27/11.80.18/12.10.20/5.770.25/4.820.24/5.520.37/10.6[33]第三十三话0.37/7.240.43/13.70.31/12.00.48/8.040.61/7.080.58/7.540.48/13.1[58]第五十八话0.24/5.770.34/11.90.21/13.70.30/8.080.33/7.00.37/8.830.40/13.7GPoseNet [7]0.20/7.110.38/12.30.21/13.80.28/8.830.37/6.940.35/8.150.37/12.5[34]第三十四话0.13/4.480.27/11.30.17/13.00.19/5.550.26/4.750.23/5.350.35/12.4MapNet [3]0.08/3.250.27/11.70.18/13.30.17/5.150.22/4.020.23/4.930.30/12.1IRPNet [52]0.13/5.640.25/9.670.15/13.10.24/6.330.22/5.780.30/7.290.34/11.6AttLoc [59]0.10/4.070.25/11.40.16/11.80.17/5.340.21/4.370.23/5.420.26/10.5MS-变压器[15]0.11/4.660.24/9.600.14/12.20.17/5.660.18/4.440.17/5.940.26/8.45[第16话]0.08/5.680.24/10.60.13/12.70.17/6.340.17/5.600.19/6.750.30/7.02E-PoseNet(我们的)0.08/2.570.21/11.00.16/10.30.15/6.800.16/3.820.20/6.810.24/9.92表2. 7-Scenes数据集(室内定位)[53]上姿态回归的比较分析-我们报告了每种方法的位置/方向误差中位数(以米/度为单位)。最佳结果以粗体突出显示。得出结论,所提出的E-PoseNet在所有室外和室内场景中实现了最低的定位误差,并且在大多数场景中实现了最低的定向误差。它还与这些数据集上最新的基于transformer的架构[15,16]竞争实施详情。我们测试了等变主干的不同架构,从模型大小和性能角度来看,ResNet18是我们实验中最合适的我们训练我们的模型,5使用Adam 优化器[ 36 ]的10 k历元,β1=0。9,β2=0。999,n=10−5,批量大小为256。在训练阶段,我们重新缩放图像,使其较小的长度为256像素,然后是随机的224 224裁剪。未使用进一步的数据扩充局限性。 虽然我们专注于为APR管道的特征提取部分引入等效操作,但以下阶段(即嵌入,回归)不具有相同的属性,导致破坏整个管道的等方差性。所提出的APR模型的另一个限制是与经典CNN模型相比,等变CNN模型所需的时间更长。请注意,这仅在训练期间,而两种类型的模型的推理时间相似。7. 结论本文提出了一个新的方向,利用等变特征编码更多的几何信息的输入图像的相机姿态回归问题。通过使用SE(2)-等变特征提取器,我们的模型能够在室外和室内基准测试中优于现有的方法。此外,我们得出结论,用于几何推理的深度学习模型的等变特性为实现绝对姿态回归的潜力提供了一个有希望的6884引用[1] 马纳尔·马赫布布勒·萨马德湖Vidyaratne,AlexanderGlandon,and Khan M.伊夫特哈鲁丁。语音和视觉系统中的深度神经网络综述神经计算,417:302-321,2020。1[2] 埃里克·JBekkers、Remco Duits、Tos Berendschot和BartM.哈尔·罗米尼。视网膜血管追踪的多方向分析方法。J.Math.Imaging Vis. ,49(3):583 3[3] Samarth Brahmbhatt,Jinwei Gu,Kihwan Kim,JamesHays,and Jan Kautz.用于相机定位的地图的几何感知学习。 在IEEE计算机视觉和模式识别会议论文集,第2616- 2625页二、八[4] Michael M.布朗斯坦,琼布鲁纳,塔可科恩,和佩塔尔维利科维奇。几何深度学习:网格、组、图形、测地线和量规。CoRR,abs/2104.13478,2021。二、五[5] 琼·布鲁纳和圣·埃菲·马拉特。变散射卷积网络。IEEE传输模式分析马赫内特尔,35(8):1872-1886,2013. 3[6] 蔡明,沈春华,伊恩·里德。摄像机重定位的混合在2018年英国机器视觉会议上,BMVC 2018,英国纽卡斯尔,2018年9月3日至6日,第238页,2018年。2[7] 蔡明,沈春华,伊恩·里德。摄像机重定位的混合概率2019. 8[8] 陈海伟,刘世晨,陈伟凯,李浩,和冉德尔希尔.三维点云分析的等变点网络。在IEEE/CVF计算机视觉和模式识别会议(CVPR)中,第14514二、三[9] 塔可·科恩和麦克斯·威林群等变卷积网络。在机器学习国际会议上,第2990-2999页。PMLR,2016. 二、三、六[10] 塔 科 湾 Cohen , MarioGeiger , JonasK ?hler ,andMaxWelling.球形cnns。在第六届国际会议上学习表示,ICLR 2018,温哥华,不列颠哥伦比亚省,加拿大,2018年4月30日至5月 3日,会议跟踪进行,2018年。2[11] 塔可S科恩,马里奥·盖格,莫里斯·韦勒。齐型空间上等变cnn的一般理论。在神经信息处理系统进展32:神经信息处理系统年度会议2019,NeurIPS 2019,2019年12月8日至14日,温哥华,BC,加拿大,第9142-9153页,2019年。5[12] 塔可S科恩和马克斯·威林。可控cnn。第五届国际学习表征会议,ICLR 2017,法国土伦,2017年4月24日至26日,会议跟踪记录,2017年。2[13] Carlos Esteves , Avneesh Sud , Zhengyi Luo , KostasDani- ilidis,and Ameesh Makadia.跨域三维等效图像嵌入。Kamalika Chaudhuri和Rus- lan Salakhutdinov编辑,第36届国际机器学习会议论文集,ICML 2019,2019年6月9日至15日,长滩,加利福尼亚州,美国,机器学习研究的第97卷,第1812-1822页PMLR,2019年。2[14] Carlos Esteves , Avneesh Sud , Zhengyi Luo , KostasDani- ilidis,and Ameesh Makadia.跨域三维等变图像嵌入。国际机器学习会议,第1812-1822页。PMLR,2019年。3[15] Shavit等人使用transformers学习多场景绝对姿态回归。在ICCV 2021。8[16] Shavit等人注意相机姿态回归中的激活图。CoRR,abs/2103.11477,2021。8[17] Mario Ferraro和Terry M Caelli。李变换群、积分变换和不变模式识别。空间视觉,1994年。3[18] Martin A. Fischler和Robert C.波尔斯随机样本一致性:模型 拟合 的范 例, 应用 于图像 分析 和自 动制 图。Commun. ACM,24(6):381-395,1981. 1[19] William T. Freeman和Edward H.阿德尔森可操纵滤波器的设计和使用 IEEE Trans. 模式分析马赫内特尔,13(9):891-906,1991. 2[20] Ian Goodfellow Yoshua Bengio和Aaron Courville 深度学习 麻 省 理 工 学 院 出 版 社 , 2016. http : //www.deeplearningbook.org网站。3[21] 迪帕克·K古普塔,德凡舒·艾莉亚,和埃夫斯特拉提奥斯 · 加 维 斯 。 用 于 跟 踪 的 旋 转 等 变 连 体 网 络 。 在IEEE/CVF计算机视觉和模式识别会议(CVPR)的Proceedings中,第12362-12371页二、三[22] 韩家明,丁健,薛楠,夏桂松。Redet:用于空中目标探测的旋转等变探测器。在IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录中,第2786二零二一年六月。 二、三[23] R. I. Hartley和A.齐瑟曼。 计算机视觉中的多视图几何。剑桥大学出版社,ISBN:0521540518,第二版,2004。4[24] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上,CVPR,2016年。6[25] 托马斯·霍丹丹尼尔·巴拉斯和吉瑞·马塔斯Epos:估计具有对称性的对象的6D姿态。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。2[26] 我的仆人,我的仆人,Manolis Lourakis和Xenophon Zabulis。T-LESS:用于无纹理物体的6D姿态估计的RGB-D数据集。IEEE计算机视觉应用冬季会议,2017年。六、七[27] 胡因林、约阿希姆·雨果诺特、帕斯卡·福阿和马蒂厄·萨尔茨曼。分割驱动的6d物体姿态估计。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2019年6月。2[28] Md Amirul Islam , Matthew Kowal , Sen Jia ,Konstantinos G Derpanis,and Neil DB Bruce.位置、填充和预测:深入了解cnns中的位置信息。arXiv预印本arXiv:2101.12322,2021。3[29] Janssen,A.J. E. M. 作者:Erik J.Bekkers,J.奥利·凡·贝斯科和雷科·杜伊茨.三维图像可逆方向分数的设计与处理。J. Math.Imaging Vis. ,60(9):1427-1458,2018.36885[30] 金谷健一图像理解中的群论方法。Springer-Verlag,柏林,海德堡,1990年。4[31] Osman Semih Kayhan和Jan C.范·格默特。关于cnns中的平移 不变 性: 卷积 层可 以利用 绝对 空间 位置 。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2020年6月。3[32] 亚历克斯·肯德尔和罗伯托·西波拉在深度学习中对相机重新定位的不确定性建模。在2016年IEEE机器人和自动化国际会议上,ICRA 2016,瑞典斯德哥尔摩,2016年5月16日至21日,第4762- 4769页2[33] 亚历克斯·肯德尔和罗伯托·西波拉在深度学习中对相机重新定位的不确定性2016年IEEE机器人与自动化国际会议(ICRA),第4762-4769页。IEEE,2016. 8[34] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何损失函数在2017年IEEE计算
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功