没有合适的资源?快使用搜索试试~ 我知道了~
9759z [在叱X美元Xy(cosφ,φXX'你z'θX球面回归:学习n-球面上的视点、曲面法线和3D旋转Shuai Liao Efstratios Gavves Cees G.M. 阿姆斯特丹大学Snoek QUVA实验室摘要许多计算机视觉挑战需要连续输出,但往往通过离散分类来解决原因是分类常规回归缺乏这样一个封闭的几何关系,导致训练不稳定,并收敛到次优的局部极小值。从这个观点出发,我们重新审视卷积神经网络中的回归。我们观察到计算机视觉中的许多连续输出问题自然包含在封闭的几何流形中,例如视点估计中的欧拉角或表面法线估计中的法线。摆姿势的自然框架φ(a) 2D旋转ZYX(b) 表面法向矢量S1:cos2φ+sin2φ=1,Nz]yS2:N&+N&+N&=1这种连续输出问题是n-球面,定义在R(n+1)空间中的自然闭几何流形。通过在回归输出端的n个球面上引入一个球面指数映射,我们获得了表现良好的梯度,从而实现了稳定的训练。我们展示了我们的球面回归如何用于几个计算机视觉挑战,特别是视点估计,表面法线估计和3D旋转估计。对于所有这些问题,我们的实验证明了球面回归的好处。所有论文资源都可以在https://github.com/leoshine/SphericalRegression 上 找到。1. 介绍需要连续输出的计算机视觉挑战很多。观点估计[28,29,33,35],对象跟踪[12,17,18,34],和表面法线估计,[1,8,30,39]只是三个例子。尽管这些问题具有连续性,但基于回归的解决方案似乎并不很受欢迎。相反,基于分类的方法在实践中更可靠,因此在文献中占主导地位[20,24,33,34,35]。这就引出了一个有趣的悖论:虽然若干挑战具有持续性,但目前的解决办法往往是分散的。在这项工作中,我们从这个悖论开始,并调查为什么回归滞后。当将机械并列x $zq=a+biz+cj+dky(c) 三维旋转S3:a2 +b2+c2+d2=1图1. 许多计算机视觉问题都可以转化为n球问题. n-球面是定义在R(n+1)空间中的自然闭几何流形。示例是a)视点估计,b)表面法线估计,以及c)3D旋转估计。本文提出了一个通用的回归框架,可以应用于所有这些n-球问题。分类和回归的ics我们观察到分类自然地包含在由流行的softmax激活函数定义的概率n向后传播到模型的梯度受到约束,并实现稳定的训练和收敛。相反,回归不包含在任何封闭几何中。因此,向后传播的梯度不受约束,可能导致不稳定的训练或收敛到次优的局部最小值。虽然连续问题的分类解决方案遭受离散化ZYθX9760P→··Lθk.←−.注释和预测中的错误,它们通常会导致更可靠的学习[20,24]。本文在分类、回归与闭几何流形的关系的基础上,重新讨论了回归问题(CNN)我们可以将其分为两个子网络,基础网络和预测头,参见(等式2)。①的人。o0p0深度网络。 具体来说,我们观察到许多连续-H(·)100万美元 g(·)100万美元L(·,·)计算机视觉中的输出问题自然是一致的,x−→O=-−−→=←−→Y在封闭的几何流形中,由prob定义,基础网络电子 束活化电磁 损耗莱姆就在手边。例如,在视点估计中,角度不能超出[-π,π]范围。或者,在曲面法线估计中,曲面法线的范数必须是on联系我们基础网络pn联系我们预报头(一)求和为1以形成指示方向性单位向量。事实证明,提出这种连续输出问题的自然框架是n-球面Sn[7,10],它们是定义在R(n+1)空间中的自然闭合几何流形。因此,我们在应用允许的情况下,在n-球面的背景下重新考虑连续空间中的回归。事实证明,如果我们在回归输出处的n-球面上引入一个提议的球面指数映射,我们将获得约束和良好行为的回归梯度我们把Sn球面上的球面指数映射的回归称为Sn球面回归。在这项工作中,我们做出了以下贡献。首先,我们将n-球体的框架与连续输出的计算机视觉任务联系起来。 通过这样做,的性质的n-球公式,导致球形回归。其次,我们提出了一个新的非线性,earity,球面指数激活函数,专门设计的回归Sn球。我们发现激活函数改进了正则回归得到的结果第三,我们展示了如何将一般的球形回归框架用于特定的计算机视觉挑战。具体来说,我们将展示如何将视点估计、表面法线估计和3D旋转估计的经验方法重新应用到所提出的球面回归框架中。我们的实验证明了这些问题的球形回归的好处。我们现在首先在第2节中描述动机是-阻碍了分类和回归的深度学习机制。基于所得出的见解,我们在第3节描述了Sn球面上球面回归的一般框架。然后,我们解释如何专门的一般框架,为特定的应用程序,见图。1.我们在第4节中描述了这些任务的相关工作。在第5节中,我们评估了三个应用程序的球面回归。2. 动机基础网络考虑从输入x到层O的所有层。 它定义了一个函数O = H(x),该函数返回一个中间潜在嵌入O =[o0,o1,., n]原始输入x的值。该函数包含一系列与非线性交织的卷积层,然后是全连通层,H = hl<$hl−1·· ·<$hk <$··<$h2<$h1,其中hk是第k层的θ参数化映射。给定任意输入信号x,潜在表示O是无约束的,即x=H(x)R(n+1)。预测头包含损失函数之前的最后(n+1)维层P,其通常是重称为网络输出。从激活函数g()获得输出,激活函数g()使用由基础网络返回的中间原始嵌入O作为输入来生成输出P:pk=g(ok;O)激活函数g()根据手头的任务将结构强加给原始嵌入O。例如,对于一个训练用于从1000个类别中进行图像分类的CNN,我们有一个1000维的输出层P,它表示softmax概率。并且,对于针对2D视点估计训练的CNN,我们具有表示三角函数P=[cosφ,sinφ]的2维输出层P。在预测头之后是损 失 函 数 ( P , Y ) , 其 计 算 预 测 P 与 地 面 实 况 Y=[y0,y1,. 可以是用于分类的交叉熵或用于回归的平方误差之和。O和P的维度根据所考虑的分类或回归的类型而变化。对于分类,P表示(n+1)个离散仓的概率。对于回归,P取决于假设的输出表示维度,例如,回归1D[28]、回归2D [2,28]或回归3D [27]和其他可以具有不同的输出维度。这些子网络共同组成了一个标准的深度架构,该架构是端到端训练的。训 练在 训 练 期 间 , 第 k 层 参 数 用 随 机梯 度 下 降θkθkγ<$L更新,其中γ是学习率。用链式法则展开微积分我们有深度分类和回归网络。我们开始L=LP(O. . . hk+1)(二)从具有监督学习的对象的输入图像xθkP1961年1月1日卡宾枪θk记住任务,无论是分类还是回归。 再-如果我们使用卷积神经网络,训练是稳定的,并导致一致的收敛,约束梯度,否则梯度更新9761∂θKΣ∈ΣOOOOOOOOO2·奥 我·2·K√L· · ·} L−{奥 我OOO可能导致优化景观上的反弹效果,并且可能相互抵消。接下来,我们检查输出激活P的被激活者以及分类和回归的损失函数。分类.对于分类,标准输出 交流和 损 失 函 数 是softmax 和 交 叉 输 入 y, 即 g ( oi;O ) =pi=eoi/jeoj,i=0n,(O,Y)=iyilog(pi)。 pi和yi是第i类,d是类的个数。请注意,softmax将原始潜在嵌入OR(n+1)映射到结构化输出P,称为n-单纯形,其中每个维度为梯度更新被约束。梯度是受约束的,因为输出P本身受n-单形的范数i pi= 1的约束。使用神经网络的回归可能具有不稳定性和次优结果因为梯度更新不受接下来,我们研究如何定义一个类似的封闭几何流形也回归。具体来说,我们专注于回归问题的目标标签Y生活在一个约束的n球流形。3. 球面回归Σ正的,和等于1,即,Ipi =1和n-球面,记作Sn,是曲面边界,n+1维欧氏球的一个元pi>0。概率输出的偏导数,相对于潜在激活,..空间数学上,n-球面被定义为Sn=x∈R n+1:<$x<$=r并且受N2范数的约束,即x2=1。 图1给出了简单的n-pj=pj·(1−pj),当j=i时我我(3)1 2oi−pi·pj当ji球面,其中S是圆和S3D的表面重要的是,我们观察到偏导数φ pj不直接依赖于O。这导致损失函数关于oi的偏导数,即球 其中n-单纯形约束分类,在n-1单纯形范数 下,我们接下来介绍如何用n-球面的n-23.1. n球约束回归L=−-y,(4)为了提高回归神经网络训练的稳定性-厄佐岛pk10开奖结果K在Sn一个合理的目标是确保独立于O本身。由于P对应于一个概率分布,该分布位于n维简单x内,它自然地受到它的范数pj<1的约束。因此,偏导数εL仅取决于一个量已经被限制的。梯度受到约束。为了约束梯度函数L,我们建议在重新构造中插入一个额外的激活函数在原始包埋层O之后的梯度。激活函数应具有以下属性。I激活的输出P={pk}必须存在回归分析在回归中,通常没有明确的行为-n-sphere,即它的2Σ规范2k=12=1必须是在最后一层中的vation函数以加强某些歧管结构。相反,原始潜在嵌入O直接与地面实况进行比较。以平滑L1损失为例,恒定,例如,cos φ+ sin φ=1。这是必要用于球形目标。与分类类似,梯度L不得偏离-取决于输入信号。 也就是说,.必须L=0。5|yi-哦,我|如果|yi-哦,我|≤1(五)不直接依赖于原始潜在嵌入OR(n+1)。|-0。| − 0. 5否则损失对oi的偏导数等于.为了满足性质I,我们选择激活函数,使其产生归一化值。我们选择了102f(oj)=−(yi− oi)如果|yi−oi|≤1(六)标准化形式:pj=g(oj;O)=K2、凡f(ok)厄佐岛- sign(yi−oi)否则。f()对应于任何单变量映射。 部分输出相对于潜在O的导数,则与分类不同,偏导数是连续的,应变,对于回归,我们观察到,直接依赖于原始输出O。因此,如果O具有高方差,无约束梯度也将具有高方差变成:pj=Σ Σf(oj)Σf(ok)2由于不受约束的梯度,训练可能是不受约束的。稳定厄佐岛。阿罗岛(oi)1·(1 −p), 当j=i时结论用神经网络进行分类,doiAi=.Σ(七)稳定的训练和收敛。原因是,由于...(oi)1·(−pi·pj),当j/=i时p∈K∂√9762POOO三阶导数 受限制,因此,做我A9763o0o1onSexpCNN奥做··我我2布吕普p- 你好||O||·| |· ||∈OOOL−|| | ⟩| ⟩{− − − −}·√Σ其中A=k f(ok)2是归一化因子。图像回归尽管如此,bippj可能取决于原始潜在em-我通过部分函数deriv在ivesdf (oj)上对O进行我以及归一化因子A。 为了满足性质II,使尼洛普岛 独立于原始输出O,因此阿罗杰我们必须确保,.Σdf(oj) 1成为符号(P)[+]独立于O.在实践中,f()满足该约束的选择数量有限。受softmax激活函数的启发,我们求助于前-ponentialmapf(o)=eoi,其中df (oi)=f(o),[++−][−]图2. 对具有tar的n个球进行寄存得到Y=[y0,...,yn],(o)1我f(o)我我I.E.y2= 1。 该模型处理输入图像,首先我厄佐岛·A=我 = pi. 因此,Eq。7简化为返回原始潜在嵌入O= [o0,.,on] ∈ R(n+1). 然后,J.P.J厄佐岛.pi·(1−p2),当j=i−pi·pj,当j/=i时(八)回归分支使用所提出的球形指数acc-激活Sexp将O映射到结构化输出|P |=【日|均p0|、...、 |pn|]中。一个分类分支也被用来学习P的符号标签。预测由P =sign(P)·|P|.删除所有对O的依赖。由于我们的激活函数具有与soft-max类似的形式,也称为归一化指数函数,是一个我 =−sign(pi)|yi|只与P有关。我们可以也处理各个输出{p2,p2. 作为概率因此,我们将激活函数称为Spherical Expo-122基本功能 它将输入从Rn+1映射到正在连续的labellsyi上具有交叉进入py损失,其中n+1n在这种情况下,我们会有H(Y2,P2)= y2log1。我们n-球面的定义域,即Sexp(·):R→S+:ii2我埃欧杰pj=Sexp(oj;O)=0k(eok)2(九)得出结论,球面回归使用球面指数映射允许有约束的参数更新,因此,我们期望它导致稳定的训练和收敛。我们在三个不同的实验中验证了这一点转换方程式8到矩阵中提供雅可比矩阵为(一PP)diag(P),其中 表示外积(详见补充资料请注意,如果我们只进行102归一化而不进行指数归一化,输入应用程序和数据集。3.2. 专门针对S1、S2和S3接下来,我们将展示如何特殊化一般的n-球面。表示为JS平坦=(I−P<$P)·1、受影响不同回归应用的公式,由梯度中的O的大小决定,这是不受约束的。不幸的是,Sexp()中的指数映射将输出限制为仅在正值范围内,而我们的目标可以是正值或负值。为了能够在n球坐标的全范围上进行回归,我们将每个维度重写为两部分:pi=sign(pi)pi.然后,我们使用球面指数函数的输出来学习绝对值pi,i=0,1,.,仅N。同时,我们依赖于单独的分类分支来预测符号值sign(pi),i=1,.,d的输出。的整个网络如图所示。第二章:结论 给定球面指数映射,在特定的n-球面上。S1情形:欧拉角估计. 欧拉角用于描述刚体相对于固定坐标系的方向。它们由3个角度定义,描述围绕固定轴的3个连续旋转。具体地,每个角度φ[0,2π]可以由具有2D坐标[cosφ,sinφ]的单位圆上的点表示,参见图1。由于cos2φ+sin2φ=1,估计这些坐标是一个S1球问题.因此,我们的预测头有两个组成部分:i)一个回归分支,具有绝对值的球形指数激活|=【日|cosφ|、|sinφ|]和,ii)分类分支,|] and, ii) aclassification branch tog(),梯度φ P与O分离,P受n球约束.因此,为了使参数梯度也受到约束,我们只需要选择一个合适的损失函数。事实证明,损失函数没有显著给定基本事实Y,我们可以将损失设置为负点积=P,Y.由于P和Y都在范数为1的球面上(即,||2 =||Y||2 = 1 ) ,这相 当于用 co-||2= 1), this isequivalent to optimize with co-学习sign(cosφ)和sign(sinφ)之间所有可能符号 组 合 , 这 是 一 个 4 类 分 类 问 题 : 符 号 ( P )(+,+),(+,)、( ,+),( 、)的情况。我们可以也能独立预测信号,可能性更小。然而,如果分类器输出的数据不一致,则这将剥夺分类器学习可能的相关性的机会。在训练期间,我们共同最小化回归损失(余弦接近)和符号分类损失正弦邻近损失或L2损失1. 在这种情况下,F或L2损失:L=||P−Y||2=||P||2个以上||Y||2−2⟨|P|、|Y|=|均p0||C(,)|C (∙,∙)|p n||y0||y1|一杜杰一我=9764||·||Y ||22||221对于余弦邻近损失:L=−(|P|、|Y|⟩=−|P|、|Y|。2− 2⟨|P|、|Y|。2 2 297651所以所以|| ||||所以--SO所以所以∈(交叉熵)。对于推理,我们通过将绝对值和符号标签合并在一起来进行最终预测:.cosφ= sign(cosφ)·|cosφ|sinφ= sign(sinφ)·|sinφ|(十)除了欧拉角之外,其他2D旋转也可以以相同的方式学习。S2情况:表面法线估计. 表面法线是垂直于3D场景中物体表面上的点的切平面的方向,见图。1.一、(b).它可以由单位3D向量v= [Nx,Ny,Nz]表示。RGB图像曲面法线图像其中N2+N2+N2=1。因此,曲面法线x y z位于单元3D球的表面上,即,一个S2球体那...根据RGB图像的面法线估计对输入场景的表面法线进行值得注意的是,由2D图像计算的所有表面法线应始终从图像平面向外指向,即Nz0,因为只有这些表面对相机可见。< 这将预测空间减半为S2的半球。同样,在设计曲面法线的球面回归器时,我们有一个回归分支来学习绝对法线值[Nx,Ny,Nz],还有一个分类分支来学习Nx和Ny的所有符号组合。 可能的符号类的总数是4,类似于欧拉角估计。训练和推理也类似于欧拉角。其他S2问题包括学习2D/3D流场中的运动方向、地球上的地理位置等。S3情况:三维旋转估计. 旋转变换在许多计算机视觉任务中是相关的,例如,方向估计、广义视点和超越欧拉角的姿态估计或相机重新定位。旋转变换可以表示为 具有 行 列式 +1 的 大小 为 n 的 正交 矩 阵( 旋 转矩阵)。我们可以把所有可能的旋转矩阵的集合看作一个组,作为向量的运算符。这个群被称为特殊正交李群(n)[14]。具体地,(2)表示所有2D旋转变换的集合,而(3)表示所有可能的3D旋转的集合。我们已经证明了2D旋转可以映射到S1球面上的回归,因此所有的集合SO(2)(b) S2:曲面法线(NYUv2)(c) S3:3D旋转(ModelNet 10-SO 3)图3. 我们在3个计算机视觉任务上评估球面回归。(a)S1:Pascal3D+ [38]上的视点估计,需要预测3个欧拉角:方位角、仰角和平面内旋转。(b)S2:NYU v2 [32]上的表面法线估计,其中需要像素密集表面法线预测(c)S3:我们新提出的ModelNet 10-SO 3上的3D旋转,其中给定CAD模型的一个渲染视图,我们预测将其对齐回标准姿势的基础3D旋转。我们将自身限制为a>0,这再次使输出空间减半。因此,我们只需要预测3个虚部b,c,d的符号,总共有8(23)类。预测头和损失函数的设计类似于S2上的表面法线预测的情况,只是现在有8个符号类。给定(3)的轴角表示(θ,v),我们可以将一个四元数改写为q=(cosθ,sinθv)。约束a>0是等价的2D旋转在拓扑上等价于S球。2 2有趣的是,3D旋转的拓扑结构并不那么简单[14],即没有n-球面等价于(三)、相反,如图所示。1. (c)3D旋转(3)可以被认为是首先选择旋转轴v然后旋转角度θ。这种方法导致众所周知的四元数的S3最接近于3D旋转[31]。单位四元数等于q=a+bi+cj+dk,其中a2+b2+c2+d2=1.由于q和−q给出相同的旋转,限制旋转角度θ[0,π]。 此外,委员会认为,预测8个符号类别等同于预测v属于3D旋转空间的8个象限中的哪一个。4. 相关工作视点估计。一般来说,视点估计集中于恢复3个欧拉角,即方位角、仰角和平面内旋转(见图1)。3-(a))。图尔夏尼ZYX(a)S1:Viewpoint(Pascal3D+)9766∈ −›→×××·∈所以所以∈ ∈ −和Malik [35]将连续欧拉角离散为多个bin,并将视点估计转换为分类问题。Su等人[33]提出了一种更细粒度的离散化,将欧拉角分成360个仓。然而,训练所有可能的输出需要大量的例子,这些例子只能通过合成渲染来解决虽然更自然,基于回归的观点估计是不太受欢迎。由于角度的周期性,大多数方法不直接在角度a,e,t[π,π]的线性空间上回归。原因是忽略角度周期性会导致建模效果不佳,因为1直角和359直角被假设为相距最远。相反,三角表示是首选,[2,28,29]建议用[cosφ,sinφ]表示角度。然后他们学习回归函数h:x[cosφ,sinφ],然而,不强制向量位于S1上。与视点分类相比,回归-Sion给出连续和细粒度的角度。然而,在实践中,训练回归用于视点估计并不容易。复杂的损失函数通常是精心设计的,例如,平滑L1损失[24],而没有达到基于分类的替代方案的准确性水平。在本文中,我们继续基于回归的视点估计的工作路线建立在欧拉角[2,28,29]的S1表示[cosφ,sinφ]的基础上,我们评估了视点预测的球面回归。曲面法线估计。表面法线估计通常被视为2.5D表示问题,其携带场景的几何形状的信息,包括布局、形状甚至深度。曲面法线是一个三维向量,它指向曲面的切平面之外在表面法线估计任务中,给定场景的图像,需要表面法线的逐像素预测[1,8,11,21,30,32,36,39](见图10)。3-(b))。Fouhey等人[11]通过从2D图像中发现有区别的和几何上的3D图元来基于上下文和基于片段的线索,Ladickyet al.[21]从局部图像特征构建其表面法线回归量两者都使用手工制作的功能。Eigen和Fergus [8]提出了一种适用于预测深度、表面法线和语义标签的多尺度CNN架构。虽然网络输出是102归一化的,但梯度不受约束。Bansal等人[1]引入一个跳跃网络模型,通过标准平方误差回归损失的和进行优化,而不对输出施加任何结构。Zhang等人[39]建议使用反卷积层预测法线,并依赖于大规模合成数据进行训练。与[8]类似,它们也对输出强制 一个范数,但具有无约束的最近,Qiet al. [30]提出了双流CNN,联合预测深度和表面法线从一个单一的图像,也依赖于平方误差损失的总和,训练在我们的工作中,我们提出了一个球面指数映射进行球面回归。这种新的映射可以直接应用于任何依赖于n球回归损失的表面法线估计方法,并提高其精度,正如我们在实验中所示。3D旋转估计。3D旋转是计算机视觉和机器人技术中几项任务的组成部分,包括视点和姿态估计或相机重新定位。用于3D旋转的旋转矩阵是33正交矩阵(行列式= 1)。通过神经网络对旋转矩阵进行直接回归是困难的,因为输出位于R9(3 3)空间中。此外,直接回归旋转矩阵不能保证其正交性。最近,Falorsiet al.[9]迈出回归3D旋转矩阵的第一步他们没有直接预测旋转矩阵的9个元素,而是将3D旋转作为S2S2表示问题,将回归的元素数量减少到总共6个。视点[2,5,24,24,26,33,35]和姿态[27,28]考虑对象和相机之间的相对3D旋转。有3个连续的旋转角度,见图。3(a),欧拉角可以唯一地恢复旋转矩阵。由于这种分解易于解释,能够覆盖大部分视点分布,因此被广泛采用。然而,这种方法导致万向节锁定问题[16],其中旋转的自由度降低。Mahendran等人[22]研究了一种轴角表示法,即先选择一个旋转轴,然后沿该旋转轴旋转θ角进行视点估计。要约束角度θ,[0,π)和轴vi[1,1],他们提出了π tanh非线性。此外,而不是一个标准的回归损失,例如。余弦接近或平方误差损失之和,他们提出了一种测地线损失,它直接优化了(3)中的3D旋转。Do等人[6]考虑李代数(3)表示以学习对象的6DoF姿态的3D旋转。它被表示为[x,y,z]R3,并且可以通过罗德里格斯旋转公式[3]映射到旋转矩阵。他们的结论是,100%的回归损失会产生更好的结果。最后,Kendallet al. [19]和Mahendranet al. [22]考虑用于相机重新定位和视点估计的四元数。由于四元数允许在S3球面上进行简单的插值和计算,因此它们也广泛用于图形学[4,31]和机器人[25]。尽管Doet al.[6]认为四元数是过度参数化的,我们认为这是一个优势,可以让我们更自由地直接在n球面上学习旋转。尽管上述工作的优雅和完整性,建模3D旋转是困难的,并且专门用于手头任务的方法通常达到更好的精度。与上述大多数作品不同,9767expexp6§§†§expexp不exp公司简介表1. S1:使用欧拉角进行视点估计. 比较-表2。S2:表面法线估计与状态的比较在Pascal3D+上拥有最先进技术的儿子添加我们的S1球形最先进的技术添加我们的S2球面回归在[28]的骨干网络上的回归导致最佳AC。牧师我们报告一个类明智的比较补充。MedErr↓Acc@π↑Mahendran等人[22] 16.6不适用Tulsiani和Malik [35] 13.6 80.8Mousavian等人[26] 11.1 81.0Su等人[33] 11.7 82.0Penedones等人[28] 11.6 83.6Prokudin等人[29] 12.2 83.8Grabner等人[13] 10.9 83.9Mahendran等人[23] 10.1 85.9Zhanget al.[39]最好的方法精度平均值↓中位数↓ 11。25岁↑ 22岁。5米↑30米。0◦↑Fouhey等人[11] 37.7 34.1 14.0 32.7 44.1Ladicky等人[21] 35.5 25.5 24.0 45.6 55.9Wang等人[36] 28.8 17.9 35.2 57.1Eigen和Fergus [8] 22.3 15.3 38.6 64.0 73.9Zhang等人[39] 21.7 14.8 39.4 66.3 76.1本文件:[39]+S219.7 12.5 45.8 72.1 80.6[8]复制自[8]。本文:[28]†+S19.2 88.2关于S1 表示[cosφ,sinφ][2,28]。在这个实验中-†基于我们的实施。我们学习直接在欧几里德空间上回归。此外,我们提出了一个框架,用于在具有约束梯度的n-球体上进行回归,从而获得更稳定的训练和良好的准确性,正如我们在实验中所展示的那样。5. 实验5.1. S1:使用欧拉角的Setup. 首先,我们在Pascal3D+上评估S1视点估计的球面回归[38]。Pascal3D+包含12个刚性对象类别,带有边界框和噪声旋转矩阵注释,这些注释是在手动将3D模型与图像中的2D对象对齐后获得的。我们遵循[23,26,29,33,35]并估计3个欧拉角,即方位角,仰角和平面内旋转,给定地面真实物体位置。一个观点预测是正确的当测地距离<$(R,R)=||logRgtRpr||F2在预测的旋转矩阵Rpr(构造的根据预测的欧拉角),并且地面真实旋转矩阵Rgt小于阈值θ[35]。的我们将其与Penedoneset al.”[28]他曾试图直接回归角度的2D表示[cosφ,sinφ],获得了比其他回归和分类基线更高的精度。也就是说,在实验过程中,我们观察到基于分类的方法更适合大型数据集,最可能的原因是它们增加了参数的数量正如预期的那样,球面回归的连续输出更适合于越来越精细的评估,即Acc@π/12和Acc@π/24(补充材料)。我们得出结论,球面回归是成功的欧拉角的视点估计。5.2. S2:表面法线估计Setup. 接 下 来 , 我 们 在 NYU Depth v2 [32] 上 评 估S2NYU Depth v2数据集包含与Microsoft Kinect深度数据相关的室内场景的1,449个视频帧。我们使用[32]提供的地面真实曲面法线。我们在评估期间考虑整个测试集的所有有效像素评估指标是(平均值和中位数),以及基于准确性的指标,即在给定阈值下正确预测的百分比11. 24小时,评估指标为给定阈值时的精度Acc@π/6二十二岁5分和30分)。我们实施我们的S2球面回归θ=π/6。我们使用ResNet101作为我们的骨干架构,在预测中具有更宽的倒数第二完全连接层由回归分支和分类分支共享的头(详见补充材料)。由于许多注释都集中在x轴上,我们发现在训练期间将所有注释旋转45°(并在测试时旋转回来)会导致更平衡的注释的分发和更好的学习。对于训练数据,我们还使用[33]提供的合成数据,而没有像[22,23]中那样的额外数据增强。结果 我们在表1中报告了与最先进技术的比较。请注意,我们的球面指数映射可以很容易地被任何基于回归的方法基于Zhanget al.[39],其建立在VGG-16卷积层之上,以及具有用于解码的跳跃连接的反卷积层的对称堆栈。与视点估计一样,我们还将地面真实值围绕z轴旋转45°,以产生更好的结果。我们遵循与[39]相同的训练设置也就是说,我们首先在[39]提供的选定568K合成数据上预训练8个epoch,并在NYU v2上微调60个epoch。结果 我们在表2中报告了结果。 更换Regu-在[39]中,在S2上使用球面回归的较大回归大大改进了表面法线的估计。我们发现,对于表面法线估计,我们执行一次回归,9768expexpexpexp−exp所以OOO--表3.S3:使用四元数进行3D旋转估计。在新建立的ModelNet 10-SO 3上进行调试。 在AlexNet或VGG16骨干网络上添加我们的S3球形回归可以获得最佳准确性。6 12 24AlexNet +S325.3 65.4 48.5expVGG 16(直接+平滑-L1)36.8 46.7 29.4 13.4VGG16 +S平面25.9 63.5 48.7 29.5指数化Sexp在小批量上产生较低的方差,火车全程VGG16 +S320.3 70.9 58.9 38.4结果 我们在表3中报告了结果。 首先,两个S平每像素位置。由于这些回归中的每一个都可能返回不稳定的梯度,因此使用球形回归来限制损失的总和是有益的。特别是对于11的更精细的回归阈值。25度22度5o.我们的结论是,球面回归也是成功的表面或-错误估计5.3. S3:使用四元数进行3D旋转估计Setup. 最后,我们评估了S3球面回归在S3上的三维旋转估计的四元数。对于此评估,我们引入了一个新的数据集,ModelNet 10-SO 3,由3D合成渲染图像组成。ModelNet 10-SO 3基于ModelNet 10[37],其中包含来自10 个 类 别 的 3D CAD 模 型 的 4 , 899 个 实 例 。 在ModelNet10中,目的是将3D形状分类为允许的CAD对象类别之一。对于ModelNet 10-SO 3,我们有不同的目的,我们希望通过预测其3D旋转矩阵w.r.t.来评估3D形状对齐。从单个图像中提取参考位置。我们构建ModelNet 10-SO 3的方法是,对每个CAD模型均匀采样100次3D旋转(3)作为训练集,4次3D旋转作为测试集。我们使用白色背景渲染每个视图,因此前景仅显示旋转渲染。我们在图中展示了一些例子3-(c).由于万向节锁定问题[16],不建议依赖ModelNet 10-SO 3的欧拉角相反,只有通过预测3D旋转矩阵的四元数表示,才有可能进行对于这个任务,我们测试了以下3个回归策略:(I) 平滑L1损失的直接回归。它可能导致输出不再遵循单位N2范数。和s3四元数回归优于直接回归回归基线 这说明了在对球形目标进行回归时,将输出空间约束在球面上的重要性. 其次,将l2归一化约束放在输出空间上,S3在AlexNet和VGG16的情况下都优于S平坦对于AlexNet,我们在所有指标上获得了约8- 12%的改进VGG16总体上更高,但相对于基线的改善较少。这表明,使用VGG 16,我们可能会更接近这项艰巨任务所能达到的最大精度这可以用形状没有纹理这一事实来解释。因此,常规VGG 16接近于可由良好的基于RGB的模型编码的VGG 16。请注意,由于SO(3)流形上的输出空间巨大,因此不可能使用离散化和分类方法[5,24,33,35]估计3D旋转此外,我们通过在训练过程中记录其平均范数来研究梯度的方差结果示于图4.我们观察了梯度-球面指数映射的e范数具有更低的方差。球面幂实现这一点是自然的或没有干预,不像其他技巧(例如。梯度削波、梯度重新参数化),其修复症状(梯度不稳定/消失/爆炸)但不修复根本原因(不受约束的输入信号)。我们的结论是,球面回归是成功的,也适用于三维旋转估计。6. 结论球面回归是一个通用的框架,可以应用于任何连续输出问题,生活在n-(I)回归分析(R2)归一化S平 坦.球体它可以获得受约束且表现良好的回归梯度,以应对多种计算机视觉挑战。(II)回归与Sexp(本文)。我们报告的结果基于AlexNet和VGG16作为我们的CNN骨干,具有类特定的预测头。我们从视点估计中借用评估度量,即MedErr和Acc@π/6,π/12,π/24,以便我们也检查更细粒度的预测。在这项工作中,我们已经研究了三个这样的应用,特别是视点估计,表面正常估计和三维旋转估计。一般来说,我们观察到球面回归在所有任务和不同数据集中大大提高了回归精度。我们的结论是,球面回归是一个很好的替代任务,需要连续的输出预测πMedErr↓ Acc@↑ Acc @π↑访问 @π↑AlexNet(Direct+smooth-L1)46.132.511.22.5AlexNet +Sflat33.353.534.113.9图4. 平均梯度范数方差||L||. 球体-OOO9769引用[1] Aayush Bansal、Bryan Russell和Abhinav Gupta。Marr再访:经由表面法线预测的2D-3D对准。在CVPR,2016年。[2] 卢卡斯·拜尔亚历山大·赫尔曼斯和巴斯蒂安·莱比。双端网络:来自离散训练标签的连续头部姿势回归。在GCVPR,2015年。[3] R. W.布洛克特机器人操作器与指数积公式。网络与系统的数学理论一九八四年[4] Erik B Dam,Martin Koch和Martin Lillholm。四元数,插值和动画. Datalogisk研究所,哥本哈根大学,1998年。[5] Gilad Divon和Ayellet Tal。视点估计-洞察模型。在ECCV,2018。[6] Thanh-Toan Do、Trung Pham、Ming Cai和Ian Reid。实时单目物体实例6d姿态估计。在BMVC,2018年。[7] 作者声明:John W. 体验几何学:在平面和球面上。Prentice Hall,1996年。[8] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV,2015年。[9] LucaFalorsi,Pim de Haan,Tim R Davidson,Nicola DeCao,MauriceWeile r,PatrickForr e',andTacoSCohen. 同胚 变 分 自 动 编 码 的 探 索 。 arXiv 预 印 本 arXiv :1807.04689,2018。[10] 哈 利 · 弗 兰 德 斯 《 微 分 形 式 与 物 理 科 学 应 用 》( Differential Forms with Applications to the PhysicalSciences),Harley Flanders,第11卷。爱思唯尔,1963年。[11] David F Fouhey,Abhinav Gupta,and Martial Hebert.用于单个图像理解的数据驱动的3d基元。InICCV,2013.[12] Jin Gao,Haibin Ling,Weiming Hu,and Junliang Xing.基于迁移学习的高斯过程回归视觉跟踪。2014年,在ECCV[13] Alexander Grabner、Peter M Roth和Vincent Lepetit。野外物体的三维姿态估计和三维模型检索。在CVPR,2018年。[14] 大卫·古拉里。对称和拉普拉斯算子:介绍调和分析、群表示及应用。布尔。阿梅尔。数学。Soc,29,1993.[15] 威廉·罗恩·汉密尔顿。论四元数或者代数中的一个新的虚数系统。伦敦,爱丁堡和都柏林哲学杂志和科学杂志,1844年。[16] 大卫·霍格。阿波罗导航系统:阿波罗惯性测量组件万向节锁定的考虑。剑桥:麻省理工学院仪器实验室,1963年。[17] Seunhoon Hong , Tackgeun You , Suha Kwak , andBohyung Han.利用卷积神经网络学习判别显著图进行在线跟踪。ICML,2015。[18] Zdenek Kalal,Krystian Mikolajczyk,and Jiri Matas.跟踪-学习-检测PAMI,2010年。[19] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何损失在CVPR,2017年。[20] Lubor Ladicky,Ji
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功