姿态估计中的标签周期性和相似性问题的解决方法

85 浏览量更新于2023-10-13 收藏 872KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于姿态估计的Xiaofeng Liu1，2 <$，Yang Zou1 <$ $>，Tong Che3 <$ $>，Peng Ding4，Ping Jia4，Jane You5，B.V.K.Vijaya Kumar11卡内基梅隆大学;2哈佛大学;3 MILA4中国科学院CIOMP;5香港理工大学†同等贡献*对应于：liuxiaofengcmu@gmail.com摘要使用真实标签的期望概率（即，1在一个热的情况下）每个姿势的Softmax预测（ΣN本文针对具有离散和周期性类标签的任务（例如，姿态/定向估计）中，tj*S3sj*tj*S2S1相同sj*i=0时我s3s2S1深度学习的文本。常用的交叉熵或回归损失不能很好地匹配这个问题，因为它们忽略了标签的周期性和类相似性，或者假设标签是连续值。我们建议更理想的分布s0sN交叉熵劣质分布sN-2s0sN通过预先定义（即，使用圆的弧长）或自适应地学习地面度量。我们扩展的地面度量作为一个线性，凸或凹的增加功能w.r.t.从优化的角度来看。我们还建议构建保守的目标标签，使用包裹的单峰均匀混合分布来模拟内点和离群点噪声。与one-hot设置不同，保守标签使得Wasserstein距离的计算更具挑战性。我们系统地总结了实用的封闭形式的解决方案的Wasserstein距离的位姿数据，无论是一个热点或保守的目标标签。我们评估我们的方法，头部，身体，车辆和三维物体姿态基准与详尽的烧蚀研究。Wasserstein损失获得优于目前的方法，特别是使用凸映射函数的地面度量，保守标签，和封闭形式的解决方案的性能。1. 介绍存在一些预测任务，其中输出标签是离散的并且是周期性的。例如，考虑姿态估计的问题。虽然姿势可以是连续变量，但在实践中，它通常是离散的，例如，，以5度的间隔。由于姿态的周期性性质，355度标签比10度标签更接近0度标签。因此，重要的是要考虑姿势分类问题的周期性和离散性。在以前的文献中，姿态估计通常被视为多类分类问题[49]，即度量回归图1.用于姿态估计的CE损失的限制。汽车的地面实况方向是tj*。姿态估计器的两个可能的softmax预测（绿色条）在tj *位置具有相同的概率。因此，两个预测分布具有相同的CE损失。然而，左预测优于正确，因为我们希望预测的概率分布更大，更接近地面真实类。[46]或两者的混合[37]。在使用交叉熵（CE）损失的多类分类公式中，假设类标签彼此独立[49，25，33]。因此，类间相似性没有被适当地利用。例如，在图。1，我们更希望预测的概率分布集中在地面真实类附近，而CE损失不鼓励这样做。另一方面，度量回归方法将姿态视为连续数值[35，27，31]，尽管姿态本身的标签是离散的。如[36，30，26]所示，使用离散标签学习回归模型会导致过度拟合，并且与分类相比表现出相似或较差的性能。最近的工作要么使用联合分类和回归损失[37]，要么用忽略周期性的粗略分类将圆划分为几个扇区，然后将回归网络独立地应用于每个扇区作为有序回归问题[20]。不幸的是，它们中没有一个从根本上解决CE的限制或角度数据中的回归损失。在这项工作中，我们采用Wasserstein损失作为经验风险最小化的替代。第一个水-826228263斯坦距离被定义为在一个分布中移动质量以匹配目标分布的最佳运输成本[51，52]。具体来说，我们测量softmax预测与其目标标签之间的通过将基础度量定义为类相似性，我们可以以对类之间的相关性敏感的方式来测量预测性能当先验地已知相似性结构以并入类间相关性时，可以预先定义基础度量，例如，姿势的弧长。从优化的角度，我们进一步该方法可以用所有预测概率的软注意方案来表示单热目标标签设置我们还建议学习替代优化的最佳地面度量。姿态估计的另一挑战来自低图像质量（例如，模糊、低分辨率）以及随之而来的噪声标签。这需要1）对噪声进行建模以进行鲁棒训练[30，26]和2）量化测试阶段预测的不确定性[46]。错误注释的目标可能会使训练过程产生偏差[56，3]。我们制造了两种噪音。异常值噪声对应于一个训练样本通过随机误差与其他样本非常遥远，并且可以通过均匀分布来建模[56]。我们注意到，姿态数据更可能具有内层噪声，其中标签被错误地标注为近角，并建议使用单峰分布对其进行建模。我们的解决方案是通过使用包裹的均匀单峰混合模型平滑独热标签来构建保守的目标分布。与 one-hot 设置不同，保守的目标分布使得Wasserstein距离的计算更先进，因为有许多可能的运输计划。N个类的O（N3）计算复杂度长期以来一直是使用Wasserstein dis-covery的绊脚石用于大规模应用。而不是仅仅使用O（N2）复杂度算法[11]来获得其近似解，我们系统地分析了当我们的基础度量是线性的，凸的，或con-n时，保守标签的Wasserstein距离的快速闭合形式计算。洞穴增加函数弧长。线性和凸的情况下可以解决的线性复杂度为O（N）。我们的精确解比近似基线有效得多。本文的主要贡献概括为• 我们将姿态估计作为Wasserstein训练问题。角度数据的类间关系是前作为先验信息明确纳入我们的地面测量中，其可以预先定义（函数w.r.t. 弧长）或利用备选优化自适应地学习• 我们模型的内点和异常误差的姿态数据使用一个包裹的离散单峰-均匀混合分布，并通过将一个热标签转换为保守的目标标签来正则化目标置信度。• 无论是一个热或保守的目标标签，我们系统地总结出可能的快速封闭形式的解决方案当在基度量中应用非负线性、凸或凹增映射函数时。我们在多个具有挑战性的基准点上实证验证了所提出的方法的有效性和通用性，并实现了最先进的性能。2. 相关作品姿态或视点估计在计算机视觉中有很长的历史[40]。它出现在不同的应用中，例如头部[40]、行人身体[49]、车辆[64]和对象类[55]取向/姿态估计。虽然这些系统大多是独立开发的，但在我们的框架中，它们本质上是相同的问题。目前使用深度网络的相关文献可以分为两类。第一组中的方法，如[48，17，65]，预测图像中的关键点，然后使用预先定义的3D对象模型恢复姿势关键点可以是语义[43，62，38]或封装对象的3D边界框的八个角[48，17]。第二类方法更接近我们的方法，直接从图像[14，60]估计角度值。代替用于旋转的典型欧拉角表示[14]，在[4，46]中选择双元数表示，并继承其sin和cos运算中的周期性。但是，它们的设置仅与回归兼容。几项研究评估了基于分类和回归的损失函数的性能，并得出结论，在姿势估计中，分类方法通常优于回归方法[38，37]。这些局限性在最近的方法中也被发现，这些方法将分类与回归甚至三重丢失相结合[37，64]。Wasserstein距离是在给定度量空间上的概率分布之间定义的度量[24]。最近，它在生成模型等方面引起了广泛的关注[2]。[16个]介绍了它的多类多标签任务的线性模型。由于在一般情况下求解精确距离需要大量的计算，因此这些方法选择近似解，其复杂度-时间复杂度为O（N2）。离散Wasserstein距离的快速计算也与SIFT [9] de密切相关。脚本，HSV或LCH空间中的色调[8]和序列数据[54]。受上述工作的启发，我们进一步将这一思想应用于姿态估计，并通过基矩阵对标签空间的几何形状进行编码。我们表明，快速算法存在于我们的姿势标签结构使用一个热或保守的目标标签和地面度量不限于弧长。28264−i=0时i=0时j=0Dj*i=0噪声数据的鲁棒训练长期以来一直被研究用于一般分类问题[23]。用均匀分布平滑独热标签[56]或正则化softmax输出的熵[45]是两种流行的解决方案。基于回归的定位的一些工作对具有2D高斯分布的平面中的点位置的不确定性进行建模[57]。[66]建议有信心地定期进行自我训练。然而，有几个研究的离散周期标签。除了高斯采样，泊松0 1 2 …图2.左：在单一热目标情况下唯一可能的运输计划。右：使用弧长作为接地度量的接地矩阵。和二项分布进一步讨论，形成单峰均匀分布满足：Wi，j≥0;N−1Wi，j≤si;N−1Wi，j≤tj;姿态估计的不确定性量化旨在量化结果的可靠性，置信度分布-ΣN1j=0Σj=010 -12-1N−1si，Σi=0N−1 tj）。j=0每个类别的角度值而不是姿势数据的某个角度值[46]。校准良好的不确定性对于大型系统评估决策结果尤为重要[10，18]。[46]建议输出许多组高斯/冯-米塞斯分布的均值和变化[4]。它不必要地复杂并且是某种不匹配的公式，因为它假设姿势标签是连续的，而它是离散的。我们认为softmax是一个捕捉离散不确定性的自然函数，并且与Wasserstein训练兼容。Wasserstein距离中的地面距离矩阵D为通常是未知的，但在我们的应用中有明确的含义。它的第i，j个条目Di，j可以是圆中第i个点和第j个可能的选择是使用圆的弧长di，j（即，圆中第i点与第j点之间的距离）作为地面度量Di，j= di，j。d i，j=min{|i−j|，N−|i − j|（2）Wasserstein距离与地球相同当两个Σ结构相同时，m在Σ上3. 方法总质量（即，N−1si=N-1tj），并使用我们考虑学习姿态估计器hθ，由θ参数化，具有N维softmax输出单元。它将图像x映射到向量s ∈RN。我们通过一个hy-hθ的假设空间给定输入x及其目标地真值独热标签t，典型地，学习通过对称距离di，j为Di，j。该设置对于比较相似性是令人满意的SIFT或色调[51]，其不使用神经网络优化。以前的有效算法通常只对Di，j=di，j成立。我们建议将Di，j中的基度量扩展为f（di，j），其中f是一个正递增的经验风险最小化hθ∈H L（hθ（x），t），其中函数w.r.t. Di，j.损失L（·，·）作为性能度量的替代。不幸的是，交叉熵、信息散度、Hellinger距离和基于X2距离的损失独立地处理输出维度[16]，忽略了姿势标签空间上的相似性结构。设s={s i}N−1是h θ（x）的输出，即， softmax3.1. Wasserstein训练与一个热点目标独热编码是多类单标签数据集的典型设置。目标标签概率的分布是t = δ j，j*，其中j*是基础真值类，δj，j* 是狄拉克增量，对于j = j*1，它等于1，否则等于0。i=0时N−1ΣN−1ΣN−1预测N类（角度），并定义t={tj}j=0定理1. 假设j=0tj=i=0时 si，t是作为目标标签分布，其中i，j ∈ {0，···，N-1}是维度（类）的索引。假设类标签具有一个基本度量Di，j，它度量输出的第i维和第j维之间的语义相似性在N类数据集中，有N2个可能的Di，j，构成一个地距离矩阵D∈RN×N。当s和t都是直方图时，精确Wasserstein损失的离散度量定义为当t=1（或ΣN−1s）2时，有只有一个可行的最优运输方案。根据W的准则，所有的质量都必须转移到真实值标签j * 的簇中，如图所示。二、然后，softmax预测s和独热目标t之间的Wasserstein距离退化为NΣ−1LDi，j（s，t）=infNΣ−1NΣ−1Di，jWi，j（1）1Lfi、j（s，t）=i=0时si f（di，j*）（3）Wj=0 i=0时对于s和t，我们使用i，j交错，因为它们索引同一组在一个圆圈中的位置。其中W是传输矩阵，其中Wi，j日指示2我们注意到softmax不能严格保证其输出考虑到Σ的舍入操作，其为1。然而，源分布中从i点移动的质量设t*为1或N−1si）在我们的实验中并不重要到第j个目标位置。一个有效的运输矩阵Wi=0tj*S3S2sj*S1s0sN-1sN-200 1 211 0 1d0.222 1 0123N-11 2 30……i=0时Σsoftmax输出的典型格式，精确到8位小数。ΣΣ28265i、jN其中Df=f（di、j）的情况。实际上，f可以是递增的pk0.20tj*独热标签的预期概率保守标签适当的功能，例如，p thd i，j的幂和Huber函数。0.150.10tj*t2方程的精确解（3）计算复杂度为O（N）。地面度量项f（di，j*）t10.050.00Kt因为权重w.r.t. s i，它考虑了所有类一个软的注意力计划[32，28，29]。它明确地鼓励概率分布在相邻的05j*− 10j*−5K/2=10 15 20j*j*+5j*+100tN-1tN-2类J。因为每个s i都是网络的函数图3.左：使用二项式分布的包装操作-参数，区分LDfw.r.t. 网络参数（K+1是单峰分布所涉及的类的数目。收益率N−1s′ f（di，j*）。i、jbition）。右：保守目标标签的分布。i=0i相比之下，单热设置中的交叉熵损失可以可以用公式表示为-1logsj*，它只考虑像硬注意方案[32，28，29]这样的单一类别预测，通常会丢失太多信息。类似地，使用softmax预测的回归损失可以是f（di*，j*），其中i*是具有最大预测概率的类除了预定义的基础度量之外，我们还建议自适应地学习D以及我们的训练bels，我们只是在他们的PDF上应用softmax操作。请注意，输出值被映射为在圆上定义泊松分布用于对特定时间间隔内发生的事件数k的概率进行建模。其概率质量函数（PMF）为：λkexp（− λ）一种替代的优化方案[34]。pk=、 k=0，1，2，…（四）k！步骤1：固定基矩阵D以计算LDi，j（s，t）和L Di，j（s，t）。更新网络参数。步骤2：使用不同姿势之间的特征级1距离固定网络参数和后处理D我们在这一轮中使用归一化的倒数第二层神经响应作为特征向量，因为没有子连续非线性。因此，有意义的是平均每个姿势类中的特征向量以计算它们的质心并使用它们之间的距离来重建Di，j其中λ∈R+是这些事件的平均频率。 Wee可以对K +1个概率进行采样（即，0 ≤ k ≤ K），PMF和随后的离散单峰概率分布的归一化。由于其平均值和变化是相同的（即，λ），则可能难以调整其形状。二项分布通常被采用来对给定数量的试验k和成功概率p中的给定数量的成功的概率进行建模。. Σn这些质心di，j。为了避免模型崩溃，我们-pk=p k（1 − p）n−k，n ∈ N，k = 0，1，2，...， n（5）构造Di、j1.一、1+αΣf（ di，j）+ αf（ di，j）在每一轮中，k在训练过程中，α从10逐渐减小到0。3.2. 包裹单峰均匀平滑离群噪声存在于大多数数据驱动的任务中，并且可以通过均匀分布来建模[56]。然而，姿势标签更有可能被错误地标记为真实类的接近更合理的是构造单峰分布来描述姿态估计中的内点噪声，其在类j* 处具有峰值，而对于更远的类，其值减小。我们可以在连续单峰分布上采样（例如，高斯分布）并随后进行归一化，或者选择离散单峰分布（例如，泊松/二项分布）。Gaussian/Von-Mises Distribution（高斯/冯米塞斯分布）的概率密度为exp{−（x−µ）2/2σ2}我们设置n=K来构造具有K+1个仓的分布没有softmax标准化。其经线加工用K=20在图中示出。3 .第三章。保守的目标分布t是通过用（1−n −n）t j+n p j+n1替换t中的tj来构造的，它可以被看作是原始标签分布t和单峰均匀混合分布的加权和。当我们只考虑均匀分布并利用CE损失，它相当于标签平滑[56]，这是一种用于离群噪声标签训练的典型机制，它鼓励模型适应不太自信的标签。通过强制s形成单峰均匀混合分布，我们也隐含地鼓励概率分布在j*的邻居类上。3.3. Wasserstein训练与保守目标密度函数（PDF）f（x）=√2πσ2，x∈[0，K]，其中μ=K/2是平均值，σ2是方差。类似地，冯-米塞斯分布是正态分布的圆形类似物的近似。（即， K = N − 1）。我们注意到几何损失[55]是一种特殊情况，当我们设置n=1，η=0，K=N−1时，删除归一化并采用CE损失。既然我们是对目标LA的离散分布建模感兴趣K = 20p = 0.5=Σ28266利用保守的目标标记，在方程中快速计算Wasserstein距离。（3）不适用。一个直接的解决方案是将其视为一般情况，并以高于最后，我们给出了一个时间复杂度为O（N2）的算法。本节的主要结果是当基度规为非负时的一系列分析公式58267Mj=0DDD）= i=0i线性/凸/凹函数w.r.t. 具有合理复杂度的弧长。3.3.1 弧长di，j作为地面度量。当我们直接使用di，j作为基础度量时，瓦氏损耗Ldi，j（s，t）可以写为NΣ−1Σj在[ 12 ]中给出的，这表明它对任何一对dese- crate概率分布都成立。虽然这个证明涉及到测度论的一些复杂概念，但在离散环境中并不证明是基于这样的想法，即通过搜索m，圆圈总是可以在某处“切割”，这允许我们将模问题[ 9 ]简化为序数情况。因此，Eq。（8）是有序数据的一般化。实际上，我们也可以扩展沃瑟斯坦的-L d i，j（s，t）=infα∈Rj=0|i=0时（s i− t i）− α|（六）[59 ]第59章：你是谁？据我们所知，Eq。（6）首先在[61]中发展，其中证明了点集Σ1m=1F（|S（m）−1−T（m）−1|)(9)在圆周上有单位质量。 Kantorovich-Rubinstein问题的一个类似结论在[6，7]中得到，已知与Wasserstein问题相同。当Di，j是距离时的距离问题。我们注意到，这对于Ldi，j是正确的（但对于ρ > 1的LDρ（s，t）是错误的）。最佳α应为集值的中值其中f可以是关于r. t的非负线性/凸/凹递增函数。一条直线上的距离。当量对于两个离散分布，可以以O（N）的复杂度来计算（9）。当f是凸函数时，可以使用Monge算法以O（logM）的复杂度找到最优α。条件3（类似于二进制搜索）。因此，确切的Σji=0时（si-ti），0≤j≤N−1[44 ]第44段。一个等价的dis-解方程（8）可以用O（N logM）com来获得。从循环累积分布的角度提出了Tance [47]。所有这些文件注意到，计算 Eq.（6）可以在线性时间内完成（即，O（N））加权中值算法（参见[59]的综述）。我们注意到，等式1的部分deriv ativ e。（6）Σw. R. t. n是复杂性在实践中，logM是一个常数（log108），根据softmax预测的精度，它比N小得多（通常N=360姿态数据）。在这里，我们给出了一些措施4使用典型的凸基度规函数N−1sgn（j）Ji=0时（δi，n−si），其中j=Ji=0时（si−Lρi、j（s，t），以dρ为基的Wasserstein测度ti），并且当i=n时δ i，n= 1。提供了其他详细信息附录B。度量，其中ρ =2，3，···。ρ= 2的情况等价于Cra me´ r距离[5 0]。注意，Crame'r距离为：而不是适当的距离度量但是，它的平方根是。3.3.2 凸函数 d i，j作为地面度量接下来，我们将地面度量扩展为非负的-ρi，jρi，j（十）的凸函数，并给出了它的解析表达式配方。如果我们精确LHτ（s，t），使用Huber成本的Wasserstein测度i、j函数，参数为τ。我们将在每个分布中有M=1/Σ第我们定义了s的累积分布函数，DHτ=.2i、j如果di，j≤τ（十一）t及其伪逆如下i、jτ（2d i，j−τ），否则。ΣN−1 −13.3.3 凹函数 d i，j作为地面度量S（i）=i=0si; S（m）=inf{i; S（i）彡m}T（i ΣN−1t; T（m）−1=inf。i; T（i）≥mΣ（7）在实践中，选择接地方式可能是有用的。ric作为一个非负的，凹的和增加的功能w.r.t.其中m∈。1、2Σ迪，杰。例如，我们可以使用弦长。MM，···，1. 遵循惯例S（i+N）=S（i），S可以推广到全实数，它把S看作R上的周期（或模[9]）分布。定理2. 假设弧长距离di，j由等式2给出。（2）和基度量Di，j= f（di，j），其中f是非负的、递增的凸函数. 然后Σ1D=d58268i、ji、jMD弦=2rsin（di，j/2r）（12）其中r=N/2π是半径。因此，f（·）可以被认为是关于区间[0，N/2]的凹增函数。迪，杰。很容易证明D弦是一个距离，因此LDchord（s，t）也是两个概率分布之间的距离[59]第59话请注意，凹型disc的一个属性-LDconv（s，t）=infF（|S（m）−1−（T（m）−α）−1|）一个重要的区别是它们不移动si、jα∈R m=1（八）3Di，j+Di′，j′Di，j′+Di′，j当i′和

下载后可阅读完整内容，剩余1页未读，立即下载