深度混合线性逆回归方法在头位估计中的应用

196 浏览量更新于2023-10-16 收藏 842KB PDF 举报

计算机视觉

ConvNets

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1深度混合线性逆回归用于头位估计Ste′ phane Lathuilie` re1，Re′ mi Juge1，Pablo Mesejo1，Raf ael MunMesoz-Salinas2，Radu Horaud11 Inria Grenoble RhoMesne-Alpes，France2西班牙科尔多瓦大学计算与数值分析系stephane. inria.fr摘要卷积神经网络（ConvNets）已成为计算机视觉中许多分类和回归问题的最新研究成果。当涉及到回归时，测量目标和预测的欧几里得距离等方法通常用作输出层。在本文中，我们提出了将线性逆回归的高斯混合与Con- vNet耦合，并描述了联合训练深度网络和回归函数的方法基础和相关算法。我们测试我们的模型上的头部姿态估计问题。在这个特定的问题中，我们证明了逆回归优于目前最先进的计算机视觉方法所使用的回归我们的方法不需要合并额外的最后，它在使用广泛使用的头部姿势数据集的头部姿势估计方面优于最先进的方法。据我们所知，我们是第一个将逆回归纳入深度学习的计算机视觉应用程序。1. 介绍近年来，深度学习在计算机视觉领域发挥着非常重要的作用。已经提出了许多方法来完成具有挑战性的任务，例如图像分类[17，33]或对象检测[12，29]。这些分类任务中的最先进的结果已经通过使用卷积神经网络（ConvNets）来实现，该网络经过训练以最小化softmax层输出上的损失函数。除了分类之外，Con-vNet还被用于解决回归问题，例如图像配准[21]，器官体积估计[37]或显著对象检测[19]，仅举几例。在大多数情况下，在处理回归问题时，分类任务中使用的最后一个softmax层是用具有线性或S形激活的完全连接的回归层来代替，该线性或S形激活最小化欧几里得损失。这种类型的配置忽略了其他回归技术的存在，如逆回归模型，适用于高维到低维设置[6，16，18，25]，这在计算机视觉中特别感兴趣。为了确定使用反向回归而不是正向（或标准）回归的好处简单的情况下，我们想估计一个从x∈RD到y∈R的线性回归，有N个训练样本，使得D<$N。在for-ward回归（y=ax，a∈RD）的情况下，该问题是不适定的，并且需要正则化只有N个方程。有趣的是，对于逆回归设置中的线性模型（x=ay，a∈RD），该问题被很好地定义，因为仍然需要估计一组D参数，但来自D×N方程。使用深度学习时最常见的策略包括采用一个已经被证明具有竞争力的架构（在我们的案例中，VGG-16[30]，ImageNet大规模视觉识别挑战赛2014 [28]上具有最小定位误差的模型），下载一个预先训练的模型，稍微修改它（例如用回归层替换最后一个softmax层），并根据所研究的特定应用对其进行微调。在这种情况下，我们提出了一个专门用于执行回归的新输出层该输出层是反向线性回归的高斯混合。逆线性回归的混合[6]已经成功地应用于超光谱图像分析[5]、声源定位[7]和头部姿势估计[8]。此外，它已扩展到t分布的混合[25]，这提供了对离群值具有鲁棒性的逆回归公式。我们认为逆回归模型非常适合深度学习框架，因为深度神经网络表示高维特征空间中的图像，这些图像随后必须映射到低维流形上。有趣的是，认识到高维回归和探索逆回归的警告-48174818在计算机视觉和深度学习领域的文献中，模型很少受到关注在这项工作中，我们提出将线性逆回归的高斯混合与ConvNet耦合，我们描述了联合训练网络和回归函数的方法学基础和相关算法，并在头部姿势估计问题上评估了我们的我们提出的训练算法是一个微调过程，旨在将在分类任务中学习到的表示转移到我们的特定问题。然而，使用预训练的ConvNets来估计头部姿势并不是一件容易的事情，因为非常深的ConvNets已经被训练成独立于它们的姿势来分类对象。因此，深度特征被设计为尽可能保持相反，在我们的例子中，我们希望模型高度依赖于姿势，但独立于人。在本文中，我们证明了逆回归优于目前用于头部姿态估计的基于L2的我们的建议在不使用额外数据的情况下工作得很好最后，它在使用广泛使用的头部姿势数据集进行头部姿势估计方面优于最先进的方法。在我们的实验中使用的方法的实施是公开的1。2. 相关工作在本节中，我们将讨论深度学习方法与回归方法的结合。此外，我们回顾了头部姿态估计的相关工作，因为它是在我们的实验中使用的评估和与其他方法的比较深度回归算法的目标是预测一组相互依赖的连续值，近年来例如，在人体姿态估计中，目标表示人体关节的位置[34];在头部姿态估计中，目标表示偏航角、俯仰角和滚转角[22];在面部标志检测中，预测目标表示面部点的图像位置[32]。在所有上述参考文献中，已使用损失函数训练ConvNet，该损失函数测量预测与目标的L2距离，而不考虑其对离群值的脆弱性（如[2]所证明的，其中作者认为使用对离群值鲁棒的损失函数（例如Tukey的双权函数）训练ConvNet会导致更快的收敛和更好的绝大多数现有的工作试图解决被表示为回归问题的特定计算机视觉任务，据我们所知，没有其他方法试图将逆回归纳入计算机视觉应用的深度头部姿态估计是诸如人机交互、计算机人机交互、人类行为分析或驾驶员辅助系统等任务的重要线索[23]。姿势通常由描述头部方向的三个角度表示（向上或向下看：俯仰，左或右：偏航和向左或向右倾斜：卷）。姿态参数的估计是具有挑战性的，由于不断变化的照明条件，背景场景，部分遮挡，以及人与人之间和人内的变化。最近很少有论文使用深度学习来回归确定人类头部姿势的角度Osadchy等人的开创性工作。[24]通过采用ConvNet将人脸图像映射到由姿态参数化的流形上的点，并将非人脸图像映射到远离该流形的点，协同地执行人脸检测和姿态估计。在 [22] 中，作者使用GoogLeNet[33]并将最后一个softmax层替换为测量预测与目标的L2Liu等人。[20]在合成头部图像上进行训练，并使用非常简单的ConvNet（3个卷积层和2个全连接层;具有预测输出层中的头部姿态的线性激活函数）以执行头部姿态估计。在[1]、[36]和[27]中可以找到一种非常类似的方法，其中使用了略有不同的最后，HyperFace[26]是一个单一的ConvNet模型（5个卷积层以及3个完全连接的层，使用欧几里得损失来训练头部姿势估计），用于同时进行面部检测，地标定位，姿势估计和性别分类。该方法是首次尝试使用非常深入的预训练网络来有效地解决头部姿势估计问题。3. 混合线性逆回归在本节中，我们将详细描述所提出的模型的回归层。我们考虑一个深层神经网络-将图像 i∈RM 映射到高维特征向量 x=φ （ i;w ）∈RD。一般化）。此外，当替换最终回归时，具有参数θ的回归r将x映射到低-通过一个更复杂的回归，以前的大多数数据维目标y=r（x;θ）∈R关于L网络采用了区别性的方法，如随机森林[37]或支持向量回归[11]。最后1https://team.inria.fr/perception/research/dmlir/回归层可以用以下方式概率地表示设i、x和y是随机变量I、X和Y的实现。目标是在给定输入图像I和模型参数的情况下估计目标Y4819k k kkΣΓkk kkk kk=1 k∗ ∗ters（w，θ ），即条件密度p（Y|φ（I;w）;θ）。一旦估计了这个后验分布，就可以预测所述目标对应于基于所述条件的输入ˆ∗¯∗目标的期望，即y=r（φ（i;w）;θ）=E [y|¯∗¯φ（i;w）;θ]，其中w表示重量。如上所述，估计在高维空间上定义的回归函数通常是困难的，因为必须估计大量的参数，通常是D2的数量级。我们通过训练逆回归来绕过这个困难，例如图1。更确切地说，在训练时，低维目标Y是回归器的输入，而高维特征向量X是输出。因此，假设Y位于嵌入RD中的低维（线性或非线性）流形上，并由X参数化。选择低维变量作为输入意味着要估计的参数数量较少，通常为L（D+L））。因此，估计了逆条件密度在训练中，即p（φ（I;w）|（1），（2），（3），（4），然后导出条件密度并用于预测，即 p（Y|φ（I;w<$）;θ）。这种逆回归可以用非参数[18]或参数[6，25]方法。后者相对于前者的优势是双重的：（i）逆参数θ可以用高斯混合[6]或t分布的混合[25]以封闭形式估计，并且（ii）正参数θ可以用这两种混合模型从逆参数解析导出。此外，参数模型允许我们在优化(a) 反向训练（b）正向预测图1：本文提出的方法通过在EM过程中粘合逆回归（r由θ参数化）和网络微调（φ由w参数化）来执行训练前向回归r的参数θ可以从θ解析地导出，这允许预测与输入i相关联的目标y。w可以经由在DE中描述的EM算法来估计尾部在秒4.第一章一旦估计出θ和w的最佳值，即θ<$和w<$，逆条件密度可以写为：ΣKp （ φ （ i;w<$）） |y;θ<$ ） =v<$kN （ φ（i;w<$）;A<$ky+b<$k，n<$k），（2）k=1网络权重和回归参数。我们考虑以下K仿射回归的混合其中v<$k=π<$kN（y;c<$k，r<$k）/ΣKj=1πj）. 前一个-Sessions：Ward预测分布可以表示为：ΣK∗ΣK∗∗ ∗∗X=I（Z=k）（AkY +bk+Ek），（1）k=1p（y|φ（i;w<$）;θ）= νkN（y;Akφ（i;w<$）+bk，k），k=1（三）其中I是指示函数，Z是隐藏变量，使得Z=k当且仅当X是使用仿射变换AkY+bk映射Y的结果，其中其中ν=π<$N（x;c<$，Γ<$）/ΣK∗ ∗ ∗πj N（x; cj. （二）与j=1D×L D∗∗ ∗ ∗∗ ∗∗KAk∈ R和b k∈R ，且Ek∈R这是一个错误向量，参数θ={ck，rk，πk，Ak，bk，πk}k=1。一个间-托尔通过对Z进行边缘化，y的联合概率 K该模型的特点是，∗x可以写成p（x，y; θ，w）=k=1p（x|y，Z=θ 可以从逆参数解析地表示-k;θ，w）p（y|Z=k;θ）p（Z=k;θ）. 假设-假设Ek是一个零均值高斯变量，最终协方差矩阵k∈R D×D，我们得到p（x|y，Z =tersθ：c=Ac +b，⊤r= r+ A rA，k;θ，w）=N（x;Aky+bk，k）.我们进一步假设Y 遵循高斯混合模型我们现在可以写p（y|Z=k;θ）=N（y;ck，Γk）和p（Z=k;θ）=π k，其中c∈RL，Γ∈RL×L和πKπ= 1。4820KK∗∗⊤−1⊤ −1kkkKKππ=π，Ak=kAkk，b=（Γ−1c −Ab），总而言之，回归层由以下段落描述：k kkkkkkK=（Γ−1+ A −1A）−1。参数集θ={ck，rk，πk，Ak，bk，nk}k=1. θ和kkkkk4821n=1：NNKKJK2KK因此，可以使用条件期望数据：训练数据集（i，y）N，数量与（3）相关联以预测目标：∗∗ΣK∗∗ ∗y=r（φ（i;w<$）;θ）= νk（Akφ（i;w<$）+bk）.（四）k=1分量K和收敛阈值n∈R;结果：θ和w;初始化θ（0）和w（0）;而||θ（i+1）-θ（i）||公司简介4. 训练提出的模型步骤E：更新后验µ（i+1）={µ（i+1）}N，K鉴于目前nk n=1，k =1在本节中，我们描述了基于期望最大化的模型参数θ和w参数θ（i）和权重w（i）。M-GMM-step：更新混合参数算法并使用训练数据集{i，y}N，即{c（i+1），Γ（i+1），π（i+1），}K考虑到后验nn n=1k kkk=1Alg. 1.一、图2示出了应用于玩具示例的所提出的训练。E步骤使用以下参数更新后验概率：µ（i+1）和当前映射参数，以及当前网络权重;M标测步骤：更新仿射参数{A（i+1），b（i+1），n（i+1）}K考虑到后验以下表达式：k k kk=1µ（i+1）=p（Z n=k|y，xn;θ（i），w（i））µ（i+1），混合物参数和电流网络权重，以及M-Network-step：更新权重w（i+1）π（i）p（y=Σn，x n|Z n= k; θ（i），w（i））（五）给定后验子μ（i+1）和当前Kj=1 π（i）p（y，xn|Zn=j;θ（i），w（i））端参数值θ（i+1）。使用：p（yn，x n| Z n= k; θ，w）= p（x n|yn，Zn= k; θ，w）×p（y n|Z n= k; θ）（6）M步执行以下最大化：（θ（i+1），w（i+1））=算法1：用于深度逆回归的EM算法。如果我们进一步假设误差协方差为−1各向同性，即其中λ∈R>0是与每个仿射变换相关联的精度，我们获得以下损失函数：argmaxE（θ，w）Σlogp（（x，y，Z）1：N; θ，w）|（y，i）1：N; θ（i），w（i）ΣNL（w）=ΣKµ nk λ k||阿kyn+b k− φ（i n，w）||2（九）（七）这进一步分解为三个子步骤：M-GMM-步骤、M-Mapping-步骤和M-Network-步骤，即，Alg. 1.一、参数θ的更新公式可以在[6]中找到。网络通过对期望的完全数据对数似然（7）进行去重，并保留依赖于w的项，我们得到以下损失函数：n=1k=1该损失函数具有加权均方误差的形式，因此用于深度神经网络优化的梯度下降技术非常适合并且可以很容易地使用[13]。但是请注意，梯度稳定性问题是常见的。特别是，当目标空间无界时，深度回归可能很难训练，因为它可能导致梯度爆炸问题[3]。因此，在几个EM之后，目标xn可以达到非常高的值。ΣN ΣKL（w）=p（Z n= k|（yn，i n））迭代为了避免这个问题，我们使用归一化层[14]。此外，这一层避免收敛到非-n=1k=1×logp（φ（in（w）|ynnn4822NK，Zn=k;θ）Ak=0和bk=0的理想解，最大化可能性。ΣN ΣK=n=1k=1µ nklog p（φ（i n，w）|yn，Z n= k; θ）所提出的EM算法初始化如下。我们首先使用标准过程在目标空间中执行聚类，即，随机初始化的K均值ΣN ΣK=µnklogN（φ（in，w）;Akyn+bk，bk）通过安装GMM降低这将产生后验，即μ（0）。注意（6），n=1k=1（八）后验也依赖于特征聚类，这表明-在算法开始时，计数不可靠。出于这个原因，我们冻结E步骤（后验子被设置为它们的4823NK图2：使用玩具示例训练深度逆回归EM，例如L=1，D=2和K=2。E步计算后验数μ（i+1）。M-GMM步骤将混合物拟合到给定后验的数据。M映射步骤估计仿射回归的参数（两条线说明目标空间到特征空间的投影最后，M-网络步骤通过最小化均方误差损失函数来微调网络权重。初始值）并执行M个步骤的几次迭代，这相当于在更新回归参数和调整网络权重之间交替最后，值得一提的是，所提出的逆回归可以与单个高斯分布一起使用，即 K=1 。在这种情况下，（ 1 ）简化为X=AY+b+E，其中，同样，E是具有对角协方差的零均值高斯变量，因此p（y|x;θ）=N（y|Ax +b，n）。注意，训练一个低维到高维的映射（逆重映射）仍然很有趣。（三）基于以下理由。我们建议训练的从低到高的回归提供了D线性增长，自由参数为D×（L+2）的应变因此，需要最少L+2个图像-目标训练对来估计模型参数。相反，高到低回归将为训练提供L个线性约束，具有L×（D+2）个自由参数;D+2图像-目标对至少是训练所必需的。因为在单个高斯的情况下没有分配变量，所以训练过程在估计回归参数A、b和k与更新网络权重w之间交替，即算法的M步迭代1.一、5. 实验在本节中，我们首先描述用于评估模型性能的数据集在此之后，我们提出了ConvNet的架构和获得的结果。数据集。Biwi Kinect头部姿势数据集[10]包含超过15K的图像，包括使用Kinect摄像头录制的20人（16名男性，4名女性，其中一些人录制了两次）的视频。在录制过程中，（偏航）和[−20<$，20<$]（滚转）。图4示出了生成的合成图像的示例图3：Biwi头部姿势数据集的示例帧。我们采用以下协议来创建公平的数据分区：我们使用8重交叉验证（21个随机选择的视频用于训练，其余3个视频用于测试）对HOG特征[ 4 ]运行支持向量回归（SVR）[ 31 ]。之后，我们根据MSE对每个折叠的性能进行排序，最后，我们保留了基于HOG的方法的最佳性能折叠和基于VGG的方法的中值性能折叠。我们这样做是为了给最简单的方法带来一些优势，并避免对我们的深度学习建议的偏见。换句话说，基于HOG的方法在对它们最有利的折叠上进行训练和测试。值得注意的是，我们使用了20%的训练集作为验证集，并且没有人同时出现在训练集和测试集中。Biwi数据集的主要缺点是大多数人脸都是正视的或呈现小角度。因此，目标的分布几乎是高斯分布。由于我们怀疑该属性将有利于具有少量高斯分布的模型，因此我们使用不同的目标分布评估了我们的提议。为此，我们利用MakeHuman 3D软件2创建了一个合成数据集，以生成50个不同的身体模型。年龄、性别或肤色等参数由软件随机选择。然后，我们随机生成了100K的模型图像ipants自由地移动他们的头和相应的头角度位于区间[−60<$，60<$]（间距），[−75<$，75<$]2www.makehuman.org4824具有均匀分布角度的头部。为了确保训练过程中的鲁棒性，每个生成的图像都有一个随机选择的OpenGL引擎照明系统的照明位置和颜色。图4显示了所产生的合成图像的实例图4：我们的合成头部姿势数据集的示例帧。我们从这个均匀采样的数据集生成了两个较小的数据集（每个数据集大约20K图像）。首先，我们选择图像，以获得以（35°，60°，0°）为中心的两个高斯的混合，（−35<$，−60<$，0<$）。此数据集称为S2G数据集（与2高斯合成），并用于研究im-目标分布对所采用的高斯数（K）的影响。其次，我们从均匀分布的数据集中去除了一些图像，平均值为（0，0，0）。该数据集被称为SSV数据集（仅具有侧视图的综合数据集）。由于SSV数据集中的姿势分布不是通过组合高斯分布直接获得的，因此可以认为这是我们模型的一个困难情况，我们可以认为K=1不一定表现良好。ConvNet架构。在实践中，从头开始训练整个ConvNet相对困难，因为它需要足够大的数据集。此外，如果网络非常深，则需要大量的计算能力。一种常见的替代方法是使用已经在ImageNet上训练过的网络，并使用其权重作为初始化来训练自己的Con- vNet。在本文中，我们使用VGG-16 [30]。然而，由于这些网络已经被训练来解决分类任务，它们已经学会了对物体的姿态保持不变。相反，我们希望我们的模型独立于对象，但高度依赖于姿势。为了解决这个问题，我们使用第4节最后一段中解释的初始化过程。在ImageNet上预训练的VGG-16的最后一个全连接层的大小相对较大（4096），因为它旨在识别大约1000个对象。然而，在我们的例子中，我们只预测了三个角度。因此，我们可以减少这个维度，以减少网络中的参数数量，从而减少计算负担。为此，我们添加一个大小为512的全连接层，一个线性激活函数，并使用在网络输出上训练的PCA的特征向量对其进行这一层被添加到批处理规范化器之前。该解决方案的优点在于，可以通过该层容易地执行反向传播。在实践中，我们不像Alg中描述的那样精确地在E和M步骤之间切换。1.一、我们首先在E步骤和两个M-GMM和M-Mapping步骤之间交替。当达到收敛时，我们应用M-Network步骤。这一程序有两个优点。首先，在具有良好的映射函数之前，不修改网络权重其次，θ更新是用CPU执行的，而M-Network使用GPU。如果我们不经常在CPU和GPU操作之间交替，回归模型的比较我们从一系列的实验结果，以说明所提出的模型的有效性。在表1中，我们比较了7种不同的回归模型：• （0，0，0）：为了有关于我们模型的学习能力的参考，我们引入了这个平均姿态估计器，即一个虚构的方法，总是返回（0°，0°，0°）作为预测角度。• HOG-SVR ：使用输入图像的 HOG 表示来训练SVR。本文中使用的HOG特征是按照相同的策略提取的。如[9]，即通过以多个分辨率堆叠HOG描述符并提供维度为1888的特征向量来生成HOG金字塔（p-HOG）• HOG-IR：一种逆回归（IR）方法，相当于[6]中描述的模型，其中混合了使用HOG特征训练50个仿射映射。换句话说，HOG-IR相当于我们在K=50的情况下的提议，没有M网络步骤，并且使用HOG特征而不是深度网络。• VGG-SVR：我们删除了在ImageNet上训练的VGG-16的softmax层，并训练了一个SVR来从网络特征预测头部姿势角度。• VGG-IR：在这种情况下，在去除预训练的VGG-16的softmax层之后，我们的逆回归器在这个网络的输出上训练，而不执行使M-网络步长和K=50。• VGG-FCL-FT：我们将预训练的VGG-16的softmax层替换为3个单元的全连接层（FCL）和线性激活函数。该层使用损失函数进行训练，该损失函数测量L2分布，从目标的预测。画一个公平4825通过比较，我们用不同的优化器对网络进行了训练我们使用SGD优化器获得了这个结果，学习率为10−3，每3个epoch的学习衰减为0.5。我们只对最后一层进行3个时期的微调（FT），然后是最后四层。损失与文献中常用的损失相似[15，22，32，34]。值得一提的是，这里报告的结果是在回归层之前使用批量归一化器获得的，因为我们没有它获得的结果很差。表K=1K=2Biwi五、12/3。45/3 394.68/ 3.12/3.07S2g二、87/3 决议草案54/1.652.53/3。36/1.97SSV3 .第三章。12/3.75/2. 01二、86/3.83/2. 04K=5K=10Biwi五、五五开74/4。01五、93/3.45/3 99S2g二、第63/3.33/1号决议94二、八九比三35/2 06SSV二、77/4。12/ 1.952.74/3。91/2182：平均值绝对误差在度为• VGG-IR-FT：这是我们的建议。表1中显示的结果对应于表现最好的高斯数（K=2），如表2所示。间距偏航辊是说（0分， 0分， 0分）23岁9228岁508. 4820.30HOG-SVR8. 50六、45五、04六、66HOG-IR六、39五、694.第一章77五、62VGG-SVR10个。6019号。347 .第一次会议。7912个。57VGG-IR十五岁26二十六岁7910个。76十七岁60VGG-FCL-FT五、654.第一章442.934.第一章34VGG-IR-FT（拟定）4.683.123 .第三章。073.62表1：不同方法在Biwi头部姿势数据库上的比较平均绝对误差以度为单位。最佳结果以粗体突出显示。首先，我们注意到，使用HOG特征，逆回归器优于SVR（一种前向回归器）。然而，使用预训练的VGG（VGG-SVR和VGG-IR）给出的深度特征获得的结果有些令人失望，因为获得的误差比基于HOG的方法获得的误差要差得多。这可以说明预先训练的VGG-16的先前提到的姿势不变性。这些结果还表明，深度特征在没有微调的情况下几乎不能用于头部姿态估计。事实上，如果我们对网络进行微调，我们可以获得与最先进技术相当的结果。相对于VGG-FCL-FT，该方法将结果提高了0.71度。在表2中，我们研究了我们的亲核武器（VGG-IR-FT）的性能如何随着我们增加K而演变。我们还研究了这种性能如何受到所采用的数据集类型的影响从所得结果中很难得出明确的结论。在实际数据中，K=2提供了最佳性能。然而，在专门设计的情况下，使失败的模型采用K=1（S2G和SSV），我们获得了可比的结果独立的K值。这种行为可以由以下原因来解释。首先，合成数据集的难度不足以使K=1的模型失败。其次，正如我们在（5）中所看到的，EM算法的更新不仅仅取决于4826使用VGG-IR-FT不同的K值。每个角度和数据集的最佳结果以粗体突出显示。目标分布也依赖于特征空间中的现有聚类因此，最佳K不能仅通过查看目标分布来确定。特别地，在S2G中，该模型似乎更倾向于特征空间中的预先存在的聚类，而不是目标空间中的两个高斯的混合（如果最佳性能模型是K=2，则会发生这种情况）。实际上，一个合理的解决方案是默认使用K=1，因为它降低了方法的复杂性，同时提供了足够好的结果。它证实了深度神经网络是有效的线性化器，因此在回归层中添加非线性所提出的模型的好处主要来自逆公式。头部姿势估计State-of-the-Art对比我们比较了我们的建议与国家的最先进的方法头部姿态估计的性能。间距偏航辊是说仅使用RGB的Liu等人[20个]六、1六、0五、7五、94Mukherjee等人[22日]五、18五、67/五、43Drouard等人[9]第一章五、434.第一章244.第一章134.第一章60VGG-IR-FT（拟定）4.683.123.073.62使用附加信息的Wang等人[35]第三十五话8. 58. 87 .第一次会议。48. 23Mukherjee等人[22]第二十二话4.第一章76五、32/五、04法内利等人[10]第10话3.83.5五、44.第一章23Liu等人[20]第20话4.第一章54.第一章32.43.73表3：Biwi头部姿势数据库上不同方法的比较平均绝对误差以度为单位。最后四种方法使用额外的或略有不同的数据（用于训练的额外注释，使用的3D深度数据）。最佳结果以粗体突出显示。从表3中可以看出，我们的提议VGG-IR-FT输出-4827采用最先进的方法Drouard等人[9]，在他们以前的工作[8]的扩展中，在他们的混合线性回归方法中使用4个部分潜变量来建立最先进的方法。此外，我们甚至可以与使用额外信息的方法竞争（参见表3中的最后四种方法）。[10]和[35]中都没有使用深度学习，两者都使用深度信息。重要的是，我们的方法提供了一个有竞争力的性能，即使在没有这些额外的信息。在[20]中，Liu et al.使用合成数据进行训练，因为它们得到的结果与基于HOG的方法提供的结果相当。他们的经验证实了直觉，即如果不使用大型数据集，前向回归技术的表现就不好。在所有竞争者的方法中，唯一一个使用非常深的网络的是Mukher-jee等人。[22 ]第20段。他们在RGB和深度图像上使用GoogLeNet架构。VGG-IR-FT的优越性再次表明了使用逆回归的好处。最后，重要的是，所有这些结果甚至可以通过包括时间信息（例如，由[1]提出的时间稳定的头部姿态估计）来进一步改进为了比较对训练集大小的敏感性，我们对Biwi数据库训练集进行了我们在表4中示出了结果。我们可以注意到，即使只使用40%的数据，我们也可以与表3中的大多数方法竞争。性能似乎与可用的训练集大小成线性关系。这一趋势似乎表明，更多的数据将进一步改善业绩。间距偏航辊是说百分之二十9 .第九条。367 .第一次会议。00六、197 .第一次会议。55百分之四十六、2五、00五、14五、45百分之六十六、334.第一章334.第一章184.第一章95百分之八十五、493 .第三章。774.第一章124.第一章46百分百4.第一章683 .第三章。123 .第三章。073 .第三章。62表4：在Biwi数据集中，训练数据量占训练样本总数的百分比对平均绝对误差的影响。6. 结论在本文中，我们提出了线性逆回归的高斯混合与ConvNet的耦合，我们描述了联合训练深度网络和回归函数的方法基础和从实验的角度来看，我们的贡献可以总结如下。首先，我们证明了所提出的逆回归模型优于大多数基于L2的回归模型。4828最先进的计算机视觉方法，至少在头部姿态估计的情况下。其次，我们的方法在相对较小的训练数据集上有效地工作，而不需要像文献中经常提出的那样合并额外的数据。最后，我们的建议优于国家的最先进的方法在头部姿态估计测试中使用最广泛的据我们所知，我们是第一个提出逆回归方法来训练深度网络的人。作为未来的工作，我们计划在其他计算机视觉问题上测试我们的方法，如面部关键点检测或全身姿势估计，并扩展我们的混合物中使用的分布类型，例如t分布，以使模型对离群值更具鲁棒性。致谢来自欧盟FP7 ERC高级赠款VHIA（#340113）的资金非常有限。引用[1] B. Ahn，J. Park和我。S.奎恩使用深度神经网络从单目相机进行实时头部定向在ACCV，第82-96页，2014年。二、八[2] V. Belagiannis，C.鲁普雷希特湾Mr.Ekiriro，和N.纳瓦布深度回归的稳健优化。在ICCV，第2830-2838页，2015年。2[3] Y. Bengio，P. Simard，and P.弗拉斯科尼用梯度下降法学习长期依赖关系是困难的。IEEE Trans.神经网络，5（2）：157-166，1994. 4[4] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，第886-893页，2005中。5[5] A. Deleforge，F. Forbes，S. Ba，和R.霍罗德超光谱图像分析与部分潜回归和空间马尔可夫自相关性。IEEEJournal on Selected Topics in Signal Processing ， 9（6）：1037-1048，Sept. 2015. 1[6] A. Deleforge，F. Forbes和R.霍罗德具有高斯混合和部分潜在响应变量的高维回归统计与计算，25（5）：893一二三四六[7] A.德勒福格河Horaud，Y. Y. Schechner和L. Girin.使用双耳特征和局部线性回归的图像中音频源的共定位。IEEE Transactions on Audio ， Speech and LanguageProcessing，23（4）：7181[8] V. Drouard， S. 巴 G. 伊万格尔， A. Deleforge，以及R.霍罗德基于概率高维回归的头部姿态估计。在IEEEICIP中，第4624-4628页1、7[9] 德鲁阿尔河Horaud，A. Deleforge，S. Ba和G.埃文-盖尔。基于部分隐式混合线性回归的鲁棒头部姿态估计。arXiv预印本arXiv：1603.09732，2016年。六七八4829[10] G. 法内利M.Dantone，J.Gall、黑腹拟步行虫A.Fossati和L.好极了用于实时三维人脸分析的随机森林 Int. J.Comput.Vision，101（3）：437-458，2013. 五七八[11] 甘湖Li，Y. Zai和Y.刘某面部美容预测的深度自学。神经计算，144：2952[12] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于精确的对象检测和语义分割。在CVPR中，第580-587页，2014年。1[13] I. Goodfellow，Y. Bengio和A.考维尔深度学习本书准备由MIT出版社出版，2016年。4[14] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。4[15] M. Jaderberg，K. Simonyan、A. Vedaldi和A.齐瑟曼。使用卷积神经网络在野外阅读文本国际计算机Vision，116（1）：1-20，2016. 7[16] H. J.金姆湾M. Smith，N.阿德卢鲁角R. Dyer，S. C.约翰-儿子，和V。辛格.充分约简的丰富逆回归及其应用。在ECCV，第5701[17] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络的ImageNet分类NIPS，第1097-1105页。2012. 1[18] K.- C. 李用于降维的分段逆回归。 Journal of theAmerican Statistical Association，86（414）：316-327，1991. 第1、3条[19] X.利湖，澳-地赵湖，加-地韦，M.- H. Yang，F. Wu，Y.庄H. Ling和J.王.深度显著性：用于显著对象检测的多任务深度神经网络模型。IEEE Trans.图像处理。，25（8）：3919-3930，2016. 1[20] X. Liu，W. Liang，Y. Wang，S. Li，和M。裴使用在合成图像上训练的卷积神经网络进行3D头部姿势估计。在ICIP，第1289-1293页，2016年。二七八[21] S.苗山Z. J. Wang和R.辽一种用于实时2D/3D配准的CNN回归方法。 IEEE Trans. Med.伊玛格，35（5）：1352-1363，2016. 1[22] S. Mukherjee和N.罗伯森深头式：多模式视频中的注视方向估计。IEEE Trans.Multimedia，17（11）：2094-2107，2015. 二七八[23] E. Murphy-Chutorian和M.M. 特里维迪计算机视觉中的头部姿态估计：综述。 IEEE Trans. 模式分析马赫内特尔，31（4）：607-626，2009. 2[24] M.奥萨奇岛L. Cun和M. L.米勒基于能量模型的协同人脸检测和姿态估计。 J.马赫学习. Res. ，8：1197-1215，2007. 2[25] E. Perthame，F. Forbes和A. Deleforge。鲁棒非线性高-低维映射的逆回归方法。技术报告，INRIA，2016年。第1、3条[26] R. Ranjan，V.M. 帕特尔和R。切拉帕Hyperface：一个深度多任务学习框架，用于人脸检测、地标定位、姿势估计和性别识别。CoRR，abs/1603.01249，2016。2[27] G. Riegler，D. Ferstl，M. Ruther和H.比肖夫Hough网络用于头部姿态估计和面部特征定位. InBMVC，2014. 2[28]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A. 卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机Vision，115（3）：211- 252，2015. 1[29] P.Sermanet，D. Eigen，X. Zhang，M.马蒂厄河Fergus和Y.勒昆Overfeat：使用卷积网络集成识别、定位和检测。在ICLR。2014. 1[30] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。1、6[31] A. J. Smola和B. Sch oülk opf. 关于支持向量回归的教程统计计算，2004年。5[32] Y. 太阳，X.Wang和X.唐用于面部点检测的深度卷积在CVPR，第3476- 3483页二、七[33] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。在CVPR，第1一、二[34] A. Toshev和C.赛格迪DeepPose：Human Pose Estimationvia Deep Neural Networks.在CVPR，第1653二、七[35] B. Wang，W. Liang，Y. Wang和Y.梁头部姿态估计结合2D SIFT和3D HOG功能。InICIG，pages 650-655，2013.七、八[36] H. 杨，W. 牟，Y. 张岛 Patras，H. 枪，以及P.罗宾逊。头部姿态估计辅助的面部对齐。CoRR，abs/1507.03148，2015年。2[37] X. Z

下载后可阅读完整内容，剩余1页未读，立即下载