动态面部分析中的基于RNN的视频特征联合估计与跟踪

117 浏览量更新于2023-10-16 收藏 1.8MB PDF 举报

递归神经网络

视频分析

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1动态面部分析：从贝叶斯滤波到递归神经网络金威顾晓东杨莎丽妮德梅洛扬考茨NVIDIA{jinweig，xiaodongy，shalinig，jkautz}@ nvidia.com摘要视频中的人脸分析，包括头部姿态估计和人脸标志点定位，是人脸动画捕捉、人体活动识别和人机交互等应用的关键。在本文中，我们提出使用递归神经网络（RNN）的联合估计和跟踪的面部特征的视频。我们贝叶斯滤波器输出（目标）隐藏状态输入（测量）RNN中执行的计算与贝叶斯滤波器相似，贝叶斯滤波器已被用于许多以前的视频面部分析方法中的跟踪。然而，这些方法中使用的贝叶斯滤波器需要复杂的、针对具体问题的设计和调整。相比之下，我们提出的基于RNN的方法通过从训练数据中学习来避免这种跟踪器工程，类似于卷积神经网络（CNN）如何作为一个端到端的网络，所提出的基于RNN的方法提供了一个通用的和整体的解决方案，联合估计和跟踪的各种类型的面部特征，从连续的视频帧。大量的实验结果表明，提出的基于RNN的方法优于逐帧模型和贝叶斯滤波的头部姿态估计和面部标志定位此外，我们创建了一个大规模的合成数据集的头部姿态估计，我们实现了国家的最先进的性能在基准数据集。1. 介绍从连续的视频帧中分析面部特征，包括估计头部姿势[30]和定位面部标志[7]，对于许多应用都非常重要，例如面部动画捕捉，活动识别和人机交互。视频提供相邻帧之间的时间链接，这已被证明对准确和鲁棒的估计有用[47]。关于动态面部分析[29，7]先前工作主要采用贝叶斯滤波器，例如，卡尔曼滤波器（KF）或粒子滤波器（PF），以利用时间连接。然而，对于面部跟踪，这些贝叶斯滤波器需要复杂的，图1：贝叶斯过滤器（左）和RNN（右）之间的连接。贝叶斯滤波器将隐藏状态ht和测量值xt之间的动态建模为随机马尔可夫过程（如红色虚线箭头所示）。给定一系列噪声测量xt，贝叶斯滤波的目标是估计最佳状态ht，以及可选地估计作为状态h t的函数的目标输出yt（如黑色实线箭头所示）。类似地，RNN通过经由隐藏状态h t随时间传递信息来学习从顺序输入xt到顺序输出yt的预测。针对具体问题的设计和调优。例如，跟踪可以在不同级别执行不同的任务-跟踪面部为了处理漂移，许多跟踪方法需要故障检测和重新初始化方法作为备份[28]。对于复杂任务（例如，非刚性面部、手部或身体跟踪），实现贝叶斯滤波器可能具有挑战性。简而言之，对这种跟踪器工程的需要使得这些方法对于动态面部分析来说是麻烦的并且不太通用。在本文中，我们提出使用RNN对视频中的面部特征进行联合估计和跟踪我们的灵感来自于RNN中执行的计算与贝叶斯滤波器具有相同的语义，如图1所示。作为一种通用的基于学习的时间序列预测方法，RNN避免了对视频执行任务的跟踪工程，就像CNN避免了对图像执行任务的特征工程一样该方法为动态人脸分析中各种人脸特征的联合估计和跟踪提供了一种通用的综合解决方案。我们的主要贡献有三个方面：15481549• 系统地研究了贝叶斯滤波与RNN之间的联系。我们证明了贝叶斯滤波（特别是卡尔曼滤波）是一种特殊类型的自适应权重的RNN。对于复杂的人脸跟踪问题，RNN可以作为一种有效的替代方法，给出足够的训练数据。• 我们提出了一种端到端的基于RNN的方法，用于视频中的一般面部分析任务，包括头部姿势估计和面部地标估计。之前使用深度学习方法进行面部分析的工作要么是针对静态图像[36，27，49]，要么是专门为面部对齐而设计的[33]。实验结果表明，所提出的基于RNN的方法优于逐帧估计和贝叶斯滤波在这两个任务。• 为了满足对具有准确注释的大型训练数据的需求，我们创建了一个大型合成数据集 1，称为SynHead，用于头部姿势估计。SynHead包含10个头部模型、70个运动轨迹和510，960帧。有了这个数据集，我们在基准数据集上实现了头部姿态估计的最先进性能。2. 相关工作头部姿态估计已经提出了许多技术，用于使用RGB[30，36]，深度[25，12，32]以及两种模式的组合[27，37，2，32]进行头部姿态估计。他们使用刚性/可变形模型拟合[25，31，24，30，2，37]或训练回归函数以将输入图像映射到头部姿势流形[27，36，44，12]。另一种广泛使用的方法是定位面部标志，并使用它们通过POSIT [10]算法估计头部姿势。这些技术中的绝大多数都是针对每一帧独立地估计头部的姿势，除了Murphy-Chutorian等人开发的方法之外。[30]，它采用粒子滤波器与面部图像渲染器耦合来跟踪视频中头部的姿势。[30]中的颗粒过滤器是一种复杂且高度手动调节的系统，其专门设计用于汽车。面部标志定位面部标志定位的方法主要有两类：基于判别回归的方法[51，5，20，40]和基于生成模型的方法[9，8，45]。最近的一些研究通过分而治之的策略实现了良好的性能，通过多阶段回归[50]定位语义上有意义的面部部分，或者针对不同的头部姿势角度[35]或头部形状[48]使用不同的估计器。1https://research.nvidia.com/publication/动态人脸分析贝叶斯滤波递归神经网络HyperFace方法最近在[36]中提出，用于构建一个多任务网络，用于从静态图像中定位地标。RNN最近也被用于面部标志的细化[49]。有关面部标志定位的最新全面调查，请参阅[7]。为了利用来自视频的时间信息，大多数先前的工作集中在跟踪检测到的面部边界框[46，7，41]。然而，这种全局刚性运动跟踪不利于跟踪局部非刚性面部变形，如面部表情。[52]中的最近方法跟踪3D头部的姿势和尺寸，并使用多帧级联形状回归和重新初始化来实现300-VW挑战的最佳性能[41]。Prabhu等人[34]利用卡尔曼滤波器进行视频中的面部地标定位，他们建议跟踪面部形状的位置，方向和大小，以及其前四个PCA系数。Peng等[33]最近设计了一个时空RNN用于顺序面部对齐（参见第5节进行比较）。用于动态面部分析的所有跟踪方法都需要复杂的、针对具体问题的设计和调整（除了面部边界框的无模型跟踪，然而其用途有限）。相比之下，所提出的基于RNN的方法是一种通用的端到端方法，(1)通过CNN直接学习最佳特征提取，并通过RNN从训练数据中进行跟踪，（2）可以轻松应用于视频中面部分析的不同子任务RNN和贝叶斯过滤RNN是一种通用的基于学习的时间序列预测方法，在语音识别[14]，自然语言处理[43]，活动识别[53]以及手势检测和分类[26]中有成功的应用。RNN的变体包括长短期记忆（LSTM）[16]和门控递归单元（GRU）[6]，它们能够自适应地发现不同时间尺度的时间依赖性。最近，有一些研究讨论了卡尔曼滤波器和RNN之间的关系。Haarnoja等人[15]建议将卡尔曼滤波器训练为具有反向传播的 RNN 类型Krishnan等人[22]介绍使用RNN作为卡尔曼滤波器中的组件虽然这两种方法的重点是将RNN与卡尔曼滤波器集成在一起，但在本文中，我们专注于寻找贝叶斯滤波器和RNN之间的联系，并倡导RNN作为视频中面部分析的通用替代方法。3. 从贝叶斯滤波到RNN图1展示了贝叶斯过滤器和RNN之间的联系。贝叶斯滤波器将状态ht和测量xt之间的动态建模为具有两个条件概率分布p（ht）的随机马尔可夫过程|ht−1）和p（xt|ht）。考虑贝叶斯过滤器基本形式，即，线性卡尔曼滤波器，它假设p（ht ）为高斯分布 |ht−1）和p（xt|ht）1550kikikhkhkhki状态转换和测量的线性模型：p（ht|ht−1）=N（Wht−1，p）p（xt|ht）= N（Vht，μm），其中，ht是状态，xt是时间t的测量值，p和m是过程噪声和测量噪声的协方差矩阵，W和V是状态转换和测量模型的矩阵，对应于图1左侧的红色虚线箭头。给定一系列噪声测量xt，贝叶斯滤波的目标是估计状态ht（以及可选的作为状态ht的函数的目标输出yt），如图1左侧的实心黑色箭头所示。为线性卡尔曼滤波器[19]，最佳估计量为ht = Wht−1 + Kt（xt− Vht−1）=（W− Kt V）ht−1 + Kt xttht−1+ Wtxt，（1）其中Kt是随时间更新的卡尔曼增益矩阵表1：贝叶斯过滤器和RNN之间的联系贝叶斯过滤器RNN测量{xt}测量{xt}输入&模型&训练数据p（ht|ht−1），p（xt|ht）{（xt，yt）}列车估计估计输出{（ht，yt）}{（ht，yt）}&喔，喔培训没有是的适用性挑战性容易输入xt和状态ht的估计值之间的这种关系也适用于贝叶斯滤波器和RNN的其他变体一个明显的区别是，对于卡尔曼滤波器（和其他贝叶斯滤波器），两个权重矩阵随时间变化，表明它是一个自适应估计器。而对于RNN，在训练阶段之后，两个学习的权重矩阵Whh和Wih通常是固定的。在实践中，还有另外两个重要的区别。不=W−KtV和Wt=Kt是两个权重矩阵，首先，对于贝叶斯滤波器，大部分工作都集中在设计上把ht−1和xt与ht联系起来。估计状态ht，我们可以将目标输出估计为yt=Vht。卡尔曼滤波器的一个扩展是粒子文件-ter [39]，它广泛用于计算机视觉中，用于跟踪视频中的非刚性对象。在粒子滤波器中，p（ht|ht−1）和p（xt|ht）可以是非参数概率分布（例如，采样粒子的直方图状态h t的最优估计是给定当前测量xt和一组随机初始化粒子的最大似然估计。等式（1）中的计算类似于RNN的计算，RNN是用于捕获时间演化的基于序列的模型。它保持一个循环的隐藏状态ht，其激活取决于前一个时间步ht-1的激活，ht=H（Whhht−1+ Wihxt+ bh），（2）其中H是激活函数，Whh是隐藏到隐藏矩阵，ht−1是前一个时间步的隐藏状态，Wih是输入到隐藏矩阵，xt是这一层的输入，bh是偏置。目标输出yt由yt=Whoht+bo给出。考虑线性激活函数H（x）=x，并将偏置项bh代入隐藏状态h，等式（2）可以简化为ht= Whhht−1+ Wihxt。（三）注意等式（1）和（3）之间的相似性：状态ht的最优估计是先前状态ht-1的估计和状态转移和测度模型p（ht|ht−1）和p（xt|ht）和调整参数（例如，PRAMP和PRAMM），这对于复杂的跟踪任务来说（例如，面部的非刚性跟踪RNN更普遍地适用于几乎任何跟踪任务，因为最佳参数Whh和Wih可以从训练数据中学习。其次，如前所述，将贝叶斯滤波器与通用视觉任务的静态估计器集成也具有挑战性相反，RNN可以很容易地与执行逐帧特征提取的CNN相结合，并形成用于联合估计和跟踪的端到端网络我们在头部姿态估计和视频中的面部标志定位的实验中显示了这种端到端网络的有效性表1总结了贝叶斯过滤器和RNN之间的联系3.1. 玩具问题我们首先用一个简单的例子来说明贝叶斯滤波和RNN之间的相似性和差异。假设光标在一维中以正弦模式移动测量值xt是添加了高斯噪声的光标目标是估计真实位置yt。我们使用卡尔曼滤波器作为贝叶斯滤波的一个例子。状态ht被定义为光标的位置、速度和加速度。根据运动学方程设计矩阵W和V，并如[ 23 ]中所述估计Δp和Δm。图2显示了两个例子，其中黑色的cir-cles是输入xt和蓝色曲线是目标yt。电流输入xt.两个权重矩阵为Wt和卡尔曼滤波器的输出，如绿色曲线所示，t用于卡尔曼滤波器，Whh和Wih用于RNN。按预期平滑噪声输入。我们还使用RNN来=WWW15511552递归层，即，如果梯度的2-范数大于阈值τ=10，则我们将梯度重新缩放为g ← gτ/2-范数。4. 视频中的头部姿态估计我们的第一个动态面部分析应用是头部姿势（即，俯仰角、偏航角和滚动角）估计。我们在两个数据集上进行实验，以评估差异-头部运动轨迹背景图像渲染图像不同的方法首先，我们创建一个大规模的合成头部姿势数据集，SynHead，其中包含10个主题，70个运动轨迹，总共510，960帧。其次，我们使用BIWI数据集[12]进行实验，该数据集包括20个子帧，24个视频和总共15，678帧。最后，我们使用来自BIWI数据集的训练数据对在SynHead数据集上训练的模型进行微调，并在性能上获得显著改善。我们修改了VGG16的网络，增加了一个具有1024个神经元的fc层，并将输出层更改为对应于俯仰角、偏航角和滚转角的3个神经元。我们应用FC-RNN对测量序列的时间演化进行建模，并使用F12损失函数进行训练。4.1. SynHead数据集和结果3D头部模型环境灯组合图像创建合成头部姿势数据集有两个动机（1）虽然有相当多的数据集可用于从静止图像（如AFLW [21]和LFW [17]）估计头部姿势，但基于视频的数据集非常有限。Oxford数据集[3]的空间分辨率较低，而ETH数据集[4]只有深度图像。只有BIWI数据集[11]适合我们的任务。（2）由于地面实况采集的各种困难，头部姿态数据集在地面实况标注中通常存在误差和噪声。例如，BIWI [11]数据集的平均误差为1度。因此，具有准确的地面实况注释的合成数据集对于算法评估是理想的。图4演示了创建这个大规模合成头部姿势数据集的流水线10个（5个女性和5个男性）3D头部模型是来自[1]的高分辨率3D扫描。为了模拟真实的头部运动，我们收集了头部运动轨迹，24个来自BIWI，26个来自ETH数据集。此外，我们记录了13名（11名男性和2名女性）受试者使用Kinect和SoftKinetic传感器执行的20个深度视频序列。我们使用[25]计算这些序列的原始头部姿势角度，并通过手动检查丢弃任何失败案例。最后，我们用高斯滤波器对这些头部运动轨迹进行时间平滑。总共有70个运动轨迹，51，096个不同的头部姿势。图4显示了该数据集的头部姿态在偏航角、俯仰角和滚转角中的分布。对于每个头部姿势，我们渲染10个头部模型，并将渲染图像与每个运动轨迹随机选择的背景图像组合。我们发现，添加随机背景是一种有效的方式来增加图4：SynHead数据集。上图：渲染管道-将SynHead数据集与给定的运动轨迹、3D头部模型和背景图像进行比较。中间：渲染图像的示例。下图：俯仰-偏航角和俯仰-滚转角的分布。表2：SynHead数据集上俯仰角、偏航角和滚转角（θ）的误差：平均值（上三行）和标准差（下三行）。错误/标准每帧KFPF后RNNRNN间距1.941.922.161.841.55偏航2.632.622.802.151.78辊2.152.142.352.111.66间距1.941.882.431.891.51偏航2.722.662.822.702.32辊3.103.163.303.082.37数据集，并有助于良好的性能。合成图像的示例如图4所示。在我们的实验中，我们从 ETH ， Kinect 和SoftKinectic数据集中随机选择8个主题和46个运动轨迹进行训练，以及从BIWI数据集中随机选择2个主题和24个运动轨迹进行测试。这确保了在训练集和测试集之间不存在3D头部模型或运动轨迹的重叠。表2总结了平均头部姿态估计误差及其俯仰角、偏航角和滚转角的标准偏差。图5中给出了通过不同方法估计的头部姿势的示例序列。它证明了端到端RNN ap-155320151050−50 50 100 150 200帧图5：SynHead数据集的示例序列及其估计的头部姿势（偏航）。所提出的端到端RNN算法比每帧估计（有或没有卡尔曼滤波）产生更准确的结果Proach不仅减少了估计误差，而且随着时间的推移产生了更平滑的轨迹，这表明它学习了视频中头部姿态的时间变化。相比之下，卡尔曼滤波（以及类似的粒子滤波）只能减少每帧估计随时间的变化/噪声，但不能减少它们的估计误差。4.2. BIWI数据集上的结果我们还对来自BIWI数据集的真实数据评估了我们的方法我们遵循之前在[27]中提出的实验协议，并将数据集分为70%用于训练（16个视频）和30%用于测试（8个视频）。我们有三个这样的分裂，我们报告的测量误差平均跨越他们。如表3所示，我们得出的结论与SynHead数据集相同。在所有五种算法中，端到端RNN方法不仅在平均误差方面而且在估计误差的标准差方面都表现最好，这表明端到端RNN方法的估计随着时间的推移更加稳定。表4显示了我们的算法和BIWI数据集上最先进的方法之间的比较。我们仅使用RGB图像的方法比依赖RGB和深度图像的两种基于学习的方法[12，27]2此外，在对SynHead数据集（不包括BIWI运动轨迹）上训练的模型进行微调后，我们进一步将BIWI数据集上的平均角度误差降低到约1.5度。这验证了所提出的方法的有效性头部姿态估计与图像合成获得的大量训练数据。图6显示了BIWI数据集上头部姿态估计的几个示例。23DModel方法[25]不需要训练，并在整个BIWI数据集上进行评估。图6：使用RNN和每帧算法在BIWI数据集上估计头部姿势的示例。RNN对各种头部姿势执行每帧估计。表3：BIWI数据集上俯仰角、偏航角和滚转角（θ）的误差：平均值（上三行）和标准差（下三行）。错误/标准每帧KFPF后RNNRNN间距4.034.124.323.903.48偏航3.914.154.223.783.14辊3.033.093.192.982.60间距3.613.703.993.532.89偏航3.823.934.113.563.12辊3.053.113.343.052.765. 视频中的面部标志点定位我们的第二个动态面部分析应用是视频中的面部标志定位。我们使用最近发布的300-VW [41]基准数据集进行实验。它包含114个视频，总共218，595帧，每帧有68个面部标志性注释。作为预处理步骤，我们使用Faster R-CNN [38]训练人脸检测器，以在每帧上执行人脸检测。对于每个视频，使用高斯滤波器对检测到的面部区域的中心位置进行该预处理步骤随着时间的推移稳定面部检测，并为错过面部检测的少数帧插入面部区域。我们采用了几种类型的数据增强-水平镜像的图像，播放图像序列的反向，和小随机缩放和transla- tion的脸窗口。我们使用与头部姿态估计相同的网络体系结构和L2损失函数，除了输出层具有对应于68个面部标志的位置的136个神经元。目标每帧KFRNN偏航（度）每帧RNN1554表4：BIWI数据集上最先进方法的平均角度误差（θDeepHeadPose [27] Martin [24] 3DModel [25] DeepHeadPose [27] Ours Ours（RGB+D）（RGB+ D）（Depth）（RGB）（RGB）（RGB+SynHead）螺距4.76 2.5 2.1 5.18 3.481.35偏航5.32 3.6 2.1 5.67 3.141.54滚动-2.6 2.4 - 2.601.351.00.80.60.40.20.00.00 0.01 0.02 0.03 0.04 0.05 0.060.07标准化点到点误差0.08图7：300-VW（split 3）上的累积误差分布图更多的情节在补充材料中。我们将300-VW数据集随机分为三次，80%（91个视频）用于训练，20%（23个视频）用于测试。对于定量性能评估，我们使用与[7]中定义的相同的误差度量和统计度量对于每一帧，我们计算归一化的点到点误差en，它是68个点的平均欧几里得距离，由地面真实边界框的对角线距离归一化。累积误差分布图（即，具有小于给定阈值的归一化点对点误差En的帧的比例两项统计措施，即，曲线下面积（AUC）和失败率（FR）也用于评估。AUC是累积误差分布图的曲线下面积，0< en≤0。08. e n>0的帧的比例。08被定义为FR，它只是给定任务的失败案例的百分比。表5总结了不同方法对三次拆分的结果。如该表所示，基于RNN的方法（包括Post-RNN和RNN）提高了每帧估计的此外，与最近的工作HyperFace [36]相比，HyperFace是一种用于帧式面部分析的多任务网络，具有最先进的性能，我们基于RNN的方法具有更好的性能，证明了联合估计和跟踪的有效性。最后，我们观察到，与其他方法相比，RNN显著降低了失败率。卡尔曼滤波器（KF）或粒子滤波器（PF）除了减少观测测量上的噪声之外，它们不能减少来自地面实况的观测误差图8：面部标志定位的示例结果。地面实况用红色表示，估计用绿色表示。所提出的基于RNN的方法优于HyperFace [36]和我们的每帧估计，特别是对于具有挑战性的条件，例如，头部/相机运动、不均匀照明、面部表情和遮挡。这也与[7]的研究结果一致。图7显示了一次拆分的累积误差分布图。图8显示了300-VW数据集上的面部标志定位示例与逐帧估计相比特别是，当头部快速移动时，它更有优势，这表明RNN能够隐式地学习运动信息。我们还与最近的一项工作[33]进行了比较，该工作使用RNN从视频中进行人脸地标检测我们注意到[33]是专门为地标估计而设计的，其计算成本大约是我们的八倍，因为[33]应用了空间递归学习器进行渐进式改进，并为编码器和解码器采用了VGG 16。此外，在具有相同分裂和误差度量的300-VW数据集上，表7显示我们的方法实现了更好的准确性。最后，我们进行了另一个实验，以与300-VW挑战中排名靠前的方法进行比较[41]。这个挑战使用50个视频进行训练，并将剩余的64个视频分为三类（基于图像复杂度）进行测试。在这种设置下训练网络更具挑战性，因为它的训练数据比以前的分割少得多91视频），逐帧KF后RNNHyperFacePF图像比例每帧RNNHyperFace1555表5：我们的方法的变体的比较（即，每帧估计，卡尔曼滤波器（KF）和粒子滤波器（PF），后RNN和端到端RNN）和HyperFace [36]在300VW数据集上进行三次80%：20%的分割。报告曲线下面积（AUC）和失败率（FR）方法拆分1拆分2拆分3AUCFR（%）AUCFR（%）AUCFR（%）每帧0.662.120.710.140.670.49KF0.632.650.700.430.650.68PF0.652.200.690.250.640.59后RNN0.662.160.721.290.670.51RNN0.740.280.770.010.770.04HyperFace [36]0.731.340.740.090.735.56表6：300VW挑战[41]和HyperFace [36]参与者的比较。报告曲线下面积（AUC）和失败率（FR）方法类别1类别2类别3AUCFR（%）AUCFR（%）AUCFR（%）我们的（RNN）0.7181.200.7030.200.6174.83HyperFace [36]0.6425.560.6620.680.5637.23Yang等[五十二]0.7912.4000.7880.3220.7104.461[46]第四十六话0.6577.6220.6774.1310.5747.957Xiao等[50个]0.7605.8990.7823.8450.6957.379[35]第三十五话0.7356.5570.7173.9060.6598.289吴和姬[48]0.67413.9250.7325.6010.60213.161表7：与[33]的比较：300-VW1个月落地签证收50美元[33]5.54% 6.74% 6.22%6.16%6.25%训练数据和测试数据的先验分布有很大的不同。我们仍然实现了优异的性能，特别是在故障率（FR）方面，如表6所示。 FR是误差大于给定阈值的图像的百分比。FR是一种重要的测量方法，适用于地标位置中的非常小的误差并不像系统的成功率那样重要的应用，例如人脸识别和面部表情理解。我们的方法显著优于HyperFace，HyperFace也是一种基于深度学习的通用面部分析方法。其他竞争算法需要专门为地标定位设计的复杂过程，例如语义面部检测[50]、头部的形状空间划分[35]、头部变换跟踪和重新初始化[52]。相比之下，我们的方法是一种通用的端到端的方法，可以很容易地适应不同的应用程序的动态面部分析。正如我们针对头部姿势估计所展示的那样（第4节和表4），我们相信，有了更多的训练数据，无论是真实的还是合成的，我们也可以期望在面部标志定位的性能方面有很大的改进。6. 结论与讨论在本文中，我们提出并评估了一种基于RNN的动态面部分析方法，包括头部姿态估计和视频中的面部标志定位。与传统的贝叶斯滤波器相比，基于RNN的方法学习联合估计逐帧测量，并使用单个端到端网络在时间上跟踪它们。此外，它不依赖于复杂的和特定于问题的跟踪器工程或特征工程，这在现有方法中是必需的。这使得基于RNN的方法成为一种通用方法，可以扩展到视频中的其他面部分析任务，而不仅仅是我们在本文中演示的任务。我们希望在未来探索几个方向。首先，我们证明了对于头部姿态估计，大规模的合成数据集显着提高了基于学习的方法的性能。我们将沿着这一方向开展更多工作，并评估其对其他动态面部分析任务的好处。其次，贝叶斯滤波器能够随着新数据的到来而调整其估计模型，而当前的RNN在训练阶段完成后就固定下来了因此，另一个探索的方向是RNN的在线学习。1556引用[1] http://www.3dscanstore.com/。 5[2] T. Baltrusaitis，P.Robinson和L.莫伦西用于刚性和非刚性面部跟踪的3DIEEE计算机视觉和模式识别会议，2012。2[3] B.本福德和我里德低分辨率视频中的颜色不变头部姿态分类。2008年英国机器视觉会议。5[4] M. Breiwei，D. Kuettel，T.魏斯湖范古尔，还有H.菲斯特从单一距离影像进行即时人脸姿态估测。在IEEE计算机视觉和模式识别会议上，2008年。5[5] X. Cao，Y. Wei，F. Wen和J. Sun.用外显形状回归法进行人脸对齐. 国际计算机视觉杂志，2014年。2[6] K. 周，D.巴赫达瑙F.布加雷斯Schwenk和Y.本吉欧。使用RNN编码器-解码器学习短语表示用于统计机器翻译。自然语言处理中的经验方法，2014年。2[7] G. 克吕索斯E. 安东纳科斯斯内普，A. Asthana，以及S. Zafeiriou.野外环境下可变形人脸跟踪的综合性能评估。arXiv：1603.06015，2016年。一、二、七[8] T. Cootes，G. Edwards和C. Taylor.活动外观模型。IEEETransactionsonPatternAnalysisandMachineIntelligence，2001。2[9] T. 库茨角泰勒，D.Cooper和J.格雷姆主动形状模型计算机视觉与图像理解，1995年。2[10] D. Dementhon和L.戴维斯基于模型的对象姿势，25行代码。国际计算机视觉杂志，1995年。2[11] G. 法内利M.Dantone，J.Gall、黑腹拟步行虫A.Fossati和L.范古尔用于实时3D人脸分析的随机森林。国际计算机视觉杂志，2013年。5[12] G. Fanelli，J. Gall，and L.范古尔使用随机回归森林的实时头部姿态估计。在IEEE计算机视觉和模式识别会议上，2011年。二、五、六[13] Y.加在递归神经网络中的一个理论上接地应用辍学。arXiv：：1512.05287，2015. 4[14] A. 格雷夫斯A.Mohamed和G.辛顿深度递归神经网络语音在声学，语音和信号处理国际会议上，2013年。2[15] T. Haarnoja，A. Ajay，S. Levine和P.阿比尔反向传播KF：学习判别确定性状态估计器。在神经信息处理系统，2016年。2[16] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。2[17] G. Huang，M. Ramesh，T. Berg和E.学习米勒。在野外的拉贝莱德面孔：研究无约束环境中人脸识别的数据库。技术报告07-49，马萨诸塞大学，阿默斯特，2007年。5[18] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。ACM Multimedia，2014年。4[19] E. 卡尔曼线性滤波和预测问题的新方法基础工程杂志，1960年。3[20] V. Kazemi和J.苏利文用回归树的集合进行一毫秒人脸对齐。IEEE计算机视觉与模式识别会议，2014年。2[21] M. Koestinger，P.Wohlhart，P.Roth和H.比肖夫野外注释的面部标志：用于面部标志定位的大规模真实世界数据库。在IEEE国际面部图像分析技术基准研讨会上，2011年。5[22] R.克里希南U. Shalit和D.桑塔格深度卡尔曼滤波器arXiv：1511.05121，2015年。2[23] R.拉贝Python中的Kalman和Bayesian滤波器2015. 3[24] M. Martin，F. Camp和R. Stiefelhagen在消费者深度相机上实时头部模型创建和头部姿势估计2014年国际3D视觉会议二、七[25] G. Meyer，S.梅洛岛Frosio，D. Reddy和J.考茨基于RO-BUST模型的3D头部姿态估计。2015年国际计算机视觉会议。二五六七[26] P. Molchanov，X. Yang，S.古普塔角Kim，S.泰瑞，还有J. 考茨基于递归3D卷积神经网络的动态手势在线检测和分类在IEEE计算机视觉和模式识别会议上，2016。2[27] S. Mukherjee和N.马丁深头姿势：多模态视频中的注视方向估计。IEEE Transactions on Multimedia，2015。二四六七[28] E. Murphy-Chutorian和M.特里维迪HyHOPE：用于基于视觉的驾驶员头部跟踪的混合头部方向和位置估计。在IEEE智能车辆专题，2008年。1[29] E. Murphy-Chutorian和M.特里维迪计算机视觉中的头部姿态估计：综述。IEEE Transactions on Pattern Analysisand Machine Intelligence，2009。1[30] E. Murphy-Chutorian和M.特里维迪头部姿态估计和增强现实跟踪：用于监控驾驶员意识的集成系统和评估。IEEE Transactions on Intelligent Transportation Systems，2010。一、二[31] P. Padeleris，X. Zabulis，和A. Argyros基于粒子群算法的深度数据头部姿态估计。在IEEE计算机视觉和模式识别研讨会上，2012年。2[32] C. Papazov，T. Marks和M.琼斯使用三角形表面块特征从深度图像实时3D头部姿势和面部标志估计IEEE计算机视觉和模式识别会议，2015。2[33] X.彭河，巴西-地Feris，X. Wang和D. Metaxas用于顺序人脸对齐的递归编码器-解码器网络。2016年欧洲计算机视觉会议。二七八[34] 联合Prabhu，K. Seshadri和M. Savvides。使用卡尔曼滤波器辅助主动形状模型的视频序列中的自动面部标志跟踪。2012年欧洲计算机视觉研讨会。一、二1557[35] G. Rajamanoharan和T.虱子大视角人脸跟踪的多视角约束局部模型。在2015年国际计算机视觉研讨会上。二、八[36] R. Ranjan，V. Patel，and R. 切拉帕 Hyperface：一个深度多任务学习框架，用于人脸检测、地标定位、姿势估计和性别识别。arXiv：1603.01249，2016年。二、四、七、八[37] A. Rekik，A. Ben-Hamadou和W.马赫迪使用低质量深度相机进行3D人脸姿态跟踪。在2013年计算机视觉，成像和计算机图形理论与应用国际联合会议上。2[38] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。在神经信息处理系统，2015年。6[39] B. Ristic，S. Arulampalam和N.戈登除了卡尔曼滤波器：用于跟踪应用的粒子滤波器。Artech House Boston，2004年。3[40] C.萨戈纳斯湾Tzimiropoulos，S. Zafeiriou和M.惊慌失措300人面临野外挑战：第一个面部标志定位挑战。在2013年计算机视觉研讨会国际会议上。2[41] J. Shen ， S.Zafeiriou ， G.Chrysos ， J. 科赛菲湾Tzimiropou-los和M.惊慌失措第一个面部标志跟踪在野外的挑战：基准和结果。在2015年国际计算机视觉研讨会上。二、六、七、八[42] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。在2015年国际学习代表会议上。4[43] R. 索彻角C. 林角，澳-地Manning和A.Y. Ng. 用递归神经网络解析2011年，国际机器学习会议。2[44] S.图利亚科夫河Vieriu，S. Semeniuta和N. Sebe 实时极端头部姿态估计。在2014年的国际模式识别会议上2[45] G. Tzimiropoulos和M.惊慌失措用于野外人脸对齐的高斯牛顿可变形零件模型。在IEEE计算机视觉和模式识别会议上，2014年。2[46] M. Uricar和V.法郎基于树型可变形部分模型检测器的人脸特征点实时跟踪。2015年国际计算机视觉研讨会一、二、八[47] G.韦尔奇卡尔曼滤波器在虚拟实境人体运动追踪之应用。Presence：TeleoperatorsandVir-tualEnvironments，2009. 1[48] Y. Wu和Q.纪人脸对齐的形状增强回归方法。在2015年国际计算机视觉研讨会上。二、八[49] S. Xiao，J. Feng，J. Xing，H.赖氏S. Yan，和A.卡西姆。基于递归注意细化网络的鲁棒面部标志点检测2016年欧洲计算机视觉。2[50] S. Xiao，S. Yan，和A.卡西姆通过渐进初始化的面部标志检测。在2015年国际计算机视觉研讨会上。二、八[51] X. Xiong和F.托瑞监督下降法及其在人脸对齐中的应用。IEEE计算机视觉与模式识别会议，2013年。2[52] J. Yang，J. Deng，K. Zhang和Q.刘某基于时空级联形状回归的人脸形状跟踪。2015年国际计算机视觉研讨会一、二、八[53] X. Yang，P. Molchanov，and J.考茨用于视频分类的深度神经网络的多层和多模态融合。ACM Multimedia，2016年。二、四

下载后可阅读完整内容，剩余1页未读，立即下载