双智能体深度强化学习的变形人脸跟踪方法

84 浏览量更新于2023-10-13 收藏 2.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于双智能体深度强化学习的变形人脸跟踪Minghao Guo，Jiwen LuJin，and Jie Zhou清华大学，北京，中国guomh2014@gmail.com{lujiwen，jzhou}@ tsinghua.edu.cn抽象。在本文中，我们提出了一种用于可变形人脸跟踪的双智能体深度强化学习（DADRL）方法，该方法从人脸视频中交互地生成边界框并检测人脸标志。大多数现有的可变形人脸跟踪方法分别为这两个任务学习模型，并在测试阶段随后执行这两个过程，忽略了这两个任务的内在联系。由于人脸标志点检测的性能在很大程度上取决于生成的边界框的准确性，我们利用这两个任务的相互作用，以概率的方式通过以下贝叶斯模型，并提出了一个统一的框架，同时边界框跟踪和标志点检测。通过将其公式化为马尔可夫决策过程，我们定义了两个代理来利用关系并在深度强化学习框架下通过自适应动作序列传递消息，以迭代地调整边界框和面部标志的位置。我们提出的DADRL实现了性能的改进，在国家的最先进的变形人脸跟踪方法的最具挑战性的类别的300-VW数据集。关键词：可变形人脸跟踪;强化学习;深度学习1介绍可变形人脸跟踪在计算机视觉领域有着广泛的应用，如人机交互、表情分析、身份识别等。可变形人脸跟踪的目的是在给定的人脸视频的所有帧中检测人脸组件和人脸轮廓周围的关键点这是一个具有挑战性的问题，在实践中，因为人脸样本通常是在无约束条件下捕获的，其中大的姿态，严重的遮挡，照明变化和运动伪影通常会发生。通讯作者。2郭明浩，陆继文，周杰了图1.一、（a）通过方法[ 1 - 3 ]执行跟踪，以串行方式形成可执行的面部跟踪。(b)我们的DADRL方法制定可变形的人脸跟踪，ING作为一个马尔可夫决策过程（MDP）的问题，并产生边界框跟踪和地标检测在一个互动的方式。这里，si表示MDP状态，ai表示MDP动作。虚线表示当前帧的初始边界框是先前帧的被跟踪框。蓝色和灰色分别表示跟踪代理操作和对齐代理操作（最佳颜色）。在过去的十年中，许多努力[1-具体地，这些方法首先生成覆盖面部区域的高分边界框，然后基于边界框应用面部因此，面部对齐很大程度上取决于生成的边界框。图1（a）示出了用于说明用于面部地标检测的面部框生成的效果的示例。我们看到，来自地面实况边界框的偏差严重影响对齐准确性，因为边界框是在不考虑姿势和表情的面部条件的情况下特别是当人脸处于极端条件下时，边界框选择的人脸区域通常会错过人脸特征点，从而限制了人脸对齐的性能。一种理想的可变形人脸跟踪方法是利用人脸边界框生成和人脸对齐之间的丰富交互。由于面部标志可以有效地表示跨帧的面部姿态，因此它们可以为准确的边界框生成提供辅助信息。然而，大多数现有的可变形人脸跟踪方法忽略了这种相互作用，这导致在极端条件下的低精度拟合。在这项工作中，我们提出了一种用于可变形人脸跟踪的双智能体深度强化学习（DADRL）方法，该方法以交互方式执行边界框生成和人脸地标检测。具体来说，我们利用这两个程序的相互作用，在概率的方式，通过以下一个基于双智能体深度强化学习的变形人脸跟踪3贝叶斯模型不同于现有的可变形人脸跟踪方法直接推断边界框和人脸标志点的联合概率的分解形式，我们训练这两个模型同时学习两个条件分布。然后，这两个任务之间的连接被formulated为两个边缘分布，其相关性明确建模与可学习的参数。由于观察到人脸跟踪的复杂性在不同的帧之间变化，我们的方法利用强化学习作为一种原则性的方法来学习如何在可变形人脸跟踪过程中做出自适应决策。我们制定这个顺序的过程作为一个马尔可夫决策过程，模型边界框生成和人脸对齐作为两个代理。这些双重代理预测一个可变长度的动作序列来定位更新边界框和地标。实验结果表明，我们提出的DADRL在300-VW数据集上实现了比最先进的可变形人脸跟踪方法更大的性能改进[4]。2相关工作可变形面部跟踪：可变形面部跟踪集中于在给定面部视频的所有帧上跟踪一组面部标志。现有的可变形人脸跟踪方法主要可以分为两类：纯形状跟踪方法和检测跟踪方法。第一类[5-基于这个基本过程，最近的工作集中在利用跨不同帧的地标的时间例如，递归编码器-解码器网络[7]由空间和时间递归序列组成。双流Transformer网络[8]通过使用几个网络来捕获空间和时间信息。这些方法部分地处理跨整个视频的姿势和表情的大变化，因为两个相邻帧之间的运动通常是小的。然而，这些方法与漂移缺点作斗争，因为误差在整个视频中随着时间积累。第二类[9-虽然这些方法在一定程度上消除了漂移，但这两个模型是单独训练并以串行方式使用的。因此，在本发明中，面部对准的性能受到限制，这可能导致在生成的边界框较差的情况下的低精度拟合。为了解决这个问题，Haris等人[19]提出了一种协同方法，通过使用不同的检测和跟踪初始化来执行地标定位然而，他们只采用了一个单独的跟踪模型来生成边界框，在训练过程中没有与对齐模型一起优化。4郭明浩，陆继文，周杰深度强化学习：强化学习起源于人类的决策过程[20]，其能够根据其经验做出决策。深度强化学习是深度学习和强化学习的结合，可以分为两类：深度Q学习[21 -23]和策略梯度[24，25]。深度Q网络的目标是学习由深度网络给出的状态-动作值函数。策略梯度方法使用梯度下降来学习最大化期望未来回报的策略最近，深度强化学习在一些计算机视觉应用中取得了巨大的成功例如，Raoet al.[26]提出了一种用于视频人脸识别中关键帧选择的注意力感知深度强化学习方法。Yu等人[27]提出了一种基于策略梯度的序列生成对抗网络。Yoo等人[28]提出了一种基于策略梯度学习的顺序视觉跟踪器。Foerster等人 [29]和Sukhbaatar等人 [30]提出了多智能体深度强化学习方法，以在不同智能体之间传递消息。Kong等人[31]提出了一种基于多智能体强化学习的多目标协同定位算法与这些具有共同网络架构的方法不同，我们提出了一种双代理深度强化学习（DADRL）方法，该方法配备了双代理过程：人脸边界框生成和人脸标志点检测。3方法在这一节中，我们首先介绍了贝叶斯公式的变形人脸跟踪介绍的双重学习计划。然后，我们提出马尔可夫决策过程（MDP）的设置，以展示如何利用深度强化学习。最后，我们详细介绍了建议的DADRL的体系结构和训练过程。3.1问题公式化假设我们有一个由K帧组成的人脸视频，{Ik}k=1：K。对于第k个帧Ik∈Rw×h×3，我们有跟踪的边界框Bk−1∈R2×2和p r v i ou s帧的shapevect或withLl和markksVk−1∈Rl×2. 可变形人脸跟踪的目的是预测当前帧Ik的边界框Bk和人脸形状Vk。该任务旨在学习人脸边界框生成和人脸地标检测的联合概率根据贝叶斯公式，联合概率推导如下：p（Bk ，Vk|Ik，Bk−1，Vk−1）=p（Bk|Ik，Bk−1，Vk−1）p（Vk|Bk，Ik，Bk−1，Vk−1）（1）由于联合概率p（x，y）可以以两种等效方式计算p（x，y）= p（x）p（y|x）= p（y）p（x|y），理想情况下，条件概率为可成形的面部跟踪问题应满足以下等式（我们省略Bk−1，Vk−1（forsimplicity）：p（Bk|Ik）p（Vk|Bk，Ik）= p（Vk|Ik）p（Bk|Vk，Ik）（2）基于双智能体深度强化学习的变形人脸跟踪5图二.我们提出的DADRL的架构。我们的DADRL由两个代理组成：跟踪剂和对准剂。每个代理都有一个离散的动作集。所传送的消息由反卷积层和LSTM单元进行编码，从而是正确的。这两个算法将面部特征的等式定义为仅包含面部边界框并同时回归面部特征点。代理转到下一帧，直到检测到的面部标志被最终确定。注意，T表示MDP的迭代次数，而不是视频的时间戳数量我们称之为概率对偶，这是学习对偶模型最优性的必要条件大多数现有的可变形人脸跟踪方法将联合概率建模为等式中的分解形式1.一、由于这两个模型是单独学习的，因此不能保证概率对偶性成立。为了解决这个问题，我们建议明确加强这两个模型的经验概率对偶性我们考虑的学习目标的包围盒生成和面部标志检测作为两个条件概率。然后，这两个任务之间的为了在训练期间满足概率对偶性，一种可能的解决方案是在损失函数中设计一个项作为适当的约束，例如[32]中的正则化项，并通过使用标准监督学习技术来训练对偶模型。然而，由于无法获得真实边际分布这是次优策略，因为边缘分布在训练期间是固定的。受边缘分布应该被学习的观察的启发，我们提出了一个用于可变形人脸跟踪的深度强化学习框架这两个任务被视为双重代理。它们之间的通信消息被视为两个边际分布的替代，以满足概率对偶。通过使用深度Q学习算法来促进消息通道的学习我们提出的DADRL不同于以下两种学习方案，如图所示。3：1）通过检测跟踪侧重于单任务学习，其6郭明浩，陆继文，周杰图3.第三章。三种变形人脸跟踪策略的比较I、T和A分别表示图像帧、边界框跟踪和面部对准。(a)基于检测的跟踪是以串行的方式进行可变形人脸跟踪，不能保证保持概率对偶性。(b)多任务学习假设两个任务共享相同的输入空间和一致的特征表示，这在许多实际应用中过于强大。(c)我们的DADRL明确地利用了这两个任务之间的协同作用。不保证持有概率对偶; 2）多任务学习有一个假设，即这两个任务共享相同的输入空间和连贯的特征表示，在实际应用中这个假设太强。与这些学习方案不同，我们的DADRL解开了两个任务的连接，并明确利用它们之间的协同作用。3.2双智能体深度强化学习我们的DADRL由两个代理组成：跟踪剂和对准剂。每个代理都有一个离散的动作集。基本流水线如下：对于视频中的每一帧，首先通过前一帧的终止状态来初始化状态。然后，基于观察到的状态和接收到的消息，面部特征点确定动作的等式，以同时调整面部特征点的边界框最后，代理转到下一帧，直到检测到的面部标志被最终确定。图2示出了我们的方法的流水线。我们将我们的策略制定为视频中每个帧的MDP。我们首先介绍的状态定义，这是由两个代理共享，其次是其他各自的定义两个代理。为了简单起见，当我们描述每个帧中的MDP时，我们省略下标k状态：st被定义为由边界框提取的当前图像区域，其被调整大小为固定大小。给定帧I和当前边界框B，状态st被公式化如下：st=φ（B，I）（3）其中Φ表示分块提取函数。动作：基于状态st，每个智能体输出动作at。两个智能体共有八种动作类型，包括移动动作和停止/继续动作，如图所示。4.第一章基于双智能体深度强化学习的变形人脸跟踪7δ222见图4。两个代理的已定义操作。左：跟踪代理的移动动作。右：对齐代理的停止/继续跟踪代理：跟踪代理的目的是产生移动动作，以改变当前观察到的区域。具体来说，定义了一组动作如：{left，right，up，down，scaleup，scale down}。对齐剂：对齐代理产生停止/继续动作以确定是否应该终止迭代。因此，搜索过程的终止是根据面部对准质量，而不是跟踪的边界框结果。状态转换：在状态st决定动作后，下一个状态st+1由状态转移函数得到跟踪代理：对于跟踪代理的移动动作，通过以离散变化移位边界框来获得新状态st+1，其相对于边界框的当前大小如下：δw=α（x2−x1），δh=α（y2−y1）（4）其中αe[0， 1]表示尺度向量，{x1，y1，x2，y2}表示左上和右下顶点的边界框坐标。通过根据输出动作向坐标添加或移除δw或δh来更新边界框B例如，如果选择了左动作，则B的位置移动到{x1−δw，y1，x2−δw，y2}，按比例放大动作将B变为{x1−1δw，y1−1小时，x2+1δw ，y22+1δh}。对齐代理：对于对齐代理，如果选择了停止操作，则最终确定面部对齐结果作为当前帧的目标，并且将边界框结果转移到下一帧的初始状态。继续操作继续MDP的迭代。奖励：智能体的奖励取决于在状态下选择的动作st，由函数rt确定。跟踪代理：奖励函数rt反映了地标检测准确度的改进。奖励函数测量未对准下降并且定义如下：ΣLVrt=−sign（dt+1−dt），dt=i=1i，t iL·L（五）其中，dt表示MDp的第t次迭代的归一化的点到点距离，其中，d2表示正态，d3不表示正态因子， d4 、 d5分别不表示预测的界标点和地面实况。对齐剂：对于continue操作，我们使用与跟踪代理相同的奖励。对于停止操作，我们使用不同的奖励方案，因为它8郭明浩，陆继文，周杰导致终止状态，其被定义为：.Rt=+ηifdt<τ-η否则（六）其中η根据经验设置为3.0，并且τ是指示允许将预测的比对结果视为正比对结果的最大误差的阈值3.3网络架构DADRL网络由三部分组成：跟踪代理、对齐代理和通信消息通道。跟踪代理是一个VGG-M模型，后面是一个单层Q网络。对齐代理被设计为堆叠的沙漏网络和置信网络的组合两个通信消息分别由去卷积层和长短期存储器（LSTM）单元编码。在本节中，我们将详细介绍通信消息通道和置信网络，并将在第4.2节中详细介绍跟踪代理通信的消息通道：通信消息显式地编码这两个代理之间的协同信息流。对于从跟踪代理传递到对齐代理的消息，我们的目标是为对齐代理提供先前的附加纹理信息，以提高鲁棒性。我们选择跟踪代理中的conv3层的输出特征图，并将其在深度轴上与沙漏网络中的第一下采样步骤的输出特征图连接。我们采用反卷积层作为消息通道来匹配特征图的大小。从对准代理传递到跟踪代理的消息提供用于边界框跟踪的补充3D姿态信息。主要目标是产生用于精确跟踪的面部姿态的辅助知识。为了实现这一点，我们将预测的标志点的归一化坐标作为3D姿态信息的表示。我们还采用LSTM通过时间序列来记忆姿势变化。隐藏状态不被更新，直到一个帧的MDP被终止以用于训练稳定。信任网络：我们观察到，地标预测通常是formulated作为一个回归问题，它没有信心得分估计在分类问题。然而，对准代理有必要判断预测地标的质量并确定是否继续调整过程。例如，在预测的界标由于不准确的边界框而明显不可信的情况下，对准代理的回归结果受此观察的启发，我们提出了置信网络来确定这两个代理的迭代终止。所提出的置信度网络将预测的热图和形状索引的局部块作为输入，并输出L×1向量，该向量表示每个地标的置信度。其次是一个单层的全连接的Q-网，Q值的停止/继续行动预测的对齐代理。基于双智能体深度强化学习的变形人脸跟踪9我我我我n′3.4网络训练由于直接从零开始通过强化学习进行训练收敛速度非常慢，因此我们采用了两阶段训练过程：首先利用监督学习预训练网络的主要分支，然后通过强化学习训练其他部分。监督学习阶段：对于监督学习阶段，分别训练两个代理，并将消息向量的元素设置为零。对于跟踪代理，由图像块{pi}和动作标签{a*}组成的训练样本被馈送到网络中。通过将高斯噪声添加到地面实况补丁来从训练数据集中采样图像补丁，地面实况补丁是注释的面部地标的最紧密的边界框。相应的操作标签a*由a*=arg maxIoU（f（pi，a），G），其中f（pi，a）一表示通过来自跟踪的动作集合的动作a从pi移动的块代理，G表示地面实况补丁。跟踪代理的损失函数定义如下，Lt rac king=CrossEntropy（ai，a*）（7）其中ai表示跟踪代理的预测动作。对于对准剂，沙漏模型的损失函数表示为：L对齐= 1ΣLΣ（||hn（i，j）− h（i，j）||（2）（8）n2n=1ij其中hn（i，j）、h*（i，j）分别表示第n个地标的像素位置（i，j）处的预测热图和真实强化学习阶段：强化学习阶段旨在同时训练Q-网、消息通道和置信网络的参数。在Q学习算法之后，每个智能体以迭代的方式根据Q函数Q（s，a）的当前估计来选择动作。基于Q（s，a），智能体将选择与最高奖励相关联的动作。Q学习使用Bellman迭代地更新动作选择策略，如下所示：′ ′Q（s，a）=r+γmaxQ（s，a）（9）一其中s和a是当前状态和动作，γ表示折扣因子。在我们的工作中，我们通过强化学习训练的深度Q网络来近似Q函数。在双代理设置中，深度Q网络还将从另一个代理接收的消息作为输入，公式化为Q（s，a，m）。为了达到Bellman最优性，我们联合对这两个智能体进行采样，并使用样本通过联合最小化来更新所有参数以下损失，L=E[Q（s，a）-（r+γmaxQ（s2（10）t t t′t+1，a））]一与这两个代理之间的消息通道相关的参数也被更新，因为消息是不同的。L′10郭明浩，陆继文，周杰4实验和结果我们评估了所提出的DADRL在大规模人脸跟踪数据集300-VW测试集[4]上的性能，这是一个公开可用的大规模人脸跟踪数据集。我们将我们的方法与最先进的方法进行了比较，并在第4.3节中报告了几项分析，以调查双智能体学习方式中消息传递的重要性。我们的研究结果表明，两个任务之间的互动的有效性。4.1数据集和设置300-VW数据集由3个类别组成：1（62，135帧）、2（32，805帧）和3（26，338帧）。第3类是迄今为止最具挑战性的，包含14个在恶劣野外条件下的视频，每个视频持续约一分钟（每秒25-30张图像）。我们对类别3进行了实验，以研究我们的方法在包括大姿态、严重遮挡等的恶劣条件下的改进性能。报告了49个内部点和全部68个点的结果。请注意，数据集有几个现有的评估协议和不同版本的注释，例如[4，3]。为了公平比较，我们遵循了[4]的原始300VW比赛中的数据集和设置。其他报告的结果也遵循相同的设置。在监督学习阶段，两个智能体分别进行训练我们利用来自300-W竞赛[34]的所有训练数据来训练对齐代理，并利用300-VW训练集来训练跟踪代理。在强化学习阶段，整个网络使用300-VW训练集的数据进行训练。我们注意到一个新成立的面部跟踪竞赛[35]，发布了300-VW数据集的3D投影注释面部标志。我们还使用3D数据训练了另一个模型，并将其与第4.3节中的最新方法进行了对于评估协议，我们采用标准归一化均方根误差（RMSE）和累积误差分布（CED）曲线。4.2实现细节我们的模型是基于流行的加速深度学习工具箱TensorFlow [36]构建的，该工具箱主要对数据流图进行操作。跟踪代理网络由预先训练好的VGG-M模型初始化。由预训练的CNN提取的特征使用ImageNet [37]进行训练，这有助于Q网络的参数更快地收敛状态st的输入固定大小为112× 112。如示于图在图2中，网络由三个卷积层{conv1，conv2，conv 3}和三个全连接层{fc4，fc 5，fc 6}组成，这三个卷积层与VGG-M模型中的卷积层相同。{fc4，fc 5}层与ReLU和dropout层相结合，fc5层的输出与从对齐代理接收的消息连接。最后的fc6层，没有任何激活函数，预测六个运动的Q值基于双智能体深度强化学习的变形人脸跟踪11(a)（b）第（1）款图五. (a)DADRL与300- VW第3类最新技术之间的49个内部点的比较。(b)DADRL和最先进的300-VW第3类之间的比较为68分。动作，以便确定当前迭代的跟踪代理的动作。基于堆叠沙漏网络[38]设计对准剂的基本网络原始信号在每个下采样步骤之前被分支，并且在每个上采样步骤之前被组合对于n尺度沙漏模型，从原始尺度到1/2n尺度的特征沙漏模型的输出是一组热图，每个热图表示一个关键点的出现的概率。我们选择n=2，以兼顾精度和速度。对于Confidence Network，我们将提取的形状索引补丁和预测的热图连接起来，并将它们调整为26×26作为输入。然后，我们部署了两个卷积层（3×3内核大小，1×1步幅），分别具有128和512个内核。通过跟随卷积层，我们附加了一个两层全连接，其中参数为512×512和512×L向量矩阵（对于300-VW数据集，L = 68）。输出向量被馈送到一层完全连接中以预测停止/继续动作的Q值。对于训练过程中的超参数，我们将学习率指定为0.001，折扣因子指定为0.9，小批量大小指定为20。对于MDP中的参数，尺度向量α被设置为0.2，阈值τ被设置为0.06，ε被设置为0.7。重放缓冲器[33]用于强化学习阶段。4.3结果和分析与最新技术水平的比较：在本节中，我们将DADRL与最先进的49个内部点和68个点进行了比较。对于49个内部点，我们将DADRL与5种最先进的方法进行了比较，包括300-VW比赛的两种最佳表现方法[39，2]，[16]的最先进的面部对齐方法，[40]的最先进的跟踪器和[19]的同步方法。我们把数据记录下来，叫做“12郭明浩，陆继文，周杰(a)（b）第（1）款见图6。边界框跟踪比较。(a)成功情节的所有视频凯特-血淋淋的3 300-大众。(b)在300-VW的类别3上具有极端姿势变化的几个视频的成功图。其中所传送的消息在测试阶段期间被设置为零。为[35]中新发布的3D投影注释标志具有与先前的2D注释相同的内部点位置，我们还报告了在名为“DADRL- 3D”的3D中通过3D D D进行的改进的结果。 Fig.5（a）显示关于Cat egory 3的所得结果。 “D AD R L- 3D”方案是由“DAD R L”遵循的最佳形式，其中该最佳形式的D AD R L-zero具有与其他形式相似的形式。与AD R L和其他先进技术相结合的大规模生产可以保持两个代理之间的内在相关性。“D AD R L- 3D”的出现是合理的，因为模型更适合于通过在a. 所采用的“DAD R L”和所述基本的“DAD R L-zero”的组合将使用通信消息的增强我们为68个点提供了我们的产品。由于“D AD R L- 3D”h的输出为84点，因此我们没有考虑它的68点条件。与49个内点设置相比，68个内点设置更能体现方法的鲁棒性，因为轮廓点对极端条件更敏感。由于[19]的DGCM没有报告68个点的结果，因此我们没有将我们的方法与之进行比较。如示于图5（b），我们提出的DADRL优于其他方法的大幅度。分析：在本节中，我们进行了两项分析，以说明双智能体训练方式中的通信消息如何提高边界框跟踪和面部对齐的性能。由于DADRL和基于DADRL的会话之间的比较也会利用所传递的消息的重要性，因此我们进一步研究了两个两个实验表明，两个任务之间的相互作用增强了变形人脸跟踪的极端条件下的鲁棒性。跟踪实验：从对齐代理到跟踪代理的消息传递旨在为准确的边界框跟踪提供补充的3D姿态信息为了验证有效性，我们训练了另一个跟踪网络基于双智能体深度强化学习的变形人脸跟踪13Vi./ Meth. 基线DADRL#5173.292.75#5263.602.92#5283.703.01#5333.783.68见图7。CED曲线（左）和300-VW类别3上具有严重遮挡和运动伪影的作为基线。该网络具有与跟踪代理相同的体系结构，除了fc5层的输出不再与消息代码级联网络的训练方式与跟踪代理相同，即首先通过监督学习进行预训练，然后通过强化学习进行微调。基线跟踪器也遵循MDP，并且具有与DADRL的跟踪代理相同的动作集由基线网络预测边界框移位的类似序列由于该跟踪器没有停止动作，因此将选定的面部区域馈送到我们的DRDAL中，以确定是否应该由我们的对齐代理停止迭代。这个基线绑定框跟踪器和我们的跟踪代理之间的唯一区别是，没有消息输入基线。为了比较，我们采用成功率作为评估协议。由于在300-VW数据集中没有带注释的边界框，因此我们将面部标志的最紧密边界框视为地面实况。成功图第三类的情况如图所示。第6（b）段。我们还展示了几个单独视频的成功曲线，如图所示。第6（a）段。请注意，这些视频包含经历极端姿势，甚至完全转身的面部。结果表明，对准Agent的信息是一种有效的三维信息补充，可以提高跟踪Agent对大姿态的鲁棒性。跟踪代理决定的顺序动作的例子如图所示。8（c）。对齐实验：为了更好地理解消息传递到对齐代理的效果，我们训练了一个单独的堆叠沙漏模型作为基线，该模型预测没有任何接收消息的该基线模型的训练方式与DADRL的监督学习阶段相同。在测试阶段，我们直接使用最紧密的边界框标注的土地标记作为输入的人脸区域。两个模型预测的地标只有一个前馈通过。为了验证该消息通道为对齐代理提供了先前的CED曲线和平均点对点误差的比较如图所示。7.我们可以看到带有消息输入的对齐代理比单个沙漏模型的性能提高了约2%，这证明了我们的DADRL对遮挡和运动伪影结果进一步表明14郭明浩，陆继文，周杰图8. （a）（b）300-VW第3类68个点和3D投影84个点的对准结果示例(c)由跟踪代理决定的300-VW类别3的视频#533中两帧的顺序动作。从跟踪代理传递到对准代理的消息能够解码纹理信息，这是用于在严重遮挡或运动伪影下的面部对准的有效先验信息。比对结果的示例如图1B所示。8（a）（b），分别为68点和3D 84点总之，这两个实验的结果表明，所传达的消息在我们提出的方法中起着重要的作用。5结论在本文中，我们提出了一种用于可变形人脸跟踪的双智能体深度强化学习（DADRL）方法在我们的方法中，我们明确地利用边界框生成和人脸对齐之间的相互作用，通过遵循贝叶斯模型，并提出了一个统一的框架，同时执行这两项任务。通过制定MDP的问题，我们已经定义了这两个模型的双重代理，利用的关系，并通过自适应的行动序列传递消息。模型通过深度强化学习进行交互式训练。实验结果表明了该方法的有效性。如何自动选择消息通道并进一步提高我们的方法的性能似乎是一个有趣的未来的工作。6确认这项工作部分得到了中国国家重点研究与发展计划（2017YFA0700802）的支持，部分得到了中国国家自然科学基金（61672306、U1713214、61572271）的支持，部分得到了深圳市基础研究基金（课题安排）（JCYJ2017041217）的支持0602564.基于双智能体深度强化学习的变形人脸跟踪15引用1. 王，X.，杨，M.，Zhu，S.，Lin，Y.：用于通用对象检测的区域小块。在：ICCV. （2013）172. Xiao，S.，Yan，S.，Kassim，A.A.：经由渐进初始化的面部标志检测。In：ICCVW. （2015）333. 克吕索斯，G. G.，Antonakos，E.，斯内普，P.，Asthana，A.，Zafeiriou，S.：一个综合性的方法是将可识别的面部特征“隐藏”起来。一纪五（2016）14. 沈，J.，Zafeiriou，S.，克吕索斯，G. G.，Kossaifi，J.，Tzimiropoulos，G.，潘蒂奇，M.：第一个面部标志跟踪在野外的挑战：基准和结果。In：IC CVW. （2015）505. Asthana，A.，Zafeiriou，S.，郑，S.，潘蒂奇，M.：WILL D中的增量面对齐。 In：CVPR. （2014）18596. 彭，X. Zhang，S.，（1991），中国农业科学院，杨，Y.，Metaxas，D.N.：Piefa：个性化的增量和精简的面元。 In：ICCV. （2015）38807. 彭，X. Feris，R.S.，王，X.，Metaxas，D.N.：一种递归编码器-解码器网络，其用于等式形式。 In：ECCV. （20 16）388. 刘洪，卢，J，冯杰，Zhou，J.：用于基于视频的人脸对齐的双流Transformer网络。TPAMI（2017）9. 布莱克，MJ Yacoob，Y.：使用图像运动的局部参数模型跟踪和识别刚性和非刚性面部运动。 In ： Computer Vision ， 1995. 发布日期 FifthInternatinalConf erncen，IEEE（1995）37410. 克吕索斯，G. G.，Antonakos，E.，Zafeiriou，S.，斯内普，P.：离线可变形面跟踪在rbitrryvideos中。 In：ICCVW. （2015）111. Decarlo，D.，Metaxas，D.：光流约束的可变形模型与一个聚丙烯的一个问题，以适应racking。IJCV38（2）（200 0）9912. Tzimiropoulos，G.：投影出级联回归与应用程序，以面对一条直线。 In：CVPR. （2015）365913. 曹，X.，魏，Y.，温，F.，孙杰：通过显式形状回归进行面部对齐。IJCV107（2）（201 4）17714. Xiong，X.，中国农业科学院，De la Torre，F.：监督下降法及其在面元问题中的应用。 In：CVPR. （2013）53215. 张志，Luo，P.，Loy，C.C.，唐X：基于深度多采样的人脸特征点检测。In：ECCV. （2014）9416. Trigeorgis ， G. ，斯内普， P. ， Nicolaou ，文学硕士， Antonakos ， E. ，Zafeiriou，S.：记忆下降法：应用于端到端面对齐的循环过程。In：CVPR.（2016）417717. 张杰，Shan，S.，Kan，M.，Chen，X.：粗到精自动编码器网络（cfan）用于实时面元。 In：ECCV. （2014）118. 库马尔，A.，切拉帕河：在树枝状cnn中解开3d姿态用于非约束的2d面部对准。arXiv预印本arXiv：1802.06713（2018）19. Haris Khan，M.，McDonagh，J.，Tzimiropoulos，G.：通过区分性全局一致性优化的人脸对齐和跟踪之间的协同在：CVPR中。（2017）379120. Littman，M.L.：强化学习从评价反馈中改进行为。自然521（7553）（2015）44521. Gu，S.，Lillicrap，T.萨茨克弗岛Levine，S.：使用现代化数据库的连续深度Q学习。 In：ICML. （2016）282916郭明浩，陆继文，周杰22. Mnih，V.，Kavukcuoglu，K.，Silver，D.，格雷夫斯，A.，安东诺格鲁岛Wierstra，D.，Riedmiller，M.：用深度强化学习玩雅达利。ArXiv预印本arXiv：1312.5602（2013）23. Mnih ， V. ， Kavukcuoglu ， K. ， Silver ， D. ， Rusu ， A.A. ， Veness ， J. ，Bellemare ， M.G. 格雷夫斯， A. ， Riedmiller ， M. ， Fidjeland ， A.K. ，Ostrovski，G.，等：通过深度强化学习实现人级控制。Nature 518（7540）（2015）52924. Ammar，H.B.，Eaton，E.，Ruvolo，P.，泰勒，M.：在线多任务学习为policygradientmethods。 In：ICML. （2014）120625. Silver，D.，杠杆G Heess，N. Degris，T.，Wierstra，D.，Riedmiller，M.：确定性策略梯度算法.在：ICML。（2014年）26. Rao，Y.，卢，J，Zhou，J.：用于视频面部识别的注意力感知深度强化学习。 In：CVPR. （2017）393127. 尤湖张伟，王杰，Seqgan，Y.Y.：带有策略梯度的序列生成对抗网arxiv预印本。arXiv预印本arXiv：1609.05473 2（3）（2016）528. 柳世英Yun，K.，Choi，J.Y.：基于深度强化学习的视觉跟踪行动决策网络。（2017年）29. Foerster，J.，Assael，Y.，de Freitas，N.，Whiteson，S.：学习与高级管理人员进行沟通。 In：NIPS. （2016）213730. Sukhbaatar，S.，费格斯河等：学习多智能体通信与后台编程. In：NIPS.（201 6）224431. 孔，X. Xin，B.，王玉，Hua，G.：用于联合对象搜索的协作深度强化学习。在：CVPR中。（2017年）32. 夏，Y.，Qin，T.，陈伟，Bian，J.，Yu，N.，Liu，T.Y.：双监督学习arXiv预印本arXiv：1707.00415（2017）33. Lillicrap，T.P.，Hunt，J.J.，Pritzel，A.，Heess，N. Erez，T.，Tassa，Y.Silver，D.，Wierstra，D.：通过深度强化学习实现持续控制arXiv预印本arXiv：1509.02971（2015）34. 萨戈纳斯角Tzimiropoulos，G.，Zafeiriou，S.，潘蒂奇，M.：一种半自动的方法，用于面形和图形处理。 In：CVPRW. （2013）89 635. Zafeiriou，S.，克吕索斯，G. G.，Roussos，A.，Ververas，E.，Deng，J.，Trigeorgis，G.：3d门婆面部地标追踪挑战赛。见：ICCVW。第五卷。（2017年）36. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，Ghemawat，S.，古德费洛岛 Harp ， A. ， Irving ， G. Isard ， M. ， Jia ， Y. ， Jozefowicz ，河凯泽湖Kudlur，M.，Levenberg，J.，我不去，D。，Monga，R.， More，S.，Mur ay，D. ，Olah，C.， S.h. s.t.r. S·L·N·S，J·，Steiner，B.，萨茨克弗岛Talwar，K.，Tucker，P. Vanhoucke，V.，Vasudevan，V.，Vi'egas，F.，Vinyals，O.， Warden，P.， M.， Wi cke，M.， Yu，Y.， Zeng，X.：TensorFlow：Large-scale machine learning on heterogeneous systems（2015）软件可从tensorflow.org获得。37. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：具有深度概念的图像网分类。In：NIPS. （2012）109738. Newell，A.，杨，K.，Deng，J.：用于人体姿态估计的堆叠沙漏网络。In：ECCV. （2016）48339. 杨杰，Deng，J.，张，K.，Liu，Q.：经由时空计算的面部形状跟踪包括面部形状跟踪。 In：ICCVW. （2015）4140. S'ancez-Lozano，E.， Martinez，B.， Tzimiropoulos，G.， Valstar，M. ：在我们的监管范围内，对于所有相关的风险因素，都存在一种复杂的情况。 In：ECCV. （2016）645

下载后可阅读完整内容，剩余1页未读，立即下载