基于深度强化学习的视频人脸自动老化方法及其优势

84 浏览量更新于2023-10-19 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于深度强化学习的视频人脸自动老化Chi Nhan Duong1，Khoa Luu2，Kha Gia Quach1，NghiaNguyen2，Eric Patterson3，Tien D. Bui1，Ngan Le41加拿大康考迪亚大学计算机科学与软件工程2美国阿肯色大学计算机科学与计算机工程3美国克莱姆森大学计算学院4美国卡内基梅隆大学电气与计算机工程1{dcnhan，kquach}@ ieee.org，bui@encs.concordia.ca，2{khoaluu，nhnguyen}@ uark.edu，3ekp@clemson.edu，4thihoanl@andrew.cmu.edu摘要本文提出了一种新的方法，使用深度强化学习来自动合成所提出的方法模型的面部结构和纵向面部老化过程中给定的主题连贯地跨视频帧。该方法使用长期奖励，Re-Incremental Learning函数以及来自深度卷积神经网络的深度特征提取进行优化。与仅能够从单个输入图像合成面部的老化相似性的先前年龄进展方法不同，所提出的方法能够在具有跨帧的一致合成的面部特征的视频此外，深度强化学习方法保证了在年龄增长之后保持输入面部的视觉身份。我们新收集的老化人脸AGFW-v2数据库的视频上的结果证明了所提出的解决方案在年龄进展的人脸质量，时间平滑度和跨年龄人脸验证方面的优势。1. 介绍与年龄相关的面部技术通常解决年龄估计[4，21，20，23，8，22]和年龄估计[21，20，23，8，22]这两个领域。进展[6，29，46，30，41，35]。面部年龄估计问题被定义为构建能够识别给定照片中个人年龄的计算机软件。相比之下，面部年龄进展问题需要更复杂的能力来预测图像中出现的人的未来面部相似性[19]。除了个人与生俱来的好奇心，面部衰老的起源是失踪人员和通缉逃犯的案件，在这两种情况下，图1：给定输入视频，虽然基于帧的方法产生不一致的老化特征，但我们基于视频的方法确保视频帧之间的一致性。种下了可信的年龄增长的图像，以方便搜索。准确的面部老化也为许多实际应用提供了好处，例如年龄不变的面部识别[44，43，17]。已经有许多人类学、法医学、计算机辅助和计算机自动化的方法来进行面部年龄进展。然而，从以前的方法合成老化的脸，代表了准确的物理过程中涉及的人类老化的结果仍然是远远不够完美。这在面部的年龄增长视频中尤其如此，因为通常的挑战是1001310014表1：我们的基于视频的方法和其他年龄增长方法之间的特性比较我们ICPGAN [41]TNVP [9][46]第四十六话射频消融[40]TRBM [7]模态基于视频基于图像基于图像基于图像基于图像基于图像时间一致性是的没有没有没有没有没有老化机理单触发单触发多次拍摄单触发单触发多次拍摄架构DL + RLDLDLDLDLDL处理性✓✓✓✓✓✗涉及姿态、照明和环境变化以及视频帧之间的差异对于传统的计算机视觉方法和最近的深度学习方法来说，年龄增长有两个关键的研究方向-这两种方法都使用了具有个体纵向样本照片的面部图像数据库，其中该技术试图发现在所代表的个体或群体中表现出的衰老在一次合成方法中，通过推断训练图像与其对应的年龄标签之间的关系，然后应用它们来生成年龄相似性，从而直接合成目标年龄的新人脸。这些原型方法[2，15，33]通常根据标签将面部图像数据库中的训练图像分类为年龄组。然后计算平均脸，或平均脸，以代表他们群体的关键表现或原型输入年龄和目标年龄原型之间的变化被补充到输入图像，以合成在所请求的年龄的年龄进展的面部。以类似的方式，生成对抗网络（GANs）[46，41]方法通过构建深度神经网络生成器来呈现输入面部的语义表示与年龄标签之间的关系然后将其与目标年龄标签以合成输出结果。同时，在多次合成中，纵向老化过程被分解为多个老化效应步骤[9，7，35，40，45]。这些方法建立在两个连续年龄组之间的面部老化转换的基础上。最后，逐步合成从一个年龄组到下一个年龄组的进展面孔，这些方法可以使用这种策略对面部老化的长期序列进行建模。然而，这些方法仍然有缺点，由于长期老化的限制，没有得到很好的代表，也没有平衡的人脸数据库。现有的年龄增长方法在两个方向上都同样存在问题。首先，它们只适用于单个输入图像。假设需要合成在捕获的视频中呈现的老化的面部，这些方法通常必须将输入视频分割成单独的帧并且独立地合成每一帧中的每一个面部，这可能经常在合成的面部之间呈现不一致性。由于每个帧的面部图像是单独合成的，因此所生成的同一对象的面部的老化模式也可能不一致。但大多数老化方法都不能产生高-年龄发展的高分辨率图像，对于在老化过程中相当早形成的特征（例如细纹）是重要的这在基于潜伏的方法中可能尤其如此[15，9，7，35，40，45]。这项工作的贡献：本文提出了一种用于视频年龄增长的深度强化学习（RL）方法，以保证视频中捕获的合成人脸的老化模式的一致性。在该方法中，年龄变换嵌入被建模为在RL框架下使用卷积神经网络（CNN）特征的最优选择。所提出的方法具有利用视频的两个连续帧之间的时间关系的能力，而不是像在先前的方法中那样独立地将基于图像的年龄进展应用于每个视频帧。该特性有助于保持嵌入到每个帧中的老化信息的一致性。在所提出的结构中，不仅可以跨视频中的帧产生更平滑的合成，而且还可以提高老化数据的视觉保真度即一个对象在不同或相同年龄的所有图像，是为了更好的年龄转换而保存的。据我们所知，我们的框架是视频中的第一个面部老化方法之一。最后，这项工作贡献了一个新的大规模的人脸老化数据库1，以支持未来的研究有关的自动人脸年龄进展和年龄估计的图像和视频。2. 相关工作本节概述了最近的年龄进展方法;这些方法主要使用静止图像。这些方法一般分为四组，即：建模、重建、原型设计和基于深度学习的方法。基于建模的方法旨在使用参数化方法对人脸图像的形状和纹理进行建模，然后通过老化函数学习改变这些参数在[16，28]中，主动外观模型（AAM）已与四个老化函数一起使用，以对一般和特定老化过程进行线性建模。在[24，29]中，家族性面部线索与基于AAM的技术相结合。[30]将AAM重建方法结合到合成过程中，以获得更高的老化照片保真度提出了一个老化模式子空间（AGES）[14]，以构建老化模式的子空间，作为一个时间-空间模型。1https://face-aging.github.io/RL-VAP/10015表2：我们收集的AGFW-v2与其他老化数据库的比较。对于AGFW-v2视频集，还收集了被试者在老年时的图像，以供参考数据库图像数量受试者标签类型图像类型主体类型类型[31]第一届中国国际汽车工业展览会1,690628岁面部照片非著名图像DB[31]第二届中国国际汽车工业展览会55,13413,000岁面部照片非著名图像DBFG-NET [10]1,00282岁In-the-wild非著名图像DB[18]第十八话26,5802,984年龄组In-the-wild非著名图像DBCACD [3]163,4462,000岁In-the-wild名人图像DB[32]第三十二话52,305120,284岁In-the-wild名人图像DB[27]第二十七话16,488568岁In-the-wild名人图像DB[7]18,68514,185年龄组野外/Mugshot非著名图像DBAGFW-v2（图片）36,29927,688年龄组野外/Mugshot非著名图像DBAGFW-v2（视频）20,000100岁采访/电影风格名人视频DB面部图像的逻辑序列。在[38]中，AGES得到了增强，引导面包含受试者的特征，以获得更稳定的三层与或图（AOG）[37，36]用于将面部建模为较小部分的组合，即眼睛、鼻子、嘴巴等。然后，马尔可夫链被用来学习每个部件的老化过程。在基于重建的方法中，在每个组中统一老化基础以对老化面部进行建模个体特异性和年龄特异性因素通过稀疏表示隐藏因素分析（HFA）独立表示[45]。提出了老化字典（CDL）[35]，通过尝试在老化过程中保留个体的独特面部特征来模拟基于原型的方法在合成人脸的方法中采用原型人脸图像。每个年龄组的平均脸被用作该组的代表性图像，这些被称为“年龄原型”[33]。然后，通过计算两个年龄组的原型之间的差异，可以通过基于图像的操作将输入面部进展到目标年龄[2]。在[15]中，结合子空间对齐和照明归一化，采用了从大规模数据集构建的高质量平均原型。最近，基于深度学习的方法在面部年龄进展方面取得了在[7]中介绍了时空限制玻尔兹曼机（TRBM），用于表示具有几何约束的非线性老化过程，并对一系列参考面部以及成人面部的皱纹进行建模。采用具有双层门控递归单元（GRU）的递归神经网络（RNN）来近似老化序列[40]。在文献[1]中，我们还将条件对抗自动编码器（CAAE）的结构身份保留的条件生成广告网络（IPCGANs）[41]将具有感知损失的条件GANs的结构带入合成过程。提出了一种新的生成概率模型，称为时间非体积保持（TNVP）变换[9]，用于将长期面部老化建模为一系列短期阶段。3. 数据收集人脸数据库中年龄表示的质量是影响衰老学习过程的最重要特征之一，并且可以包括诸如每个受试者的纵向人脸图像样本的数量、受试者的数量、总体年龄样本的范围和分布以及数据库中呈现的人口表示等考虑因素。以前用于年龄估计或进展系统的公共数据库在图像的总数量、每个对象的图像数量或数据库中对象样本的纵向分离方面非常有限，即，FG-NET [10]，MORPH [31]，WARNDB [27].一些最近的可能是更大的规模，但有噪音的年龄标签，即。[32]第三节：中国的改革开放政策在这项工作中，我们介绍了一个扩展老化的面孔在野外（AGFW-v2）的图像和视频收集。表2列出了我们收集的AGFW-v2与其他产品的性能比较。3.1. 图像数据集AGFW [7]首次引入了18，685张图像，个体年龄从10岁到64岁不等。根据AGFW的收集标准，需要一个两倍大小的数据库.与其他与年龄相关的数据库相比，AGFW-v2中的大多数受试者都不是公众人物，不太可能有显著的化妆或面部修饰，这有助于在学习过程中嵌入准确的衰老效应。特别是，AGFW-v2主要从三个来源收集首先，我们采用了一个搜索引擎，使用不同的关键字，例如。男性20岁，等等。大多数图像来自于非名人的日常生活。除了图像，还收集了与受试者年龄相关的所有公开可用的元数据。第二部分来自可以从公共领域访问的mugshot图像。这些是护照式的照片，上面有服务机构报告的年龄。最后，我们还包括生产老化实验室（PAL）数据库[26]。AGFW-v2总共包含36，299张图像，分为11个年龄组，跨度为5年。10016yyyyyyOOO图2：视频中面部老化框架的结构最佳彩色和2倍放大观看。3.2. 视频数据集除了静态照片，我们还收集了一个视频数据集，用于时间老化评估，其中包含100个名人视频。每个视频片段由200帧组成。按面值-计算总的长期奖励聚合，强调在计算当前帧上采用的老化变换时有效利用时间观测。形式上，给定一个输入视频，设I∈Rd为图像域，并且Xt={xt，xt}是时间步长t处的图像对ticular，在您访问期间根据个人姓名进行搜索收集工作，他们的采访，演示文稿，或电影由年轻时的视频的第t帧x y ∈I组成年龄和老年时的合成脸xt∈I目标是会话被选择为使得只有一个面，在一个明确的ott t中，方式，在框架中呈现。年龄注释使用访谈会话的年份与来学习一个合成函数G，它将xy映射到xo。xt=G（xt）|X1：t−1（1）奥伊个人的出生年份此外，为了支持-作为对象在老年时外貌的参考，还收集这些个体在当前年龄的面部图像，并将其条件项表示时间约束需要在综合过程中加以考虑。为了有效地学习G，我们将G分解为子函数。G=F1<$M<$F2（2）4. 基于视频的面部衰老其中F1：xt›→F1（xt）映射年轻的脸im-在最简单的方法中，可以通过对视频的每个帧独立地采用基于图像的老化技术来实现序列的年龄进展。但是，治疗-年龄xt到其特征域中的表示;M：（F 1（xt）;X1：t−1）<$→ F 1（xt）定义了特征域中的遍历函数;而F2：F1（xt）›→xt是映射-独立地处理单个帧可能导致视频中最终的老化进展相似性的不一致性，即一些合成特征（例如皱纹）在连续的视频帧中不同地出现，如图2所示。1.因此，该方法不是将视频视为一组独立的帧，而是利用输入视频的帧之间的时间老化算法制定为顺序的决策过程中，从一个面向目标的代理，同时与时间的视觉环境。在时间采样时，代理从特征域ping回图像域。基于这种分解，我们提出的框架的架构（见图1）。2）包括三个主要处理步骤：（1）特征嵌入;（2）流形遍历;以及（3）从更新的特征合成最终图像。在第二步中，基于Deep RL的框架在合成过程中，根据老化变化，提出了保证视频帧之间的一致性。4.1. 特征嵌入我们框架的第一步是学习嵌入式-整合当前和先前的相关信息，将函数F1映射到xt它的潜在表征帧然后相应地修改动作代理在每个时间步接收标量奖励，目标是最大化F1（xt）.虽然F1可以有各种选择，但为了在后续步骤中产生高质量的合成图像，10017yyyyOXyyy哟哟为F1选择的结构应该产生具有两个主要属性的特征表示：（1）线性可分，(2)细节保留一方面，在前一种情况下，从一个年龄组到另一个年龄组的人脸相似性变换可以表示为特征域中沿单个向量方向的线性遍历问题另一方面，后一种属性保证保留某些细节并产生高质量的结果。在我们的框架中，CNN结构用于F1。值得注意的是，关于用于表示的深层的选择，这样两个属性都满足了。线性分离在更深层中更倾向于沿着线性化过程，而面部的细节通常嵌入在更浅层中[25]。作为几个图像修改任务的有效选择[12，13]，我们采用了归一化的VGG-192，并使用三层级联{conv3 1，conv4 1，conv5 1}作为特征嵌入。4.2. 流形遍历给定嵌入F1（xt），年龄增长亲-两组，除年龄差异外，两组之间的条件应足够相似，并在100xt中减去|X1：t-1。此外，平均运算符还有助于忽略与身份相关的因素，因此，强调与年龄相关的变化是要编码到年龄中的差异的主要来源。|X1：t-1。剩下的问题是如何选择适当的邻居集，使得由最大值xt提供的老化变化 |X1 ：t−1和xt−1|X1 ：t−2是一致的。在下一节中，提出了一个基于深度RL的框架，用于为这些集合选择合适的候选者4.2.2用于邻居选择的选择年轻和老年时xt的邻居集的一种简单技术是基于一些接近标准（如特征域中的距离或匹配属性的数量）选择接近xt然而，由于这些标准不是帧相互依赖的，因此它们无法在视频帧之间保持视觉上连贯的年龄信息因此，我们建议利用这种关系-在图像对{xt，xt−1}中呈现的船和邻近的船。yy ycess可以被解释为在深层特征域内从F1（xt）的较年轻年龄区域向F1（xt）的那么多重遍历函数M可以写成等式（3）.xt-1的bor集合作为选择过程的附加指导。然后，提出了一个基于RL的框架，并为-模拟为一个顺序决策过程，目标是最大化由xt和xt−1的相邻集合之间的一致性。F1（xt）= M（ F1（xt）;X1：t−1）y y奥伊（三）具体地，给定两个输入帧{xt，xt-1}和两个=F（xt）+αxt|X1：t−1t−1t−1y yt−11y邻居集{Ny，No }，策略的代理其中α表示用户定义的组合因子，Xt|X 1：t− 1网络将反复分析每个邻居的角色，xt−1在年轻和年老时，然后对老化信息量进行编码，不yF1（xt）和F1（xt−1）之间的关系，以确定新的对于帧xycon，需要到达老年区域对先前帧的信息进行重新排序。y y{Nt，Nt}的合适邻居。当一个新邻居足够类似于4.2.1向邻居Xt|X 1：t− 1测试并保持两帧之间的老化一致性。每次选择新邻居时，更新xt的邻居集，并根据估计值获得奖励。为了计算仅包含老化因子的时间，没有其他因素的影响，即身份、姿势等，我们利用的关系，在老化的变化之间的最近的邻居xt在两两者之间嵌入的老化信息的相似性跳转因此，代理可以迭代地探索用于选择邻居的最优路线，以最大化长期你的奖励。图3说明了选择邻居的过程年龄组特别地，给定xy，我们构造两个相邻的-bor集合Nt和Nt，包含K个最近邻，年龄变化的关系。州名：The StateattheState第i步st=年轻人和老年人分别为x和y 然后xt，xt−1，zt−1我t tXt|X 1：t−1Xt|X1：t−1y y i，（N）i，N，Mi是定义作为一个com-计算公式为：六个组件的位置：(1)当前帧xt;（2）前一帧xt-1; (3)目前认为，简体中文yt−1Xt|X 1：t− 11张图片x y的邻居zi，即无论是年轻还是年老不=Kx∈Nt F1（A（x，xy））−x∈Nt F1（A（x，xy））（4）两个邻居的现状sets（Nt）={（Nt），（Nt）}ofxt直到步骤i;（5）欧义我爱我爱te扩展邻居集N<$t={N<$t，N<$t}，由N个其中A（x，xy）表示面对齐算子，相对于xt中的面部位置来定位x中的面部。邻居，即。 N > K，xy 每个年龄组。和yt（6）二进制掩码M表示N<$t中的哪些样本因为在x，y中只考虑x，y2该网络在ImageNet上训练，以获得更好的潜在空间。我已经在前面的步骤中选择了经预告而初始状态st，两个相邻集合{（Nt）0，（Nt）0}是0y o10018yy我我0我我1yy我我我y伊吉岛i/不图3：选择年龄转换关系的邻居的过程最佳彩色和2倍放大观看。分别使用两个年龄组的xt的K个在寻找最近邻时考虑两个度量标准：最佳候选xt来构造邻居集。策略网络的输出是N+ 1维向量p，表示所有可用动作的概率匹配的面部属性，例如性别、表情等;P（zt=xj|st），j=1. 其中每个条目指示两个特征嵌入之间的余弦距离向量在st中，掩码Mi的所有值都被设置为1。操作：使用来自所选邻居zt−1ofxt−1，以及{xt，xt−1}的关系，一个作用选择步骤i的样本x j的概率。注意到，p的第N +1个值指示存在的动作，在该步骤中不需要更新邻居集。期间训练时，采取随机抽样的行动我是我是我t被定义为选择当前邻居的新邻居。帧，使得在将该新样本添加到当前帧的相邻集合的情况下，老化合成特征被这个概率分布。在测试过程中，选择概率最高的一个进行合成。状态转换：在状态st中决定动作at之后我我tweenxt和xt−1更一致。请注意，since已被made，下一个状态为t可以通过y yi+1并非数据库中的所有样本都与xt充分相似，状态转换函数st=Transition（st，at），其中yi+1i i我们通过在N个最近的zt−1更新为下一个未考虑的样本zt−1，邻居xt在我们的配置中，N=n<$K，其中nt−1一期+1y和K分别设置为4和100x y的邻集.最不相似的邻居-在zt−1的相应集合中，大于xt的值被替换为xj策略网络：在每个时间步长i，策略网络yti首先将在状态ST中提供的信息编码为根据动作Ai. 达到终止状态当考虑Nt−1，Nt−1的所有样本圣奥ut= δ池5（xt，xt−1），F池5（zt−1）奖励：在训练期间，代理人将获得奖励iF1yY1I（4）t tvt=100d。（Nt），xt∈ N，d. N<$t，xt，M其中Fpool5是如图10所示的嵌入函数。在执行动作ai之后来自环境的信号ri在步骤I. 在我们提出的框架中，奖励被选择为以测量视频帧之间的老化一致性。秒 4.1，但池5层用作表示-的作用; δpool5（xt，xt−1）=Fpool5（xt）−Fpool5（xt−1）em-t1F1y y1年1年ri=Xt|X1：t−1xt−1|X1：t−2（五）在特征域中建立xt和xt−1的关系A（·，xt） −A（·，xt）+.Σy yy yd（Nt）i，xt是映射（Nt）i中所有样本的运算符注意，在这个公式中，我们对齐以余弦距离的形式表示，将先前帧和当前帧都转换为xt。因为相同的xt. 策略网络的最后一层被重新表述为tP（zt=x|st）=ecj 其中c=M.ΣWhi+b对齐算子A（·，xy）在两者的所有相邻集合使用前一帧和当前帧时，ht=Fπut，vt. θπ;{W，b}是权重和偏差，因素，即姿势、表情、面部位置等，我我我隐藏到输出的连接因为ht由组成，所以可以在rt中最小化。所以，rt只反映了差异，我我我为xt−1的邻居选取的样本的特征以及嵌入到xt和xt−1中的老化信息的参考。yy yxt−1和xt之间的时间关系，它直接导致-模型学习：训练目标是最大化伊伊特编码了面部变化的信息，奖励信号的总和：R =伊里岛我们优化已经使用了来自前一帧的老化信息此过程帮助代理评估其选择以确认我10019使用REINFORCE算法的[42]在每一个时间步骤的奖励的指导10020y图4：年龄进展结果。对于每个对象，两行分别示出了年轻时的输入帧和60岁时的年龄进展面部。4.3. 从特征合成在选择x t的相邻集之后，|X1：t−1可以按照SEC中的方法计算。4.2.1和嵌入-通过等式1估计老年区域F1（xt）中xt的ding图5：年龄进展结果。给定一个主题的不同框架，我们的方法可以一致地合成该主题在不同年龄组的面孔。数据库没有年龄注释。为了获得年龄标签，我们使用[32]中的年龄估计器来进行初始标签，这些标签在估计后根据需要进行手动校正。300-VW[34]：包括来自114个视频的218595帧。与AGFW-v2的视频集类似，视频是每帧包含一个面孔的电影或演示会话。5.2.实现细节数据设置。为了构造年轻和老年人的输入帧的邻居集，将来自AGFW- v2和LFW-GOOGLE的图像组合并划分为10至65岁的11个年龄组，年龄跨度为5岁。模型结构和训练。对于策略网络，我们采用了一个神经网络，分别具有4096和2048个隐藏单元的两个隐藏层修正线性单元ytoo（ReLU）激活用于每个隐藏层。的（三）、在最后阶段，F1（xo）可以映射回- 图像域I到F2，这可以通过等式11中所示的优化来实现(6)[25]第20段。来自300-VW的视频用于训练策略网络。计算时间。合成大小的过程的处理时间取决于输入视频的分辨率xt=argmin1<$F（xt）−F（x）<$2+λR（x）（6）跳转每240×240大约需要40秒ox 21O12VβVβ帧或每帧视频4.5分钟，分辨率其中RVβ表示鼓励像素值之间平滑过渡的总变差正则化器。5. 实验结果5.1. 数据库所提出的方法是使用不重叠的训练和测试数据库进行训练和评估。特别地，使用由来自我们收集的AGFW-v2和LFW-GOOGLE[39]的面部图像组成的大规模数据库来构建邻居集。然后使用来自300-VW的视频训练策略网络[34]。最后，使用来自AGFW-v2的视频集进行评估。LFW-GOOGLE[39]：包括44，697张高分辨率图像，使用5，512位名人的名字收集。这900×700我们在使用Intel i7-6700CPU@3.4GHz和NVIDIA GeForce TITAN X GPU的系统上进行评估5.3. 年龄进展本节展示了该方法在输入视频的连续帧中稳健且一致地合成年龄进展的面部的有效性。正面和偏角面部的年龄增长。图图4和图5示出了我们跨来自包含正面和偏角面部的AGFW-v2视频的帧的年龄进展结果。从这些结果可以看出，即使在正面脸的情况下（即，帧之间的主要变化来自面部表情以及嘴和嘴唇的运动），或偏角脸（即，由于其他变量组合中的姿势效应而10021图6：年龄增长方法之间的比较。对于每个受试者，顶行显示了视频中较年轻时的帧。接下来的三行是我们的结果，分别是TNVP [9]和Face Transformer [11]tions），我们提出的方法能够鲁棒地合成老化的面孔。软组织区域的皱纹（即在受试者的眼睛下;脸颊和嘴周围）在连续的合成帧之间是相干鲁棒的。我们还比较了我们的方法与时间非体积保留（TNVP）方法[9]和面Transformer（FT）[11]在图6中。这些结果进一步表明，当TNVP和FT都不能保证帧间的一致性时，我们的模型同时，在我们的结果中，时间信息被有效地利用。这强调了学习政策网络的关键作用。老化一致性。表3比较了不同方法之间的老化一致性。对于一致性度量，我们采用每个合成视频的所有帧的平均反向奖励r-1此外，对于Vali-在确定时间平滑度时，我们首先计算最优流，即：估计每个视频的帧之间的图像位移，然后，我们评估原始视频流与合成视频流之间的差异（2-范数）从这些结果，可以看到，策略网络一致且稳健地显示出其在维持嵌入到每个帧的适当老化量方面的作用，并且因此在输出视频中跨帧产生更平滑的合成。5.4. 视频年龄不变人脸识别我们所提出的方法的有效性也vali-日期的跨年龄人脸验证的性能增益。RL方法的提出不仅保证了一致性，而且在匹配精度和匹配分数偏差方面都有了改善。我们采用了[5]中的一种最先进的深度人脸匹配模型用于该实验。我们设置面部验证如下。对于AGFW-v2的视频集中具有主体的年龄标签的所有视频表3：在一致性和时间平滑性（较小的值指示较好的一致性）以及匹配准确性（较高的值较好）方面的比较结果。方法老化一致性时间平滑度匹配精度原始帧-−60.61%英国《金融时报》[11] 378.8885.26百分之六十七点五TNVP [9] 409.4587.0171.57%IPCGAN [41]81.4573.17%我们的（无RL）346.2575.778.06%我们的（含RL）245.6461.8083.67%图7：原始和年龄进展视频帧之间的匹配分数（每个年龄组）与当前年龄受试者的真实面部之间的分布。用于将所有视频帧合成为视频中相应对象然后，将年龄进展视频的每一帧与当前年龄的受试者的真实面部图像进行匹配。原始（年轻）和老化帧之间的匹配分数分布如图所示。7.与原始帧相比，我们的年龄增长的脸产生更高的匹配分数，因此，提高了匹配性能。此外，随着老化过程中的持续性，评分偏差保持在较低水平。这也有助于进一步提高整体性能。表3中还比较了不同方法之间的匹配精度，以强调我们提出的模型的优点。6. 结论这项工作提出了一种新的基于深度RL的方法，用于视频中的年龄增长。该模型继承了深度网络和强化学习技术的最新进展，可以在视频帧中连贯地合成给定对象我们的方法可以在视频中生成年龄增长的面部相似性，并且在帧间具有一致的老化特征。此外，我们的方法保证保存后的综合老化效果的主题的10022引用[1] 格里戈里·安提波夫、莫埃斯·巴库什和让-吕克·杜格莱。用条件生成对抗网络面对衰老arXiv预印本arXiv：1702.01983，2017。[2] D迈克尔伯特和大卫I佩雷特。对成年白种男性面孔的年龄感知：形状和颜色信息的计算机图形处理。伦敦皇家学会学报B：Biological Sciences，259（1355）：137 -143，1995.[3] Bor-Chun Chen，Chu-Song Chen，and Winston H. Hsu.用于年龄不变人脸识别和检索的跨年龄参考编码。2014年，在ECCV[4] C.陈威Yang，Y. Wang，K. Ricanek和K.卢用于年龄估计的特征融合与模型选择。在自动人脸和手势识别（FG）会议上，第1-7页。IEEE，2011年。[5] Jiankang Deng ， Jia Guo ， and Stefanos Zafeiriou.Arcface：用于深度人脸识别的附加角度余量损失arXiv预印本arXiv：1801.07698，2018。[6] Chi Nhan Duong，Khoa Luu，Kha Gia Quach，and TienD Bui.除了主成分：用于人脸建模的深层玻尔兹曼机。在CVPR中，第4786IEEE，2015年。[7] Chi Nhan Duong、Khoa Luu、Kha Gia Quach和Tien D.Bui. 基于时间深度限制玻尔兹曼机的纵向人脸建模在CVPR，2016年6月。[8] Chi Nhan Duong，Kha Gia Quach，Khoa Luu，Hoai BacLe，and Karl Ricanek Jr.使用全局和局部面部特征微调年龄估计。在国际Conf. on Acoustics，Speech and SignalProcessing（ICASSP），pages 1-7. IEEE，2011年。[9] Chi Nhan Duong ， Kha Gia Quach ， Khoa Luu ， NganLe，and Marios Savvides.人脸年龄增长和年龄不变人脸识别的时间非体积保持方法。在IEEE[10] FG-NET。Fg-net老化数据库在http://www.fgnet.rsunit.com网站。[11] 英尺面Transformer（ft）演示。在http://cherry.dcs.aber.ac.uk/transformer/网站。[12] Leon Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成。在Advances in NeuralInformation Processing Systems，第262-270页[13] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.艺术风格的神经算法。 arXiv 预印本 arXiv ：1508.06576，2015。[14] Xin Geng，Zhi-Hua Zhou，and Kate Smith-Miles.基于面部老化模式的自动年龄估计。PAMI，29（12）：2234[15] Ira Kemelmacher-Shlizerman，Supasorn Suwajanakorn，and Steven M Seitz.照明感知年龄进展。在CVPR中，第3334-3341页。IEEE，2014。[16] Andreas Lanitis，Chris J Taylor，and Timothy F Cootes.研究人脸图像的衰老效应的自动模拟 . PAMI ， 24（4）：442[17] H. N. Le，K.Seshadri，K.Luu和M.Savvides。基于面部老化和不对称性分解的双胞胎识别方法 Journal ofPattern Recognition，48：3843[18] 吉尔·利维和塔尔·哈斯纳使用卷积神经网络进行年龄和性别分类。在CVPRW，2015年。[19] K.卢面部衰老问题的计算机方法。第23届加拿大人工智能会议（CAI）渥太华，加拿大，2010年。[20] K. Luu，T. D. Bui，K.小里卡内克，和C. Y.孙使用主动外观模型和支持向量机回归进行年龄估计。在国际生物测定学会议：理论，应用和系统（BTAS）。IEEE，2009年。[21] K. Luu，T.D. Bui和C.Y. 孙混合脸部特征感知年龄的核谱在自动人脸和手势识别（FG）会议上，第1-7页。IEEE，2011年。[22] K. Luu，K.小里卡内克，T. D. Bui和C. Y.孙家族面部数据库：以家庭为基础的面孔识别生长发育的纵向研究。在Robust Biometrics中：了解科学技术（ROBUST）。IEEE，2008年。[23] K. Luu，K. Seshadri，M. Savvides，T. D. Bui和C. Y.孙轮廓线外观模型用于面部年龄估计。在国际生物统计学联合会议（JICB），第1-7页。IEEE，2011年。[24] Khoa Luu，C.Y. Suen，T.D. Bui和Jr. K.里查内克基于家族面孔遗传因素的儿童面孔年龄自动进展见BIdS，第1-6页。IEEE，2009年。[25] Aravindh Mahendran和Andrea Vedaldi。通过反转它们来理解深度图像表示。在CVPR中，第5188-5196页[26] M. Minear和D.C. 公园成人面部刺激的寿命数据库行为研究方法，仪器，计算机，第630-633页[27] S. Moschoglou，A.帕帕约安努角Sagonas，J.登岛Kot-sia和S.Zafeiriou. 数据库：第一个手工收集的原始数据库。在IEEE Intl Conf. 计算机视觉和模式识别（CVPR-W2017），檀香山，夏威夷，2017年6月。[28] Eric Patterson，K Ricanek，M Albert，E Boone.面部图像中成人衰老的自动表征在Proc. IASTED Intl Conf.可视化、成像和图像处理，第171-176页，2006年。[29] Eric Patterson，Amdora Sethuram，Midori Albert，andKarl Ricanek. 法医素描师合成面部老化与年龄增长的比较在IASTED[30] 埃里克·帕特森，阿米拉·塞图拉姆，卡尔·里卡内克。一种改进的渲染技术，用于基于活动外观模型的自动年龄增长。ACM SIGGRAPH 2013会议记录：SIGGRAPH海报，2013年。[31] 小卡尔·里卡内克和塔米拉特·特萨法耶。Morph：一个正常成人年龄进程的影像数据库在2006年的FGR。第341-345页。IEEE，2006年。10023[32] Rasmus Rothe，Radu Timofte，and Luc Van Gool.从没有面部标志的单个图像中对真实和明显年龄的深度期望。Int’l Journal of Computer Vision (IJCV)[33] Duncan Rowland，David Perrett，等.通过形状和颜色操纵面部外观。计算机图形学与应用，IEEE，15（5）：70[34] Jie Shen，Stefanos Zafeiriou，Grigoris G Chrysos，JeanKossaifi，Georgios Tzimiropoulos，and Maja Pantic.第一个面部标志跟踪在野外的挑战：基准和结果。ICCVW，第50-58页[35] Xiangbo Shu，Jinhui Tang，Hanjiang Lai，Luoqi Liu，and Shuicheng Yan.个性化的年龄增长与老化字典。InICCV，December 2015.[36] 索金丽，陈西林，山世光，高文，戴琼海.一个级联图演化老化模型。PAMI，34（11）：2083[37] 索金丽，朱松春，Shiguang Shan，陈西林。面部老化的组成和动态模型。PAMI，32（3）：385[38] 蔡明汉、廖彦凯、林毅辰。人脸老化与指导预测和细节合成。Multime-dia工具和应用，72（1）：801[39] 保罗·厄普丘奇、雅各布·加德纳、卡维塔·巴拉、罗伯特·普利斯、诺亚·斯纳夫利和基利安·温伯格。针对图像内容变化的深度特征插值。 arXiv 预印本 arXiv ：1611.05507，2016。[40] 王维、崔真、严严、冯佳石、严水城、舒祥波、NicuSebe。面部反复老化。在CVPR，第2378-2386页[41] Z. Wang，W.罗X Tang和S.高.用保持身份的条件生成对抗网络面对衰老。在CVPR，2018年。[42] 罗纳德·J·威廉姆斯简单的统计梯度跟踪算法用于连接主义强化学习。在《机器学习》，第229-256页[43] F. Xu，K. Luu和M. Savvides。Spartans：应用于非正面场景的单样本基于眼周的增强鲁棒识别技术。图像处理（TIP），24：4780[44] J.Xu，K. Lu

下载后可阅读完整内容，剩余1页未读，立即下载