基于强化学习的动态视频分割方法研究及其在人脸视频中的应用

130 浏览量更新于2023-10-25 收藏 2.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6959基于强化学习的动态人脸视频分割王玉江1，2董明志3沈杰1，2 <$杨武4施阳成2 马贾潘蒂奇1，21伦敦帝国理工学院2三星人工智能中心剑桥3伦敦大学学院4京都大学imperial.ac.uk，ucl.ac.uk，imperial.ac.ukkyoto-u.ac.jp，shiyang. samsung.com，m.imperial.ac.uk摘要对于实时语义视频分割，最近的作品利用了一个动态的框架与关键调度器，使在线关键/非关键的决定。一些作品使用固定的密钥调度策略，而其他人提出的自适应密钥调度方法的启发式策略的基础上，这两种方法都可能导致次优的全局性能。为了克服这一局限性，我们在动态视频分割的在线关键决策过程建模为一个深强化学习问题，并学习一个高效和有效的调度策略，从决策历史的专家信息和最大化的全球回报的过程。此外，我们还研究了动态视频分割在人脸视频中的应用通过对300VW数据集的评估，我们表明我们的增强密钥调度器的性能优于各种基线的有效密钥选择和运行速度。Cityscapes数据集的进一步结果表明，我们提出的方法也可以推广到其他情况。据我们所知，这是第一个在动态视频分割中使用强化学习进行在线关键帧决策的工作，也是第一个将其应用于人脸视频的工作。1. 介绍在计算机视觉中，语义分割是对图像执行逐像素分类的计算密集型任务。继全卷积网络（FCN）[25]的开创性工作之后，近年来随着各种深度分割方法的提出[5，2，52，59，24，8，22，34、6、58、30]。为了获得准确的结果，这些图像†通讯作者。王玉江在剑桥大学三星人工智能中心实习期间进行了这项研究。分割模型通常采用重量级的深度架构和附加步骤，例如空间金字塔池化[59，6，5]和输入/特征[7，58，23，5，4，22，35]，这进一步增加了计算工作量。对于实时应用，例如自动驾驶、视频监控和面部分析[49]，在每帧的基础上应用这种方法是不切实际的，这将导致这些应用无法忍受的高延迟。 Therefore,accelerationbecomesanecessityfor these models to beapplied in real-time videosegmentation.已经提出了各种方法[40，64，54，20，16，29，17，31，11]来加速视频分割。由于视频中的相邻帧通常共享很大比例的相似像素，因此这些作品中的大多数都利用动态框架，该框架将帧分为关键帧和非关键帧，并以不同的方式产生它们的分割掩码如示于图1（up），一种深度图像分割模型N分为重特征提取部分Nfeat和轻任务相关部分Ntask。为了生成分割模板，关键帧需要经过N个特征和N个任务，而非关键帧的特征则采用一种快速的特征插值方法，通过将N个特征的在每一帧上运行N个feat在此基础上，使用关键调度器来预测传入帧应该是关键帧还是非关键帧。作为动态视频分割的重要组成部分，关键调度器做出的决策可能会显著影响视频分割框架的整体性能[20，54，62然而，这个问题在社区中还没有得到充分的最近的工作要么采用固定的密钥调度器[29，64，17，16]，要么提出自适应调度器[54，20，62]，这些调度器被训练来预测两个视频帧之间的相似性（或偏差）这些关键的干扰因素缺乏对全局视频环境的认识，从长远来看可能导致性能不佳。为了克服这一限制，我们提出应用再强化学习（RL）技术来暴露密钥6960图1：向上：动态视频分割框架，其中使用关键调度器进行在线关键/非关键预测。下图：前几个关键制造商和我们的比较。以前的工作只考虑当前帧（C）和最后一个关键帧（K）之间的偏差，而我们的调度器考虑C、K和来自非关键帧（N）的历史信息，旨在最大化全局回报。调度器到全局视频上下文。利用关于决策历史的额外专家信息，我们的调度程序被训练来学习关键决策策略，以最大化每个事件的长期回报，如图所示。1（底部）。我们进一步研究了动态人脸视频分割问题与语义图像/视频分割相比，面部部分的分割是较少研究的领域[13，61，18，45，32，50，39，55，19，12]，并且在视频中的面部分割方面的工作较少[49，37]。现有的作品要么使用工程特征[18，45，50，39，55，19]，要么采用过时的图像分割，站模型，如FCN [25]在每帧的基础上[32，37，49]没有动态加速机制。因此，我们提出了一种新的实时人脸分割系统，利用我们的关键调度器训练强化学习（RL）。我们在300个野生视频（300VW）数据集[41]上评估了所提出的方法在实时人脸分割任务中的性能。与几种基准方法相比，我们证明了我们的增强密钥调度器可以以更少的资源为代价做出更有效的关键帧决策。通过在Cityscapes数据集[10]上进行的进一步实验，我们证明了我们的方法也可以推广到其他场景。2. 相关作品语义图像分割完全卷积网络（FCN）[25]是第一个使用完全卷积的工作lutional层和跳过连接，以获得用于图像分割的像素级预测。随后的工作进行了各种改进，包括使用扩张卷积[4，5，6，56，57]，编码器-解码器AR-结构[2，22，8]，条件随机场（CRF）后处理[60，4，5]，空间金字塔池化到上限-真实多尺度特征[59，5，6]和神经架构搜索（NAS）[65]，以搜索性能最佳的架构[3，24]。尽管如此，这样的模型通常需要密集的计算资源，因此可能导致视频分割中不可接受的高延迟。动态视频分割Clockwork ConvNet[40]他提出了动态分段的思想，网络的一部分。深度特征流（DFF）[64]通过利用光流（由FlowNet [63，15]或SpyNet [36]提取）来扭曲关键帧特征来加速视频识别在[54，17，31，11]中探讨了类似的想法帧间BMV [16]在压缩视频中使用块运动矢量Mahasseni等人[26]采用卷积与均匀滤波器的功能插值，而李等人。[20]使用了空间变化卷积在[29]中搜索了潜在的内插架构。另一方面，对关键代谢物的研究相对较少。大多数现有的工作采用固定的密钥分配器[29，64，17，16]，这对于实时分割是低效的Mahasseni等人[26]提出了一种基于强化学习训练的基于LSTM的密钥选择策略，该策略仅适用于离线场景。DVSNet[54]提出了一种基于内插掩码和关键预测之间的相似性得分的自适应关键决策网络低相似性分数导致新键，反之亦然。类似地，Li等人[20]介绍了一种动态密钥调度器，用于通过不一致的低级特征预测两个视频帧之间的偏差，[62]提出根据具有不一致时间特征的像素自适应地选择关键帧。这些自适应密钥分配器仅考虑两帧之间的偏差，因此缺乏对全局视频上下文的理解，导致次优性能。语义人脸分割语义人脸分割远没有图像/视频分割那样受到重视关于这个主题的早期作品大多使用工程特征[18，45，50，39，55，19]，并且是为静态图像设计的。Saito等人[37]使用图形切割算法来细化来自用增强数据训练的FCN的概率图在[32]中，提出了一种半监督数据收集方法来生成具有随机遮挡的更多标记的面部图像以训练FCN。最近，Wanget al. [49]将Conv-LSTM[53]与FCN [25]集成，从视频序列中提取人脸面具，但运行时速度没有提高。没有一个工程考虑采用视频动态加速，我们是第一个这样做的实时人脸分割。6961a0级a0级，y的1的1a0a1a0a1a0a1我强化学习在无模型强化学习（RL）中，智能体在每个时间步t从执行中接收状态s t，并学习策略πθ（aj|st）与参数θ，用于指导智能体采取行动aj∈A没有额外费用的光流因此，我们采用FlowNet 2-s模型的特点，对Di→k。值得注意的是，通过适当地改变Di→k，我们的密钥调度器可以很容易地集成到其他动态分段中最大化累积回报J=∞t=1 γ t−1r t。RL框架[17，20，29，16，62]，不使用光学在各个领域例如机器人和复杂的战略游戏[21，43，28，48，42，47]。在本文中，我们证明了RL可以无缝地应用于实时视频分割中的在线关键决策问题，并且我们选择了具有强化的策略梯度[51]来学习πθ，其中梯度上升用于最大化目标函数Jπ（θ）。3. 方法3.1. 系统概述我们的目标是开发一个高效的密钥调度策略π θ（a|s）用于动态视频分段系统。为此，我们使用深度特征流[64]作为特征传播框架，其中光流通过轻量级流量估计模型F（如FlowNet [63，15]或SpyNet [36]）计算。具体地，图像分割模型N可以分为耗时的特征提取模块Nfeat和任务指定模块Ntask。我们将最后一个关键帧表示为Ik，并且将由N feat提取的其特征表示为fk，即，fk=Nfeat（Ik）.对于传入帧Ii，如果它是关键帧，则特征为fi= Nfeat（Ii），分割掩码为yi= Ntask（fi）;如果不是，则不使用资源密集型模块Nfeat进行特征提取，而是通过特征插值来传播其特征fi。流图第二部分是对我们系统的概述3.2. 培训政策网络网络结构我们的策略网络由一个卷积层和四个全连接（FC）层组成。FlowNet 2-s特征Di→k被馈送到具有96个通道的第一卷积层Conv 0，随后是FC层(FC0、FC1和FC2），输出大小分别为1024、1024和128包含关于决策历史E1的专家信息的两个附加通道被连接到FC 2层的输出。第一个通道记录关键全帧比率（KAR），这是关键帧以及决策历史中的每隔一帧，而第二信道包含最后关键帧距离（LKD），其是当前和最后关键帧之间的间隔。KAR提供了关于历史密钥选择频率的信息，LKD提供了关于连续非密钥决策长度的意识。因此，KAR和LKD的插入将FC 2的输出尺寸扩展到130，而FC 3层总结了所有这些信息，并给出了动作概率πθ（aj|其中aj∈{a0，a1}，a0和a1分别代表非关键动作和关键动作。奖励定义我们使用平均交集（mIoU）作为度量来评估分割掩码。我们将来自非关键动作a0的yi的mIoU表示为Ui，将来自关键动作a1的mIoU表示为Ui，并且将奖励表示为方程函数W，它涉及从a0a1的流场Mi→kIi到Ik、从Ii到Ik的比例字段Si→k以及关键帧特征fk，因此预测掩码变为yi=Ntask（fi）。请查看[64]了解有关功能传播的更多详细信息过程在DFF框架之上，我们设计了一个轻量级的策略网络πθ来进行在线关键预测。国在帧Ii处的ri在等式（1）中定义1.一、这种定义鼓励调度器选择帧上的关键动作，与非关键操作相比，它可以带来更大的改进，并且还可以减少整个视频中mIoU的差异。.0，aj= 0。在帧Ii处的si由两部分组成，Di→k，描述Ik和Ii之间的差异，以及ri=i−Ui，aj（一）=a1。关于关键决策历史的专家信息Ei（参见详情见第3.2节），即，si={Di→k，Ei}.将si作为输入，策略网络输出行动概率πθ（aj|其中aj∈{a0，a1}和πθ（a0|si）+πθ（a1|si）=1 .一、0（我们为非关键动作定义a，为关键动作定义a）。如果没有可用的地面实况（使得mIoU无法计算），则我们使用来自关键动作的分割掩码作为伪地面实况掩码。在这种情况下，奖励公式变为Eq.2，其中yi和yi表示日0 1来自非关键动作a的i 帧上的分段掩码0对于输入帧Ii，如果π θ（α1|st）> τ其中τ是a阈值时，它将被识别为关键帧，反之亦然。在一般来说，键动作A1将导致具有比动作A0所给出的质量更好的质量的分割掩码。和关键动作a1，Acc（yi，yi）代表准确度分数，其中yi作为预测，yi作为标签。.在这项工作中，我们利用FlowNet 2-s模型[15]作为光流估计函数F。DVSNet [54]已经表明，FlowNet模型的高级功能r=0，aj= 0。1− Acc（y i i），a j=a1。（二）包含关于两帧之间偏差的足够信息，并且它也可以很容易地与在我们的任务中，对键选择频率的约束是必要的。以来U6962u图2：我们的系统概述 Ik是最后一个关键帧（关键决策过程未示出），其中特征fk由Nfeat提取。对于输入帧Ii，其输入状态Si包括两个分量：I i和I k之间的偏差信息Di→k，以及关于决策历史的专家信息Ei。 Di→k被馈送到策略网络π θ的Conv 0层，而Ei被连接到FC 2层r的输出。根据si，πθg i，求出输出πθ（aj）的概率|i）避免采取关键或不关键的行动。对于非关键动作，Ii和Ik之间的光流将用于将fk弯曲为fi，而对于关键动作，Ii将经历N个特征以获得新的关键特征fi。关键动作通常将导致比非关键动作更好的回报，如果对关键选择的频率没有约束，在本文中，我们建议立即停止，放弃限制的方法。特别地，对于由M +1个帧{It，It+1，.， It+M}，智能体从It开始，不断地向It+M探索。在每个时间步，如果决策历史中的KAR已经如果超过极限η，则代理将立即停止，并且因此该片段结束，否则，它将继续直到到达最后一帧It+M。通过使用该策略，策略网络应该限制密钥决策的使用以避免过早停止，并且还学会将有限的密钥预算分配到具有较高奖励的帧上。通过改变KAR限制η，我们可以用不同的关键决策频率训练π θ。实时视频通常包含大量的高维帧，因此由于高计算复杂性和帧之间可能的巨大变化，将所有这些帧包括在一个情节中是不切实际的。为了简单起见，我们限制一个片段的长度{It，It+1，. It+M}到270帧（9秒）（对于300 VW）和30帧（片段长度）（对于Cityscapes分别我们在训练期间改变起始帧It以学习跨视频的全局策略。对于每一集，我们让智能体运行K次（使用上述关键约束策略），以获得K次试验来减少变量。 ThΣe retuΣrn of each episode can be expressed当J（θ）=1时Kt+pvγu−trv，其中t是起始点而rv指的是第v个踪迹中帧u的报酬。J（θ）是要优化的主要目标函数。辅助损失除了优化累积奖励J（θ）之外，我们还使用熵损失H（π θ（α|s）），如[27，33]中所述，以促进保留高熵的政策行动后验，以避免过于自信的行动。当量图3显示了最终目标函数L，使用策略梯度和强化方法进行优化[51]。L=J（θ）+ λ1H（π θ（α|（3）在训练过程中，即使增加了辅助熵损失，Agent仍可能陷入行动后验概率接近1的超确定性困境为了从这样的困境中恢复，我们实现了一个简单的策略，类似于epsilon-greedy al-出租m的动作采样，即，在行动概率πθ（aj）|s）超过三个阈值（例如0.98），而不是采取概率为πθ（aj）的行动aj|s），我们使用选择到随机选择动作a j（和1。0−k，用于拾取动作a1−j）。4. 实验4.1. 数据集我们在两个数据集上进行了实验：300 Videos on theWild（300VW）数据集[41]和Cityscapes数据集[10]。300VW用于评估拟议的Kv=1u=tu该片段的帧索引，并且pv表示总步骤num。在第v条路径上的ber（因为代理可能在M步之前停止），使用RL键选择器的实时人脸分割系统据我们所知，300VW是唯一公开6963提供每帧分割标签的可用面部视频数据集因此，为了证明我们方法的通用性，我们还在Cityscapes [10]上评估了我们的方法，这是一个广泛使用的场景解析数据集，因此我们展示了我们的RL密钥调度器如何推广到其他数据集和场景。300VW数据集包含114个人脸视频（以30 FPS拍摄），平均长度为64秒，所有这些都是在无约束环境中拍摄在[49]之后，我们已经从视频帧中裁剪了面部，并为所有218，595帧生成了面部皮肤，眼睛，外嘴和内嘴的分割标签。出于实验目的，我们将视频分为三个与主题无关的部分，即A/B/C集，51/51/12视频。详细地说，对于训练N，我们从集合A/B/C中随机挑选了9，990/1，0320/2，400帧进行训练/验证/测试。为了训练F，我们随机生成32，410/4，836/6，671个密钥当前图像对，来自集合A/B/C的1到30帧之间的变化间隙用于训练/验证/测试。我们有意排除了用于策略网络学习的集合A，因为该集合已经用于训练N和F，相反，我们使用完整的B集合（51个视频，98，947帧）进行训练和验证RL密钥调度器，并在完整的C集（12个视频，22，580帧）上对其进行评估。Cityscapes数据集包含2，975/500/1，525个带注释的城市场景图像作为训练/验证/测试集，而每个带注释的图像是30帧（1.8秒）视频片段的第20为了确保对该数据集进行公平比较，我们采用了相同的初步模型（N和F）以及作者提供的模型权重DVSNet [54]，这样我们只重新训练了建议使用Cityscapes训练片段的RL关键任务。在DVSNet [54]之后，我们的方法和基线在验证片段上进行评估，其中初始帧被设置为关键帧，并且在第20个注释帧上测量性能。4.2. 实验装置评价指标采用常用的平均交并比（mIoU）作为评价指标。对于不同关键调度者的绩效评价，我们测量：1。平均键间隔（AKI）和mIoU之间的关系实际FPS和mIoU之间的关系。在300 VW上，我们使用最先进的Deeplab-V3+架构[8]用于图像分割模型N，并采用FlowNet 2-s架构[15]作为流量估计函数F的实现。对于训练N，我们使用[8]中提供的预训练模型初始化权重，然后微调了一下我们设置输出步幅和解码器输出分别跨越到16和4 我们将N分为Nfeat和Ntask，其中N feat的输出是每个图像像素的后验，然后我们通过冻结Nfeat和Ntask来微调FlowNet 2-s模型F。此外，我们使用[15]中提供的预训练权重作为训练F的起点。N和F的输入大小都设置为513*513。在Cityscapes上，我们采用了与DVSNet相同的N和F架构[54]，并直接使用作者提供的权重，这样我们只重新训练了pro-sense。设定的策略密钥调度器。此外，我们还采用了DVSNet的帧划分策略，将帧划分为四个独立的区域。我们建议感兴趣的读者参考[54]以了解更多细节。强化学习设置对于状态si={Di→k，Ei}，遵循DVSNet [54]，我们利用FlowNet 2-s模型的Conv 6层的特征作为偏差信息Di→k，并且我们从最后90个决策中获得专家信息Ei={KAR，LKD}在策略网络的训练过程中，Nfeat、Ntask和F被冻结，以避免不必要的计算。我们选择RMSProp [46]作为优化器，并将初始学习率设置为0.001。方程中的参数λ13被设置为0.14。我们根据经验将折扣因子γ确定为1.0，因为每帧性能在我们的任务中同样重要。ε-贪婪策略中的最小值被设置为0.98.在训练期间，我们将用于确定关键动作的阈值τ设置为0.5。我们使用了Eq.中定义的奖励公式一辆300VW 。对于 Cityscapes ，修改后的使用 2 是因为Cityscapes 数据集中的大多数帧都没有注释。对于300VW和Cityscapes，每个片段的最大长度分别设置为270帧（9秒）和30帧（片段长度），并且我们对每个片段重复了相对较大数量的32次试验，其中小批量大小为8个片段，用于πθ中的反向传播。我们对每个模型进行了2,400集的训练，并在同一集上验证了检查点的性能。我们还改变了KAR限制η，以获得具有不同关键决策倾向的政策网络。我们在两个数据集上将我们的方法与三种基线方法进行了比较：（1）自适应密钥决策模型DVSNet [54];（2）[ 54 ]中使用流幅度差的自适应密钥调度器;（3）如 [ 64 ] 中具有固定密钥调度器的深度特征流（DFF）。我们使用了DVSNet论文中描述的基线的相同实现和设置，我们请读者参考[54]了解详细信息。请注意，在Cityscapes上实现DVSNet时，我们直接使用了作者提供的模型权重，但我们在300VW上重新训练了DVSNet模型对于我们的方法，为了获得具有不同平均密钥间隔的密钥决策，我们训练了具有不同KAR限制η的多个模型，并且还改变了这些模型的密钥阈值τ6964表1：各种图像分割模型和流量估计模型FlowNet 2-s的性能。为了训练FlowNet 2-s，使用具有ResNet-50主干的Deeplab-V3+作为关键特征提取器Nfeat。FPS在Nvidia 1080Ti GPU上进行评估证明政策πθ正在朝着奖励更多的关键行动方向改进此外，随着η值的增加，允许更多的关键动作，每条曲线实现的最大回报也直观地变得更高。我们还通过绘制两个专家信息KAR和LDK在πθ中的权重，模型评估鳞片mIoU（%）FPS在300VW上进行RL训练在图的底行在图3中，我们已经绘制了接收到的πθ中的两个FCN（VGG16）不适用63.54 45.5KAR和LDK作为输入，并对关键后验结果做出了贡献deeplab-V2（VGG16）Deeplab-V3+（Xception-65）Deeplab-V3+（MobileNet-V2） Deeplab-V3+（ResNet-50）不适用1.0 68.25 24.41.25、1.75 68.98 6.41.0 67.07 58.81.25、1.75 68.20 21.71.0 67.50 33.31.25、1.7569.6110.1π θ（α1|s），可以观察到LDK通道的权重整体呈上升趋势，而KAR通道的权重则不断下降。这种趋势表明，随着训练的进行，KAR/LDK通道在关键决策中变得越来越重要，因为大的LDK值（或小的KAR）将鼓励πθ采取关键行动。这一观察结果与所提出的关键约束策略是一致的此外，我们还可以暗示密钥调度器依赖于FlowNet 2-s不适用64.13 153.8实现我们在Ten- sorflow [1]框架中实现了我们的方法。实验在具有八个NVidia 1080 Ti GPU的集群上运行，2.5每个GPU训练一个RL模型需要30天。4.3. 结果我们在300VW数据集上评估了五种图像分割模型：FCN[25]使用VGG 16 [44]架构，VGG 16版本的Deeplab-V2[5]，使用Xception-65的Deeplab-V3+[8][9][38][ 14 ][15][16][17]我们还针对Deeplab-V3+模型测试了两种不同的评估量表（详情请参考[8]）从表1中可以看出，具有ResNet-50主干和多个评估尺度（1.25和1.75）的Deeplab-V3+实现了最佳mIoU，因此，我们选择它作为我们的分割模型N。其特征提取部分Nfeat用于在FlowNet 2-s [15]模型F的训练期间提取关键-当前图像对中的关键帧特征，其性能通过当前帧上的插值结果进行评估。从表1中我们可以发现，使用F的插值速度通常比那些分割模型快得多，代价是mIoU 略有下降（从69.61%下降到64.13%）。在实时视频场景下，一个好的密钥调度器可以有效地弥补准确性的损失300VW上的RL训练可视化在图的上排。3.在300VW数据集上，我们证明了在不同KAR限制η（0.04，0.06，0.14）下RL训练的平均收益可以看出，即使我们随机选择每一集的这验证了我们的解决方案在减少方差和稳定梯度方面的有效性，也验证了当η较低（如0.04）时，LDK通道上的KAR比KAR更显著，相反，当η较高（如0.14）时，KAR变得更显著性能评估图的上图。图4显示了300VW数据集上各种按键选择器的平均按键间隔（AKI）与mIoU的关系，底部曲线图描绘了相应的FPS与mIoU的关系曲线。请注意，在AKI与mIoU图，我们包括两个版本的DFF：具有固定键间隔的一种和具有随机选择的键的变体。我们可以很容易地看到，我们的关键调度器表现出优越的性能比其他方面的有效的关键选择和实际运行速度。尽管所有方法的性能对于小于20的AKI是相似的，但是这是预期的，因为非关键帧上的性能降级可以通过密集的关键选择来补偿。当密钥间隔增加到25以上时，我们的方法开始显示出卓越的性能，其中我们的mIoU始终高于其他方法，并且随着密钥间隔的增加而降低得更慢Cityscapes上的评估结果可以在图5中找到，它展示了与300VW上的结果相似的趋势，因此验证了我们的RL密钥调度器对其他数据集和任务的通用性然而，应该注意的是，在面部视频的情况下，选择关键帧小的间隔（1020）不会显着影响性能，这与自主城市景观的驾驶场景。这可能是由于人脸视频中连续帧之间的变化通常小于自动驾驶场景中的变化。因此，我们可以获得更多的效率效益时，使用相对较大的时间间隔的关键调度策略的动态分割的人脸视频。4.4. 可视化关键选择为了更好地理解为什么我们基于RL的键选择方法优于基线，我们可视化了6965图3：上一行绘制了在300VW上进行RL训练期间的平均回报曲线，η值设置为0.04、0.06和0.14。底行示出了对关键后验子π θ（α1）有贡献的KAR和LDK通道的权重的变化|在同一个数据集上。同一列中的图来自同一训练会话。图4：300VW的基线和我们的方法之间的比较。上图：AKI与mIoU，下图：FPS与mIoU。FPS在Nvidia2080Ti GPU上进行评估。基于所有评估方法所做的键选择，确定连续键之间的间隔（CKI）。在不失一般性的情况下，图图6示出了在AKI=121下从300VW数据集上的实验绘制的密度曲线。由于DFF使用固定的密钥间隔，因此其CKI分布在图中呈单个尖峰的形状。相比之下，我们的方法给出的CKI分布具有最平坦的形状，这意味着我们的方法选择的关键帧在测试视频中的位置更不均匀。注意，图5：基线和我们的城市景观方法之间的比较。上图：AKI 与 mIoU ，下图： FPS 与 mIoU 。 FPS 在 Nvidia1080Ti GPU上进行评估。我们的方法选择的相邻键之间的大间隙（>200）的情况比其他方法更多。这表明我们的方法可以更好地捕捉视频的动态特性，并且只选择对分割精度有较大全局影响的关键字。此外，我们还将我们的方法，DFF和DVSNet选择的关键帧可视化在30秒的测试视频上，如图所示。7提供关于关键选择如何影响mIoU的见解。从这个图中我们可以看出，6966图6：300VW（AKI=121）上不同方法的连续关键间隔的直方图。图7：DVSNet、DFF和我们的30秒人脸视频上的按键选择比较（AKI=121）。通过我们的方法选择的关键帧可以更好地补偿准确性损失，并且在更长的帧跨度（例如帧37和459）上保持更高的mIoU，而通过DFF（固定调度器）选择的关键帧不太灵活，并且对mIoU损失的补偿通常比我们的方法差。对比DVSNet和我们的方法，我们可以看到：1）我们的方法可以用更稳定的非关键mIoU（帧37，459和713）给出关键决策; 2）在硬帧（如帧600到750）上，我们的增强关键调度器也用更少的关键帧对性能损失进行了更好的补偿这些观察结果证明了强化学习带来的好处，强化学习是从全局视频上下文中学习关键决策策略。最后但并非最不重要的是，在图。 8 ，我们在300VW数据集（AKI=121）上的实验期间，在几个非关键帧上绘制了由不同方法生成的分割掩模。可以看出，具有固定关键字的DFF通常导致具有缺失面部组件的低质量掩模，而DVSNet和流量幅度方法具有图8：300VW（AKI=121）上非关键帧的不同方法生成的分割掩码。表现得更好，但仍不令人满意的结果。相比之下，我们的方法产生了具有最佳视觉质量的非关键掩模，这进一步验证了所提出的关键掩模的有效性5. 结论在本文中，我们提出了学习一个高效和effec- tive密钥调度器通过强化学习动态人脸视频分割。通过利用专家信息和适当设计的训练策略，我们的关键调度器实现了更有效的关键决策比基线方法在较小的计算成本。我们还表明，该方法不仅限于人脸视频，还可以推广到其他场景。通过可视化我们的方法所做的关键选择，我们试图解释为什么我们的关键调度程序可以比别人更好的选择。这是第一个将动态分割技术与RL应用于实时人脸视频的工作，它可以启发未来的实时人脸分割和动态视频分割的工作。确认王玉江的工作得到了国家留学基金管理委员会的部分支持（第100号）。201708060212）和EPSRC项目EP/N 007743/1（FACER 2 VM）。Yang Wu的工作部分得到了微软亚洲研究院通过MSRA协作研究2019资助的支持6967引用[1] Martin Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo ， Zhifeng Chen ， Craig Citro ，Greg S.Corrado，Andy Davis ， Jef- frey Dean ， Matthieu Devin ， SanjayGhemawat，Ian Goodfel- low，Andrew Harp，GeoffreyIrving，Michael Isard，Yangqing Jia，Rafal Jozefowicz，Lukasz Kaiser，Manjunath Kudlur，Josh Levenberg，DanMané ，Rajat Monga ，Sherry Moore ，Derek Murray ，Chris Olah ， Mike Schuster ， Jonathe Shlens ， BenoitSteiner，Ilya Sutskever，Kunal Talwar，Paul Tucker，Vincent Vanhoucke，Vijay Vasudevan，Fernanda Viégas，Oriol Vinyals，Pete Warden，Martin Wattenberg，MartinWicke，Yuan Yu，and Xiaoqiang Zheng. TensorFlow：异构系统上的大规模机器学习， 2015 年。软件可从tensorflow.org获得。[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEEtransactionsonpatternanalysisandmachineintelligence，39（12）：2481[3] 放大图片作者：Chen Liang-jieh， Maxwell D.Collins，Yukun Zhu，George Papandreou，Barret Zoph，FlorianSchroff，Hartwig Adam，and Jonathon Shlens.搜索用于密集图像预测的有效多尺度体系结构。在NIPS，2018年。[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割。arXiv预印本arXiv：1412.7062，2014。[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv预印本arXiv：1706.05587，2017.[7] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在IEEE计算机视觉和模式识别会议论文集（Proceedings ofthe IEEE conference on computer vision and patternrecognition），第3640[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。[9] 弗朗索瓦·肖莱Xception：使用深度可分离卷积的深度学习。在 Proceedings of the IEEE conference on computervision and pattern recognition，第1251-1258页[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议集，第3213-3223页[11] Raghudeep Gadde，Varun Jampani，and Peter V Gehler.通过表示变形的语义视频cnn。在IEEE计算机视觉国际会议的论文集，第4453-4462页6968[12] Golnaz Ghiasi，Charless C Fowlkes和C Irvine。使用分割来预测遮挡部分的缺失。在BMVC，第22-1页[13] UmutGüçlü，YagmurGüçlütürk，Me ysamMadadi，SergioEscalera ， Xavier Baró ， Jordi González ， Rob vanLier，and Marcel AJ van Gerven.端到端的语义人脸分割与条件随机场作为卷积，循环和对抗网络。arXiv预印本arXiv：1703.03305，2017。[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] Eddy Ilg 、 Nikolaus Mayer 、 Tonmoy Saikia 、 MargretKeu- per、Alexey Dosovitskiy和Thomas Brox。流动网络2.0：利用深度网络的光流估计的演进。在IEEE计算机视觉和模式识别会议论文集，第2462-2470页[16] Samvit Jain和Joseph E Gonzalez。Inter-bmv：使用块运动矢量进行插值，用于视频的快速语义分割arXiv预印本arXiv：1810.04047，2018。[17] Samvit Jain，Xin Wang，and Joseph Gonzalez. Accel：一种用于视频高效语义分割的校正融合网络arXiv预印本arXiv：1807.06667，2018。[18] Andrew Kae ， Kihyuk Sohn ， Honglak Lee ， and ErikLearned- Miller.用玻尔兹曼机形状先验扩充crfs用于图像标记。在IEEE计算机视觉和模式识别会议论文集，第2019[19] Kuang-chihLee，DragomirAnguelov，BarisSumengen，and Salih Burak Gokturk.马尔可夫随机场模型用于头发和脸部分割。在自动人脸&手势识别，2008年。F

下载后可阅读完整内容，剩余1页未读，立即下载