没有合适的资源?快使用搜索试试~ 我知道了~
34180基于音频驱动的神经手势再现与视频运动图0杨洲 1 , 2 杨洁梅 2 李定泽 2 齐俊 2 Deepali Aneja 2 Evangelos Kalogerakis 101 麻省大学阿默斯特分校 2 Adobe研究0姿势感知视频混合0剪辑A 剪辑B 剪辑C 剪辑D 剪辑C 剪辑A 剪辑D 剪辑B0再现0原始语音音频 目标语音音频0图1.给定一个说话者的输入参考视频(左),我们的方法通过与目标语音音频匹配的手势再现它(右)。通过从参考视频中重新组装剪辑并使用姿势感知神经网络混合不一致的边界,合成的视频在视觉上是连贯的,并且与目标音频的节奏和内容一致。0摘要0人类的语音通常伴随着包括手臂和手势在内的身体手势。我们提出了一种通过与目标语音音频匹配的手势再现高质量视频的方法。我们方法的关键思想是通过一种新颖的视频运动图将参考视频中的片段分割和重新组装。为了无缝连接再现中的不同片段,我们提出了一种姿势感知的视频混合网络,它在两个片段之间的拼接帧周围合成视频帧。此外,我们开发了一种基于音频的手势搜索算法,以找到再现帧的最佳顺序。我们的系统生成的再现与音频的节奏和语音内容一致。我们通过定量、定性和用户研究评估了我们合成视频的质量,结果表明与之前的工作和基线相比,我们的方法产生的视频质量和与目标音频的一致性要高得多。我们的项目页面https://github.com/yzhou359/vid-reenact包括代码和数据。01. 引言0手势是人类语音交流的关键视觉组成部分。它增强了人类表演的表现力,并帮助观众更好地理解语音内容。随着说话头生成的进展,合成可信的手势视频变得越来越重要。0随着数字语音助手和逼真虚拟化身等应用的出现,合成与手势视频相匹配的语音视频变得越来越重要。在本文中,我们提出了一种音频驱动的手势再现系统,通过目标音频剪辑和单个参考语音视频合成特定说话人的人类语音视频。0与具有特定音素到视音素映射的唇部运动不同,或者与主要对应于低频情感信号的面部表情不同,手势与音频的语义和声学都有复杂的关系。因此,从音频波形到手势视频的直接跨模态映射是非常困难的,即使对于同一说话者也是如此。为了弥合音频和视频之间的差距,之前的方法通过预测身体姿势(即关节骨架)作为中间低维表示来驱动视频合成。然而,它们将问题分解为两个独立的模块(从音频到姿势和从姿势到视频),并且产生出明显的伪影,例如扭曲的身体部位和模糊的外观。0我们的方法引入了一种视频再现方法,能够通过从单个输入参考视频中剪切、重新组装和混合片段,在视频领域直接合成高分辨率、高质量的语音手势视频。该过程由一种新颖的视频运动图驱动,灵感来自于角色动画中使用的3D运动图。图中的节点表示参考视频中的帧,边编码它们之间的可能转换。我们发现了可能的有效转换。34190帧,并在图中发现通向生成新视频的路径,使重新演绎的手势与目标音频的音频节奏和语音内容一致。直接在发现的路径上播放输出视频可能会导致两个不相交原始帧边界处的时间不一致性。现有的帧融合方法不能轻松解决这个问题,特别是在快速移动和高度变形的人体姿势下。因此,我们还提出了一种新颖的人体姿势感知视频融合网络,可以在时间上不一致的边界周围平滑融合帧,产生自然的视频过渡效果。通过这样做,我们成功地将音频驱动的手势再现问题转化为寻找与给定音频最匹配的有效路径的问题。我们的路径发现算法受到了关于共语手势分析的心理学研究的启发。研究表明,共语手势可以分为节奏手势和指称手势[ 45]。而节奏手势与音频起点[ 9 , 78]很好地同步,指称手势则大多与特定短语同时出现,例如,当演讲者说“你好”或“嗨”时,会出现挥手的问候手势[ 8, 15 ]。我们分析参考视频的语音,并检测音频起点峰值[ 18]以及其转录稿[ 74]中的一组关键词作为添加到视频运动图上相应节点的音频特征。给定从新音频剪辑中提取的音频起点峰值和关键词,我们使用最佳路径来匹配音频特征,驱动我们的视频合成。我们的贡献总结如下:0•一种新的系统,可以通过仅使用音频来创建具有逼真手势的高质量人体语音视频。0•一种保留视频真实性和手势细微差别的新颖视频运动图。0•一种姿势感知的视频融合神经网络,可以合成两个不相交参考视频剪辑之间的平滑过渡,并沿着图路径进行合成。0•一种基于音频的搜索算法,将视频合成驱动到与合成的手势帧与音频节奏和语音内容都匹配的程度。02. 相关工作0我们的方法与以前关于运动图、音频驱动的3D语音动画以及特别是人体视频合成和视频帧融合的工作相关。0运动图。运动图的概念最早在[ 4 , 34]中提出,用于基于预捕捉的动作创建逼真且可控的动画。它广泛用于生成3D角色动画[ 6 , 26 , 35 , 37 , 46 , 51 ,55 , 58]。然而,这些方法只适用于3D人体骨架表示,不能直接应用于视频。0图像空间中的动画。在角色动画中,混合重新组装的动作需要插值角色的3D关节位置,而在我们的情况下,混合需要合成整个图像帧以创建连贯的视频。0[ 1 , 56 ] 在像素空间中提出了运动图,并通过去鬼影 [ 59 ]和基于像素变形的梯度域合成 [ 66 ]来解决这个问题。然而,这些方法只适用于简单的周期性场景,如钟摆、瀑布等,并不能处理复杂的人体动作。[ 23 ,38 , 75 , 80 ]通过检索和变形最近的候选帧来生成可控的人体动作视频。然而,它们需要额外的运动捕捉资源,如物理标记、多视角或RGB-D相机。[ 12 , 13 , 28 ]还介绍了基于从预捕捉的多视角相机数据集中重建人体网格的人体视频合成。然而,这些方法不适用于单目相机视频。0基于3D模型的音频驱动语音动画。近年来,已经提出了几种用于嘴唇、头部和身体手势的音频驱动语音动画方法[ 17 ,24 , 40 , 65 , 83 , 85 ]。[ 2 , 3 , 36 , 77 ]提出了学习方法来解决从音频到3D人体手势的多模态映射。它们用3D骨架表示合成的手势,可以驱动3D角色模型。然而,除非它们还提供了详细的、纹理化的和装配好的3D模型,否则这些方法无法合成目标演讲者的视频。当这些模型不可用时,它们展示的结果缺乏逼真度。0人类视频合成。[24, 40]通过最近的神经图像翻译方法[30,33, 69,70]将预测的骨骼手势运动转化为逼真的演讲者视频。然而,神经图像翻译并非无瑕疵:不连续的移动物体部分以及不连贯的纹理外观是视频生成中已知的问题[69]。由于网络中的参数数量庞大,这些方法还需要大量的训练数据集。少样本解决方案[68,79]不需要这样的数据集要求,但它们会遭受各种伪影的困扰,特别是对于人体姿势合成,如模糊的外观和扭曲的身体部位[68]。[41, 42, 60, 71,72]将人体模型和/或纹理参数拟合到训练视频中,以改善测试时的身体形状和纹理外观。然而,不准确的拟合很容易导致伪影和细微差异的丧失,特别是在松散的服装和细节身体部位(例如手指)存在的情况下。[61, 62,82]将每个身体的学习特征扭曲,基于估计的光流生成目标姿势帧。他们专注于大幅度的姿势变化和纹理幻觉,但在自然地混合两个给定的帧方面可能会失败。我们的方法与上述所有先前工作在很大程度上采用了不同的方法:我们不是通过逐帧神经翻译来生成演讲者的视频,而是通过从一个短的几分钟长的视频中重新组合片段来生成。34200图节点参考演讲音频0视频运动图构建(第3.1节)0基于音频的搜索(第3.3节) 姿势感知视频混合(第3.20搜索的播放路径0目标演讲音频0目标演讲音频0重新演讲视频0参考演讲视频0帧0音频特征0转录“关键词”0图2.系统概述。首先将参考视频编码为一个有向图,其中节点表示视频帧和音频特征,边表示转换。转换包括相邻参考帧之间的原始转换和不相交帧之间的合成转换。在测试时,给定一个未见过的目标音频,一个波束搜索算法找到最合适的播放路径,使得手势最符合目标演讲音频。通过对不相交帧之间的合成转换进行神经混合,实现了时间上的一致性。0参考视频。由于大部分帧来自参考视频,合成视频保留了手势的真实性和外观的细微差异。因此,问题简化为混合视频帧。我们的神经混合网络专注于解决这个特定任务,而不是从头开始生成所有帧。0视频帧混合。帧混合策略的选择对于从重新组合片段生成的视频的质量有着重要影响。简单的帧加权平均很容易产生幽灵效果[48, 56]。基于光流估计[5, 29,64]的更先进的帧插值方法[25, 32, 43,49]已被提出,用于在两个相邻帧之间合成中间帧,特别适用于慢动作视频。然而,如果两个帧非常不同且光流估计不够准确,这些方法会失败。它们适用于通用内容,但不将人体运动视为我们任务的先验知识。我们的方法使用了一个人体姿势感知的神经网络进行帧混合,与先前的工作相比,产生了质量显著更好的视频,这在我们的实验中得到了证明。03. 方法0概述。我们的方法的目标是在给定相同或不同演讲者的目标演讲音频的情况下,为参考演讲者合成一个新的视频。我们的视频合成受到从输入参考演讲者视频创建的一种新型视频运动图的指导(第3.1节)。视频运动图是一个有向图,编码了参考视频如何在不同的图路径中分割和重新组合(见图2的示意图)。图节点表示定义为原始参考视频帧和相应的音频特征。边定义为帧之间的转换,包括输入视频中的自然转换和连接不相交片段的合成转换。引入合成转换以扩展图的连通性并实现非线性视频播放。0然而,直接沿着合成过渡进行非线性回放并不能保证平滑的视频渲染,因为图像空间中不连续帧的突变变化。因此,我们设计了一种新颖的姿势感知视频混合网络,用于重新渲染和插值合成过渡所需的相邻帧(第3.2节)。我们开发了一种基于音频的搜索方法,以在视频运动图中找到最佳路径,以在节奏和语义上最好地匹配目标音频特征(第3.3节)。为了生成新的视频,我们在自然过渡处检索原始输入视频帧,并在合成过渡处合成神经混合帧。03.1. 视频运动图0我们视频运动图的关键思想是基于参考视频帧中说话者姿势的相似性创建合成过渡。我们的姿势相似度度量依赖于3D空间和图像空间线索。给定一个参考视频,我们的第一步是使用现成的运动捕捉方法[73]提取所有帧的SMPL模型[44]的姿势参数θ。我们进一步使用[14]对姿势参数进行平滑处理,以获得时间上连贯的结果。0基于姿势参数,我们通过正向运动学计算所有关节在世界空间中的3D位置。对于每一对帧(m,n),我们根据它们的所有关节的位置和速度的欧氏距离评估姿势不相似度dfeat(m, n)。0图像空间姿势相似性。为了在图像空间中获得姿势相似性,对于每一帧m,我们使用来自[73]的已知相机参数将拟合的3DSMPL人体网格投影到图像空间,并标记投影后在图像上可见的网格表面区域为 Sm。然后对于每一对帧(m,n),通过它们的公共可见表面区域的交并比(IoU)来估计图像空间的不相似度:dimg(m, n) = 1 - (Sm ∩ Sn) / (Sm ∪Sn)。dimg(m,n)越低,IoU越高,因此存在更大的重叠区域。������������������������34210在两个网格的表面积中,表示图像渲染方面的姿势相似性更高。基于这两个距离测量,如果它们的距离dfeat(m,n)和dimg(m,n)低于预定义的阈值(自然过渡的两个距离都定义为0),我们在运动图中的任意一对参考视频帧(图中的节点)之间创建图形合成过渡。在这里,我们遵循[76]将阈值设置为参考视频中接近帧(m, m +l)之间的平均距离。较大的帧偏移l导致更高的阈值,从而增加了运动图中路径的可能数量。这也导致了第3.3节路径搜索算法的更大计算成本。我们的实验使用l =4,这在计算成本和图中可用路径数量之间实现了平衡。03.2. 姿势感知视频混合0仅仅在合成过渡处连接帧的播放很容易产生明显的抖动伪影(见图3(a)中的直接播放灰色虚线路径和图3(b)中的第三列)。为了解决这个问题,我们合成混合帧来替换合成过渡的小时间邻域内的原始帧,以便视频可以从第一个序列平滑过渡到另一个序列(见图3(a)中的实线黑色路径和图3(b)中的最后一列)。对于连接帧m, n的合成过渡,我们使用帧范围[m - k,m]和[n, n +k]定义邻域,其中k是邻域大小。我们设计了一个姿势感知视频混合网络来在上述邻域内合成帧。给定两个帧的索引i,j(其中i ∈ [m - k, m],j ∈ [n, n +k])和它们对应的参考视频中的原始RGB图像表示Ii和Ij∈RH×W×3,网络使用目标混合权重α∈[0, 1/K, 2/K, ...,1],其中K =2k,来合成邻域中的每个混合帧。作为第一步,我们使用混合权重来估计混合帧t的SMPL姿势参数θt:θt = (1 - α)θi +αθj,其中θi和θj分别是从两个输入帧中捕获的SMPL姿势参数。我们的网络在两个阶段进行处理。第一阶段基于拟合的SMPL网格的顶点位移计算的3D运动场对前景人体图像特征进行变形。第二阶段通过计算第一阶段产生的变形图像特征与图像的其余部分(即背景)之间的残差光流进一步改进变形。最后,一个图像翻译网络将经过改进的变形图像特征转换为表示目标输出帧t的图像It。网络架构如图4所示。0合成过渡0直接播放 混合播放0输入序列 10输入序列 20混合帧0(a) 姿态感知混合播放的示意图。0输入序列 1 输入序列 2 直接播放 混合播放0(b) 我们的混合播放生成了更平滑的过渡。0图3.与具有严重水平位移和手部旋转突变的合成过渡直接播放相比(见(b)中的虚线和圆圈),我们的混合策略生成了剪辑之间的自然过渡。0网格流阶段。第一阶段有两个并行流,分别产生编码输入图像 I i 和 I j的图像深度特征图,用于生成这些特征,我们首先计算一个初始的3D运动场,我们称之为初始“网格流”,该运动场是由两帧之间的SMPL身体网格位移得到的。为此,我们首先从SMPL姿态参数 θ i , θ j , θ t中找到身体网格顶点位置 v i , v j , v t。然后,我们将相应的网格顶点位移 v t − v i 和 v t − vj ∈ R N × 3 分别作为初始网格流 F init t → i 和 F init t→ j。我们注意到,我们只考虑通过透视投影到图像平面上找到的可见顶点的位移。这些位移被投影和光栅化为图像空间的运动场 R N × 3 → R H × W × 2。由于顶点采样与图像分辨率不匹配,所以得到的流场相对稀疏。因此,我们使用标准差 σ 设置为 8的高斯核对它们进行扩散。这些初始运动场远非完美。SpatialEncoderMesh Flow EstimatorOptical FlowEstimatorWarpWarpSpatialEncoderMesh Flow EstimatorWarpWarpImage Generatorxi = Es(Ii, Imask, Iskel; ws)(1)F mt→i = Em(xi, F initt→i ; wm),(2)F mt→j = Em(xj, F initt→j; wm).(3)Finally, we take as input the above blended deep featuremap to synthesize the target image It. This is performedwith a generator network G following a UNet image trans-lation network architecture [85]: ˆIt = G(x′′t ; wg), wherewg are learnable weights. More details and output exam-ples are provided in the supplementary material.34220初始网格流0网格流0光流0可见性掩码0输出帧0深度特征 变形特征 变形特征0输入帧0输入帧0深度特征 变形特征 变形特征0图4.姿态感知神经混合网络架构。两个源帧被编码成深度特征图,然后根据两个阶段的预测流进行变形:一个基于3D网格的流阶段用于粗略特征图对齐,然后是一个基于光流的阶段进一步改进变形。最后,将变形特征与预测的可见性掩码混合以生成目标帧。0因为投影网格的边界通常与输入帧中的人体边界不完全对齐,所以我们使用神经模块对这些场进行了改进。该模块有两个流,分别改进了帧 i 和 j的相应运动场。第一个流将RGB图像 I i ,前景掩码 Imask ,以及包含渲染骨架的图像 I skel作为输入进行处理。然后将它们编码成图像深度特征图 x i:0其中 w s 是可学习的权重。类似地,第二个流产生了帧 j的图像深度特征图 x j 。这两个流共享同一个基于 8个堆叠的CNN残差块[ 10]的网络。更多细节请参考补充材料。然后,我们通过另一个网络 E m 估计出精细的运动场。0其中 w m 是可学习的权重。该网络基于UNet [ 52]进行设计。更多细节请参考补充材料。然后,我们使用上述运动场将上述图像特征图进行反向变形,得到变形的深度特征 x ′ i 和 x ′ j 。0光流阶段。直接从两个经过变形的特征图x'i和x'j合成最终的目标帧会出现幽灵效应(图5)。这是因为在前一阶段计算的运动场是基于SMPL模型的,忽略了衣物上的纹理等细节。我们的第二阶段旨在进一步根据包括背景在内的整个图像计算的光流对深度特征图x'i和x'j进行变形。在这个阶段,已经对齐的变形特征已经代表了大致对齐的身体。我们发现,基于光流的现成帧插值网络[32]可以重现缺失的像素级细节并修复幽灵效应。网络预测光流Fot→i和Fot→j,进一步将特征从x'i和x'j变形为x''i和x''j。它还估计用于融合以获得帧t的深度特征图的软可见性图Vt→i和Vt→j:0最后,我们将上述混合的深度特征图作为输入,使用生成器网络G按照UNet图像转换网络架构[85]合成目标图像It:ˆIt= G(x''t;wg),其中wg是可学习的权重。更多细节和输出示例请参见补充材料。0x''t = (1 - α)Vt→i ⊙ x''i + αVt→j ⊙ x''j. (4)0训练。为了训练我们的姿势感知视频融合网络,我们在参考视频中采样三元组帧。给定一个目标帧,例如帧t,我们随机采样两个相邻的帧,其索引为t-k0和t+k1,其中k0,k1∈[1,8],形成三元组。相应的融合权重α计算为k0 / (k0 +k1)。我们使用定义的损失函数对整个网络进行端到端的训练,以更好地估计光流并重构最终图像。更多细节请参见补充材料。03.3.基于音频的搜索0在测试时给定一个语音音频,我们开发了一个图搜索算法,以找到沿着手势在语音音频上既有节奏又有语义匹配的合理路径。先前的研究表明,语音手势可以分为两类:1)指涉性手势,与特定的有意义的关键词一起出现;2)韵律手势,对音频做出响应。34230输入帧00输入帧10仅网格流变形0我们的全套0幽灵效应0没有幽灵效应0图5.幽灵效应示例。左:两个输入帧。右上:仅使用网格流的幽灵效应。右下:通过光流进一步变形的清晰特征。0韵律特征[45]。更具体地说,一个节奏手势的击键与音素子句中的音频起点同时出现(或在非常短的时间内出现)[21]。为了找到正确的时机或帧索引上的精确手势,我们为输入语音定义了一对音频特征:音频起点特征和关键词特征。音频帧索引与视频帧速率匹配。0音频起点和关键词特征。我们将音频起点特征定义为二进制值,指示每个帧是否激活了音频起点,该起点是通过标准音频处理算法[7]检测到的。为了提取关键词特征,我们首先使用MicrosoftAzure语音转文本引擎[74]将输入音频转换为带有每个单词的起始和结束时间的转录文本。我们创建了一个常见词汇的字典,用于指涉性手势,我们称之为关键词(请参见补充材料中的列表)。如果一个关键词出现在一个帧(或节点)上,我们将其关键词特征设置为该词。否则,我们将其简单地设置为空(没有关键词)。0目标语音音频分割。我们将目标语音音频分割成以音频起始或关键词特征激活的帧为起点和终点的片段。设{as}Ss=1为这些帧的帧索引,其中S是它们的总数。片段表示为as →as+1,并且它们的持续时间为Ls = as+1 −as(帧数)。我们还添加了两个额外的端点a0 = 1和aS+1=Nt,分别表示目标音频的第一帧和最后一帧,以形成完整的片段列表,即as → as+1,s = 0,1,..,S。0波束搜索。我们在视频运动图中利用波束搜索[54]找到与目标语音音频片段匹配的K条合理路径。波束搜索将K个路径初始化为以K个随机节点作为目标音频的第一帧a0。接下来,我们应用广度优先搜索来找到以其特征与目标音频匹配的路径片段结束的节点。0目标音频片段特征在帧a1处。我们继续使用与上述相同的搜索过程,迭代地找到与目标片段as → as+1(s =1,..,S)的其余部分匹配的完整图路径。所有搜索的K条路径可用于生成相同目标语音音频的各种合理结果。详细的搜索准则和结果变体可以在补充材料和我们的项目页面中找到。0视频合成。我们根据波束搜索执行发现的运动图中的最终路径生成视频,并使用混合网络处理合成过渡(参见图3的示例)。如上所述,对于与目标音频片段as →as+1相对应的每个合成视频片段,我们调整其速度以匹配目标持续时间。最后,我们通过采用[50]来对结果进行后处理,以使说话者的嘴唇与相应的语音音频匹配。04. 结果和评估0数据集。我们在两个数据集上评估了我们的神经混合网络和生成的音频驱动再现结果。个人故事数据集。由于我们的方法适用于特定说话者的语音手势再现,我们收集了七个说话者的语音视频。每个说话者被要求在静态摄像机前讲述一个个人故事,可以站立或坐着。鼓励说话者在讲述故事时使用手势。视频的长度因故事而异,介于2到10分钟之间。我们将每个视频分为90%/10%进行训练和测试。TED-talks数据集[62]。我们还展示了我们的神经混合网络在TED-talks数据集上的泛化能力。它包含1265个演讲语音视频,有393个独特的演讲者。每个视频包含说话者身体的上半部分,视频长度范围为2到60秒。我们使用[62]中提出的相同的训练/测试分割。我们在这个数据集上评估了我们的模型的泛化能力,因为测试说话者在训练期间是未知的。04.1. 视频混合评估0我们首先在两个数据集上对提出的视频混合网络进行数值评估。给定每个视频测试集中的两个帧t−k和t+k,我们使用混合权重α =0.5合成混合帧,并将其质量与地面真实帧t进行比较。所有比较的帧都与地面真实人体掩码相乘,以仅比较前景人体结果。我们将我们的方法与最先进的帧插值方法FeatureFlow[25]、SuperSlMo[32]以及基于人体姿势的图像合成方法vUnet[22]进行比较。我们还与基于pix2pix[70]骨干的方法进行比较:用于特定说话者个人故事数据集的EBDance[16]方法和用于说话者变化的TED-talks数据集的Fewshot-vid2vid [68]方法。对于342402个输入帧的FeatureFlow [25]、SuperSlMo [32]、vUnet [22]、EBDance [16]和我们自己的方法0图6. 使用不同方法合成混合帧的比较。请注意我们的方法中细节(如手指)的自然外观。0输入 I i 生成的混合帧,以平滑地从帧 I i 过渡到 I j 输入 I j0图7. TED-talks数据集上我们的视频运动图的过渡边缘的混合帧(请参见我们项目页面上的演示视频)。0在基于姿势的图像合成方法中,我们通过平均关节位置来插值人体骨架。我们在我们的数据集上重新训练了所有比较方法,以进行公平比较。我们还评估了两种网络替代方案:只使用基于网格的变形流的Ours w/mesh和只使用光流的Ours w/ optical。0图像质量。我们通过四个常见指标评估合成图像的质量:图像误差(IE)-两个图像之间的平均绝对像素差异;峰值信噪比(PSNR)和LPIPS [ 81]。表1显示我们的模型在个人故事数据集上始终优于所有比较方法。它还展示了我们的模型对TED-talks数据集上的未知说话者的泛化能力。图6显示了不同方法合成帧的示例。在顶部的示例中,输入是两个手势差异较大的帧。帧插值方法[ 25 , 32]无法估计流场,因此导致手部结果断裂和模糊。基于姿势的图像合成方法[ 16 , 22]保留了手部结构,但在手指和服装周围存在伪影。我们的方法在手部和服装方面实现了最佳质量。0示例显示了手势差异较小的帧。[ 16 , 22 , 32]更好地保留了手部,但仍然存在断裂和模糊的纹理问题。我们的方法生成了清晰锐利的结果。0视频质量。为了评估生成视频的质量,我们采用了指标MOVIE [ 57 ]来评估时空方面的视频失真。我们还按照[ 69]的方法,使用Fr´echet InceptionDistance(FID)分数来评估视频的视觉质量和时间一致性。我们使用预训练的视频识别CNN模型从合成视频剪辑中提取特征[ 11]。表1的相对列显示我们的方法在时间域中可以实现最佳视频质量。它表明合成的混合帧能够无缝连接再现的帧,减少了时间上的伪影。在图7中,我们展示了来自TED-talks数据集的视频运动图的选定过渡边缘的详细混合帧。我们在我们的项目页面上提供了额外的合成剪辑,展示了混合结果。04.2. 基于音频的再现结果0给定来自说话者A的参考视频和来自另一说话者B的目标音频剪辑,我们可以再现Ours w/ mesh0.8735.20.0090.1415.11.3627.90.0720.6411.5Ours w/ optical0.9734.60.0090.1613.21.2528.20.0690.5711.9Ours0.7636.10.0070.1313.00.9330.70.0400.4311.8GTOurs-fullOurs-no-search70%59%41%61%30%39%34250个人故事数据集 TED-talks数据集0方法 IE ↓ PSNR ↑ LPIPS ↓ MOVIE ↓ FID ↓ IE ↓ PSNR ↑ LPIPS ↓ MOVIE ↓ FID ↓0FeatureFlow [ 25 ] 1.18 33.5 0.015 0.22 19.1 5.2 19.7 0.267 1.29 33.6 SuperSlMo [ 32 ] 1.04 35.0 0.012 0.17 15.41.18 28.6 0.052 0.50 12.6 vUnet [ 22 ] 1.20 33.6 0.013 0.19 15.6 1.19 28.8 0.058 0.52 14.0 EBDance [ 16 ] 1.7530.7 0.020 0.43 20.5 - - - - - Fewshot-vid2vid [ 68 ] - - - - - 10.7 15.1 0.159 1.06 21.50表1. 个人故事数据集和TED-talks数据集的图像和视频质量评估。0图8.我们用户研究的成对比较结果。Ours-full与Ours-no-search的比较显示了提出的基于音频的搜索算法的有效性。0基于我们的流程,使用参考视频生成一个具有A的外观和B的声音的新的语音视频。在项目页面上提供了个人故事数据集和TED-talks数据集上的重新演绎结果。0用户研究。为了进一步定量评估这种重新演绎视频与目标语音的一致性,我们对个人故事数据集上的重新演绎视频进行了感知用户研究。我们生成了127个长度为25秒的这样的视频。每个视频都包含数据集中每个发言者的表达性语音手势。该研究是通过亚马逊机械土耳其服务进行的。我们将来自我们的完整系统(Ours-full)的结果与原始参考视频剪辑(GT)以及来自基线系统(Ours-no-search)的结果进行比较,基线系统是在没有基于音频的搜索的情况下随机在视频运动图中找到路径。我们通过提供涉及上述三种方法中的任意两种结果的成对比较的查询列表来设计用户研究问卷。参与者被要求选择哪个结果中的手势与语音更一致。有关防止偏见和无效答案的详细设置可以在补充材料中找到。最后,我们收集了113位有效参与者的1130个有效选择。我们在图8中绘制了统计数据。Ours-full相对于Ours-no-search的偏好(61%对39%)显示了基于音频的搜索算法的有效性。尽管没有使用音频指导,但Ours-no-search获得的30%的票数对GT的投票也表明我们的视频运动图和帧混合方法能够生成高质量和逼真的视频。0对Ours-full相对于GT给出的相对较高的投票(41%)表明我们的完整系统生成了更好但不完美的与音频一致的手势视频。05. 结论和未来工作0我们提出了一种基于视频运动图的新系统,以生成最大程度地保持高图像合成质量和说话者手势运动细微差异的新视频。为了无缝地重新演绎输入视频中的不连续帧,我们引入了一种神经姿态感知视频混合方法,以平滑地混合不一致的过渡帧。我们通过数值实验和感知用户研究比较了所提出系统与最先进的方法和基线的卓越性能。0限制。我们使用预定义的常见关键词词典来进行关键词特征,这可能在不常见的个体词汇上失败。通过学习数据获得更丰富的音频特征可能有助于准确的手势匹配。在合成动画的质量和多样性之间存在不可避免的权衡:增加图形边缘密度可以增加过渡的多样性,但可能会检索出更难混合的帧。所提出的视频混合网络可以混合前景人体姿势和轻微的背景变化,但在背景发生剧变的情况下失败(请参见补充材料中的示例)。0未来工作。神经混合在姿态感知嵌入空间中重新演绎人类视频显示出其优势。我们相信我们的视频运动图和神经重新演绎的混合框架是高质量可控数字人类动画的一个有前途的方向。0潜在的负面社会影响。我们的方法可以合成说话的人。这为恶意目的创建虚假视频提供了可能性。检测深度伪造视频[39, 53, 84]是一个活跃的研究领域。0致谢。我们的研究部分资助来自NSF(EAGER-1942069)和Adobe。34260参考文献0[1] Aseem Agarwala, Ke Colin Zheng, Chris Pal, ManeeshAgrawala, Michael Cohen, Brian Curless, David Salesin, andRichard Szeliski. Panoramic video textures. In ACM Trans. onGraphics (TOG). 2005. 20[2] Chaitanya Ahuja, Dong Won Lee, Yukiko INakano和Louis-Philippe Morency.用于共语言手势动画的风格转移:一种多说话者条件混合方法。在ECCV会议上,2020年。20[3] Simon Alexanderson, Gustav Eje Henter, TarasKucherenko和Jonas Beskow.使用归一化流进行风格可控的语音驱动手势合成。在ComputerGraphics Forum上,2020年。20[4] Okan Arikan和David A Forsyth.从示例中生成交互式动作。ACM Trans. on Graphics(TOG),2002年。1, 20[5] Simon Baker, Daniel Scharstein, JP Lewis, Stefan Roth,Michael J Black和Richard Szeliski.用于光流的数据库和评估方法。IJCV,2011年。30[6] Philippe Beaudoin, Stelian Coros, Michiel van dePanne和Pierre Poulin. 运动模式图。在ACMSCA会议上,2008年。20[7] Juan Pablo Bello, Laurent Daudet, Samer Abdallah, ChrisDuxbury, Mike Davies和Mark B Sandler.音乐信号中的起始检测教程。IEEE Trans on Speech and AudioProcessing,2005年。60[8] Kirsten Bergmann和Stefan Kopp.Gnetic–使用贝叶斯决策网络进行图标手势生成。在Interna- tionalWorkshop on Intelligent Virtual Agents会议上,2009年。20[9] Elif Bozkurt, Y¨ucel Yemez和Engin Erzin.用于韵律驱动节拍手势综合的语音和手臂运动的多模态分析。Speech Communication,2016年。20[10] Andrew Brock, Jeff Donahue和Karen Simonyan.用于高保真度自然图像合成的大规模GAN训练。在ICLR会议上,2018年。50[11] Joao Carreira和Andrew Zisserman. Quo vadis, actionrecognition?一种新模型和动力学数据集。在CVPR会议上,2017年。70[12] Dan Casas, Christian Richardt, John Collomosse, ChristianTheobalt和Adrian Hilton.4D模型流:用于实时4D视频插值的预计算外观对齐。在ComputerGraphics Forum上,2015年。20[13] Dan Casas, Marco Volino, John Collomosse和AdrianHilton. 用于交互角色外观的4D视频纹理。在Computer GraphicsForum上,2014年。20[14] G´ery Casiez, Nicolas Roussel和Daniel Vogel.1C滤波器:用于交互系统中嘈杂输入的简单基于速度的低通滤波器。在SIGCHI on Human Factors in ComputingSystems会议上,2012年。30[15] Justine Cassell, Matthew Stone和Hao Yan.在生成体验对话中的协调和上下文依赖性。在InternationalConference on Natural LanguageGeneration会议上,2000年。20[16] Caroline Chan, Shiry Ginosar, Tinghui Zhou和Alexei AEfros. Everybody dance now. 在ICCV会议上,2019年。6, 7, 80[17] Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, YiXu和Chenliang Xu.具有节奏头部运动的说话头生成。在ECCV会议上,2020年。1, 20[18] Abe Davis和Maneesh Agrawala. 视觉节奏和节拍。ACMTrans. on Graphics (TOG),2018年。20[19] James E Driskell和Paul H Radtke.手势对语音产生和理解的影响。Human factors,2003年。10[20] Pif Edwards, Chris Landreth, Eugene Fiume和Karan Singh.Jali:一种以动画师为中心的表情模型,用于表情丰富的嘴唇同步。ACMTrans. on Graphics (TOG),2016年。10[21] Mohamed Elhoseiny, Scott Cohen, Walter Chang, BrianPrice和Ahmed Elgammal. Sherlock:可扩展的图像事实学习。在AAAI会议上,2017年。60[22] Patrick Esser, E
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功