没有合适的资源?快使用搜索试试~ 我知道了~
唇动生成概览陈乐乐[0000−0002− 7073− 0450],李志恒[0000− 0002− 5972− 4826],Ross K马多克斯【0000− 0003− 2668− 0238】、段志尧【0000− 0002− 8334− 9974】、徐晨亮【0000− 0002− 2183−822X】美国罗切斯特大学抽象。在本文中,我们考虑的任务:给定一个任意的音频语音和一个嘴唇图像的任意目标身份,产生合成的大小嘴唇运动的目标身份说的话。 为了取得良好的性能,模型不仅需要考虑目标身份的保持、合成图像的照片真实感、序列中嘴唇图像的一致性和平滑性,更重要的是,学习音频语音和嘴唇运动之间的相关性。 为了解决集体的问题,我们设计了一个网络来合成嘴唇的运动,并提出了一种新的相关损失同步嘴唇的变化和语音的变化。 我们的完整模型利用四种损失进行全面考虑;它是端到端训练的,并且对嘴唇形状,视角和不同的面部特征具有鲁棒性。从实验室记录到野生嘴唇的三个数据集上的深思熟虑的实验表明,我们的模型显着优于扩展到该任务的其他最先进的方法关键词:唇动生成·视听相关1介绍跨模态生成已成为计算机视觉及其更广泛的人工智能社区的一个重要和新兴的主题,其中的例子超出了最突出的图像/视频到文本[10,19],可以在视频到声音[23],文本到图像[25],甚至声音到图像[4]中找到。 本文考虑的任务是:给定一个任意的音频语音和一个任意目标身份的嘴唇图像,生成说出语音的目标身份的合成嘴唇动作。请注意,语音不必由目标身份说出,并且语音和目标身份的图像都不需要出现在训练集中(参见图2)。①的人。解决该任务对于许多应用是至关重要的,例如,增强语音理解,同时保护隐私或为听力受损的人提供辅助设备。嘴唇运动生成传统上已经作为从目标身份的语音音频合成说话面部的子问题被解决[12,13,3,29]。例如,Bo et al.[12]通过双向LSTM重新拼接面部的下半部分,以重新配音来自不同音频源的目标视频他们的模型从保存的目标帧的字典中选择目标嘴部区域最近同等贡献。2L. Chen,Z.Li,RK Madoox,Z.Duan和C.徐源帧源帧合成帧图1:模型获取女性的音频语音和目标身份的一个嘴唇图像,在该空间中进行复制,并且使男性的嘴唇的大小与相同语音相同合成的嘴唇运动需要与语音音频相对应,并且还保持目标身份,视频平滑度和清晰度Suwajanakorn等人[29]在给定奥巴马总统的演讲音频的情况下,生成具有准确的嘴唇同步的奥巴马总统的合成面部。他们首先使用一个LSTM模型,在他每周几个小时的演讲片段上进行训练,以生成嘴部标志,然后检索映射的纹理,并应用复杂的后处理来锐化生成的视频。然而,这些许多方法的一个共同问题是它们检索而不是生成图像,并且因此需要相当大量的目标身份的视频帧来从中选择,而我们的方法从目标身份的单个图像生成嘴唇运动,即,一眼就唯一的工作,我们知道,解决了同样的任务,我们是钟等人。[6]的文件。他们提出了一种具有跳跃连接的图像生成器网络,并优化了合成图像和真实图像之间的重建损失。每一次,他们的模型从0.35秒的音频中生成一个图像。虽然他们的视频逐图像生成并通过后处理增强看起来很好,但他们基本上绕过了关于序列中图像的一致性和平滑度以及视频中音频语音和嘴唇运动的时间相关性的更难的为了克服上述限制,我们提出了一种新颖的方法,该方法将语音音频和目标身份的嘴唇图像作为输入,并在描绘相应嘴唇运动的视频中生成多个嘴唇图像(16帧)(参见图1B)。①的人。观察到语音与嘴唇运动高度相关,即使在身份之间,一个概念是唇读[1,7],我们论文的核心是探索在构建和训练嘴唇运动生成器网络时这种相关性的最佳建模。为了实现这一目标,我们设计了一种方法来融合时间序列音频嵌入和身份图像嵌入生成多个嘴唇图像,并提出了一种新的视听相关损失同步嘴唇的变化和语音的变化在视频。我们的最终模型利用了四个损失的组合,包括建议的视听相关损失,一个新的三流对抗学习损失,以指导鉴别器判断图像质量和运动质量,一个特征空间损失,以最大限度地减少感知水平的差异,和重建损失,以最大限度地减少像素水平的差异,全面考虑嘴唇运动的产生。整个系统以端到端的方式进行训练,并且对嘴唇形状、视角、源音频+目标身份唇动生成概览3以及不同的面部特征(例如,胡须无胡须)。我们的代码可在https://github.com/lelechen63/3d_gan获得。请访问https://youtu.be/7IX_sIL5v0c查看更多结果。我们在三个数据集上评估我们的模型及其变体:GRID视听句子语料 库 ( GRID ) [8] , 语 言 数 据 联 盟 ( LDC ) [26] 和 野 生 唇 语 阅 读(LRW)[7]。为了测量嘴唇运动的定量准确性,我们提出了一种新的度量,该度量评估合成嘴唇到地面真实嘴唇的检测到的地标距离。此外,我们使用一组三个度量,峰值信噪比(PSNR),结构相似性指 数 度 量 ( SSIM ) [32] 和 基 于 感 知 的 无 参 考 客 观 图 像 锐 度 度 量(CPBD)[21]来测量合成嘴唇图像的质量,例如,图像清晰度。我们比较我们的模型与Chung等人。[6]和最先进的视频生成对抗网络(GAN)模型[30]的扩展版本来完成我们的任务。实验结果表明,该模型能有效地解决所有的目标识别问题。(3)第三章。此外,我们还展示了真实世界中名人的合成嘴唇动作的新颖示例,这些名人不在我们的数据集中。我们的文件标志着三个贡献。首先,据我们所知,我们是第一个考虑语音和嘴唇运动之间的相关性,在生成多个嘴唇图像一目了然。其次,我们探讨了各种模型和损失函数的建设和训练嘴唇运动发生器网络。第三,我们量化了评估指标,并且我们的最终模型在从实验室记录到野生嘴唇的三个数据集上实现了对扩展到该任务的最先进方法的显著改进。2相关工作我们已经简要地调查了嘴唇运动生成的工作在引言部分。在这里,我们讨论了我们的模型中使用的每种技术的相关工作与我们相关但不同的任务是唇读,它也解决了跨模态生成问题。[1,7]使用嘴唇运动和句子/单词之间的相关性来从视觉信息解释音频信息。Rasiwasia等人[24]使用典型相关分析(CCA)[16]子空间学习来学习两种模态的两个中间特征空间,其中它们在投影特征上进行相关。Cutler和Davis [9]使用时间延迟神经网络[31](TDNN)来提取时间不变的音频特征和视觉特征。这些工作启发了我们在生成视频时对语音音频和嘴唇运动之间的相关性进行在人类语音的产生中,音频变化和嘴唇运动并不总是同步的;嘴唇通常在音频信号产生之前移动[2]。在设计模型时需要考虑音频和视觉之间的这种延迟。Suwajanakorn等人[29]在前几个RNN单元中应用时间延迟的RNN而不输出值。因此,输出相应地移位到延迟的步长。然而,这样的延迟是凭经验手动固定的,因此,难以确定野外视频的延迟量。我们一起来[31]4L. Chen,Z.Li,RK Madoox,Z.Duan和C.徐图2:完整的模型说明。音频编码器和身份编码器提取并融合音频和视觉嵌入。Audio-Identity融合网络融合了两种模态的特征。解码器将融合特征扩展到合成视频。相关网络负责加强视听映射。三股流负责区分生成视频和真实视频提取具有沿时间维度的大接收场的特征,但使用卷积网络而不是TDNN,这导致更简单的设计。对抗训练[14]最近被引入作为一种新颖而有效的方法来训练生成模型。研究人员发现,通过对附加信息的模型进行调节,可以指导数据生成过程[20,5,22]。此外,GAN已经显示出它能够弥合不同模态之间的差距,并产生有用的联合表示。我们在训练中也使用了GAN损失,但我们表明将其与其他损失相结合会带来更好的结果。3唇动发生器网络我们的嘴唇运动生成器网络的整体数据流如图所示二、为了简化计算,本文省略了所有张量的通道维数。回想一下,我们的网络的输入是语音音频和目标身份的一个单一图像,我们的网络的输出是目标身份的合成嘴唇图像说音频。合成的嘴唇运动需要与语音音频相对应,保持目标身份,确保视频平滑度,并且具有照片般的真实感。3.1音频-身份融合和生成首先,我们对双流输入信息进行编码。对于音频流,原始音频波形(表示为Sraw)首先被变换成对数梅尔频谱图(参见第2.1.1节中的细节)。5. 1),表示为Slms,然后由音频编码器网络编码成音频特征fs∈RT×F,其中T和F表示时间帧和频率信道的数量。对于视觉流,由身 份 编 码 器 网 络 对 输 入 身 份 图 像( 表 示为 pr 网 络 输 出 图 像特征fp∈RH×W,其中H和W表示输出图像特征的高度和宽度。衍生物相关损失音频编码器相关网络音频-身份融合三流鉴别器身份编码器解码器64x7x7转换256x3x3Conv256x3x3Conv32x1x1转换64x3x3转换128x3x3Conv256x3x3Conv最大池化3D残差块256x3x3x33D DeConv128x3x3x3三维反卷积3x7x7x73D转换唇动生成概览5SS我们将音频特征fs和视觉特征fp融合在一起,其输出,合成的视频特征fv,将通过几个残差块扩展,并且3D解码将存储在大小化的视频特征中。 为了确保合成的剪辑是基于目标人的,并且还捕获语音的时变,我们研究了一种有效的方法来融合fs和fp以得到用于生成视频的fv。这里,挑战在于特征图存在于不同的模态中,例如,音频、视频和视听,并且驻留在不同的特征空间中,例如,时间-频率、空间和时空。我们的融合方法是基于复制和级联。该过程在图1中示出3.第三章。 对于每个音频特征,我们在每个时间步长中沿着频率维度复制该特征,即,从T×F的大小到T×F×F的大小可以被视为用于视频表示的模板的图像特征被复制T次,即,从H×W到新的尺寸T×H×W。我们在这个方法中设置H=W=F然后,两种重复的特征沿信道维度连接。图3:音频-身份融合。将音频时频特征和图像空间特征转换为视频时空特征3.2视听导数相关损失我们认为,音频语音的声学信息与嘴唇运动相关,甚至跨身份,因为他们共享的高层次的表示- tation。此外,我们还认为两种模态之间沿时间轴的变化更可能是相关的。 也就是说,与唇型本身的听觉特征和视觉特征相比,听觉特征(例如,唇型)的变化更显著。声音提高到更高的音调)和视觉特征的变化(例如,开口)具有更高的相关可能性。因此,我们提出了一种方法来优化这两种模态在其特征空间中的相关性。 我们使用大小为(T − 1)× F的f′,即时间维度上连续帧之间的音频特征fs(大小为T×F)的导数,来表示语音的变化。它经过音频导数编码器网络φs,因此,我们有音频导数特征φs(f′)。类似地,我们使用F(v)来表示视频v中的每个连续帧的光流,其中F是光流估计算法。它经过光流编码器网络φv,因此,我们有φv(F(v))来描述特征空间中嘴唇运动的视觉变化。我们使用余弦相似性损失来最大化音频导数特征和视觉导数特征之间的相关性:φs(f′)·φv(F(v))corr= 1−′s.(一)φs(fs)φ2·φv(F(v))2重复+重复6L. Chen,Z.Li,RK Madoox,Z.Duan和C.徐X(a)(b)第(1)款图4:(a):四个示例视频的具有不同偏移的相关系数。(b):视频与其具有最大相关系数的不同偏移的视频的(a)和(b)的X轴代表向前在这里,应用于合成帧的光流算法需要对于反向传播是可微分的[27]。在我们的实现中,我们在分母上加上一个小数(=10−8为了避免当φs和φv被学习以预测完全相关的恒定输出φs(f′)和φv(F(v))并且corr将变为0时的平凡解,我们在训练过程中组合其他损失(参见等式(1))。2)的情况。相关网络音频和视频信息在时间上并不完全一致。通常,唇形比声音更早形成。例如,当我们使用“bed”时,可以看到上边缘和下边缘,以便于执行该操作[ 2]。如果存在这样的延迟问题,则假设视听信息完全对准,上述相关性损失可能不起作用。我们验证了延迟之间的对应问题的音频和视觉信息设计的案例研究3260视频随机抽样的GRID数据集。延迟对应问题的解决方案在下一段中给出。在案例研究中,对于每个75帧视频v,我们计算音频slms的每个74个导数的平均值和每个74个光流场φv(Fv)的平均值相对于每个视频,我们沿着不同的偏移量(在我们的案例研究中为0至7)的时间向前移动光流的平均值通过上述程序计算的四个视频的结果在图中示出第4(a)段。最后,我们对视频具有最大相关系数的不同偏移量中的视频的数量进行计数,如图所示第4(b)段。图4示出了不同的视频偏好不同的偏移以输出最大相关系数,这指示固定所有视听输入的恒定偏移将不能解决数据集中的所有视频之间的具有不一致延迟的相关性的问题。为了缓解这种延迟相关问题,我们设计了相关网络(如图1所示)。2)包含音频导数编码器Φs和光流编码器Φv,以提取用于计算等式(1)中的相关损失的特征。1. 这些网络减小了特征尺寸,但同时保留了时间长度。两个输出的大小被匹配以用于计算相关损失。我们使用3D CNN来实现这些网络,这些网络也是唇动生成概览7S有助于缓解以前的工作中发生的固定偏移问题[29]。φs和φv输出都具有大的感受野(φs(f′)为9,13对于φv(Fv)),其考虑了大时间维度上的视听相关性。与[29]中提出的时延RNN相比,CNN可以从数据集中学习延迟,而不是将其设置为超参数。此外,CNN架构受益于其权重共享属性,从而导致比TDNN更简单和更小的设计[31]。4完整模型和培训不失一般性,我们使用对嘴唇运动视频和语音音频{(vj,sj)},其中vj表示我们数据集中的第j个视频,sj表示相应的语音音频。当不需要讨论一个样本时,我们省略上标j。我们用pr来表示目标说话人的一幅嘴唇图像,它可以提供初始的纹理信息。在训练期间,我们在训练集中的(v,s)上训练,并且将p,r采样为从原始视频中随机选择的一个帧,其中从原始视频中采样v,j以确保v和p,r包含相同的标识。因此,该系统对身份pr的唇形是鲁棒的。训练的目的是生成一个逼真的视频thatresemblesv. 对于训练,该语音和识别信息可以是任何语音和任何嘴唇图像(甚至在我们在训练中使用的数据集之外)。接下来,我们在培训的背景下展示完整的模型。我们的完整模型(见图)2)是端到端可训练的,并且根据以下目标函数进行优化L=corr+λ1pix+λ2perc+λ3gen,(2)其中λ1、λ2和λ3是不同损耗项的系数本文将它们分别设为0.5、1.0、1.0四次亏损背后的直觉如下:– corr:相关性损失,如第3.2,以确保音频和视频信息之间的相关性。– pix:Pixel-level例如,我的天身份纹理。然而,我们发现单独使用它会降低合成视频帧的清晰度。– perc:感知损失,最初由[17]提出,作为图像风格转换和超分辨率中使用的方法它利用高级特征来比较生成的图像和地面实况图像,从而提高合成图像的我们适应这种感知损失,并在第二节详细介绍。4.1.– gen:对抗性损失允许我们的模型生成整体逼真的图像,并将其定义为:我们描述了我们提出的流流GAN鉴别器的细节。四点二。8L. Chen,Z.Li,RK Madoox,Z.Duan和C.徐视频流+光流流FlowNet264x4x4x43D转换256x4x4x43D Conv256x4x4x43D Conv256x4x4x43D Conv4.1自动编码器和感知损失在定义的结构中,我们采用了Johnson等人提出的感知损失。[17],它反映了图像的感知级相似性。感知损失定义为:perc(v、(3)其中是特征提取网络。我们训练一个自动编码器来重建视频片段。为了让网络对结构特征更敏感,我们在卷积层之后应用了六个残差块。我们从头开始训练自动编码器,然后固定权重,并使用其编码器部分作为来计算训练完整模型的感知损失。4.2三流GAN鉴别器用于合成视频的GAN模型[30]考虑了最大可能性。通过3D卷积隐含地改变。为了生成锐利和平滑变化的视频帧,我们提出了一个三流判别器网络( 见 图 2 ) 。 5 ) 从 真 实 视 频( Vj ) 中 区 分 大 小 确 定 的视 频(Vj),其不仅明确地考虑运动,而且还考虑输入语音信号的条件。输入到视频播放器的是带有相应音频的视频剪辑。我们有以下三个流。对于音频流(也用于我们的Gen-音频流图5:三流GAN鉴别器图示erator),我们首先将原始音频转换为log-mel频谱图,然后使用四个卷积层,然后是一个全连接层来获得1D向量。我们复制它以匹配来自其他流的特征对于视频流,我们使用四个3D CNN层来提取视频特征。此外,我们还包括一个光流流,出席明确的运动变化我们微调了在FlyingChairs数据集上预训练的FlowNet [11],以提取光流,然后应用四个3D CNN层来提取特征。最后,我们在通道维度上连接三个流特征,并让它们通过两个卷积层以输出鉴别器概率。我们调整了失配策略[25],以确保我们的神经元对失配的音频和视觉信息也很敏感。因此,鉴别器损失被定义为:dis=−logD([sj,vj])-λplog(1−D([sj,v]))-λulog(1−D([sj,vk])),ki=j,(4)32x1x1转换64x3x3Conv128x3x3Conv256x3x3转换FC层64x4x4x43D转换256x4x4x43D Conv256x4x4x43D Conv256x4x4x43D Conv512x3x3x33D Conv1x1x4x43D转换唇动生成概览9表1:数据集信息。验证集:已知的说话者,但看不见的句子。测试集:看不见的说话者和看不见的句子数据集网格LRWLDC火车211k(37.5小时)841k(159.8h)36k(6.4h)Val.23(4.2小时)N/A4k(0.7h)测试7公里(1.3小时)40k(7.8h)6.6k(1.2h)其中vk表示失配真实视频。我们将λp和λu都设为0。5在我们的实验中光流流的性能在第2节中讨论五点三。5实验在本节中,我们首先介绍数据集和实验设置,以及我们的适应性评估指标。然后,我们展示了消融研究并与最新技术水平进行了比较。最后,我们展示了现实世界的小说的 例子。5.1数据集和设置我们在GRID [8]、LRW [7]和LDC [26]数据集上进行了实验(见表1)。①的人。GRID中有33个不同的扬声器。每个演讲者有1000个短视频。LRW数据集由数百个不同的说话者说出的500个不同的单词组成。在LDC数据集中有14个说话者,其中每个说话者阅读238个不同的单词和166个不同的句子。GRID和LDC中的视频我们的数据由两部分组成:音频和图像帧。网络可以输出不同数量的帧。在这项工作中,我们只考虑生成16帧的嘴部区域。当视频以25 fps采样时,合成图像帧的时间跨度为0.64秒。我们使用滑动窗口的方法(窗口大小:16帧,重叠:8帧),以获得训练和测试视频样本的原始视频。音频:我们以41.1 kHz的采样率从视频文件中提取音频。每个输入音频的长度为0.64秒(0.04× 16)。为了对音频进行编码,我们首先通过计算对数幅度梅尔频谱(LMS)将原始音频波形变换到时频域当我们计算LMS时,连续帧之间的样本数量、FFT窗口的长度和Mel频带的数量分别为512、1024和128此操作将把0.64秒的原始音频转换为64×128的时频表示。图像:首先,我们从视频中提取所有图像帧。然后,我们提取嘴唇标志[18]并裁剪嘴唇周围的图像。界标仅用于裁剪和评估。我们将所有裁剪的图像调整为64× 64。因此,每个0.64秒的音频对应于16× 3× 64× 64 RGB图像序列。在训练过程中采用Adam优化器,固定学习率为2× 10- 4,权值衰减为4× 10- 4,系数β1和β2分别为0.5和0.999。10L. Chen,Z.Li,RK Madoox,Z.Duan和C.徐分别我们根据[15]中描述的方法初始化所有网络层。所有模型都在一台NVIDIA GTX 1080Ti上进行训练和测试。在测试期间,生成一个单个帧的成本为0。015秒。5.2评估指标为了评估合成视频帧的质量,我们计算峰值信噪比(PSNR)和结构相似性指数度量(SSIM)[32]。为了评估所生成的图像帧的锐度,我们计算基于感知的无参考客观图像锐度度量(CPBD)[21]。据我们所知,没有定量指标已被用来评估所产生的嘴唇运动视频的准确性。因此,为了评估所述大小确定的大小是否取决于是否在输入音频上执行了平滑移动,通过计算地标距离(LMD)提出了一种新的度量。我们使用Dlib [18],一种基于HOG的面部标志检测器,它也广泛用于嘴唇运动生成任务和其他相关工作[29,28],以检测v和v上的嘴唇和标记,并将其标记为LF和LR,repectivy。为了消除几何差异,我们校准了LF和LR中的唇标志的两个平均点。然后,我们计算LF和LR上的每个对应的地标对之间的欧氏距离,最后将它们与时间长度和地标点的数量进行归一化。LMD定义为:1 1ΣT ΣPLMD= ×TPt=1p=1LRt,p−LFt,p其中T表示视频的时间长度,P表示每个图像上的界标点的总数(20个点)。5.3消融研究我们进行烧蚀实验以分别研究完整模型中三个组件的贡献:相关损失、三流GAN判别器和感知损失。消融研究在GRID数据集上进行。结果见表1。二、 下面也讨论了不同的实现方式。以下消融研究在GRID数据集上进行训练和测试感知损失和重建损失。 通常,我们发现感知损失可以帮助我们的模型生成具有更高图像质量的更准确的嘴唇运动,并且同时提高图像锐度(参见方法(c)V.S.方法(e)在表中。2)的情况。如果我们比较方法(b)和方法(e),我们可以发现逐像素重建损失可以提高LMD、SSIM和PSNR,同时降低CPBD。相关模型当从最终目标函数Eq.2中,结果在LMD、SSIM和PSNR方面比最终目标差,证明了相关性损失在生成更准确的嘴唇移动中的重要性(参见方法(d)对方法(s))。方法(e)或方法(g)对比.方法(h))。唇动生成概览11表2:GRID数据集上的消融结果。完整模型(方法(e))使用第2节中所述的所有四种损失。4.第一章对于LMD,越低越好。SSIM、PSNR和CPBD越高越好。我们将每个指标的前2个领先分数方法(一)(b)第(1)款(c)第(1)款(d)其他事项(e)(f)第(1)款(g)(h)(一)pixCCCCCCCC伊斯佩尔茨CCCCCCCC阿利科尔CCCCCCc orr(Non-定义Corrr. )C三流(Three-Stream)CCCCC根(双流)CC根(三应力)帧差)C度量LMD1.24 1.31 1.38 1.311.18 1.96 1.39 1.42 1.40SSIM0.77 0.71 0.720.73 0.52 0.68 0.59 0.66PSNR29.3629.7929.6629.8029.98 28.6CPBD0.01 0.18 0.17 0.21 0.18 0.22此外,我们研究了一种模型变体,非导数相关性(见表1中的方法(f))。2),分析了φs和φv应用导数特征的必要性。代替使用音频特征的导数和光流,该变体仅直接使用音频特征fs和视频帧v作为输入。这里既不计算导数也不计算光流。其他设置(例如,网络结构和损失函数)与完整模型(表1中的方法(e)2)的情况。方法比较(e)和表中的方法(f)。2表明,导数相关模型优于非导数相关模型的指标,如SSIM,PSNR和LMD。关于非导数相关模型,界标距离甚至比没有相关损失的模型(方法(d))更差。实验结果证明了我们的假设,这是音频和视频信息的衍生物,而不是直接的特征是相关的。此外,由于非导数相关模型无法隐式地学习导数特征(即,卷积层无法将特征变换为它们的导数),使用音频和视觉特征的导数来进行相关,作为强大的专家先验知识是必要的。GAN鉴别器。我们发现,Rebiggen大大改善了CPBD结果(见表1中的方法(a)和方法(e))。2),证明了鉴别器能提高帧的清晰度。此外,我们使用两个模型变体来研究所提出的三流GAN鉴别器的有效性。Two-Stream(Two-Stream)仅包含音频流和视频流。gen(三强度帧差)用逐帧差分代替光流,即,L1相邻帧之间的距离首先,与双流变体相比,我们的具有所提出的三流判别器的完整模型方法(g)),其指示明确地对帧之间的运动变化第二、12L. Chen,Z.Li,RK Madoox,Z.Duan和C.徐地面实况完整模型Chung等人Vondrick等人GRID数据集LDC数据集LRW数据集图6:与最先进的方法相比,我们的模型在三个测试数据集上生成的视频。在测试集中,没有一个说话者在训练集中表3:三个数据集的结果。本表中提到的模型是从头开始训练的(不包括预训练),并在每个数据集上进行测试。我们用粗体标出每一个领先的分数方法GRID LDC LRWLMD SSIM PSNR CPBD LMD SSIM PSNR CPBD LMD SSIM PSNR CPBDG. T.0N/A N/A0.1410N/A N/A0.2110N/A N/A0.068沃德里克[30]2.380.6028.450.1292.340.75 27.960.1603.280.3428.030.082Chung [6]1.350.74 29.360.0162.130.5028.220.0102.250.4628.060.083完整模型1.18 0.7329.890.1751.820.5728.870.1721.920.53 28.650.075与三流帧差变体相比,全模型产生更真实(更高的CPBD)和更精确的嘴唇运动(更低的LMD)(参见方法(e)和(i)),这表明对于建模运动变化,光流是比逐帧差更好的表示。5.4与最新技术水平的在本节中,我们将我们的完整模型与两种最先进的方法进行比较。ods [30,6]。我们将[30]扩展到条件GAN结构,它接收与我们的模型相同的目标图像信息和音频信息。为了确保与[6]的公平比较,我们做了一些更改:我们没有预训练身份编码器;我们改变了两个卷积层以适应图像大小(64 × 64);我们省略了去模糊后处理,因为我们的目标是直接比较生成模型本身。定量结果见表。3. 我们在三个不同的数据集上测试我们的模型。结果表明,我们提出的模型优于国家的最先进的模型在大多数的指标。在LMD和PSNR方面,我们的完整模型显示出比使用鉴别器[30]或重建损失[6]的方法更好的性能。Chung等人提出的模型基于重建损失,生成模糊的图像,这使得它们看起来不真实。我们可以在CPBD列中看到这种现象。LRW数据集由在野外说话的人组成,因此就嘴唇区域而言,分辨率要小得多我们需要将地面实况放大到64 ×64,这会导致较低的分辨率和唇动生成概览13地面实况合成帧地面实况合成帧地面实况合成帧地面实况合成帧图7:LRW测试集上全模型的随机选择输出。视频中的嘴唇形状不仅与地面实况很好地同步,而且还保持身份信息,例如(胡子对无胡须)CPBD。我们怀疑这就是为什么我们在LRW数据集中实现了比地面真实更好的CPBD的原因与其他方法比较的定性结果如图所示。六、我们的模型在所有三个数据集上生成更清晰的视频帧,这也得到了CPBD结果的支持,即使输入的身份图像分辨率较低。我们在图中示出了我们的方法的附加结果。7.第一次会议。我们的模型可以生成逼真的嘴唇运动视频,是强大的视角,嘴唇形状和面部特征在大多数时候。然而,有时我们的模型无法保留肤色(见图2中的最后两个例子)。7),我们怀疑这是由于LRW数据集中的数据分布不平衡造成的。此外,该模型难以捕捉每个人的嘴唇变形量,这是从单个图像学习时的固有问题5.5真实世界小说范例为了在现实世界中生成给定未配对身份图像和音频的视频所提供的音频的源身份不同于目标身份,并且在数据集之外,我们的模型仍然可以表现良好。结果示于图图8示出了在GRID数据集中选择名人的三个身份图像的示例,其中在模型训练的数据集之外选择名人的三个身份图像,并且在GRID数据集中选择输入音频。对于我们在LRW上训练的模型,身份图像和音频都是不可见的。对于在GRID上训练的模型,我们将源身份排除在训练之外。由我们的模型生成的视频显示出有前途的定性性能。马斯克和桑德堡的嘴唇区域都旋转了一定程度。我们可以看到,在生成的视频帧中也存在旋转现象此外,我们认为,14L. Chen,Z.Li,RK Madoox,Z.Duan和C.徐网格LRW地面实况网格LRW网格LRW图8:该图示出了基于数据集之外的三个身份图像生成的图像,其也不与来自GRID数据集的输入音频配对。这里使用了在GRID和LRW数据集上训练的两个完整模型进行比较当身份(目标人)也有胡须时,我们的模型还可以在我们生成的剪辑中保留胡须。然而,我们观察到在GRID数据集上训练的模型未能保留身份信息。由于LRW数据集比GRID数据集具有更多的标识(数百个与33),在LRW上训练的模型具有更好的泛化能力。6结论和未来工作本文研究的任务是:给定一个任意的音频语音和一个任意的目标身份的嘴唇图像,生成合成的嘴唇运动的目标身份说的语音。为了在该任务中表现良好,它需要模型不仅考虑目标身份的保留、合成尺寸的图像的照片真实感、视频中图像的一致性和平滑度,而且还学习语音音频和嘴唇运动之间的相关性。我们通过提出一个新的发电机网络,一个新的视听相关损失和一个完整的模型,认为四个互补的损失。与两种最先进的方法相比,我们在三个数据集上显示出显着的未来有几个方向。首先,非固定长度的嘴唇运动生成是需要的一个更实际的目的。第二,它是有价值的,我们的方法扩展到一个生成完整的脸在一个端到端的范例。致谢这项工作得到了NSF BIGDATA 1741472,NIH资助R 00 DC 014288和罗切斯特大学AR/VR试点奖的部分支持。我们衷心感谢Markable,Inc.腾讯和NVIDIA的支持,捐赠了用于本研究的GPU。本文仅反映作者的观点和结论,而不是资助机构。唇动生成概览15引用1. Assael,Y.M.,Shillingford,B. Whiteson,S.,de Freitas,N.:Lipnet:端到端句子级唇读。arXiv预印本arXiv:1611.01599(2017)2. Chandrasekaran , C. , Trubanova , A. , Stillittano , S. , Caplier , A. ,Ghazanfar,A.A.:视听语音的自然统计。PLOS计算生物学5(7)(2009)3. Charles,J. Magee,D.,Hogg,D.:虚拟不朽:从电视剧中复活角色。In:Hua,G., 我走了H (eds. 2016年12月26日,中国国际商会第五届年会在北京举行。pp. 879-886 SpringerInternationalPublishing,Cham(2016)4. Chen,L.,中国地质大学,Srivastava,S.,Duan,Z.,徐丙:深度跨模态视听生成。在:Proc.多媒体专题研讨会. ACM(2017)5. 陈旭,段玉,Houthooft河Schulman,J.,萨茨克弗岛Abbeel,P.:Info-gan:通过信息最大化生成对抗网络进行可解释表示学习。In:Proc.NIPS.柯兰联营公司(2016年)6. Chung,J.S.,Jamaludin,A.,齐瑟曼,A.:你这么说的?In:Proc.BMVC. 施普林格(2017)7. Chung,J.S.,齐瑟曼,A.:在野外读唇语。In:Lai,S.H.,莱佩蒂你好,K.是 的 , Y 。( eds. 2016 年 CCV2016 年 CC V 2016 年 pp.87-103SpringgerInternational Publishing,Cham(2017)8. Cooke,M.,巴克,J.坎宁安,S.,Shao,X.:语音感知和自动语音识别的视听语料库The Journal of the Acoustical SocietyofAmerica120(5),24219. Cutler,R.,达维斯湖S. :L〇〇kwhos t a l k i n g:S p e k e r d e t e t i o nu s i n g v i d e d e c t i n g和音频相关性。In:Proc.ICME. IEEE(2000)10. Das,P.,徐,C.,Doell河科索,J.J.:短短几句话就有一千帧:通过潜在主题和稀疏对象拼接对视频进行语言描述。In:Proc. CVPR. IEEE(2013)11. 做得很好A Fischer,P., Ilg,E.,Hsser,P., 哈兹拉布, Golkov,V.,vandderSmagt,P.,Cremers,D.Brox,T.:Flownet:使用卷积网络学习光流见:Proc.ICCV。IEEE(2015)12. Fan,B.,Wang,L.,美国,宋飞凯Xie,L.:具有深度双向LSTM的照片真实说话头。在:ICASSP中。IEEE(2015)13. Garrido,P., Valgaerts,L., Sarmadi,H., Steiner,I., Varanasi,K.,P'erez,P.,Theobalt,C.:Vdub:修改演员的面部视频以进行合理的视觉对准,以进行配音。ComputerGraphicsForum34(2),19314. Goodfellow,I.J.Pouget-Abadie,J.Mirza,M.,徐,B.,沃德-法利,D.,Ozair,S.,南卡罗来纳州考维尔Bengio,Y.:生成性对抗网。In:Proc.NIPS.柯兰联营公司(2014年)15. 他,K.,张,X.,Ren,S.,孙杰:深入研究整流器:在imagenet分类上超越人类水平的性能。In:Proc.CVPR。IEEE(2015)16. 霍特林格,H。:RelatinsBetwenTwoSetsofVariates,pp. 162- 190。纽约州纽约市,纽约州(1992年)17. Johnson,J.,Alahi,A.,李菲菲:实时风格转换和超分辨率的感知损失。在:Leibe,B.,Matas,J.,塞贝,N.,Welling,M.(编辑)计算机Vision-E CC V 2016. pp. 694- 711。SpringerInternationalPublishing,Cham(2016)18. K ing,D. E. :D11b-ml:用于工具箱的机器人。JMLR10,175519. Kulkarni,G.,Premraj,V.,Dhar,S.,Li,S.,崔,Y.,Berg,A.C.,Berg,T.L.:婴儿语:理解和生成简单的图像描述。In:Proc. CVPR.IEEE(2011)16L. Chen,Z.Li,RK Madoox,Z.Duan和C.徐20. Mirza,M.,Osindero,S.:条件生成对抗网。ArXiv预印本arXiv:1411.1784(2014)21. Narvekar,N.D.,Karam,L.J.:无参考图像模糊度量基于模糊检测的累积概率(CPBD)。TIP。第I卷20(9),267822. Odena,A.,Olah,C.,Shlens,J.:辅助分类器gans的条件图像合成In:Proc.ICML. PMLR(2017)23. Owens,A.,Isola,P.,McDermott,J.,Torralba,A.,阿德尔森E.H.弗里曼,W.T.:视觉指示的声音。In:Proc. CVPR. IEEE(2016)24. Rasiwasia,N.,佩雷拉,J.C.,Coviello,E.,Doyle,G.,Lanckriet,G.R.G.,利维河Vasconcelos,N.:一种新的跨模态多媒体检索方法。In:Proc. Multimedia. ACM(201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功