学习声音背后的面孔

25 浏览量更新于2023-10-19 收藏 2.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1Speech2Face：学习声音背后的面孔吴泰铉TaliDekelChangilKimInbar MosseriWilliam T.Freeman<$Michael Rubinstein Wojciech Matusik<$†麻省理工学院CSAIL摘要我们能从一个人说话的方式中推断出他的长相吗？在本文中，我们研究了从一个人说话的短音频记录中重建一个人的面部图像的任务。我们设计并训练了一个深度神经网络，使用数百万自然互联网/YouTube视频来执行这项任务。在训练过程中，我们的模型学习语音-面部相关性，使其能够生成捕获说话者的各种物理属性（如年龄，性别和种族）的图像。这是以自我监督的方式完成的，通过利用互联网视频中的人脸和语音的自然共现，而不需要显式地我们评估和数字量化真实面貌（供参考）语音人脸重建真实面貌（供参考）语音人脸重建1. 介绍当我们听一个人说话，而没有看到他/她的脸，在电话里，或在收音机里，我们经常建立一个心理模型的人看起来。言语和外表之间有着很强的联系，其中一部分是言语产生机制的直接结果：年龄、性别（这会影响我们声音的音高）、嘴的形状、面部骨骼结构、薄或厚的嘴唇--所有这些都会影响我们发出的声音。此外，其他声音与外表的相关性源于我们说话的方式：语言，口音，速度，发音-这些语音的属性通常在民族和文化之间共享，这反过来又可以转化为共同的身体特征[12]。我们在这项工作中的目标是研究我们在多大程度上可以从一个人说话的方式推断出他的长相具体地，根据说话的人的短输入音频片段，我们的方法直接以正面，中性表情）。图1显示了我们方法的示例结果显然，面孔和声音之间不存在一一对应的关系。因此，我们的目标不是预测准确面部的可识别图像，而是捕获与输入语音相关的人的主要面部特征。三位作者对这项工作的贡献相等电子邮件：taehyun@csail.mit.edu补充材料（SM）：https://speech2face.github.io图1. 上：我们考虑的任务是从一个简短的语音音频片段重建一个人的脸的图像。下图：我们的Speech 2Face模型产生的几个结果，它只需要一个音频波形作为输入;显示的真实面孔仅供参考。请注意，我们的目标不是重建一个准确的人的图像，而是恢复与输入语音相关的特征物理我们所有的结果，包括输入音频，都可以在补充材料（SM）中找到。我们设计了一个神经网络模型，该模型将复杂的短语音片段的频谱图作为输入，并预测代表人脸的特征向量。更具体地，预测的面部特征表示从倒数第二层（即，分类层之前的一层）的预训练人脸识别网络[39]。我们使用单独训练的重建模型将预测的面部为了训练我们的模型，我们使用AVSpeech数据集[13]，该数据集由来自YouTube的数百万个视频片段组成，其中有超过10万个不同的人在说话。我们的方法是以自我监督的方式训练的，即，它简单地使用视频中语音和面部的自然共现，而不需要附加信息，例如，人工注释。7539Speech2face7540数以百万计的自然视频人脸识别4096-D面特征损失波形频谱图语音编码器4353764人脸解码器侦察脸Speech2Face模型图2. Speech2Face模型和训练管道。我们网络的输入是一个复杂的频谱图，它是从一个人说话的短音频片段中计算出来的。输出是4096-D人脸特征，然后使用预先训练的人脸解码器网络将其解码为人脸的规范图像[10]。我们训练的模块由橙色框标记我们训练网络回归到真实的面部特征，通过将人的图像（视频中的代表性帧）馈送到面部识别网络[39]并从其倒数第二层提取特征来我们的模型是在AVSpeech数据集的数百万个语音-人脸嵌入对上训练的我们当然不是第一个试图从人们的声音中推断出他们的信息的人。例如，从言语中预测年龄和性别已经得到了广泛的研究[52，16，14，7，49]。实际上，可以考虑通过首先从人的语音预测一些属性他们的年龄，性别等[52]），然后从数据库中获取最适合预测属性集的图像，或者使用属性生成图像[51]。然而，该方法具有若干限制。首先，从输入信号中预测属性需要存在鲁棒且准确的分类器，并且通常需要用于监督的地面真值标签。例如，从语音中预测年龄，性别或种族需要构建专门训练的分类器来捕获这些属性。更重要的是，这种方法将预测的面部限制为仅类似于先验的特定属性集。我们的目标是研究一个更普遍的、开放的问题：什么样的面部信息可以从语音中提取出来？我们预测完整视觉外观的方法（例如，面部图像）允许我们探索它而不限于预定义的面部特征。具体来说，我们表明，我们重建的人脸图像可以作为一个代理来传达的人，包括年龄，性别和种族的视觉属性除了这些主要特征，我们的重建揭示了颅面特征之间不可忽视的相关性（例如，鼻子结构）和声音。这是在没有先验信息或存在用于这些类型的精细几何特征的准确分类器的情况下实现的此外，我们认为，直接从语音预测人脸图像可以支持有用的应用，例如根据说话者的语音将代表性的人脸附加到电话/视频通话中据我们所知，我们的论文是第一个探索直接从语音中重建人脸图像的学习我们在不同的说话者身上测试我们的模型，并对我们重建的不同方面进行数值评估，包括：仅仅基于音频查询可以检索到真实的人脸图像;以及我们重建的人脸图像与真实面部图像（该方法未知）的年龄、性别、种族和颅面特征。2. 相关工作视听跨模态学习。音频和视频信号的自然共现通常提供丰富的监督信号，而没有明确的标记，也称为自我监督[11]或自然监督[22]。Arand- jelovic和Zisserman [4]利用这一点，通过训练深度网络来学习通用的视听表示，以分类给定的视频帧和短音频片段是否相互对应。Aytar等人[6]提出了一个学生-教师培训程序，其中使用一个完善的视觉识别模型将知识转换为声音模态，使用未标记的视频。同样，Castrejonet al.[8]设计了一个共享的视听表示，是不可知的形式。这种学习的视听表示已用于跨模态检索[37，38，45]，场景中的声源定位[41，5，36]或声源分离[53，13]。我们的工作利用了互联网视频中人脸和声音的自然共现。我们使用预先训练的人脸识别网络将面部信息传输到语音模态。语音-人脸联想学习。面孔和声音之间的联系已经在许多科学学科中得到了广泛的研究。在计算机视觉领域，已经提出了不同的跨模态匹配方法：二元或多向分类任务[33，32，43];度量学习[25，19];以及使用多任务分类损失[49]。从面部和语音中提取的跨模态信号已被用于消除浊音和清音辅音的歧义[35，9];识别视频中的活动说话者与非说话者[18，15];分离多个说话者的混合语音信号[13];从语音中预测嘴唇运动[35，3];或学习语音和情感之间的相关性[2]。我们的目标是通过从短音频片段直接重建人脸图像来学习人脸特征和语音之间的：预先训练的固定：可培训0158766语音-人脸对7541CONVCONVCONV CONV CONV CONVCONV平均池层输入ReLUReLUReLUMAXPOOLReLUMAXPOOLReLUMAXPOOLReLUMAXPOOLReLUReLU中国足球俱乐部渠道26464128–128–128–256–512512512–40964096步幅–1112 ×112 ×112 ×112 ×1122111内核大小–4 ×44 ×44 ×42 ×14 ×42 ×14 ×42 ×14 ×42 ×14 ×44 ×44 ×4∞ ×11 ×11× 1表1. 语音编码器架构。对于一个6秒的音频片段（可以是任意长），输入声谱图的维度为598× 257（时间×频率），表中的两个输入通道对应于声谱图视觉重建从音频.各种最近已经提出了从不同类型的音频信号重建视觉信息的方法。在一个更加面向图形的应用程序中，从音乐或语音中自动生成面部或身体动画已经引起了人们的兴趣[47，24，46，42]。然而，这样的方法通常先验地参数化重建的对象，并且其纹理是手动创建的或从纹理的集合中挖掘在像素级生成方法的背景下，Sadoughi和Busso [40]从语音中重建嘴唇运动，Wiles等人。[50]使用音频（或另一张脸）控制给定脸的姿势和表情。虽然与音频没有直接关系，但Yan et al.[51]和刘和Tuzel [29]从给定的面部属性作为输入合成面部图像我们的模型recon- struct直接从语音的人脸图像，没有额外的信息。3. Speech2Face（S2F）模型自然人脸图像中面部表情、头部姿势、遮挡和光照条件的巨大变化使得Speech2Face模型的设计和训练变得非常重要。例如，从输入语音回归到图像像素的直接方法不起作用;这样的模型必须学会分解出数据中的许多不相关的变化，并隐含地提取面部的一些有意义的内部表示--这本身是一项具有挑战性的任务。为了避开这些挑战，我们训练我们的模型回归到面部的低维中间表示更具体地说，我们利用VGG-Face模型，一种在大规模人脸数据集上训练的预训练人脸识别模型[39]，并从网络的倒数第二层（fc 7）中提取4096-D人脸特征这些面部特征被证明包含足够的信息来重建相应的面部图像，同时对许多上述变化具有鲁棒性[10]。我们的Speech 2Face管道，如图所示。2、由两个主要组成部分组成：1）语音编码器，其将语音的复杂频谱图作为输入，并且预测将对应于相关联的面部的低维面部特征;以及2）面部解码器，其将面部特征作为输入并产生标准形式（面向前方且具有中性表情）的面部图像。在训练过程中，人脸解码器是固定的，我们只训练语音编码器是我们设计和训练的模型，而对于面部解码器，我们使用了[10]之前提出的模型我们现在详细描述这两种模型。语音编码器网络。我们的语音编码器模块是一个卷积神经网络，它将短输入语音的频谱图转换为伪面部特征，然后将其子帧送入面部解码器以重建面部图像（图10）。2）的情况。语音编码器的架构总结在表1中。卷积层，ReLU和批量归一化[21]的块与最大池化层交替，最大池化层仅沿频谱图的时间维度进行池化，同时保留携带的频率信息。这是为了保留更多的声音特征，因为它们更好地包含在频率内容中，而语言信息通常跨越更长的持续时间[20]。在这些块的末尾，我们沿着时间维度应用平均池化。这使我们能够有效地聚合信息随着时间的推移，使模型适用于不同持续时间的输入语音。然后将合并的特征输入到两个完全连接的层中以产生4096-D面部特征。面部解码器网络。人脸解码器的目标是从低维面部特征重建面部图像。我们选择排除任何不相关的变化（姿势，灯光等），同时保留面部特征为此，我们使用Cole等人的面部解码器模型。[10]以重建仅包含具有中性表情的正面化人脸的规范人脸图像我们使用从VGG-Face模型中提取的相同人脸特征作为人脸解码器的输入来训练这个模型该模型单独训练，并在语音编码器训练期间保持固定。训练我们的语音编码器以自我监督的方式进行训练，使用视频中说话者的语音和面部图像的自然共现。为此，我们使用 AVSpeech数据集[13]，一个大规模的从每个视频剪辑中提取包含说话者面部的单个帧，这作为我们的语音编码器的监督信号-语音编码器的特征vs被训练来预测vf。损失函数的一个自然选择是特征之间的L1距离：vf−vs1。然而，我们发现，培训经历缓慢和不稳定的进展这一损失本身。为了稳定的训练，我们引入广告损失条款，由Castrejon等人。[8]的一项建议。具体地，我们另外惩罚面部编码器的最后一层的激活的差异，fVGG：R4096→ R2622，即，VGG-Face的fc 8和面部解码器的第一层的fdec：R4096→R1000，它们在训练语音编码器期间被预先训练和固定。我们两个人7542原始图像（参考）框架）图像重建从音频重建原始图像（参考）框架）图像重建从音频重建图3. AVSpeech测试集的定性结果。对于每个示例（三重图像），我们显示：（左）原始图像，即，- 来自视频的代表性7543帧，该代表性帧在人的面部周围被裁剪;（中）从原始图像中提取的VGG-Face特征的正面化，光照归一化的面部解码器重建;（右）我们的Speech 2Face重建，通过从音频中解码预测的VGG-Face特征计算。在这个图中，我们强调了我们方法的成功结果一些故障情况如图所示。11，更多的结果（包括所有示例的输入音频）可以在SM中找到。7544（一）年龄(a) 属性的混淆矩阵（b）AVSpeech数据集统计图4. 面部属性评估。（a）混淆矩阵（行归一化）比较我们的Speech 2Face图像重建（S2 F）的分类结果和从原始图像中获得的性别，年龄和种族的分类结果;对角线趋势越强，性能越好由于（b）中所示的训练集分布不均匀，（a）中的种族表现似乎存在偏差预测和地面实况面特征到这些层以计算损失。最终损失为：¨ ¨2得到的训练和测试集分别包括170万和15万个光谱-面部特征对。我们的网络在TensorFlow中实现，并由ADAM优化[27]L=100f（v）−f（v）+λ¨vf−vs¨总12月f日十二月一日1vfǁvǁ¨2其中β1= 0。5，k= 10−4，学习率为0.001，+λ2Ldistill（fVGG（vf），fVGG（vs）），（1）其中λ1=0。025，λ2=200。调整λ1和λ2，使得每个项相对于vs的梯度幅度在早期迭代（我们在第1000次迭代时测量）处于类似的尺度内。知识-lation lossLdistill（a，b）=−ip （ i ）（a）logp（i）（b），其中每10，000次迭代的指数衰减率为0.95，以及3个时期的批量大小为8。4. 结果我们在AVSpeech数据集[13]和VoxCeleb数据集[34]上定性和定量地测试了我们的模型。我们的目标是获得洞察力，并量化p（a）=Δexp（ai/T）jexp（aj/T），被用作十字架的替代品。我们的Speech2Face重建熵损失，它鼓励一个网络的输出近似于另一个网络的输出[17]。按照作者的建议使用T=2，这使得激活更平滑。我们发现，在这些广告层上强制相似性可以稳定并加快训练过程，此外，在最终的质量上也有轻微的改善实作详细数据。在AVSpeech中，我们使用从每个视频片段开始的最多6秒的音频。如果视频剪辑短于6秒，我们会重复音频，使其至少变为6秒长。音频波形以16 kHz重采样，并且仅使用单个通道光谱图的计算类似于Ephrat et al. [13]通过采用具有25mm的Hann窗口、10 ms的跳长和512个FFT频带的STFT。每个复频谱图S随后经历幂律压缩，得到sgn（S）|S|0的情况。3对于实数和虚数独立，其中sgn（·）表示正负号。我们运行Dlib[26]中基于CNN的人脸检测器，从帧中裁剪人脸区域，并将其调整为224× 224像素。VGG-Face特征从调整大小的面部图像计算收集每个片段的计算的频谱图和VGG-Face的真实的面孔。AVSpeech测试集的定性结果如图所示。3.第三章。对于每个示例，我们示出了说话者的真实图像以供参考（对于我们的模型是未知的），由面部解码器从面部特征（从真实图像计算）重构的面部（第二节）。3），以及从人的语音的6秒音频片段重建的面部，这是我们的Speech2Face结果。虽然看起来有点像普通的面孔，但我们的Speech2Face recruitment捕捉了关于说话者的丰富身体信息，例如他们的年龄，性别和种族。预测的图像还捕获额外的属性，如面部或头部的形状（例如，拉长与圆形），我们经常发现这与说话者的真实外表一致;见图中的最后两行。3例如。4.1. 面部特征评估我们量化了不同的面部属性在Speech2Face重建中被捕获的程度，并测试了我们模型的不同方面。人口统计学属性。我们使用Face++ [28]，这是一种用于计算面部属性的领先商业服务。具体S7545长度cos（deg）L2L148秒43± 6。010. 19± 0。03 9.81±1。74六秒四十五。75± 5。090. 18± 0。029. 42±1。54(a) 根据图像重建时标记的标志（F2F）(b) 标记在我们相应的语音重建上的地标（S2F）面部测量相关性p值上唇高度0.16p<0.05.001侧上唇高度0.26p0<. 001钳口宽度0.11p<0. 001鼻高0.14p<0. 001鼻宽0.35p<0.001唇口区0.17p<0.001下颌idx0.20p<0. 001眦间idx0.21p<0. 001鼻指数0.38p<0.001朱红高度idx0.29p<0.001口面，idx0.20p<0。001鼻面积0.28p<0. 001随机基线0.02(c) Pearson相关系数图5. 颅面特征。我们测量从（a）来自原始图像的面部解码器重建（F2 F）和（b）从我们相应的Speech 2Face重建（S2F）提取的特征之间的相关性;如[30]中所述，从检测到的面部界标计算特征。该表报告了针对每个特征在1，000个测试图像上计算的Pearson相关系数和统计显著性通过比较F2F重建（a）和S2F重建（b）的随机对，计算“鼻指数”的随机基线最后，我们通过在原始图像和Speech2Face重建上运行Face++分类器来评估和比较年龄，性别和种族Face++分类器返回“male”或“female”表示性别，返回一个连续的数字表示年龄，返回四个1图4（a）显示了每个属性的混淆矩阵，将从原始图像推断的属性与从我们的Speech2Face重建（S2F）推断的属性进行比较。参见补充材料，以获得我们从图像中进行的面向解码器重建的类似评估（F2F）。可以看出，对于年龄和性别，分类结果高度相关。对于性别，真实图像和我们从言语中重建的在民族性上，“白人”和“亚洲人”有很好的相关性我们1我们直接引用Face++标签，这不是我们的术语。表2. 特征相似性。我们测量我们的语音预测的功能和相应的面部特征计算的真实图像的扬声器之间的相似性。我们报告平均余弦，L2和L1距离超过5000随机样本从AVSpeech测试集，使用3和6秒的音频片段。3秒6秒图6. 输入音频持续时间的影响。我们比较了在测试时使用3秒（中间一行）和6秒（底部一行）输入语音片段时的面部重建（在这两种情况下，我们使用相同的模型，在6秒片段上训练）。顶行示出了来自视频的代表性帧以供参考。随着语音持续时间的延长，重建的人脸能够更好地捕捉人脸属性。我相信这是因为这些类在数据中的代表性较小（见图中我们对AVSpeech计算的统计数据）。第四条（b）款）。通过利用统计数据来平衡语音编码器模型的训练数据，可以潜在地提高性能，我们将其留给未来的工作。颅面特征。我们评价了文献中常用的颅面测量，以确定面部的捕获率和距离[30]。对于每一个这样的测量，我们计算了F2F之间的相关性（图1）。5（a）），和我们相应的S2F重建（图。第5（b）段）。使用DEST库计算面部标志[1]。请注意，这种评估是可能的，因为我们正在使用归一化的面部（中性表情，额平行），因此面部标志位置之间的差异图5（c）显示了几种测量的Pearson相关系数，从AVSpeech测试集中计算了1，000多个随机样本。可以看出，存在统计学显著性（即，均

下载后可阅读完整内容，剩余1页未读，立即下载