记忆多模态关联桥接：从人脸视频中提取语音

35 浏览量更新于2023-10-14 收藏 1008KB PDF 举报

视听融合

框架应用

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

296通过记忆的多模态关联桥接：从人脸视频中提取语音Minsu Kim*Joanna Hong*Se Jin Park Yong Man Ro†图像和视频系统实验室，KAIST，韩国{ms.k，joanna2587，jinny960812，ymro}@ kaist.ac.kr摘要在本文中，我们介绍了一种新的视听多模态桥接框架，可以利用音频和视频信息，即使是单模态输入。我们利用存储源（即，可视的）和目标（即，音频）模态表示，其中源模态表示是我们被给予的，而目标模态表示是我们想要从存储器网络获得的。然后，我们构建了一个关联的桥梁之间的源和目标的记忆，认为这两个记忆之间的相互关系。通过关联桥学习相互关系，亲（一）（b）第（1）款（c）第（1）款可视模态音频模态融合下游任务可视模态音频模态可视模态提出的桥接框架能够在记忆网络中获得目标模态表征，即使只有源模态输入，并且它为其下游任务提供了丰富的我们将所提出的框架应用于两个任务：唇读和从无声视频重建语音。通过所提出的关联桥和特定于模态的记忆，每个任务知识都被丰富的召回的音频上下文，实现国家的最先进的性能。我们还验证了关联桥正确地涉及源和目标的记忆。1. 介绍最近，许多研究正在处理来自多个来源的不同信息，并发现它们之间的关系[40]。特别是基于深度学习的多模态学习以其强大的性能引起了广泛的关注。虽然经典方法[20，5，52，53]需要手动设计每个模态特征，但使用深度神经网络（DNN）具有从每个模态自动学习有意义的表示的优点包括动作识别[15，25]，对象检测[11]和图像/文本检索[64]在内的许多应用程序都通过分析多视图中的现象来显示通过DNN进行多模态学习的有效性*两位作者对这项工作做出了同等贡献。†通讯作者视频编码器音频编码器下游任务公共潜在空间查询关联桥接与记忆回顾下游任务召回的音频模态297图1.视听多模态学习图解（a）附─两种模式的选择。(b)从两种模态的共同潜在空间学习。(c)所提出的框架提供了一个associative桥梁之间的两种方式，通过记忆。音频（即，目标）模态通过查询视觉（即，源）模态。然后，视觉模态和调用的音频模态都被用于下游任务。视听数据是多模态应用的主要成分之一，例如同步[7，8]，语音识别[1，38]和无声视频的语音重建[39，3]。随着对视听应用的需求的快速增长，已经对如何有效地处理视听数据进行了研究。处理视听数据有两个主流。首先是从两种模态中提取特征并将其融合以实现互补效果，如图所示。第1（a）段。这样的研究[38，1，36]试图找到最适合的DNN架构来融合模态。常用的方法有早期融合、晚期融合和中期融合。这些融合方法被认为是简单的，但有效地提高了给定任务的性能。然而，由于两种模态对于融合都是必要的，因此当模态之一缺失时，这些方法不能工作。第二个是通过训练DNN找到两种模态的共同隐藏表示（图2）。（b）款。与第一种方法不同的是，它可以利用来自学习的跨模态298具有单模态输入的表示。这可以通过使用度量学习[7，8]找到不同模态的公共潜在空间来实现，或者使用知识蒸馏[63]来类似于包含给定任务的丰富信息的其他模态。然而，减少异质性差距[21]（由不同模态的不一致分布引起）仍然被认为是一个具有挑战性的问题[19，37]。在本文中，我们提出了一种新的多模态桥接框架，特别是在音频语音模态和视觉人脸模态。所提出的框架带来了上述两种视听多模态学习方法的优点，同时减轻了每种方法所包含的问题。也就是说，即使仅提供单模态输入，它也可以在推理期间获得音频和视觉上下文这为可能遭受信息不足的单模态任务提供了具有多模态信息的明确互补知识。此外，我们的工作可以从寻找不同模态的共同代表中解脱出来，如图所示。第1段（c）分段。为此，我们建议通过包含两个模态特定存储器的存储器网络[55，32]来处理视听数据：源密钥存储器和目标值存储器。每个存储器分别存储成对布置的视觉和然后，在两个模态特定存储器之间构建关联桥，以通过用源模态表示查询源键存储器来因此，当一种模态（即，源）时，所提出的框架可以调用其它保存的模态（即，target）通过关联桥从目标值存储器中读取。这使得它能够用调用的目标模态信息来补充单模态输入因此，我们可以丰富下游任务的任务解决能力使用视听数据在两个应用上验证所提出的框架：唇读和通过使用视觉模态作为源模态和音频模态作为目标模态从无声视频进行语音重建。概括起来，本文的主要贡献如下：• 我们提出了一个新颖的视听多模态桥接框架，使其能够利用多模态的信息（即音频和视频模态）与单模态（即，视觉）输入。• 我们在两个应用程序上验证了所提出的框架的有效性：唇读和语音重建从无声的视频和实现国家的最先进的表演。此外，我们设想关联桥充分地将源记忆和目标记忆联系起来。• 通过所提出的特定于模式的存储器操作（即，按源模态查询和调用目标模态），则不需要找到不同模态的公共潜在空间。我们通过比较所提出的框架与找到多模态数据的共同潜在空间的方法来分析它。2. 相关工作2.1. 视听资料视听多模态学习是当前研究的热点之一。使用DNN的视听多模态学习有两类：融合和寻找跨模态表示的公共潜在空间。融合方法[48，33，10]旨在利用不同模态的互补信息，并实现与单峰方法相比的高性能。他们试图找到给定任务的最佳融合架构[1、34、36、28]。然而，由于融合方法接收所有模态作为输入，如果其中一个不可用，则它们不能正常工作从多模态数据中找到共同潜在空间的学习方法[35，19，4，24]旨在减少两种模态之间的异质性差距。一些作品[7，8，14]已经提出了度量学习方法和对抗学习方法来找到共同的表示。其他作品[63，2]已经提出使用知识蒸馏[ 18 ]从给定任务的高级模态学习，该知识蒸馏[18]引导学习的特征类似于高级模态特征。尽管找到共享的潜在空间或引导一个模态表示以类似于另一个模态表示具有使用具有单模态输入的两个模态之间的公共信息的优点，但是减少多模态数据之间的异质性差距被认为是一个具有挑战性的问题[64，37]。在本文中，我们试图不仅采取的优势而且还减轻了每种方法的问题。我们建议使用两个特定于模态的记忆网络与关联桥连接来在推理过程中，即使输入是单模态的，所提出的框架也可以利用源和召回的目标模态上下文。此外，由于每个模态都在其对应的模态特定模块上工作，因此我们可以绕过寻找共享潜在空间的困难2.2. 存储器网络记忆网络是一种使用外部存储器来增强神经网络的方案[55，46]。他们已经证明了记忆网络在建模序列数据中的长期依赖关系方面的有效性[29]。Miller等人[32]引入键-值配对存储器结构，其中键存储器首先用于相对于查询寻址相关存储器，从值存储器提取寻址值。我们利用键值内存网络[32]，其中键内存用于保存源代码299∈∈∈∈si，j =src src，（1）模态特征，值存储器用于保存目标模态特征。因此，当只有源模态可用时，我们可以通过从值记忆中调用保存的目标模态特征来访问源模态和目标模态上下文。记忆网络也用于多模态建模。Song等人[44]介绍一种用于跨模态检索的跨模态记忆网络。Huang等人.[22]提出了一种用于少量图像和句子匹配的对齐交叉模态记忆网络。使用共享存储器，它们对存储器增强的特征进行编码，这些特征将用于图像/文本匹配。与以前的方法不同，我们提出的框架使用特定于模态的内存网络，其中源键内存保存源模态，目标值内存保存目标模态。2.3. 唇读唇读是一项从嘴唇运动中将语音识别为文本的任务。Chung等人[6]提出单词级视听语料库数据和基线架构。单词级唇读的性能通过3D卷积层，ResNet-34和Bi-RNN的架构[45，38]得到显着改善。一些作品[54，56]使用光流和视频帧来捕获细粒度的运动。Xu等[57]提出了一种用于前端的伪3D CNN，与普通3D CNN相比，它更有效。Zhang等人[61]示出了可以通过利用整个面部作为输入在嘴唇上进行唇读。Martinez等人[31]通过将Bi-RNN更改为多尺度时间CNN来改进后端。众所周知，音频模态通过表现出出色的性能而比视觉模态具有更好的语音识别知识。在本文中，我们试图补充唇视觉信息召回的语音音频信息，从建议的多模态桥接框架。2.4. 无声视频无声视频的语音重建旨在从无声说话的人脸视频中生成声学语音信号Ephrat等人[13，12]首先使用CNN生成语音，并且他们使用基于双塔CNN的编码器-解码器架构对其进行改进，该架构的输入是光流和视频帧。Akbari等人[3]提出预训练自动编码器以重构语音，其解码器部分用于从面部视频生成语音。Vougioukas等人[50]提出了基于GAN的方法，其将视频直接映射到音频波形。Prajwal等人[39]尝试在无约束的单说话者数据集上学习。他们提出了一个模型，该模型由堆叠的3D卷积和基于注意力的语音解码器组成，将任务制定为序列-排序问题由于人脸视觉运动的信息不足以完全表示语音音频，因此被认为是一个具有挑战性的问题。我们试图通过所提出的联想记忆桥为被回忆的音频表示提供补充信息，并提高其性能。利用视觉和回忆的音频上下文，我们可以在说话者相关和说话者无关设置中生成高质量的语音。3. 多模态关联桥接所提出的框架的主要目标是重新调用目标模态表示与源模态输入。为此，（1）每个模态特定存储器被引导以保存每个模态的代表性特征如图2，所提出的多模态关联桥接框架由两个模态特定的记忆网络组成：源密钥存储器MsrcRN× C和目标值存储器MtgtRN× D，其中N表示存储器槽的数量，并且C和D分别是每个模态特征的维度。从以下子部分，我们将描述所提出的框架的细节，其中视觉模态作为源模态并且音频模态作为目标模态的示例。3.1. 嵌入特定于模态的表示所提出的框架内的每个记忆网络保存每个模态的通用表示通用视觉和音频表示从相应的模态特定的深度嵌入模块产生。视觉（即，源模态）表示fsrcRT×C是通过使用捕获空间和时间信息两者的空间-时间CNN来提取的，并且音频（即，从2D CNN 中嵌入目标模态（target modal）表示，其输入是来自原始音频信号的预处理的mel频谱图，其中T表示每个表示的时间长度。由于成对的音频-视频输入在时间上是同步的，所以两个嵌入模块可以被设计为输出相同的时间长度。3.2. 寻址特定于模式的存储器基于特定于模态的表示，我们首先介绍了如何制定的源和目标寻址向量。寻址向量是指确定在给定查询的存储器槽上向何处分配权重的指导。假设源模态表示f_src作为查询给出，则获得具有源密钥存储器M_src的余弦相似性，Mi·fjsrcij无声视频的语音重建被认为是||2·||fsrc||2 ||2300srcTGTΣsrcsrcTGTTGTTGTTGT2αi，j=src，（2）JJ：仅用于训练多模态关联桥接与记忆图2.概述了所提出的多模态桥接框架，其中以视觉模态为源，以音频模态为目标。源键存储器用于保存源模态特征，目标值存储器用于存储目标模态表示。其中si，j表示第i个和第2个之间的余弦相似度。随着保存损失，目标值存储器Mtgt保存源密钥存储器的存储槽和源模态FEA-目标模态的代表特征因此，我们认为，第j个时间步长中的真。接下来，相关概率为调用的目标模态表示fj从目标-使用Softmax函数获得如下，exp（r·si，j）值存储器Mtgt能够表示原始目标模态表示ftgt。srcNk=1 exp（r·sk，j）3.4.桥接源记忆和目标记忆其中r是相似性的缩放因子。通过计算在整个存储器槽上的概率，第j个时间步长的源寻址向量A j={α1，j，α2，j，. . . 可以得到α N，j}。为了通过使用源键记忆和源模态输入从目标值记忆中回忆目标模态表示，我们在两个模态特定记忆之间构建了具体而言是srcsrcsrc利用源密钥存储器来提供桥。相同的过程被应用于目标模态表示ftgt和目标值存储器Mtgt以产生目标寻址向量Aj={α1，j，α2，j，. . . αN，j}以源寻址向量的形式在源和目标模态即通过源地址TGT的TGTTGTTGT向量Aj，对应的保存的目标表示第j个时间步长。地址向量将是UTI-在调用存储器中保存的表示时被限制src被召回。为了实现这一点，源寻址向量并且连接两个模态特定的记忆，在jsrc被引导以匹配到目标寻址向量Aj以下小节。3.3. 记忆目标模态表征在以下桥接损耗的情况下，Lb rid ge=Ej[DKL（At gt||As rc）]，（5）所获得的目标寻址向量Aj是正确其中DKL（·）表示Kullback-Leibler匹配目标值存储器TGT用于重建tar的Mtgt[27]第10段。在桥接丢失的情况下，源键存储器将源模态表示保存在相同的位置中，得到表示fj。为此，目标值存储器Mtgt被训练以记忆正确的目标模态表示fj。我们首先如下获得重构的目标表示其中目标值存储器保存相应的目标模态特征。因此，当给出源模态表示时，源关键字存储器提供对应的保存的目标模态的位置信息ˆjTGTjtgt·Mtgt.（三）使用源寻址向量，在目标值存储器中生成表示然后，我们设计了重建损失函数来指导- 目标值存储器Mtgt以保存适当的表示。我们最小化目标表示和重建表示之间的欧几里德距离，3.5. 申请下游任务通过关联桥和模态特定存储器，我们可以通过使用源寻址向量Asrc如下获得召回的目标模态特征vtgt目标模态输入目标模态嵌入模块源模态表示目标模态表示softmax后端模块源模态输入源模态嵌入模块余弦相似度召回已调用目标模态功能唇读无声视频联想桥源密钥存储器目标值存储器M下游任务...一=AFv301JL保存= Ej [||ftgtˆjTGT||2].（四）jtgtjsrc·Mtgt.（六）-f=A302Lsrc--src不TGT不TGTTGTJ2⊕·×个←−L×个g（·）L L LL--src这里，通过用源模态特征v tgt查询源密钥存储器Msrc来调用目标模态特征vtgt。算法1所提出的框架的训练算法1：输入：源和目标模态输入表示fsrc. 因此，我们不需要目标模态（Xsrc，Xtgt）和标记y，其中Xsrc={x1}l=1，Xtgt=S s用于调用所述目标模态特征的输入。然后我们还可以除了源模态之外，还将调用的目标模态特征应用于下游任务，通过利用补充信息来改善任务性能。xt gts= 1。学习率η。2：输出：网络Φ3：随机初始化网络Φ4：对于每次迭代执行5：fsrc={fj }j=1 =源嵌入（Xsrc）3.6. 端到端培训所提出的框架可以在端到端的6：f tgt= f jj= l=目标嵌入（X tgt）没做J Jsrc=Softmax（r· CosineSim（Msrc，f ））src方式，包括模态特定嵌入模态-单元、存储器网络和下游子网络。J Jtgt=Softmax（r·CosineSim（Mtgt，f））为此，应用以下任务丢失十：ˆjTGTjtgt·Mtgt11：vj12：结束jsrc·MtgtL任务=g（h（fsrcvtgt）;y）+g（h（fsrcftgt）;y），（7）13：L保存=ΣT||ftgtj=1ˆjTGTTGT||214：L桥= ΣTD KL（A j||A ）、L流任务h（）是融合层，例如线性层y表示标签，并且表示串联。第一损失函数的项与利用源模态和调用的目标模态的给定任务的性能有关。第二项保证目标模态嵌入模块学习将以端到端方式保存到目标值存储器中的有意义的表示。最后，总损失函数被定义为所有损失函数的总和，L总计=L保存+L桥接+L任务。（八）用于训练所提出的框架的伪代码在算法1中示出。4. 实验所提出的视听桥接框架的主要优点因此，我们可以通过利用来自回忆的模态特征的补充信息来增强单模态下游任务。我们显示了两个应用程序，唇读和语音重建无声的视频，其中每一个都需要视觉模态作为输入的有效性所提出的框架。因此，视觉模态被用作源模态，并且音频模态被用作目标模态。4.1. 应用1：唇读唇读是一项仅依靠嘴唇运动来识别语音的任务我们将建议的多模态桥接框架应用于唇读，以通过关联桥带来音频的高级知识来补充视觉上下文，task=g（h（fsrc vtgt）;y）+g（h（fsrc ftgt）;y）16：tot=保存/T+桥接/T+任务17：更新ΦΦηΦtot18：结束4.1.1数据集我们利用两个公共基准数据库进行单词级唇读，LRW[6]和LRW-1000 [60]。两个数据集都由25 fps视频和16kHz音频组成。LRW[6]是一个大规模的单词级英语视听数据集。它包括500个单词，每个最多1,000个培训视频。对于预处理，视频被裁剪成以嘴唇为中心的136 × 136大小，调整大小为112 × 112，并转换为灰度。对于数据增强，我们一致地对视频中的所有帧使用随机水平翻转和随机擦除。音频预处理，使用窗口大小为400，跳跃大小为160，和80梅尔滤波器组。因此，预处理的熔融光谱图具有100fps，具有80个光谱维度特征。我们使用SGD优化器，批量大小为320，初始学习率为0.03。LRW-1000[60]是汉语词汇视听数据集。它由718，018个视频样本和1，000个词类组成。应用与LRW预处理中相同的预处理和数据增强，此外，由于从数据集提供的音频比单词边界长0.4秒，因此我们使用视频作为与音频相同的长度。我们使用Adam [26]优化器，批量大小为60，初始学习率为0.0001。4.1.2架构对于基线架构，我们遵循典型的架构[38，45]，其视觉嵌入模块由一个3D卷积层和ResNet-18 [17]组成，并且后端模块由2层Bi-GRU [42]组成我们8：A9：一种F=A=Aj=1-fJ十五：303·×个·将音频嵌入模块设计为输出与视觉嵌入模块相同的序列长度。对于任务损失g（），应用交叉熵损失。有关网络架构的详细信息，请参见补充资料。4.1.3结果为了验证所提出的多模态桥接框架在用回忆的音频模态补充视觉模态方面的有效性，我们将基准数据集上仅使用视觉模态输入的单词级唇读与最先进的方法进行比较。表1显示了LRW和LRW-1000数据集上的整体唇读性能。我们提出的框架在这两个数据集上实现了以前的方法中最高的准确率。特别是对于LRW-1000，这是已知的是一个困难的数据集，由于不平衡的训练样本，所提出的方法达到了5的大的改善。58%来自先前最先进的方法[61]。从这个结果，我们可以确认，所提出的框架是更有效的困难的任务，具有的能力，补充不足的视觉信息与重新所谓的音频。此外，由于我们的多模态关联桥接框架不依赖于下游体系结构，因此可以将诸如时间CNN的深层体系结构采用到所提出的方法以提高单词预测性能。我们还对每种语言进行了四种不同模型的消融研究（即，对于En-，N=0、44、88、glish和对于普通话N=0，56，112，168），以检查存储器插槽数量的影响。补充材料中报告了内存插槽尺寸的消融结果。对于LRW，当N=88时，实现了85.41%的最佳字准确度。拟议的框架提高了基线，幅度为1.27%。对于LRW-1000，当N=112时，通过将基线性能提高5.89%，最佳单词准确率为50.82%。所提出的框架提高了性能，而不管两种语言中基线的内存插槽数量通过采用召回的音频特征作为视觉上下文的补充信息，所提出的框架成功地细化了单词预测，实现了最先进的性能。4.2. 应用2：无声视频的语音重建从无声视频的语音重建是通过观看面部视频来推断语音音频信号为了证明所提出的多模态桥接框架的有效性，我们将所提出的框架应用于从无声视频任务的语音重建，以在用于生成高质量语音的解码的早期阶段中提供所调用的音频上下文。变形流[56] 84.1 41.93表1.LRW和LRW-1000数据集上与视觉模态输入的唇读单词准确性比较4.2.1数据集GRID数据集[9]包含来自预定义词典的6个单词的简短英语短语。视频和音频分别以25fps和16kHz的速率采样。在[50，39]之后，受试者1，2，4和29被用于说话者相关任务。对于说话者无关的设置，我们遵循与[50]相同的分割，其使用15个对象进行训练，5个用于验证，5个用于测试。对于预处理，人脸被检测、裁剪并调整大小为96 96码。用800的窗口大小、160的跳跃大小和80个梅尔滤波器组对音频进行预处理，以100fps变成80维梅尔频谱图。我们使用Adam优化器，批量大小为64，初始学习率为0.001。4.2.2架构对于基线架构，我们遵循最先进的方法[39]，其视觉嵌入模块由3D CNN和Bi-LSTM组成。我们采用后端模块作为Tacotron2的解码器部分[43]。我们利用与唇读实验相同的音频嵌入模块架构，除了在残差块之前增加一个内核大小为5的我们采用Griffin-Lim [16]算法进行音频波形转换。对于任务损失g（），应用L1距离损失。网络架构的更多细节可以在补充材料中找到4.2.3结果我们使用三个标准语音质量度量进行定量评估：[47][48][49]表2示出了在说话者相关设置中对GRID数据集的性能比较。我们报告的平均测试成绩为4扬声器与以前的作品[3，50，12，39，58]相同的设置。该表清楚地表明，我们的模型优于以前的方法，包括最先进的性能。这些改进来自于在后端的早期阶段调用音频表示，这使得后端能够细化所生成的梅尔频谱图。此外，我们要求25名人类参与者对自然性和可理解性进行自然是评价如何方法LRW公司简介Yang等[60个]83.038.19多粒度[51][30]83.383.536.9138.70MI最大化[62][61]第六十一话84.485.038.7945.24MS-TCN [31]85.341.40该方法85.450.82304（一）启动[sta]启动[sta]（b）第（1）款集合[集合]集合[集合]图3.面部视频剪辑（源模态）和用于从存储器内的学习表示调用音频模态（目标模态）的对应寻址向量：（a）来自唇读的结果和（b）来自无声视频的语音重建的结果。方法STOI埃斯托伊PESQ方法自然度懂度[第13话][3]第三章0.4910.5130.3350.3521.7341.673[第13话]美国[39]1.31±0. 242.83±0. 211.42±0. 232.94±0. 19拟定方法2.93±0.21 3.56±0.19该方法（+WaveNet声码器[59]）4.37 ±0. 164.27 ±0. 14建议方法0.738 0.579 1.984表2.语音重建的性能与视觉模态输入的比较，在一个扬声器相关的设置网格。地面真实值4.62 ±0。134.57 ±0. 14表3.GRID上人类评价的平均意见得分方法STOI ESTOI PESQ在合成语音中与实际转录相比。使用针对GRID的4个说话者中的每一个的所生成的语音的6个样本。人主观评价结果报告于表3中。与以前的作品[13，39]相比，所提出的方法在自然度和可理解性方面都取得了更好的成绩。此外，使用WaveNet [59]声码器而不是Griffin-Lim，我们可以将分数提高到接近地面实况的分数。这表明重建的梅尔频谱图是高质量的，使得我们可以通过使用最先进的声码器来进一步提高音频质量。我们还进行了实验上的说话人无关的设置，这是已知的是一个复杂的设置，丁，网格数据集，以验证所提出的方法的有效性。如表4所示，与[50，39]相比，所提出的框架实现了最高性能。可以推断，即使在复杂的环境中，所提出的框架也可以通过使附加信息通过关联桥和记忆来实现有意义的结果。我们在补充材料中可视化所生成的mel-spectrogram的示例。表4.在GRID上的说话者独立设置上，语音重建与视觉模态输入的性能比较我们对不同的内存插槽尺寸进行了烧蚀研究，如补充材料所示。当 N=150 时，其示出了 0.738ST0I 、0.579EST0I和1.984PESQ的最佳分数。此外，所提出的框架的性能提高，无论内存插槽的数量，这验证了其有效性。4.3. 内存中的学习表示在本节中，我们可视化了说话者无关设置中的唇读和语音重建模型的寻址向量。图图3（a）示出了具有连续5帧的LRW数据集的视频剪辑和唇读模型的相应寻址向量从同一发音的不同说话人的称呼向量中，我们观察到了相似的称呼向量变化趋势。例如，当面部视频在单词started和start中说- ing地址得分输入视频地址得分输入视频Vougioukas等人[50个]0.445-1.240自然的，合成语音与实际的hu进行比较美国[39]0.5650.2791.279可懂度是指说话的声音有多清晰该方法0.6000.3151.332Vougioukas等人[50个]0.5640.3611.684Ephrat等人[12个]0.6590.3761.825美国[39]0.7310.5351.772Yadav等人[58个]0.7240.5401.932305发音：a（a）视听陈述（b）已收回的视听陈述图5. t-SNE [49]（a）视觉和音频模态的学习表示的可视化，以及（b）从视觉模态和实际音频模态调用的音频。STARTED（#11~#15帧）方法基线跨模态知识提出图4.LRW中不同视频剪辑的存储器寻址向量之间的相似性示例注意，源寻址向量用于桥接存储器中的视频和音频模态特征。被高度重视。同样的趋势也可以在图2所示的语音重建模型3（b）款。这示出了源密钥存储器通过使用说话面部视频剪辑作为查询来一致地找到目标值存储器中的对应保存的音频位置，这意味着关联桥被有意义地构造。此外，我们比较了不同发音的面部视频剪辑的寻址向量。图图4示出了具有其对应发音的连续视频帧以及比较结果。我们可以观察到，说相似发音的源寻址向量具有高相似性，而不同发音的视频具有低相似性。例如，单词about和amount的发音“a U”的视频剪辑相比之下，词周期的“ri”和词about的“a U”之间的相似度4.4. 多模态共同潜在空间寻找方法的比较我们研究，建议的框架可以绕过的困难，找到一个共同的代表不同的方式，同时桥接它们。我们比较了词级唇读的性能与以前的多模态学习方法，可以利用共享信息的视听模态与单模态推理输入，通过找到一个共同的潜在空间。我们构建了两种多模态自适应方法：交叉模态自适应方法[7]和知识蒸馏法[18]。第一个被预先训练以同步视听模态，然后被训练用于唇读。第二种方法被额外地训练，使得来自唇读模型的特征类似于来自自动语音识别模型的特征。我们在表5中示出了LRW数据集上的单词级唇读准确度。通过仅利用视觉模态输入的多模态，所有方法都显示出从基线的性能改进，并且所提出的框架实现了最佳性能。比较显示适应[7]蒸馏[18]方法ACC（%）84.14 84.20 84.5085.41表5.唇读词准确率与学习方法的比较，寻找多模态的共同表征。所提出的框架的效率，其中它不需要找到一个共同的潜在空间的两个模态通过处理每个模态在一个模态特定的内存。最后，我们可视化的视觉模态，音频模态，并从视觉模态召回的音频模态的表示图图5示出了视觉和音频模态的学习表示的t-SNE [49]可视化，以及从视觉模态和实际音频模态调用的音频。由于我们用模态特定的嵌入模块和记忆来处理每种模态，因此这两种模态在潜在空间中具有单独的表示（图2）。5（a））。然而，如图。如图5（b）所示，通过关联桥从视觉模态调用的音频共享与音频模态表示类似的表示。因此，我们可以利用音频和视觉上下文，同时保持自己的模态表示。这种可视化表明，我们可以有效地桥接的多模态表示与跨模态适应的痛苦，通过处理每个模态特定的模块。5. 结论在本文中，我们介绍了多通道的associative桥接框架，通过源键记忆和目标值记忆连接音频和视觉上下文因此，它可以利用音频和视频信息，即使只有一个模态是可用的。我们已经在两个应用上验证了所提出的框架的有效性：唇读和语音重建从无声的视频，并取得了国家的最先进的表演。此外，我们已经表明，所提出的框架可以桥接这两种方式，同时保持各自的潜在空间。源地址相似度：0.906发音：aAMOU NT（#11~#15帧）源地址相似度：0.404发音：riABOU T（#13~#17帧）发音：ri源地址相似度：0.867PERI OD（#15~#19帧）源地址相似度：0.488发音：staSERI ES（#13~#17帧）306引用[1] Triantafyllos Afouras 、 Joon Son Chung 、 AndrewSenior、Oriol Vinyals和Andrew Zisserman。深度视听语音识别。 IEEE关于模式分析和机器智能的交易，2018。一、二[2] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man. Asr是你所需要的：用于唇读的交叉模态蒸馏。在ICASSP 2020-2020 IEEE声学、语音和信号处理国际会议（ICASSP），第2143-2147页中。IEEE，2020年。二个[3] Hassan Akbari、Himani Arora、Liangliang Cao和NimaMesgarani。Lip2audspec：从无声的嘴唇运动视频重建语音。在2018年IEEE声学、语音和信号处理国际会议（ICASSP），第2516-2520页。IEEE，2018年。一、三、六、七[4] Galen Andrew，Raman Arora，Jeff Bilmes，and KarenLivescu.深度典型相关分析。在机器学习国际会议上，第1247PMLR，2013年。二个[5] 曹晓春、张长青、傅华珠、刘思和张华。多样性诱导的多视点子空间聚类。在IEEE计算机视觉和模式识别会议论文集，第586-594页，2015年。一个[6] Joon Son Chung和Andrew Zisserman。在野外读唇语。在亚洲计算机视觉会议上，第87103.施普林格，2016年。三、五[7] Joon Son Chung和Andrew Zisserman。超时：在野外自动假唱。在多视图唇读研讨会上，ACCV，2016年。一、二、八[8] 郑秀焕郑俊松康洪国完美匹配：改进了用于视听同步的跨模态嵌入在ICASSP 2019-2019 IEEE声学、语音和信号处理国际会议中，第3965-3969页IEEE，2019。一、二[9] Martin Cooke 、 Jon Barker 、 Stuart Cunningham 和 XuShao。语音感知和自动语音识别的视听语料库。美国声学学会杂志，120（5）：2421-2424，2006。六个[10] 史蒂芬·杜邦和尤根·吕丁。用于连续语音识别的视听语音 IEEE Transactions on Multimedia ， 2 （ 3 ）： 141-151，2000. 二个[11] Andreas Eitel 、 Jost Tobias Springenberg 、 LucianoSpinello、Martin Riedmiller和Wolfram Burgard。用于鲁棒 rgb-d 对象识别的多模态深度学习。 2015 年IEEE/RSJ智能机器人和系统国际会议（IROS），第681-687页。IEEE，2015年。一个[12] Ariel Ephrat，Tavi Halperin，and Shmuel Peleg.改进了无声视频的语音重建。法律程序中IEEE计算机视觉研讨会国际会议，第455-462页，2017年。三六七[13] 阿里尔·埃弗拉和什穆尔·法勒。Vid2speech：从无声视频重建语音。在2017年IEEE声学、语音和信号处理国际会议，第5095-5099页。IEEE，2017年。三、七[14] Fangxiang Feng，Xiaojie Wang，and Ruifan Li.具有对应自动编码器的跨模态检索。法律程序第22届ACM多媒体国际会议，第7-16页，2014年。二个[15] Zan Gao，Hai-Zhen Xuan，Hua Zhang，Shaohua Wan，and Kim-Kwang Raymond Choo.多视人体动作识别的自适应融合和IEEE Internet of Things Journal，6（6）：9280- 9293，2019。一个[16] 丹尼尔·格里芬和宰林。基于修正短时傅立叶变换的信号估计 IEEE Transactions on acoustics ， speech ， andsignal processing，32（2）：236-243，1984. 六个[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。五个[18] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。二、八[19] 彭虎，梁丽珍，彭德忠，刘培。可扩展的深度多模态学习，用于跨模态检索。在第42届国际ACM SIGIR信息检索研究与开发会议录中，第635-644页，2019年。二个[20] 黄心谦、庄永玉、陈楚松。用于谱聚类的亲和聚合。2012年IEEE计算机视觉和模式识别会议，第773-780页。IEEE，2012。一个[21] 黄欣和彭宇欣。深度跨媒体知识转移。在IEEE计算机视觉和模式识别会议论文集，第8837-8846页，2018年。二个[22] 炎黄与梁王。Acmm：Aligned cross-modal memory forfew-shot image and sentence matching.在IEEE/CVF计算机视觉国际会议论文集，第5774-5783页，2019年。三个[23] Jesper Jensen和Cees H Taal。一种预测被调制噪声掩蔽器掩蔽的语音可懂度的算法。IEEE/ACM Transactionson Audio ， Speech ， and Language Processing ， 24（11）：2009-2022，2016. 六个[24] 阚美娜，山世光，陈西林。用于跨视图分类的多视图深度网络。在IEEE计算机视觉和模式识别会议论文集，第4847-4855页，2016年。二个[25] Jung Uk Kim，Sungjune Park，and Yong Man Ro.不确定性引导的交叉模态学习用于鲁棒的多光谱行人检测。IEEE Transactions on Circuits and Systems for VideoTechnology，2021。一个[26] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。五个[27] 所罗门·库尔贝克和理查德·A·莱布勒。关于信息和充分性。数学统计年鉴，22（1）：79-86，1951年。四个[28] 李钟石和朴哲勋基于后期整合的鲁棒视听语音识别。IEEE Transactions on Multimedia，10（5）：767-779，2008. 二个[29] Sangmin Lee，Hak Gu Kim，Dae Hwi Choi，Hyung-IlKim，and Yong Man Ro.视频预测通过记忆对齐学习回忆长期运动上下文法律程序307的IEEE/CVF Conference on Computer Vision and PatternRecognition，第3054-3063页，2021。二个[30] 洛明霜、杨双、山时光、陈西林。用于序列到序列唇读的伪卷积策略梯度。arXiv预印本arXiv：2003.03983，2020。六个[31] Brais Martine

下载后可阅读完整内容，剩余1页未读，立即下载