多模态语音识别中的视觉增强对提高识别率有重要贡献

140 浏览量更新于2023-10-24 收藏 899KB PDF 举报

视觉前端

特征提取

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14433多模态语音识别视觉前端音频增强视觉特征句子/单词预测区分性多模态语音识别徐波，程璐，郭延东，王旭鹏xiaoboboer@gmail.com摘要视觉通常被用作音频语音识别（ASR）的补充模态结合视觉模态后， ASR 升级为多模态语音识别（MSR）。在本文中，我们提出了一个两阶段语音识别模型。在第一阶段，目标语音从背景噪声中分离出来的帮助下，相应的嘴唇运动的视觉信息，使模型在第二阶段，音频模态再次结合视觉模态，通过MSR子网络更好地理解语音，进一步提高识别率。还有其他一些重要贡献：提出了一种基于伪三维残差卷积（P3D）的视觉前端，以提取更有鉴别力的特征;我们使用时间卷积网络（TCN）从1D ResNet升级时间卷积块，视频STFTMag音频音频增强网络视觉特征Mag增强型Mag语音增强更适合临时任务; MSR子网络建立在逐元素注意力门控递归单元（EleAtt-GRU）之上，在长序列中，它比Trans-former更有效。我们在LRS 3-TED和LRW数据集上进行了广泛的实验。我们的两阶段模型（音频增强多模态语音识别，AE-MSR）始终达到最先进的性能显着的保证金，这证明了AE-MSR的必要性和有效性。1. 介绍在《倾听的眼睛》一书中：在《唇读艺术的简单介绍》中，克莱格提到：“当你失聪时，你就生活在一个软木塞得很好的玻璃瓶里。你看到了迷人的外部世界，但它并没有到达你。在学会读唇语之后，你仍然在瓶子里，但是软木塞已经出来了，外面的世界慢慢地但肯定地向你走来。唇读是听力障碍者与世界沟通的一种方法，这样他们就可以通过观察嘴唇的运动来理解别人所说的话[7，16，22，32，46]。唇读是一种很难-图1：音频增强多模态语音识别网络（AE-MSR）。Mag：大小。与其他只有单一视觉意识的MSR方法[2，14，47，41，35]不同，我们首先在视觉意识的帮助下过滤说话者的声音和背景噪声。然后，我们再次结合视觉感知MSR，以利于语音识别。人类掌握并需要强化训练的虚构技能[20，41]。唇读也是一种不精确的艺术，因为不同的人物可能会表现出类似的嘴唇运动（例如因此，提出了几种机器唇读模型来区分这种微妙的差异[18，31，34]。然而，他们仍然遭受困难提取时空特征的视频。由于计算机视觉中深度神经网络的快速发展[30，39，43]以及大规模训练数据集的帮助[14，15，18，19，37，47]，自动唇读变得可以实现。除了作为听力障碍的有力解决方案外，唇读还有助于在不利环境中进行音频语音识别（ASR），例如在高噪声水平下，14434男人说话是听不见的。多模态（视频和音频）在鲁棒性和准确性方面比单模态（视频或音频）更有效。多模态（视听）语音识别（MSR）是多模态语音的主要扩展应用之一但与ASR类似，MSR在噪声环境中的性能也会显著恶化[2]。与在干净语音环境中操作的音频模态相比，噪声环境中的音频模态由于从ASR升级到MSR而显示出较小的增益[2]证明了与单一模态相比，音频模态的噪声水平直接影响MSR的性能增益。本文的目标是介绍一种两阶段的语音识别方法与双重视觉模态意识。在第一阶段，我们重建的音频信号，其中只包含目标说话人在第二阶段，增强的音频模态再次与视觉模态相结合，以产生更好的语音识别。与典型的单次视觉模态感知的MSR方法相比，我们的方法在鲁棒性和准确性方面更有优势。我们提出了一个名为音频增强多模态语音识别（AE-MSR）的深度神经网络模型，具有双重视觉感知来实现该方法。AE-MSR模型由音频增强（AE）和MSR两个子网络组成在被馈送到MSR子网络之前，音频模态在AE子网络中的第一视觉感知的帮助下被增强。增强后的音频流和重访的视频流被送入MSR子网络进行语音预测，AE-MSR中采用的技术包括伪3D残差卷积（P3 D）、时间卷积网络（TCN）和逐元素注意门控重流单元（EleAtt-GRU）。文中所示的消融研究证明了上述每个子模块及其组合的有效性。MSR子网络也建立在EleAtt-GRU之上。我们的AE-MSR的直觉如下。通常，基于深度学习的MSR对音频和视频都使用对称编码器。虽然视觉编码器是经过训练的，以e2e的方式，我们进行实验来证明这一点，并不是利用视觉信息的最佳方式。原因可能是典型MSR的固有架构隐含地暗示音频和视频的同等重要性。然而，我们从各种实验中得知，即使在嘈杂的环境中，音频仍然更可靠地识别语音。因此，我们重新设计了架构，以嵌入视频和音频之间的这种偏见作为先验。总体而言，本文的贡献是：• 我们提出了一个两阶段的双重视觉感知MSR模型，其中应用第一视觉感知来去除音频噪声。• 我们引入P3 D作为视觉前端，以提取更具鉴别力的视觉特征，并引入EleAtt-GRU在AE和MSR子网络中对时空信息进行自适应编码，使两个网络的性能都得到改善。• 我们将一维ResNet的时间卷积块升级为AE子网络中的TCN块，以建立时间连接。• 大量的实验表明，AE-MSR超越了最先进的MSR模型[2]，无论是在音频唇读句子3（LRS 3-TED）数据集上的清洁和嘈杂环境我们基于P3D构建的单词分类模型在野生唇读（LRW）数据集[15]上的表现也优于单词级别的最新技术[41]2. 相关作品在这一节中，我们介绍了一些相关的工作，音频增强（ AE ）驱动的视觉信息和多模态语音识别（MSR）。2.1. 音频增强一些研究者已经证明了目标音频信号可以从其他说话人的声音和背景噪声中分离出来Gabbay等人[23]引入先前由 [21]提出的训练的无声视频到语音模型Gabbay等人[24]还使用卷积神经网络（CNN）来编码多模态特征。音频和视频的嵌入向量在音频解码器之前被级联，并被馈送到音频解码器的转置卷积以产生增强的梅尔尺度谱图。Hou等人[29]在CNN和全连接（FC）层的顶部构建视觉驱动的AE网络，以生成增强的语音和重建的嘴唇图像帧。Afouras等人[3]使用一维ResNet作为时间卷积单元，分别处理音频和视觉特征。然后，多模态特征被级联并由另一个基于1D-ResNet的编码器编码成掩码，以去除音频信号中的噪声分量。在他们的最新文章中，他们提出了一种新方法，用Bi-LSTM [6]取代2.2. 多模态语音识别视觉通常被用作音频语音识别（ASR）的补充模态结合视觉模态后，ASR得到升级14435×Na时间转换×Nv时间转换时态电子属性-时态转换GRU转换EleAtt-GRU视频流音频增强P3D视觉前端EleAtt-GRU+F图像帧音频流音频噪声幅度一增强幅度音频流（增强）STFTVσ(a) 音频增强（AE）子网编码解码(b) 多模态语音识别子网络图2：具有双重视觉感知的多模态语音识别网络（AE-MSR）的架构。AE-MSR网络由两个子网组成：（a）音频增强（AE）网络。该网络接收图像帧和音频信号作为输入，输出增强的幅度谱图，噪声谱图被过滤。V：视觉特征;A：增强的音频幅度。多模态语音识别（MSR）网络。多模态语音识别（MSR）反过来，MSR也是唇读的升级，有利于听力障碍者通过生成有意义的文本来识别语音。在深度学习领域，唇读研究的历史比MSR更长[49]。Assael等人[7]提出了Lip- Net，这是一种基于时空卷积的端到端模型，LSTM [28]和可变长度视频帧序列上的连接主义时间分类（CTC）损失。 Stafylakis等人[41]介绍LRW数据集上最先进的单词级分类唇读网络[15]。该网络由时空卷积、残差网络和Bi-LSTM组成。MSR是在唇读的基础上发展起来的[14，2] 。各种 MSR 方法通常使用编码器到解码器（enc2dec）机制，该机制受到机器翻译的启发[8，10 ， 25 ， 26 ， 42 ， 45] 。 Chung 等人 [14] 使用具有enc2dec机制的双序列到序列模型。视觉特征和音频特征由LSTM单元单独编码。然后将多模态特征组合并解码成字符。Afouras等人[2]介绍编码器到解码器机制序列到序列模型该模型的编码器和解码器基于Transformer [45]注意力架构构建在编码器阶段，每个模态特征被编码与自我注意力单独。在解码器阶段中的多头注意之后，由多个模态产生的上下文向量被级联并被馈送到前馈层以产生EleAtt-GRU一注意力（Attention）×2VV上下文（注意）EleAtt-GRU线性，SoftmaxEleAtt-GRU字符概率注意力（Attention）V上下文（注意）EleAtt-GRU14436辍学ReLUWeightNorm扩展因果转换(a) TCN ResNet块(b) 1D ResNet块视觉特征。该算法将原始视频帧裁剪成112×112像素的小块，并选取嘴部小块作为感兴趣区域（ROI）。到提取视频特征，我们构建3D CNN（C3D）[44]- P3 D [36]网络来产生更强大的视觉时空表示，而不是使用C3 D加上2D ResNet [27]，这在许多其他唇读论文中提到[2，3，4，6，14，41]。C3D是一种捕获视频时空特征的有益方法，并被广泛采用[41，2，3，35，6]。多层C3D可以在时间任务中实现比单层C3D更好的性能，但它们都是计算昂贵和内存需求。我们使用P3D来替换部分C3D图层，以缓解这种情况。显示了P3D的三个块版本在补充材料中，P3D ResNet是通过将N×N×N卷积分离为空间域上的1×3×3卷积滤波器和3×1×1卷积来实现的图3：时间卷积块。 a）TCN ResNet块US：上样本;AP：平均合并[27]。b）1D ResNet块。DS：依赖可分离[13]; BN：批量归一化。非上采样卷积层-所有的人都是可以分开的。可能的特征然而，他们最先进的方法在嘈杂的场景中受到影响。在噪声环境中，性能急剧下降，这是我们提出AE-MSR方法在本文中，我们定性评估的AE-MSR模型的语音识别在噪声环境中的性能。3. 架构在本节中，我们描述了双重视觉感知多模态语音识别（AE-MSR）网络。它首先学习从其他说话者的声音或背景噪音中过滤幅度谱图，视觉模态信息（看一次听清楚）。随后的MSR重新访问视觉模态，并将其与过滤后的音频幅度谱图相结合（再次观看以准确理解）。图2详细显示了模型架构。3.1. 看一遍听清楚音频功能。本文采用短时傅立叶变换（STFT），以16kHz的采样率从波形信号中提取幅度谱图。为了与25fps的视频帧速率对齐，我们将STFT窗口长度设置为40ms，跳长设置为10ms，对应于75%的重叠。我们将得到的幅度乘以梅尔间隔滤波器，以计算梅尔尺度幅度的音频特征，其中梅尔频率仓为80，在0到8 kHz之间。在时域上滤波以提取空间-时间FEA，真的。P3D ResNet在不同的时间任务中实现了优于2DResNet的性能我们实现了一个50层的P3 D网络，通过循环混合的顺序P3 D-A，P3 D-B，P3 D-C的三个视觉前端构建在一个3D卷积层上，该卷积层具有64个内核大小为5×7×7的过滤器，然后是批量归一化（BN），ReLU激活和最大池化层。然后，最大池化之后是一个50层的P3D ResNet，它逐渐减少空间维度同时保持时间维度。对于T×H×W帧的输入，子网络的输出是T×512张量（在最后阶段，特征在空间维度上被平均池化，并作为512张量处理）表示每个视频帧的维度向量）。然后将视觉特征和相应的幅度谱图馈送到音频增强子网络。音频增强与第一视觉意识。无噪声的音频信号在音频语音识别（ASR）和多模态语音识别（MSR）中获得了令人满意的性能。然而，在噪声环境中识别性能显著恶化[2，3]。音频增强子网络的架构在图2a中示出，其中视觉特征被馈送到时间卷积网络（视频流）中。视频流由Nv个时间卷积块组成，输出视频特征向量。我们介绍了两个版本的时间卷积块，一个是[9]提出的时间卷积网络（TCN），另一个是[6]提出的1DResNet块。时间卷积块的架构如图3所示，TCN的残差块由两个扩展的因果卷积层组成，每个层后面是权重归一化（WN）[38]层和整流线性单元（ReLU）[33]层。一个空间dropout [40]层+×2美国/亚美国+美国/APDS Conv1DBNReLU14437在ReLU层之后添加正则化[9]。在第二个膨胀因果卷积层之后添加身份跳过连接。通过结合因果卷积和扩张卷积，TCN保证了从未来到过去的无泄漏，并有效地扩展了感受野以保持更长的内存大小[9]。1D ResNet块基于1D时间卷积层，然后是批处理归一化（BN）层。在ReLU激活层之后添加剩余连接。包含转置卷积层的中间时间卷积块中的两个将视频特征上采样 4 以匹配音频特征向量的时间维度（4T）。类似地，噪声幅度谱图由残差网络（音频流）提出，残差网络由N个时间卷积块组成，输出音频特征向量。然后，音频特征向量和视频特征向量在融合层中通过在信道维度上简单地级联而融合。然后将融合的多模态向量馈送到一层EleAtt-GRU编码器中，随后是2个完全连接的层，其中Sigmoid作为激活以产生目标增强掩码（值范围从0到1）。EleAtt-GRU被证明在时空任务中比其他RNN变量更有效，其细节在第3.2节中介绍。通过将原始幅度谱图与目标增强掩模逐元素相乘来产生增强幅度。音频增强子网络的架构细节在Supple-Wavelet Material中给出。3.2. 再看一遍才能准确理解第二视觉感知的多模态语音识别。视觉信息可以通过将目标音频信号从噪声背景中分离出来来帮助增强音频模态。在通过视觉感知进行音频增强之后，通过将增强的音频与重新访问的视觉表示相结合来实现多模态语音识别（MSR），以进一步提高语音识别的性能我们使用编码器到解码器（enc2dec）机制中的MSR子网络。而不是使用Transformer [45]，它在唇读[4]和MSR [2]上表现出不错的性能，我们的网络基本上是建立在一个RNN变量模型上的，该模型名为具有元素注意力的门控递归单元（ EleAtt-GRU ） [48] 。虽然Transformer是机器翻译[45]和唇读[2，4]中出现的强大模型，但它在有限长度内建立字符关系，对于长序列不如RNN有效。EleAtt-GRU可以缓解这种情况，因为它配备了元素注意力门（EleAttG），使RNN神经元具有注意力能力。EleAttG被设计为通过分配不同的重要性级别来自适应地调制输入，即，注意，每个输入的元素或维度。GRU块的EleAttG图示如补充材料所示。在 GRU 块 / 层中，所有神经元共享相同的EleAttG，这降低了计算成本和参数数量。AE-MSR网络的架构如图2所示，基于EleAtt-GRU构建了一个序列到序列的MSR网络。编码器是一个两层EleAtt-GRU，用于两种模态。增强的音频幅度被馈送到具有步幅2的两个1D-ResNet块之间的编码器层，其将时间维度下采样4以匹配视频特征（T）的时间维度。1D-ResNet层之后是另一个编码器层，输出音频模态编码器上下文。通过C3 D-P3 D网络提取的视频特征被送入视频编码器以输出视频编码器上下文。在解码器阶段，视频上下文和音频上下文由独立的解码器层分别解码。生成的上下文向量的两种形式连接在通道尺寸和传播到另一个解码器层，以产生的字符概率。编码器和解码器中的EleAtt-GRU的单元数均为128。解码器输出字符概率，这些字符概率直接与地面真值标签匹配，并使用交叉熵损失进行训练，整个输出序列使用序列到序列（seq2seq）损失进行训练[42]。4. 培训4.1. 数据集该网络在LRW [15]和LRS 3-TED [5]数据集上进行了训练和评估。LRW是一个非常大规模的唇读数据集，来自英国电视广播，包括新闻和脱口秀节目。LRW由500个不同单词的1000个发音组成，由1000多个说话者说出。我们使用LRW数据集对基于唇读词级分类网络的P3D时空前端进行预训练。LRS 3-TED是唇读（视觉语音识别）领域最大的可用数据集。它由超过400小时的TED和TEDx视频中的面部轨迹组成，并分为三组：预训练、训练验证和测试。我们在LRS 3-TED数据集上训练音频增强（AE）子网络和多模态语音识别（MSR）子网络。4.2. 评估指标对于单词级唇读实验，训练集、验证集和测试集与LRW数据集一起提供我们报告的词的准确性分类在500个词类的LRW。对于重复级别的识别实验，我们报告了单词错误率（WER）。WER被定义为WER=（S+D+I）/N，其中S是子节点的数目。14438其中，D是删除的数量，I是从参考文献到假设得到的插入的数量，N是参考文献[14]中的单词数量4.3. 培训战略视觉前端。 C3 D-P3 D的视觉前端在唇读的词级分类网络上进行预训练，LRW数据集为500个词类，我们采用两步训练策略。第一步，图像方法词语准确性Chung和Zisserman [14]百分之七十六点二[41]第四十一话83.0%彼得里迪斯和斯塔菲拉基斯[35]82.0%我们百分之八十四点八表1：LRW数据集上不同词级分类网络的词准确度。帧被馈送到3D卷积中，随后是50层P3D，后端基于一个密集层。在第二步中，为了提高模型的有效性，我们将密集层替换为两层Bi-LSTM，然后是线性层和SoftMax层。我们使用交叉熵损失来训练词分类任务。方法Google [11] TM-seq 2seq [2] EG-seq 2seqWER%A A V A V在视觉前端冻结的情况下，我们提取并保存视频清洁10.49.059.97.257.8两个原始的特征，以及幅度谱图，10-35.9-35.5-nal audio和mix-noise一个。5-49.0-42.6-噪声样本。为了训练我们的模型070.360.5-58.2-能够抵抗背景噪音或扬声器，我们遵循-5-87.9-86.1-噪声混合方法[2]，多路重合噪声与SNR从-10-100.0-百分之一百--10 dB到10 dB被添加到音频流，itypn = 0.25，并且合成通过混合来自LRS 3-TED数据集的30个不同音频样本的信号。AE和MSR子网。的AE子网络首先分别用TCN和一维ResNet的时域卷积块对混合噪声的多模态进行训练。AE子网络通过最小化预测震级谱图和地面实况之间的L1损失来训练同时，多模态语音识别（MSR）子网络的训练与视频特征和清洁幅度谱作为输入。MSR子网络也在只有单一模态（音频或视频）可用时进行训练。对于MSR子网络，我们使用序列到序列（seq2seq）损失[12，42]。AE-MSR。我们冻结AE子网络并训练AE-MSR网络。为了证明我们的模型的好处，我们在不同的噪声水平下再现和评估[2]提供的最先进的训练从一个单词的样本开始这是一种累积方法，不仅可以提高训练集的收敛速度，还可以显着减少过拟合。解码器的输出大小设置为41，考虑到字母表中的26个字符，10个数字，以及[PAD]，[EOS]，[BOS]和[SPACE]的标记我们还使用教师强制方法[2]，其中先前解码步骤的地面真值用作解码器的输入实作详细数据。该网络的实现基于TensorFlow库[1]并经过训练表2：LRS 3-TED数据集上的单模态语音识别和多模态语音识别（MSR）两者的单词错误率（WER）。M：模态。A：仅音频模态; V：仅视觉模态。一个Tesla P100 GPU，16GB内存。我们使用ADAM优化器来训练具有dropout和标签平滑的网络初始学习率设置为10−4，如果训练误差没有改善，则每次减少2倍，最终学习率为5×10−6。整个网络的培训大约需要15天，包括-分别在两个时间卷积块和MSR子网络上进行音频增强子网络的训练，以及随后的联合训练。5. 实验结果5.1. 基于P3D的可视化前端和基于EleAtt GRU的enc2dec基于P3D的可视化前端。我们进行唇读实验的词水平和唇读水平。在第4.3节中，我们在LRW数据集上引入了一个词级唇读网络，对500个词类进行分类，以训练C3 D-P3 D的视觉前端。该单词级唇读网络的结果如表1所示，其中我们报告单词准确性作为评估指标，并且我们的结果超过了LRW数据集上的最新技术[41]。实验结果表明，C3 D-P3 D的视觉前端网络在提取视频特征表示方面比传统的MSNRdB14439遇到SNRdBTM-s2s EG-s2s 1D-TM-s2s T-TM-s2s 1D-EG-s2s T-TM-s2s 1D-EG-s2s T-EG-s2s模态AV VA VAV清洁百分之八点零百分之六点八--------1033.4%百分之三十二点二百分之二十五点九24.1%百分之二十四点二23.2%百分之二十四点五22.0%百分之二十一点五20.7%5百分之三十八点一百分之三十六点八百分之三十四点一百分之三十一点七百分之三十二点七30.9%百分之三十点二百分之二十五点六百分之二十六点三百分之二十四点三0百分之四十四点三41.1%37.0%33.2%百分之三十六点六百分之三十二点五31.6%百分之二十九点六28.5%百分之二十五点五-556.2%百分之五十二点六50.2%百分之四十九点五49.3%46.0%百分之三十六点七百分之三十五点一百分之三十二点七31.1%-10百分之六十点九百分之五十七点九百分之五十二点五百分之四十九点八百分之五十点六百分之四十四点五百分之四十二点三42.0%40.2%百分之三十八点六表3：在LRS 3-TED数据集上具有单视觉模态感知的音频语音识别（ASR）和具有双视觉模态感知的多模态语音识别（MSR）两者的单词错误率（WER）。Met：方法。TM-s2 s：TM-seq 2seq; EG-s2 s：EG-seq 2seq; 1D-TM-s2 s：AE-MSR模型，由1DRN-AE和TM-seq 2seq组成; T-TM-s2 s：AE-MSR模型，由TCN-AE和TM-seq 2seq组成; 1D-EG-s2 s：AE-MSR模型，由1DRN-AE和EG-seq 2seq组成; T-EG-s2 s：AE-MSR模型，由TCN-AE和EG-seq 2seq组成。AV：具有单一视觉模态意识的多模态; VA：通过单一视觉感知增强的听觉模态用于ASR; VAV：通过双重视觉感知实现多模态语音识别（MSR）。C3 D-2D-ResNet一个由[2]使用。基于EleAtt-GRU的enc 2dec。表2中的列V和A的结果表明，基于EleAtt-GRU的enc 2dec在语音识别中比基于transformer的enc 2dec更有益。如表2第V列所示，我们的仅具有视觉模态的多模态语音识别（EG-seq 2seq）网络（如图2b所示）与在LRS 3数据集上不使用解码器中的语言模型的59.9%的先前最新技术水平（TM-seq2seq）[2] WER相比，将单词错误率（WER）降低了2.1%此外，我们还评估了基于EleAtt-GRU的enc 2dec模型在不同噪声水平下的ASR。如表2的A列所示，EG-seq 2seq在所有噪声水平（-10 dB至10 dB）下在ASR上超过了现有技术（TM-seq 2seq）模型，而没有额外的语言模型。表2列A还示出了EG-seq 2seq或TM-seq 2seq都不再仅在-10dB SNR下的音频模态下工作。表3中AV下的列中的结果证明了在MSR阶段添加视觉感知一次之后的语音识别准确性提高，特别是在嘈杂环境中。即使音频是干净的，视觉模态仍然可以发挥帮助作用，例如，WER从仅音频模态的7.2%降低到多模态的6.8%。EG-seq 2seq在不同噪声水平下对MSR的性能优于最先进的（TM-seq 2seq）模型。它再次证明了基于EleAtt-GRU的enc 2dec在语音识别中的优越性。然而，我们注意到，在非常嘈杂的条件下，当在-10 dBSNR下比较唇读（表2中的V）与MSR（表3中的144405.2. 第一视觉感知的音频增强（AE）为了证明我们的AE模型的增强效果，使它不仅适用于我们的语音识别模型，而且适用于其他语音识别模型。与第5.1节中的MSR相比，这里我们在音频增强阶段应用视觉感知，而不是在MSR。我们比较和分析了以下网络在不同噪声水平下的结果• 1DRN-TM-seq2seq：AE-MSR网络，其中音频增强（AE）子网络（1DRN-AE）使用1D ResNet作为时间卷积单元，并且输出-增强了音频模式该网络的MSR子网络是TM-seq2seq。• TCN-TM-seq2seq：AE-MSR网络，其中AE子网络（TCN-AE）使用时间卷积网络（TCN）作为时间卷积单元。MSR子网络是TM-seq 2seq。• 1DRN-EG-seq2seq：AE-MSR网络，其中AE子网络是 1DRN-AE ，并且 MSR 子网络是 EG-seq2seq。• TCN-EG-seq2seq：AE-MSR网络，其中AE子网络是TCN-AE并且MSR子网络是EG-seq 2seq。在本节中，上述所有模型在MSR阶段仅使用音频模态。如表3中VA下的列所示，我们的AE网络可以有益于其他语音识别模型，例如在-5 dB的SNR下，WER 从 TM-seq 2seq 的 87.9% 降低到 1DRN-TM-seq2seq的50.2%和TCN-TM-seq 2seq的49.5%增强14441TM-seq2seq（A）TM-seq2seq（AV）EG-seq2seq（A）EG-seq2seq（AV）1DRN-TM-seq2seq（VA）1DRN-TM-seq2seq（VAV）TCN-TM-seq2seq（VA）TCN-TM-seq2seq（VAV）1DRN-EG-seq2seq（VA）1DRN-EG-seq2seq（VAV）TCN-EG-seq2seq（VA）TCN-EG-seq2seq（VAV）Audio sourceMagnitude error %SNR dB-505嘈杂97.165.449.11DRN-AE66.551.035.6TCN-AE59.546.333.1表4：原始无噪声音频幅度与由不同音频增强模型产生的增强幅度之间的能量误差。图4中还清楚地示出了增益。此外，通过比较表3中AV和VA下的列的结果，在具有相同数量的视觉意识的情况下，我们的音频增强方法在噪声环境中比具有单一视觉意识的多模态语音识别中显示出更大的益处两种AE模型产生的磁幅值见补充资料。我们还引入能量误差函数来测量音频增强模型的效果，如下所示：120100806040200-10-5 0 5 10清洁SNR图4：不同方法的字错误率（WER）。此图中的每个方法都与表2中同名的方法等效。M−Mo∆M=2002年（一）第二种视觉意识。通过比较表3中VA和VAV下的列中的结果，其中，M是有噪声音频或增强音频的幅度，Mo是没有混合噪声的原始音频，MM是M和Mo之间的偏差结果。我们选取了10，000个无噪声样本，分别加入信噪比为-5dB、0 dB和5dB的串音噪声中，比较了1DRN-AE和TCN-AE网络的增强性能。我们对每个SNR水平的样本之间的∆ M结果进行平均。表4中的结果显示了TCN-AE的有益性能。在补充材料中，我们列出了许多例子中的一些，其中单个模态（单独的视频或音频）无法预测正确的句子，但这些句子通过应用两种模态被正确地破译。实验还表明，在某些噪声环境中，多模态也不能产生正确的句子，而增强的音频模态却能成功地预测。表3.2中的语音识别的实验结果还表明，由于TCN时间卷积单元，TCN-EG-seq 2seq在音频模态增强方面比1DRN-EG-seq 2seq更有利，TCN时间卷积单元通过组合因果卷积和扩张卷积而具有更长的时间依赖性和更大的感受野，这在时间任务中更有益。5.3. 第二视觉感知的多模态语音识别在第一视觉感知的音频增强之后，我们实现了多模态语音识别，与任何单一的视觉感知方法（例如，AV、VA和V）。例如，当在音频增强之后再次组合视觉感知用于语音识别时，1DRN-EG-seq 2seq 的 WER 从 36.6%降低到28.5%它展示了由于MSR中的第二视觉感知而带来的性能增益我们的AE-MSR网络在两次结合视觉感知后表现出显著的性能优势，一次用于音频增强，另一次用于MSR。在补充材料中，我们列出了一些多模态模型（AV）和AE模型（VA）不能正确预测句子，但AE-MSR模型在噪声环境中成功地破译了单词。环境.6. 结论本文提出了一种两阶段的语音识别模型--双重视觉感知多模态语音识别（AE-MSR）网络，它由音频增强（AE）子网络和多模态语音识别（MSR）子网络组成。通过大量的实验，证明了双重视觉感知对MSR的必要性和有效性，特别是在噪声环境中，该方法显著提高了MSR的性能。此外，本文中的模型在LRS 3-TED和LRW数据集上的表现明显优于最先进的模型WER %14442引用[1] Mart 'ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，and Xiaoqiang Zheng.Tensorflow：异构分布式系统上的大规模2016年。[2] Triantafyllos Afouras 、 Joon Son Chung 、 AndrewSenior、Oriol Vinyals和Andrew Zisserman。深度视听语音识别。 IEEE Transactions on Pattern Analysis andMachine Intelligence，2018。[3] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man.对话内容：深度视听语音增强。arXiv预印本arXiv：1804.04121，2018。[4] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man.深度唇读：模型的比较和在线应用程序。arXiv预印本arXiv：1806.06053，2018。[5] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man. Lrs 3-ted：一个用于视觉语音识别的大规模数据集。arXiv预印本arXiv：1809.00496，2018。[6] Triantafyllos Afouras ， Joon Son Chung ， and AndrewZisserman. 我的嘴唇是隐藏：通过障碍物的视听语音增强。arXiv预印本arXiv：1907.04975，2019。[7] Yannis M Assael ， Brendan Shillingford ， ShimonWhiteson，and Nando De Freitas. Lipnet：端到端句子级唇读。arXiv预印本arXiv：1611.01599，2016。[8] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。[9] 白少杰，J.齐科.科尔特，弗拉德伦.科尔顿。序列建模的一般卷积和递归网络的经验评估。2018年12月18日，第1803.01271页。[10] William Chan ， Navdeep Jaitly ， Quoc Le ， and OriolVinyals.听一听，听一听，拼写：一种用于大容量会话语音识别的神经网络。IEEE声学、语音和信号处理国际会议，第4960-4964页[11] Chung-Cheng Chiu，Tara N Sainath，Yonghui Wu，Ro-hit Prabhavalkar，Patrick Nguyen，Zhifeng Chen，AnjuliKannan ， Ron J Weiss ， Kanishka Rao ， EkaterinaGonina，et al.使用序列到序列模型的最先进语音识别。第4774-4778页[12] KyunghyunCho，BartVanMerrieünboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoonge Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。[13] 弗兰切洛是肖莱特。Xception：使用深度可分离卷积的深度学习IEEE计算机视觉和模式识别会议（CVPR），第1251-1258页，2017年。[14] Joon Son Chung ， Andrew Senior ， Oriol Vinyals 和Andrew Zisserman。在野外读唇语句子。IEEE计算机视觉和模式识别会议（CVPR），第3444-3453页[15] Joon Son Chung和Andrew Zisserman。在野外读唇语。亚洲计算机视觉会议，第87-103页，2016年。[16] Joon Son Chung和Andrew Zisserman。超时：在野外自动对口型。亚洲计算机视觉会议，2016年，第251-263页[17] 多萝西·G·克莱格倾听的眼睛：唇读艺术的简单介绍梅图恩公司，1953年。[18] Martin Cooke 、 Jon Barker 、 Stuart Cunningham 和 XuShao 。语音感知和自动语音识别的视听语料库。Journal of the Acoustical Society of America，120（5）：2421[19] AndrzejCzyzewski，BozenaKostek，PiotrBratoszewski，Jozef Kotus，and Marcin Szykulski.多模态自动语音识别的视听语料库智能信息系统杂志，49（2）：167[20] 伦道夫·D·伊斯顿和玛丽露·巴萨拉。唇读时的知觉支配。Perception Psychophysics，32（6）：562[21] Ariel Ephrat，Tavi Halperin，and Shmuel Peleg.改进了无声视频的语音重建。IEEE计算机视觉国际会议，第455-462页[22] 克莱图斯·G·费舍尔。视觉感知辅音之间的混淆。Journal of Speech and Hearing Research，11（4）：796[23] 艾维·加贝，阿里尔·埃弗拉特，塔维·哈尔佩林，什穆尔·佩莱格.透过噪音：视觉驱动扬声器分离和增强。IEEE International Conference on Acoustics，Speech andSignal Processing（ICASSP），第3051-3055页[24] Aviv Gabbay，Asaph Shamir，and Shmuel Peleg.视觉语音增强。arXiv预印本arXiv：1711.08789，2017。[25] Al e xGr av es，SantiagoFer na´ ndez，FaustinoGomez，and J ür genSchmidhube r. 连接主义时间分类：用递归神经网络标记未分割序列数据。机器学习国际会议，第369-376页[26] Alex Graves和Navdeep Jaitly使用递归神经网络进行端到端国际机器学习会议，第1764-1772页[27] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议

下载后可阅读完整内容，剩余1页未读，立即下载