开放世界唇读句子识别模型及数据集的研究

2 浏览量更新于2023-10-17 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1野外的唇读句子郑俊山joon@robots.ox.ac.uk安德鲁高级2andrewsenior@google.comOriol Vinyals2vinyals@google.comAndrew Zisserman安德鲁·齐瑟曼1，2az@robots.ox.ac.uk1牛津大学工程科学系2DeepMind摘要这项工作的目标是识别短语和句子正在说话的脸，有或没有音频。与之前专注于识别有限数量的单词或短语的作品不同，我们将唇读作为一个开放世界的问题来处理-不受约束的自然语言句子，以及野生视频。我们的主要贡献是：（1）“观看、倾听、注意和拼写”（WLAS）网络，其学习将嘴部运动的视频转录为人物;（2）加速训练和减少过度拟合的课程学习策略;（3）用于视觉语音识别的“唇读句子”（LRS）数据集，由来自英国电视的超过100，000个自然句子组成。在LRS数据集上训练的WLAS模型超过了以前在标准唇读基准数据集上的所有工作的性能，通常是显著的。这种唇读性能击败了专业唇读器从BBC电视的视频，我们还表明，如果音频可用，那么视觉信息有助于提高语音识别性能。1. 介绍唇读，即仅从视觉信息中识别所说内容的能力，是一项令人印象深刻的技能，对新手来说非常具有挑战性。由于同音异义词--不同的字符产生完全相同的唇语序列（例如，“唇语”），它在单词层面上本质上是模糊的。'p'和'b'）。然而，这样的歧义可以在一定程度上使用句子中的相邻词的上下文和/或语言模型来解决一台能读唇语的机器开启了一系列应用：在嘈杂的环境中向电话“口述”指令或消息;转录和重新配音无声电影档案;解析多说话者同时语音;并且总体上提高了自动语音识别的性能。这种自动化现在之所以成为可能，是因为计算机视觉领域众所周知的两个任务：深度神经网络模型的使用[22，33，35];以及大规模数据集的可用性[31]。在这种情况下，该模型是基于最近的序列到序列（编码器-解码器与注意）translater架构，已开发的语音识别和机器翻译[3，5，15，16，34]。本文所描述的数据集是基于数千小时的BBC电视广播，这些广播中有说话的面孔以及正在说的话的字幕。我们还研究如何唇读可以有助于音频为基础的语音识别。有大量的文献关于这种贡献，特别是在嘈杂的环境中，以及相反的，其中一些派生的音频测量可以有助于聋人或重听的唇读。为了研究这一方面，我们训练一个模型来识别来自音频和视觉输入的字符，然后系统地干扰音频通道或移除视觉通道。我们的模型（第2节）在字符级别上输出，能够学习语言模型，并且具有一种新颖的双注意力机制，可以仅在视觉输入，仅在音频输入或两者上操作。我们表明（第3节），培训可以加快一种形式的课程学习。我们还描述了（第4节）一个新的大规模唇读句子（LRS）数据集的生成和统计，基于BBC广播包含说话的脸连同所说的字幕。广播中包含了“野外”的面孔该模型的性能在LRS数据集的测试集以及唇读的公共基准数据集（包括LRW [9]和GRID [11]）上进行评估我们展示了开放世界（不受约束的句子）唇读LRS数据集上，在所有情况下，在公共基准的性能超过了以前的工作。1.1. 相关作品读唇语有大量关于使用深度学习前方法的唇读的工作。这些方法在[40]中已作了全面的评述，我们在此不再重复。许多论文都使用了卷积神经网络-64476448我我工程（CNN）从静态图像中预测音素[27]或视位[21]，而不是识别完整的单词或句子。音素是最小的可区分的声音单位，共同组成一个口语单词;视位是它的视觉等价物。为了识别完整的单词，Petridis等人。 [30]在离散余弦变换（DCT）和深度瓶颈特征（DBF）上训练LSTM分类器。类似地，Wand et al. [38]使用具有HOG输入功能的LSTM来识别短语。唇读训练数据的短缺可能导致了浅特征的继续使用。现有的数据集包括只有少量主题的视频，以及非常有限的词汇（60个单词），这也是进步的障碍。Chung和Zisserman最近的论文[9]通过使用电视广播中的面孔来组装小词汇问题，这种用于语音识别的方法[7，8]，与我们最相关的工作是Chan等人的工作[5]，其提出了一种将音频信号转录为字符的优雅的序列到序列方法。他们利用了许多最新的序列学习技巧，如预定采样[4]和注意力[8];我们从这项工作中获得了许多灵感。2. 架构在本节中，我们将介绍Watch，Listen，Attend andSpell网络，该网络可以学习预测从说话人脸的视频中说出的句子中的字符，无论是否有音频。我们对输出字符序列y=（y1，y2，.， y1）作为先前字符y1的条件分布 < ，输入图像序列 xv= （ xv ，xv，...，xv）用于唇读，并且输入音频1 2N500字的数据集。然而，与任何单词级序列xa=（xa，xa，.，xa）。因此，我们模拟出-1 2m分类任务，设置仍然远离真正的世界，鉴于这个词的边界必须是已知的。最近的一项工作[2]使用了基于CNN和LSTM的网络和连接主义时间分类概率分布为：YP（y|xv，xa）=我P（yi|xv，xa，y< i）（1）(CTC)”[15]《易经》云：“君子之道，焉可诬也？”这报告了在GRID数据集的受约束的语法和51个单词词汇表上的强大的说话者独立性能[11]。然而，这种方法经过适当的修改，应该适用于较长的，更一般的句子。视听语音识别。视听语音识别（AVSR）和唇读的问题是紧密相连的. Mroueh等人。 [26]采用前馈深度神经网络（DNN）使用大型非公开视听数据集执行音素Hacker与手工制作或预先训练的视觉特征一起使用已被证明是流行的- [ 36 ]使用DBF对输入图像进行编码;[14]使用DCT;[28]使用预训练的CNN对音素进行分类;所有这三个特征都将这些特征与HMM相结合，以分类说出的数字或孤立的单词。与唇读一样，几乎没有尝试开发AVSR系统，以推广到现实世界的设置。语音识别有大量关于语音识别系统的文献，这些系统利用单独的组件进行声学和语言建模功能（例如混合DNN-HMM系统），我们将不在这里回顾。我们将这种审查严格限制在可以端到端训练的方法上在大多数情况下，先前的工作可以分为两种类型。第一种类型使用CTC [15]，其中模型类型-我们的模型，这是总结在图1中，consts的三个关键组成部分：图像编码器观看（第2.1节），音频编码器听（第2.2节），和字符解码器拼写（第2.3节）。每个编码器将相应的输入序列变换为固定维度的状态向量s，并且将编码器输出的序列变换为固定维度的状态向量s。将o=（o1，...，op），p∈（n，m）;解码器从编码器和预编码器两者摄取状态和注意力向量。在输出字符序列上引入概率分布sv，ov=Watch（xv）（2）sa，oa=Listen（xa）（3）P（y|xv，xa）= Spell（sv，sa，ov，oa）（4）模型中的三个模块是联合训练的。接下来我们将描述这些模块，实现细节在3.5节中给出。2.1. 手表：图像编码器图像编码器由卷积模块和递归模块组成，卷积模块为每个输入时间步长xv生成图像特征fv，递归模块产生固定维状态向量sv和一组输出向量ov。fv=CNN（xv）（5）ically预测逐帧标签，然后查找op-i i帧间预测和hv，ov=LSTM（fv，hv）（6）64491输出序列缺点是输出标签不以彼此为条件。我我sv=hvi一期+1（七）第二种类型是序列到序列模型[34]，它首先读取所有输入序列，然后开始预测输出句子。一些论文采用了卷积网络基于VGG-M模型[6]，因为它具有内存效率，训练速度快，并且在ImageNet上具有良好的分类性能[31]。的6450我1KKk−1k −1k−1图1. 观看，倾听，参加和拼写建筑。在每个时间步，解码器输出一个字符yi，以及两个注意力向量。注意力向量用于选择输入视觉和音频序列的适当周期。图2. ConvNet架构。输入是以嘴部区域为中心的五个灰度级帧。512维的fc6向量构成了LSTM的输入。ConvNet层配置如图2所示，在主网络图中缩写为conv1···fc 6ha，oa=LSTM（xa，ha）（8）编码器LSTM网络消耗输出fea。在每个输入时间步，由ConvNet产生的turesfv，并生成固定维的状态向量sv。此外，它在每个时间步长i产生输出向量ov。jJsa=haj j+1（九）我请注意，网络以逆时间或-der（如等式6），这表明改进了[34]中的结果。2.2. 听：音频编码器Listen模块是一个类似于Watch模块的LSTM编码器，没有卷积部分。LSTM以相反的时间顺序直接摄取13维MFCC特征，并产生状态向量sa和输出向量oa。2.3. 咒语：字符解码器Spell模块基于LSTM转换器[3，5，8]，这里我们添加了双重注意机制。在每个输出步骤k，解码器LSTM从先前步骤上下文向量c v产生解码器状态hd和输出向量odCA，输出yk−1和解码器状态hd.注意力向量是从注意力机制中产生的注意力 v和注意力a。注意机制的内部工作在[3]中描述，并在补充材料中重复。我们使用两个独立的注意力机制的嘴唇和音频输入流mfcc8mfcc7mfcc6mfcc5MFCC4MFCC3MFCC2mfcc1y1y2y3y4（结束）是一LSTMLSTM LSTM LSTM LSTMMLPMLPMLPMLPMLPOa输出状态ovattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattattatt输出状态vidLSTM LSTM LSTM LSTMLSTMLSTMLSTMLSTMLSTMLSTM SV（开始）y1y2y3y4FC6FC6FC6FC6FC6FC6......conv1 conv1 conv1 conv1conv1输入（120x120）conv1conv2conv3conv4conv5FC63333 3 33 33 351296 256 5125 512 512Conv 最大范数Conv 最大范数convconv最大转充分6451KK01k注意k1指的是具有不同采样率的异步输入。注意力向量与输出状态（等式11和12）融合以产生上下文向量cv和ca，其封装产生下一步骤输出所需的信息。输出字符的概率分布由输出上具有softmax的MLP生成。这种方法。然而，正如[5]所报道的那样，当时间步的数量很大时，LSTM网络收敛得非常慢，因为解码器最初很难从所有输入步骤中提取相关信息。我们引入了一种新的策略，我们只在单个单词示例上开始训练这些短序列是hd，od=LSTM（hd，yk−1，cv ，ca）（10）数据集中较长的句子。我们观察到Kkk−1V Vk−1vdvk−1训练集上的收敛速度快几倍ck=o ·注意（hk，o）（11）它也显著减少了过度拟合，大概是-ca=oa·a（hd，oa）（12）因为这是一种自然的数据扩充方式的测试性能大幅提高，P（yi|xv，xa，y< i）= softmax（MLP（od，cv，ca））（13）KKK在k=1处，最终编码器状态s1和sa被用作输入而不是先前解码器状态讨论在我们的实验中，我们观察到注意机制对于视听语音识别系统的工作是绝对关键的在没有注意的情况下，模型似乎“忘记”了输入信号，并产生与输入相关性很小的输出序列，除了第一个或两个单词（模型得到正确的，因为这些是编码器看到的最后一个无注意力模型产生的单词错误率超过100%，因此我们不报告这些结果。双注意机制允许模型从音频和视频输入中提取信息，即使当一个流不存在或两个流没有时间对齐时。在有噪声或无音频的实验中，这些好处是显而易见的（第5节）。双向LSTM已被用于许多序列学习任务中[5，8，17]，因为它们能够产生以未来上下文和过去上下文为条件的输出。我们已经尝试用双向编码器替换Watch和Listen模块中的单向编码器，但是这些网络需要更长的时间来训练，同时没有提供明显的性能改进。这大概是因为解码器模块无论如何都以完整的输入序列为条件，因此双向编码器对于提供上下文是不必要的，并且注意力机制足以提供附加的局部焦点。3. 培训战略在本节中，我们将介绍用于有效训练 Watch 、Listen、Attend和Spell网络的策略，充分利用有限的可用数据。3.1. 课程学习我们的基线策略是从头开始训练模型，使用来自“唇读句子”数据集的完整句子第5款.3.2. 计划采样当训练递归神经网络时，通常使用前一个时间步的基础事实作为下一个时间步的输入，这有助于模型在目标标记上学习一种语言模型然而，在推理过程中，前一步的地面实况不可用，导致性能较差，因为模型没有经过训练，不能容忍在某些时间步长输入不良预测我们使用Bengio等人的计划抽样方法。[4]弥合模型在训练和推理中的使用方式之间的差异。在训练时，我们从之前的输出中随机采样，而不是总是使用地面实况。当在较短的子序列上训练时，使用地面实况先前字符。当对完整句子进行训练时，来自随机输出的采样概率随时间从0逐步增加到0.25。我们无法在大于0.25的采样概率下实现稳定的学习。3.3. 多模式培训具有多模态输入的网络通常可以由其中一种模式支配[13]。在我们的例子中，我们观察到音频信号占主导地位，因为语音识别是一个明显比唇读更容易的问题。为了帮助防止这种情况发生，在训练时为每个示例统一选择以下输入类型之一：（1）仅音频;（2）仅嘴唇;（3）音频和嘴唇。如果选择模式（1），则使用第4.1节中描述的仅音频数据。否则，使用标准视听数据。我们有超过30万个句子的记录数据，但只有大约10万个有相应的facetracks。在机器翻译中，已经证明单语虚拟数据可以用来帮助提高翻译模型的性能[32]。基于类似的原理，我们使用没有facetracks的句子作为补充训练数据，以提高音频识别性能，并构建更丰富的语言模型，以帮助提高泛化能力。64523.4. 使用嘈杂的音频进行训练WLAS模型最初使用干净的输入音频进行训练，以加快收敛速度。为了提高模型对音频噪声的耐受性，我们在训练中使用SNR为10dB（信号功率与噪声功率的10：1比率）和0dB（1：1比率）的3.5. 实现细节输入图像的尺寸为120×120，采样频率为25Hz。图像仅覆盖了如图3所示的脸。ConvNet使用[9]的早期融合方法摄取5帧滑动窗口MFCC特征是在25ms窗口上以100Hz计算的，时间步长为1。对于Watch和Listen模块，我们使用三层LSTM，单元大小为256。对于Spell模块，我们使用了一个三层LSTM，单元大小为512。网络的输出大小是45，用于字母表中的每个字符，数字，常用标点符号，以及[sos]，[eos]，[pad]的标记。补充材料中给出了完整的列表我们的实现基于TensorFlow li-tool [1]，并在具有12GB内存的GeForce Titan X GPU上进行训练该网络使用随机梯度下降进行训练，批量大小为64，并具有dropout和label平滑。卷积层的层权重从[10]的视觉流初始化。所有其他权重随机初始化。初始学习率为0.1，每次训练误差在2,000次迭代中没有改善时，学习率就会下降10%当验证错误在5，000次迭代中没有改善时，停止对整句数据的训练。该模型经过了大约50万次迭代的训练，耗时约10天。信道系列名称小时数#已发送。英国广播公司1高清新闻†1,58450,493英国广播公司1高清早餐1,99729,862英国广播公司1高清新闻夜59017,004英国广播公司2高清世界新闻1943,504英国广播公司2高清质询时间32311,695英国广播公司4高清当今世界2725,558所有4,960118,116表1.视频统计。原始BBC视频的小时数;完整Facetrack的句子数量[2] BBC新闻，1、6、10点。通过比较连续帧的颜色直方图来检测[24]。然后对视频的每一帧执行基于HOG的面部检测[20使用KLT跟踪器[37]将同一个人的面部使用回归树的集合从像素强度的稀疏子集中提取面部标志[19]。音频和文本准备。BBC视频中的字幕并不与音频同步播放。Penn Phonet- ics Lab Forced Aligner [18，39]用于将字幕与音频信号强制对齐。由于转录本不是逐字记录的，因此在对齐中存在错误-AV同步和扬声器检测。在BBC视频中，音频和视频流可能会不同步长达一秒左右，这可能会在提取与句子对应的facetrack时导致问题。[10]中描述的双流网络用于同步两个流。同样的网络也被用来确定谁在视频中说话，如果是画外音，则拒绝剪辑。句子提取。这些视频被分成使用跨语言中的标点符号的无形句子/短语4. 数据集在本节中，我们描述了用于自动生成用于视听语音识别的大规模数据集的多级流水线。使用这个管道，我们已经能够收集数千小时的口语句子和短语以及相应的facetrack。我们使用2010年至2016年期间录制的各种BBC节目，如表1所示，如图3所示。程序的选择故意与[ 9 ]使用的程序相似，原因有两个：（1）新闻和辩论节目中出现的发言人范围广泛，不像固定演员阵容的戏剧;（2）镜头变化较少，因此有较多的完整句子具有连续的面迹。处理流水线总结在图4中。大多数步骤都是基于[9]和[10]中描述的方法，但我们在这里给出了该方法的简要草图。视频准备.第一、枪边界是de-剧本句子之间用句号、逗号和问号分隔;并且由于GPU内存限制而被裁剪为100个字符或10秒。我们对词汇量没有任何限制。训练集、验证集和测试集根据播放日期划分，每个集合对应的视频日期如表2所示。该数据集包含数千个不同的说话者，这使得模型是说话者不可知的。表3将“唇读句子”（LRS）数据集与现有最大的公共数据集进行了比较4.1. 仅音频数据除了视听数据集之外，我们还准备了一个辅助的仅音频训练数据集。这些是 BBC 节目中的句子，Facetracks不可用。该数据的使用见第3.3节。它只用于训练，而不是测试。6453训练句子AV同步扬声器检测面部标志检测对准验证人脸跟踪音频-字幕强制对齐OCR字幕人脸检测音频视频镜头检测图3.上图：来自BBC唇读数据集的原始静态图像-新闻，提问时间，早餐，新闻之下图：两个不同的说话者的嘴部动作表示“下午”。网络可以看到红色方块内的区域。图4. 管道生成数据集。仅唇和仅音频实验中的模型观察、注意和拼写（WAS），听、注意和拼写（LAS）。这些都是相同的手表，听，参加和拼写模型与任何输入断开连接，并重新放置与全零。5.1. 评价模型在LRS数据集（train/val分区）和仅音频训练数据集上训练（第4节）。文中叙述了推理和评价过程.光束搜索。以与[5，34]类似的方式，利用宽度为4的波束搜索来执行解码。在每个时间步，波束中的假设用每个可能的特征扩展，并且仅存储4个最可能的假设。图5示出了增加波束宽度的效果表2. 唇读句子（LRS）视听数据集。培训、验证和测试数据的划分;以及每个分区的话语数量和词汇量。的测试集中的6，882个单词中，6，253个在训练或验证集中;6,641个在纯音频训练数据中。Utter：话语名称类型Vocab#完了。#单词GRID [11]发送.5133,000165,000[第12话]发送.1825,8808,085LRW [9]话500450,000450,000LRS发送.17,428118,116807,375表3. 与现有大规模唇读数据集的比较。设置日期#完了。Vocab火车2010年1月至2015年12月342,64425,684表4.仅音频训练集的统计数据5. 实验在本节中，我们将评估和比较所提出的架构和培训策略。我们还将我们的方法与公共基准数据集上的最新技术为了澄清正在使用的模式，我们调用6058565452501 2 4 8波束宽度图5.波束宽度对字错误率的影响评估方案。在独立测试集上评价模型（第4节）。对于所有实验，我们报告字符错误率（CER），字错误率（ WER ）和 BLEU 度量。 CER 和 WER 被定义为ErrorRate=（S+D+I）/N，其中S是替换的数量，D是缺失的数量，I是从参考文献到假设得到的插入的数量，并且N是参考文献中的单词的数量。BLEU [29]是n-gram精度的修改形式，用于将候选句子与一个或多个参考句子进行比较。在这里，我们用WER（%）设置日期#完了。Vocab火车2010年1月至2015年12月101,19516,501Val2016年1月至2月5,1384,572测试2016年3月至9月11,7836,882所有118,11617,4286454一字字母BLEU。方法SNRCERWER蓝色†只有嘴唇专业服务-58.7%百分之七十三点八23.8是-百分之五十九点九76.5%35.6WAS+CL-47.1%61.1%46.9WAS+CL+SS-42.4%58.1%50.0WAS+CL+SS+BS-百分之三十九点五50.2%54.9仅音频Google Speech API清洁百分之十七点六百分之二十二点六78.4KaldiSGMM+MMI清洁百分之九点七百分之十六点八83.6LAS+CL+SS+BS清洁百分之十点四17.7%84.0LAS+CL+SS+BS10dB百分之二十六点二百分之三十七点六66.4LAS+CL+SS+BS0dB50.3%百分之六十二点九44.6音频和嘴唇WLAS+CL+SS+BS清洁百分之七点九13.9%87.4WLAS+CL+SS+BS10dB百分之十七点六百分之二十七点六75.3WLAS+CL+SS+BS0dB百分之二十九点八42.0%63.1表5.在LRS测试集上的性能。WAS：观看、出席和拼写;LAS：倾听、出席和拼写; WLAS：观看、倾听、出席和拼写;CL：课程学习;SS：计划抽样;BS：光束搜索。 †带有简洁惩罚的Unigram BLEU。不包括唇读者拒绝注释的样本在-其中CER上升到78.9%，WER上升到87.6%。* 本文使用的Kaldi SGMM+MMI模型在WSJ（eval92）测试集上实现了3.6%的WER，与当前最先进的水平相差0.2%以内。声学和语言模型已经在我们的数据集上重新训练。结果第3节中讨论的所有培训方法都有助于提高绩效。表5中给出了仅嘴唇实验的详细情况。对于所有其他实验，我们仅报告使用最佳策略获得的结果只有嘴唇的例子。该模型学习从广泛的内容中正确预测极其复杂的看不见的句子表5表明，当音频信号有噪声时，嘴部运动在语音识别中提供重要线索;并且即使当音频信号是干净的时也给出了性能上的改进-字符错误率从仅用于音频的16.2%降低到用于音频和唇读的13.3%。表7示出了许多示例中的一些示例，其中WLAS模型无法单独从嘴唇或音频预测正确的句子，但是当两个流都存在时成功地破译了单词。GT消费者一将是消费者L它将在消费者AV消费者GT爱丁堡的孩子们一儿童与爱丁堡L儿童和手破AV爱丁堡的孩子们GT正义和其他一切一只是得到一切L企业和其他一切AV正义和其他一切表7. AVSR结果示例。GT：地面实况; A：仅音频（10 dBSNR）; L：仅限嘴唇; AV：视听。注意力可视化。注意力机制生成输入视频帧（或音频信号）与假设字符输出之间的明确对齐。图6可视化了字符“下午好，欢迎收听BBC新闻一点”和相应视频帧的对齐。这个结果最好以视频的形式显示;请参阅补充材料。0.810203040506070GOODAF视频帧更多的人参与了攻击靠近欧洲委员会建筑西威尔士和西南部以及苏格兰西部我们知道会有数以百计的期刊-这里也有根据联合国人权事务高级专员办事处提供的临时数字，选举委员会这曼彻斯特足球通讯员每日镜报为可能的第二次公投根据最新的数字从-这是在一份该死的报告之后，6455TERNOONANDWELCOMETOTHEBBC北东西的TONE假设0.70.60.50.40.30.20.1表6. 正确预测的看不见的句子的例子（仅限嘴唇）。视听示例。正如我们假设的那样，结果是图6. 视频帧和字符输出之间的对齐。解码速度。解码的速度比实时的要快得多。该模型需要大约0.5秒的时间来阅读和解码一个5秒的句子时，使用-ING光束宽度为4。64565.2. 人体实验为了比较我们模型的性能与人类所能达到的效果，我们指示一家专业的唇读公司从我们的测试集中破译了200个随机样本的视频。唇语阅读器拥有大约10年的专业经验，并在一系列设置中破译视频，例如：法庭、皇室婚礼等使用的法医唇语唇读器被允许看到完整的面部（图3的底部两行中的整个图片），但不看到背景，以防止他们从视频内容中读取然而，他们被告知视频来自哪个程序，并被允许查看来自训练集的一些视频。唇读者被给予10倍的视频持续时间来预测正在说的话，在这段时间内，他们可以随心所欲地观看视频。每个测试句子的长度为100个字符。我们观察到，专业唇语阅读者能够正确地破译不到四分之一的口语单词（表5）。这与先前关于人类唇读准确性的研究一致[25]。相比之下，WAS模型（仅限嘴唇）能够破译一半的口语单词。因此，这明显优于专业唇语阅读器所能达到的效果。5.3. LRW数据集“野生唇语阅读”（LRW）数据集由来自BBC电视台的500个孤立单词的1000个话语组成，由超过一千个不同的评估方案。训练、验证和测试分割随数据集一起提供。我们给出单词错误率。结果该网络在一个时期内进行微调，以仅对该数据集词典的500个词类进行分类。如表8所示，我们的结果大大超过了该数据集的当前最先进水平。方法LRW [9]GRID [11]Lan等人 [23日]-35.0%Wand等人[38个]-百分之二十点四Assael等人 [二]《中国日报》-百分之四点八Chung和Zisserman [9]38.9%-W AS（我们的）23.8%3.0%表8.外部唇读数据集的单词错误率5.4. GRID数据集GRID数据集[11]由34个受试者组成，每个受试者说出1000个短语。话语是动词（4）+颜色（4）+介词（4）+字母（25）+数字（10）+副词（4）的单句法多词序列;例如，总的词汇大小是51，但在任何给定的可能性的数量图7. 来自GRID数据集的静态图像。输出中的点实际上被限制为上面括号中的视频在受控的实验室环境中录制，如图7所示。评估方案。评估遵循[38]和[2]的标准协议我们报告单词错误率。以前的一些作品报告了单词准确度，定义为（WAcc=1−WER）。结果该网络在GRID数据集训练集上进行了一个时期的微调。从表8中可以看出，我们的方法实现了3.0%（WER）的强性能，这大大超过了当前的最新技术水平。6. 摘要和扩展在本文中，我们介绍了“看，听，在- tend和拼写”的该模型利用了一种新的双注意力机制，可以只在视觉输入，音频输入，或两者兼而有之。使用这种架构，我们演示唇读性能击败专业唇读器从BBC电视视频。该模型也超过了所有以前的工作标准唇读- ING基准数据集的性能，我们还表明，视觉信息有助于提高语音识别性能，即使在使用音频。有几个有趣的扩展需要考虑：首先，提供对齐的注意力机制是不受约束的，但实际上应该总是从左到右单调地移动。这种单调性可以作为软约束或硬约束被并入;第二，在批处理模式中使用序列到序列模型，即在给定整个相应的唇语序列的情况下对句子进行解码。相反，可以使用更在线的架构，其中解码器在未来无法访问唇序列的部分;最后，这种类型的研究可能会识别出重要的区别性线索，这些线索有利于向听力困难的人教授唇读鸣谢。这项研究的资金由EPSRC计划赠款提供，见EP/M013774/1 。我们非常感谢 BBC Research 的 RobCooper和Matt Haynes帮助我们在牛津获得数据集。6457引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C.西特罗湾S. Corrado，A. Davis，J. Dean，M. Devin等人Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467，2016。5[2] Y. M. 阿萨埃尔湾Shillingford，S.Whiteson和N.de FreitasLipnet：句子级唇读。arXiv：1611.01599，2016. 二、八[3] D. 巴赫达瑙湾Cho和Y.本吉奥。神经机器转-通过共同学习对齐和翻译来实现对齐。Proc. ICLR，2015. 第1、3条[4] S.本焦岛维尼亚尔斯Jaitly和N.沙泽尔定于用递归神经网络进行序列预测的抽样。神经信息处理系统进展，第1171-1179页，2015年。二、四[5] W. Chan，N. Jaitly，Q. V.Le和O. Vinyals 听着，听着和拼写arXiv预印本arXiv：1508.01211，2015。一二三四6[6] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节：深入研究卷积网。在Proc. BMVC. ，2014年。2[7] J. Chorowski，D.巴赫达瑙湾Cho和Y.本吉奥。结束-使用基于注意力的递归神经网络的端到端连续语音识别：第一个结果。arXiv 预印本arXiv ： 1412.1602 ，2014。2[8] J. K. Chorowski，D. Bahdanau，D. Serdyuk，K. ch0以及Y.本吉奥。基于注意力的语音识别模型。神经信息处理系统的进展，第577-585页，2015年二、三、四[9] J. S. Chung和A.齐瑟曼。在野外读唇语在Proc. ACCV，2016. 一、二、五、六、八[10] J. S. Chung和A.齐瑟曼。超时：自动对口型在多视角唇读研讨会上，ACCV，2016年。5[11] M. Cooke，J. Barker，S. Cunningham和X.邵语音感知和自动语音识别的视听语料库。美国声学学会杂志，120（5）：2421-2424，2006。一、二、六、八[12] A.契泽夫斯基湾Kostek，P. Bratoszewski，J. Kotus，以及M.斯库斯基用于多模态自动语音识别的视听语料库。智能信息系统杂志，第1-26页，2017年。6[13]C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在Proc. CVPR，2016. 4[14] G.加拉塔斯湾Potamianos和F.马克登结合kinect捕捉的面部深度信息的视听语音识别。信号处理会议（EUSIPCO），2012年第20届欧洲会议论文集，第2714IEEE，2012。2[15] A. Gr av es，S. Fer na'ndez，F. Gomez和J. 施米杜ber.连接时态分类：用递归神经网络标记未分割的序列数据。第23届国际机器学习会议论文集，第369-376页。ACM，2006年。一、二[16] A. Graves和N.贾特利走向端到端语音识别使用递归神经网络进行点火。在第31届机器学习国际会议（ICML）上，14），第1764-1772页，2014年。1[17] A. Graves，N. Jaitly和A.- R.穆罕默德使用深度双向LSTM 的混合语音识别。在自动语音识别和理解（ASRU）中，2013年IEEE研讨会，第273-278页。IEEE，2013。4[18] H.赫曼斯基感知线性预测（PLP）分析的演讲。美国声学学会杂志，87（4）：1738-1752，1990。5[19] V. Kazemi和J.苏利文一毫秒面对齐回归树的集合。在2014年IEEE计算机视觉和模式识别会议集，第1867-1874页中。5[20] D. E.王Dlib-ml：一个机器学习工具包。日-nal of Machine Learning Research ， 10 ： 1755-1758 ，2009。5[21] O. Koller，H. Ney和R.鲍登深度学习手语的口型。在IEEE计算机视觉研讨会国际会议论文集，第85-91页，2015年。2[22] A.克里热夫斯基岛Sutskever和G. E.辛顿 ImageNet使用深度卷积神经网络进行分类。在NIPS，第1106-1114页，2012年。1[23] Y.兰河哈维湾Theobald，E. J.Ong和R.波顿。比较唇读的视觉特征。在2009年听觉-视觉语音处理国际会议上，第102-106页，2009年。8[24] R. 利恩哈特视频中可靠的过渡检测：综述实践者国际图像与图形杂志，2001年8月。5[25] M. Marschark和P.E. 斯宾塞牛津大学医学手册聋人研究、语言与教育，第2卷。牛津大学出版社，2010年。8[26] Y. Mroueh，E. Marcheret和V.戈埃尔深度多模态学习视听语音识别。2015年IEEE国际声学、语音和信号处理会议（ICASSP），第2130-2134页。IEEE，2015年。2[27] K. Noda，Y.山口K.纳卡代山G. 奥野，T.绪方使用卷积神经网络的唇读。在INTERSPEECH，第1149-1153页，2014年。2[28] K. Noda，Y.山口K.纳卡代山G. 奥野，T.绪方使用深度学习的视听语音识别。AppliedIntelligence，42（4）：722-737，2015. 2[29] K. Papineni，S. Roukos，T. Ward和W J. Zhu. 蓝色：a机器翻译的自动评估方法。第40届计算语言学协会年会论文集，第311-318页。计算语言学协会，2002年。6[30] S. Petridis和M.惊慌失措深度互补瓶颈视觉语音识别功能ICASSP，第23042[31]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.马，S. Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦A. Berg和F.李ImageNet大规模视觉识别挑战。IJCV，2015年。一、二[32] R.森里希湾Haddow，和A.博奇改进神经单语数据的机器翻译模型。arXiv预印本arXiv：15

下载后可阅读完整内容，剩余1页未读，立即下载