基于时空融合的唇读方法的改进与实现

36 浏览量更新于2023-10-12 收藏 674KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

713基于时空融合的卷积序列唇读Xingxuan Zhang，Feng Cheng，ShilinWang* 上海交通大学中国上海xingxuanzhang@hotmail.com，klaus. qq.com，wsl@sjtu.edu.cn摘要当前最先进的唇读方法是基于为自然机器翻译和音频语音识别而设计的序列到序列架构。因此，这些方法没有充分利用嘴唇动力学的特性，导致两个主要缺点。首先，从唇图像到视位的映射中至关重要的短时相关性其次，局部空间信息被丢弃在现有的序列模型，由于使用的全球平均池（GAP）。为了很好地解决这些缺点，我们提出了一个时间焦点块，以充分描述短距离的依赖性和时空融合模块（STFM），以保持本地的空间信息，并减少特征维数。从实验结果来看，我们的方法使用更少的训练数据和更轻的卷积特征提取器实现了与最先进的方法相当的性能。由于卷积结构和局部自注意机制，训练时间减少了12天1. 介绍唇读是一种基于嘴唇运动来识别说话人发音的能力例如，唇读可以在身份认证系统中作为对抗重放攻击的活性检测器[9]。语音识别性能可以通过整合视觉（唇读）和音频信息来提高，特别是在嘈杂的环境中[11]。此外，唇读还可以应用于音频-视频同步[13]，改善助听器和公共区域或嘈杂环境中的无声听写。* 通讯作者唇读对于人和机器来说也是一项困难的任务。不同字母的嘴唇动作在视觉上彼此相似（例如，b和p、d和t等）。听力受损的人只能得到一个准确率低于30%，即使是一个非常有限的子集的30个字[34]。机器唇读需要从视频中提取时空特征并将这些高维特征映射到语言中，这也是一个困难的学习任务。此外，嘴唇周围复杂的纹理，如牙齿，胡子和面部和嘴唇颜色的巨大变化，给唇读带来了更大的困难。最先进的唇读技术方法可以可以分为三类，基于RNN的方法[11，12，36]，具有序列到序列损失的Transformer自注意力架构（Transformer-seq 2seq）和具有连接主义时间分类损失的变压器（Transformer-CTC）[1]。前两种方法最初是为机器翻译而开发的，最后一种方法最初是为音频语音识别而设计的[5，21，8，38]。尽管这些方法在它们所设计的领域中取得了成功，但直接将这些模型应用于唇读将不会达到最佳性能。在本文中，我们提出了一个卷积序列到序列模型的基础上一个新的时间连接块，一个时空融合模块（STFM），这是专门为唇读设计的，可以很好地利用唇运动的特点。唇读的第一个关键因素是从输入视频中提取在大多数当前方法中，输入到序列模型中的低维特征直接用卷积神经网络（CNN）提取，然后进行全局平均池化[30]。为了获得全局激活，全局平均池化消耗局部空间信息，这对于捕获唇部的外观和状态的细微变化至关重要考虑到上述问题，在我们的方法中，全局平均池被新提出的STFM所取代，它能够在不丢失空间信息的情况下降低特征维数。714−第二个关键因素是将提取的描述嘴唇动态的特征映射到特征序列。注意，从图像到句子的映射不是一一对应的，即，单个视位[27]或字符可以对应于几个输入图像，并且单个单词或句子对应于几个字符。我们提出了一种新的卷积块，称为Tem- poral Focal块（简称TF-块），以吸引更多的注意力到邻近帧内的短程时间依赖性然后使用基于TF块的序列到序列模型将提取的特征映射到句子。这种堆叠的卷积结构自然地符合学习多级映射，即，特征-视位、视位-词、词-句的映射。此外，局部自注意被用来捕捉长距离的时间依赖，这对视位-词和词-句的映射也很重要。我们发现局部自注意比全局自注意更有效[10]，同时保持识别精度。此外，由于网络架构的原因，[11]和[1]中的优化过程非常耗时（[11]中为10天，[1]中为22天在文献[1]中，Transformer模型[40]被直接应用于唇读。优化Transformer模型需要相当多的时间和内存成本。因此，Afouras et al.[1]分别训练了视觉特征提取CNN网络和Transformer网络。此外，他们还设计了复杂的训练策略来训练这两个网络 [11] 。在单个 GPU 上，Transformer模型的训练过程大约需要22天（训练CNN特征提取网络需要14天，训练Transformer网络需要8天缓慢的训练速度极大地限制了模型将学习能力转移到新的或更大的数据集。相比之下，我们的模型是端到端训练的，只需要7天就可以在LRS2和LRS3数据集上进行训练，从而实现基于卷积的结构和局部自我注意。在没有花里胡哨的情况下，我们的方法在GRID和LRW数据集上取得了比以前最先进的方法更好的结果[11，36]。仅使用部分训练样本，我们的方法在LRS2和LRS3数据集上取得了与[1]相当的结果。2. 相关工作在本节中，我们简要回顾了以前的工作和相关技术的文献如下。2.1. 自动读唇自动唇读主要集中在两个任务：1）综合性和区分性视觉特征的设计; 2）将视觉特征映射到自然语言的模型设计。对于第一个任务，特征提取可以在基于模型的特征和基于图像的特征方面变化基于模型的特征，包括主动轮廓模型[25]、主动形状模型（ASM）[15]和主动应用模型（AAM）[23]，对环境照明、说话者姿势和朝向相机的距离的变化具有鲁棒性。基于图像的特征，包括2D离散余弦变换特征（DCT）[17]，关节特征（AF）[37]等，包含更丰富的描述唇及其邻近区域的信息，但更容易受到环境噪声的影响。对于第二个任务，采用了隐马尔可夫模型（HMM）[6]，支持向量机（SVM）[16]，动态贝叶斯网络（ DBN ） [24] ，时间梯度下降提升（ TGD-Boosting）[33]等方法。考虑到深度学习的成功，这两个任务可以基于卷积神经网络（CNN）集成为一个任务特征提取和语言预测网络是联合训练的，相互影响。CNN强大的表达能力和联合训练给自动唇读带来了巨大的飞跃。这些深度学习方法包括RNN-CTC[20]，rnn-seq 2seq [38]和Transformer [40]，这些方法在第1节中已经讨论过。2.2. 序列到序列模型序列到序列（简称seq2seq）模型首先在[38]中提出，用于自然机器翻译（NMT）。Seq 2seq模型遵循编码器-解码器结构。编码器和解码器通常由堆叠的递归神经网络形成。编码器将输入信号映射成潜在隐藏向量，然后传播到解码器。解码器基于编码器的输出和在时间t 1预测的字符来预测时间t注意机制由[5]引入，以计算编码器输出的注意权重，即，解码器隐藏状态。注意机制有助于解码器在不同的解码器时间步长处将注意力吸引到编码器输出的不同时间步长，从而产生更好的结果。Chung等人[11]提出了一个标准的基于注意力的seq2seq模型，用于高级唇读。[40]为NMT提出的Transformer也是seq2seq模型。然而，他们只使用剩余的稠密层，其时间关系是通过自我注意和vallina 注意学习的。 Triantafyllos 等人 [1] 评价了Transformer器的唇读水平。与之前的seq2seq模型相比，我们使用卷积模型从视频模拟器中学习空间和时间特征，并且在实验中，所提出的模型在唇读方面优于最先进的方法2.3. 卷积序列到序列模型卷积序列到序列模型首先由[19]提出。conv-seq 2seq模型还遵循715∈1 2T∈电话+1C×W×HC×n×nct+1输入（X1：T）图1：我们模型的架构。该模型以唇部图像序列为输入，输出特征序列. 位置编码被添加到编码器底部的特征在训练期间，时间步长t处的标签ct被馈送到解码器中以预测输出c′。德-模块，然后使用conv-seq 2seq模型将Z1：T映射到S1：L，在下面的章节中，我们将详细介绍卷积特征提取器、STFM和conv-seq 2seq模型的细节。3.1. 卷积特征提取器为了从输入图像序列X1：T中提取视觉特征Y1：T，卷积特征提取器（CFE）被用作前端。为了捕捉嘴唇动态的时空特征，我们在输入序列上采用了两层核大小为5的3D卷积。对于下面的2D卷积，考虑到存储器和计算成本，采用ResNet-18而不是ResNet-50结构。为了进一步加速训练，我们通过在每个3D卷积层之后使用最大池化层并删除ResNet-18中的一些2步操作来降低空间维度3.2. 时空融合模块由于CNN的输出是高维的，不能直接用于序列模型，目前大多数唇读方法采用全局平均池来降低特征维数。全局池可以被视为一种结构正则化器，它显式地强制特征映射成为类别的置信度映射[30]，它是原始的。t+1编码器利用预测的字符S1：t =[c′，c′，...，c′]预测下一个字符c′在推理阶段。在编码器和解码器两者中仅具有卷积层的编码器-解码器结构Conv-seq 2seq比RNN-seq 2seq具有许多优点，包括更好的并行性，更稳定的梯度，更灵活的接收字段和更低的训练内存需求[19]。最近，conv-seq 2seq模型在许多领域得到了广泛的研究，并取得了最先进的性能，例如抽象文本生成[29]，人体动力学预测[28]和文本识别[18]。受这些工作的启发，本文提出了一种新的conv-seq 2seq模型，并将在下一节中讨论。3. 方法我们首先将唇读任务形式化。如果有嘴唇-中心视频X1：T=[x1，x2，...，xT]，其中xi∈通常在各种分类任务中提出。通常使用全局池来平均空间维度上的班级分数。全局平均池在对象定位中被证明是有效的[41，31]。然而，我们发现这种定位能力，仅表明CNN的类激活和注意力图，不能捕捉嘴唇外观的连续、微妙变化。这是因为对应于不同视位的不同空间位置中的激活可能对由全局池化生成的最终特征有相同的为了将高维时空特征融合到低维时间特征中，同时保持重要的局部空间信息，我们提出了一个时空融合模块（STFM），如图2所示为了消除特征的固定大小约束， STFM 应用了 SpatialPooling 操作，类似于RoIPooling [22]而是在整个空间维度上运作。Spatial Pooling从每个空间特征yi∈R中提取具有固定大小的小特征图li∈R，然后对特征L1进行整形：T=[11，12，...，l T] ∈RH×W×3是图像帧，唇读的目标是RT×C×n×n至Z1：T∈′RT×C′，其中C是生成说话者说S1的句子：L=输入通道和C是输出通道的数量[c1，c2，.，cL]，其中cjDv是字典D中大小为v的第j个字符。而不是直接映射X1：T到S1：L，我们用卷积特征提取器和时空融合器将时空输入X1：T编码成隐藏的时间特征Z1：TRT×C然后Z1：T被馈送到时间卷积的堆栈中，以增强时间步长之间的通信并控制输出通道的数量。请注意，如果输入的空间大小是固定的，则SpatialPooling可以概括为max pooling。辍学层范数层范数局部自我注意颞部病灶x N块因果局部自我注意香草-注意辍学香草-注意颞叶局灶性阻滞XNSelf-Attention层范数+~位置编码Self-Attention嵌入不编码器解码器时空感知模块C不CNN特征提取器716不不WH空间转移tt t t tt图2：时空融合模块（STFM）。输入特征Y1：T∈RT×C×W×H是高维的，输出特征Z1：T∈ RT×C′是低维的。C和C′提供输入特征的通道数，T×C ×n ×n输出特性。空间池化输出特征L1：T=[11，12，...，l T] ∈R维度特征Y1：T的局部空间信息保留在特征Z1：T中.n是空间的3.3. Conv seq2seq模型conv-seq 2seq模型旨在将提取的特征向量Z1：T映射到自然语言S1：L。值得注意的是，特征Zt的多个连续框架对应一个视位，而多个连续视位对应一个词，连续的词组成句子S1：L。 “连续”特性可以通过卷积层完美地学习。卷积运算使用一个小的内核在整个序列上滑动，并且可以自然地学习特征-视位、视位-词映射。因此，我们提出了一个称为时间焦点块的时间连接块来查看每个特征帧并关注局部依赖性以学习“连续”特征。此外，为了进一步研究并将单词映射到句子，我们使用局部自注意机制来捕获时间序列中的长依赖关系。暂时性局灶性阻滞。提出了时间聚焦块（TF- block）来帮助特征环顾其邻居并捕获短距离时间依赖性。我们从一个开始引入TF块-层。每个卷积层之后是层归一化[4]和Relu激活。此外，TF块还应该能够学习具有语音速率不变性的更鲁棒的表示，这是无论语音速率如何都能提取正确语义信息的能力。因此，不同大小的滤波器被用来融合多个尺度的特征。在这里，我们简单地添加一个内核大小为1的卷积和一个快捷连接作为TF-块-a的新分支。在seq2seq模型中，解码器应该是未来盲的，因此普通卷积不适用于解码器。我们采用因果卷积[39]将特征的局部融合分为两个方向：向前和向后。编码器可以像BiLSTM [42]一样执行前向和后向融合，而解码器只执行前向融合。因果卷积的公式在等式2中给出。所有未来的信息都将被因果卷积所阻挡基于单向和双向因果卷积的TF块分别如图3c和图3d所示维卷积：输出co=ΣCi Σk 内核cico内核输入ci（二）输出co=ΣCi Σk 内核cico内核输入ci（一）我不是ci=1i=1t−k+1我不是ci=1i=1t−k/2−1局部的自我关注。正如在3.2小节中所讨论的，许多语义信息隐含在整体中。其中，kernel∈Rk×Ci×Co是卷积核， Ci是输入通道数，Co是输出通道数，输出co是时间上的卷积结果。T，通道C0。输出co是从输入1学习的：顺序考虑每个位置的整个序列可以帮助学习包含在长范围时间依赖关系中的语义。采用自注意机制来学习自学习，t t其相邻的k特征。通过使用卷积运算-因此，输出C0不仅关注时间步长t处的输入特征，而且关注相邻特征，并将这些特征融合在一起。如图3a所示，TF-块-a是一个简单的实现，由两个卷积的分支组成。包含在远程依赖关系中的mantics。不像广泛使用的vanilla-attention [5]，其注意权重从解码器隐藏状态和所有编码器输出状态导出，自注意通过将特征与其邻居进行比较来导出注意权重。CCC′……………………时间转换空间池化717S不不tsS−−∗∈最小值（（因子-步长），输入Convk=3LN，Relu Convk=3LN，Relu输出输入转换转换k=1 k=3LN，ReluLN，ReluConvConvk=1k=3LN，Relu LN，Relu元素求和输出输入CauConv CauConv k= 1 k = 3雷卢·LNCauConvCauConvk=1 k=3LN，Relu LN，Relu元素求和输出输入反向CauConv CauConv CauConvk=1 k=3 k=3LN，ReluLN，ReluLN，ReluCauConv CauConv CauConvk=1 k=3 k=3LNLNLN热鲁热鲁热鲁按元素之和输出(a) TF-块-a(b) TF-区块-b(c) TF-区块-c(d) TF-区块-d图3：时间焦点块（TF块）。每个卷积层之后是层归一化（由LN提供）和Relu激活。k给出卷积的核大小。反向操作与[35]中描述的反向操作相同，即沿时间轴翻转序列作为新分支的输入。定义源状态H s=[h1，h2，.， h T] ∈ R Ts×Cs和目标态H t=[h1，h2，.，h T] ∈R Tt×Ct，其中T s和T t，C s和C t是源和目标状态tempo-在每个时间步上的特征长度和特征长度。在自我注意中，H s和H t是相同的，即从环视TC块学习的特征。我们采用LuongHW（H W）TΛ=softmax（）编码解码器编码器和解码器的结构如图1所示.编码器将CFE提取的特征Z作为输入。解码器采用编码器输出和先前预测的标签S1：t=[c1，c2，...，c t]来预测下一个标签c t+1。编码器由N个编码器模块组成，编码器模块由一个TC块和一个自注意层组成。该解码器由一个TC块、一个局部自注意层和一个香草注意层组成的N个解码器模块组成香草注意力与自我注意力的公式相同公司简介AttentionOutput= ΛHs（三）而是将编码器的输出作为源状态，并将解码器的隐藏状态作为目标状态。其中，Λ∈RTt×Ts是注意力权重，AttentionOutput∈RTt×Ct是注意力的输出，Ws和Wt是可学习的参数。由于原始的自注意（称为全局自注意）计算整个输入序列的注意权重，因此模型的复杂度随着序列长度的增长而增加。然而，我们发现在我们的实验中没有必要将依赖关系的范围设置为与序列长度相同。然后提出了一种局部自注意机制，以捕获编码器和解码器中的固定范围依赖性，如等式4所示。3.4. 实现细节对于卷积特征提取器，我们将丢弃率设置为0.5。在STFM中，Spa-tialPooling 之后的空间大小被设置为n=5，并且输出通道的数量被设置为512。在conv-seq2seq模型中，隐藏大小和丢弃率分别设置为512和0.1编码器模块和解码器模块堆叠了六次。多头注意力分割的数量设置为8。包括26个字母a z、10个数字0 9、一个标点符号““和用于[ PAD ]、[ EOS ]和[ SPACE ]的三个标记的解码器输出字典D的3.5. 培训λ=softmax（Ht Wt（Hs Ws）TWm公司简介）（4）在训练阶段，Adam [26]被用作具有默认参数的优化器。训练模型其中Wm RTt×Ts是掩码矩阵。作为我们的实验会显示，局部的自我注意力可以加速训练与[40]中的学习速率调度策略端到端，如等式5所示。过程，同时保持识别的准确性。此外，为了让模特们共同参加--0。5模型-0。5-1。5（五）为了从不同位置的不同表示子空间中形成，并降低计算复杂度，我们对注意力层采用多头注意力[40]。（系数n步骤）预热步骤）其中d模型是conv-seq 2seq模型中的隐藏大小step是训练迭代次数。 lr会连-lr= d718数据集方法LRWLRS2-BBCLRS3-TEDPW-FFN22.059.270.5TF-块-a19.358.570.5TF-区块-b18.755.665.5TF-区块-c20.157.369.3TF-区块-d18.855.966.0TM-CTC35.272.383.1TM-seq2seq22.160.570.8方法结果网格LRWLRS2-BBCLRS3-Ted是3.023.870.4-Bi-LSTM-17.0--TM-CTC--54.766.3TM-seq2seq--48.358.9我们1.316.351.760.1表1：不同TF块和基于Transformer的模型的字错误率（WER%）。PW-FFL捐赠的模型具有堆叠的位置前馈层，而不是TF块。TF-块-a、b、c、d是第3.3小节中描述的TF-块。TM-CTC和TM-seq 2seq分别是Transformerwith sequence-to-sequence loss和Connectionist TemporalClassification loss的缩写[1]。请注意，TM-CTC和TM-seq 2seq的结果是用我们可用的数据集复制的。所有方法的训练策略、设置和数据集都完全相同。模型*DRLRWLRS2-BBCLRS3-TedTM-CTC联系我们STFM-SSTFM35.234.733.772.370.468.283.181.679.4TM-seq2seq联系我们STFM-SSTFM22.121.320.559.557.655.069.867.665.0Conv-seq2seq联系我们STFM-SSTFM18.716.816.355.652.451.765.562.560.1降低特征维数的方法。GMAP：Global Average Pooling。STFM-s：STFM-simple。表2：具有不同模块的模型的WER，以在序列模型之前减少特征的维度。 STFM-simple 是一个简化的STFM，其时间卷积层被替换为内核大小为1的卷积层第一次预热步长/因子迭代的早期增加factor是一个标准化参数，在GRID上设置为1，0.1在LRW，LRS 2-BBC，LRS 3-TED上。在LRS 2-BBC和LRS 3-TED上进行培训时，采用了[11]中使用我们开始训练单个单词的例子，然后让序列长度随着净增长而增长。表3：与最先进方法的比较。WAS是“Watch，Attendand Spell”的缩写[11]。除了我们的结果外，所有的结果（WER）都是在[11，36，1]中报道的结果。工作列车该模型首先在LRW数据集和LRS 2-BBC和LRS 3-TED的预训练集上进行训练。然后分别在LRS2-BBC和LRS 3- TED的训练值集上进行微调。训练批次大小在GRID和LRW上为50，在LRS 2-BBC和LRS 3-TED上为12该模型在ImageNet上进行了预训练，并在具有12 GB内存的单个GeForce Titan X GPU上进行了训练。在测试阶段，波束搜索解码器被应用于解码器，并且波束宽度被设置为5。4. 实验在本节中，我们将我们的方法与最先进的方法进行比较。消融研究表明，我们的方法的每个模块的有效性。我们按照第3.4节所述训练模型，并在测试集GRID [14]，LRW [12]，LRS 2-BBC [1]，LRS 3-TED [2]数据集与相应的训练模型。我们采用词错误率（WER）作为我们的评估协议，它将参考文献与假设进行比较，计算公式为：WER=（S+D+I）/NUM，其中S、D和I分别为替换、删除和插入的数量，NUM为参考文献中的字数4.1. 数据集和预处理GRID数据集。GRID数据集包含34000句由34个发言者发出的我们遵循[3]中的数据集数据被随机划分为训练集、验证集和测试集，其中测试集包含每个说话者的255个发声。LRW数据集。Lip Reading in the Wild（LRW）数据集[12]由450，000个话语组成，每个话语包含500个词汇中的一个单词。每段视频的长度为1.16秒（29帧），视频中间说出一个词。719方法LRS2和LRS3CFE训练数据视频持续时间培训时间端对端端是VGG-MLRW+ LRS2+ LRS3+ MV-LRS1637.410dCTM-CTC3DCNN + ResNet50LRW+ LRS2+ LRS3+ MV-LRS1637.419dTM-seq2seq3DCNN + ResNet50LRW+ LRS2+ LRS3+ MV-LRS1637.422d我们3DCNN + ResNet18LRW+ LRS2+ LRS38637dC表4：LRS 2-BBC和LRS 3-TED的培训详情。CFE是Convolutional Feature Extractor的缩写。MV-LRS数据集尚未公开。d是days的缩写。视频持续时间是用于训练模型的数据集的总视频持续时间。端到端捐赠模型是否经过端到端训练。LRS 2-BBC数据集。LRS2是一个大规模的唇读数据集，由BBC电视台的143，000个话语组成。每个话语包含一个长度可变的句子它包含超过2.3万个单词，词汇量为41，000。LRS 3-TED数据集。LRS 3-TED数据集由来自TED和TEDx视频的大约15万个话语组成。它包含超过420万个单词，词汇量为51，000。预处理。对于所有数据集，我们使用dlib人脸和地标检测器[7]来检测所有视频帧中的68个面部关键点然后基于三个点，具体地说是眼睛外侧的两个点和鼻子的中间最低点，执行仿射变换，以对齐面部。最后，从对齐的面部裁剪尺寸为112x112的以嘴唇为中心的图像。唇的宽度被归一化为占据图像宽度的1/3。4.2. 消融实验为了研究所提出的时间Fo- cal块和STFM的行为除非另有说明，否则所有模型都使用子节3.1中描述的卷积特征提取器，并且编码器和解码器都由6层堆栈组成。隐藏大小为512，除非另有说明，否则在所有比较实验中，其他设置保持不变。暂时性局灶性阻滞为了评估短距离时间依赖性和局部融合的重要性，我们首先将TF-块-a与堆叠位置前馈层（PW-FFL）[40]进行比较，其可以被视为滤波器大小为1的两个1D时间卷积。这两种模型之间的唯一区别在于是否将来自相邻时间步的特征融合以生成新的特征。请注意，由于PW-FFL的位置，基于PW-FFL的模型与Transformer不同。两个额外的PW-FFl被添加到编码器的顶部，以确保基于PW-FFL的模型，以获得有效的结果。在解码器中，未来的信息不能被利用，因此我们的论文中的每个块被用在表1编码器中，并且对应块的因果版本被用在解码器中。基于TF-block-a的模型实现了2. 比基于位置前馈层的LRW模型低7%的WER，这表明短程依赖性对识别至关重要。使用不同TF块的结果如表1所示。TF-块-b具有0。在LRW数据集上的准确率比TF-block-a高6%，表明多尺度特征融合对唇读很重要。与TF-块- b相比，在编码器中使用因果卷积的TF-块-c带来1。准确度下降4%。但是利用双向机制，基于因果卷积的编码器能够实现类似的精度。然后，我们在LRW和LRS 2数据集上比较了基于不同 TF 块的卷积 seq 2seq 模型与 transformer-CTC 和transformer-seq 2seq。请注意，[1]中使用的训练数据集MV-LRS对我们不可用，并且我们的卷积特征提取器更轻，因此这里报告的基线与[1]中的结果不一致。与最好的基于Transformer的模型相比，即transformer-seq2seq，TF-块-b将每单位时间提高2。4%的LRW，4。9%在LRS 2-BBC和5。3%的LRS 3-TED。时空融合模块。我们简化 STFM通过用核大小为1的1D卷积替换时间卷积来分析可能被全局池化消耗的局部空间信息对于没有STFM的模型，在全局平均池化之前添加两个内核大小为1的卷积层，以保持STFM的近似参数量。我们比较了简化的 STFM （ STFM-simple ）与建议的 Conv-seq 2seq 模型， Transformer-CTC和Transformer-seq 2seq的全局平均池结果在表2中给出。Conv-seq 2seq模型基于TF-block-b，实现了1. 精确度提高9%720100948882767064585246只有试验训练和试验训练时间70676461585552494643宽度。在图4中，具有局部自注意力的模型的训练比具有全局自注意力的模型快20%，并且几乎没有导致准确性下降。4.3. 与最新技术水平方法的我们在GRID、LRW、LRS 2-BBC和LRS 3-TED数据集上评估了我们的方法，并将结果与最近的最先进方法进行了比较。结果见表3。在单词级数据集GRID和LRW上，我们的方法实现了1。7%和0。WER分别比之前的最先进方法低7%为了与以前的工作[1，11]进行公平的比较，我们40 40250 200 150 100 50 30 20 10 5注意宽度图4：具有不同注意力宽度的Conv-seq 2seq模型的WER和训练时间。只有测试表示用全局自注意训练但用局部自注意测试的模型的WER，而训练和测试表示用局部自注意训练和测试的模型的WER。训练时间表示具有不同注意宽度的序列模型的训练时间。使用 STFM 的 LRW 比全局平均池化简单。对于Transformer-CTC和Transformer-seq 2seq，与全局平均池化相比，STFM-simple还导致准确性的提高。此外，我们在卷积之前添加一个内核大小为3的两个时间卷积层的堆栈，内核大小为1。这增强了相邻时间步长之间的通信，并进一步提高了精度，特别是在Transformer-CTC和Transformer-seq 2seq上，因为这些模型中使用的前馈层不能融合相邻特征。全球自我关注vs.当地的自我关注。为了更好地理解注意力宽度对序列模型的影响，我们分析了注意力权重的分布。为此，我们训练了一个基于TF-block-b的Conv-seq 2seq模型，该模型具有全局自注意力，其宽度与输入序列的长度相同。对于每个时间步，我们从原始权重中选取一个以当前位置为中心点的固定长度区域在测试过程中，我们通过将选择范围之外的权重替换为零来限制注意力权重的有效宽度。与全局自注意相比，宽度大于100的局部自注意达到了相同的精度。当注意力宽度为50时，准确率仅下降0.8%，如图4所示。为了进一步分析注意宽度在训练中的作用，我们训练和测试了具有相同注意宽度的模型在单个GPU上训练我们的模型。由于受算法的限制，无法使用ResNet- 50作为特征提取器对模型进行端到端的训练。我们采用[1]中使用的训练策略，即首先训练CFE，然后用提取的特征训练序列模型。MV-LRS（w），[1]中用于训练CFE的数据集对我们来说是不可用的，所以我们使用LRS 3-TED作为替代。性能与[1]中报道的结果不可比较，因为MV-LRS（w）对于训练CFE是必不可少的，并且具有与LRS 2-BBC和LRS3-TED的总和相当的大小，如表4所示。然后，我们调整训练策略，用 ResNet-18 替换ResNet-50，以端到端训练我们的模型，并获得最佳结果，如表3所示。请注意，我们的方法实现了与最先进的作品相当的结果，但使用更少的训练数据和更轻的CFE。WAS模型的训练大约需要10天的时间，因为它的结构很简单。在具有可比结果的三个模型（TM-CTC，TM-seq 2seq，我们的）中，我们的方法需要更少的时间来完成训练。有关CFE和训练数据的更多细节见表4。5. 结论在本文中，我们提出了时空融合模块（STFM）和卷积序列到序列模型的基础上的时间焦点块（TF块）的唇读。我们的STFM可以与大多数唇读模型相结合，以提高局部空间信息的利用率，所提出的TF块可以提取短期的时间依赖，这是至关重要的唇读。我们的方法在GRID和LRW数据集上实现了最先进的结果，并在LRS 2-BBC和LRS 3-TED数据集上使用更少的训练数据和训练时间与最先进的方法取得了相当的结果。确认本研究得到了国家自然科学基金（No.61771310）的全额资助。WER（%）培训时间（小时）721引用[1] 放大图片作者：Joon Son Chung，Andrew W.老奥里尔·维尼亚和安德鲁·齐瑟曼深度视听语音识别。CoRR，abs/1809.02108，2018。[2] Triantafyllos Afouras，Joon Son Chung，和Andrew Zis-serman. LRS 3-TED：用于视觉语音识别的大规模数据集。CoRR，abs/1809.00496，2018。[3] 扬尼斯 ·M Assael ， Brendan Shillingford ， ShimonWhiteson，and Nando de Freitas.Lipnet：句子级唇读。CoRR，abs/1611.01599，2016。[4] Lei Jimmy Ba、Ryan Kiros和Geoffrey E.辛顿层归一化。CoRR，abs/1607.06450，2016。[5] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。CoRR，abs/1409.0473，2014。[6] Leonard E.鲍姆和泰德·皮特里。有限状态马尔可夫链概率函数的统计推断。安数学统计学家。，37（6）：1554[7] 多纳泰拉·卡斯泰利和帕斯夸尔·帕加诺Opendlib：一个数字图书馆服务系统。欧洲数字图书馆先进技术研究会议，2002年。[8] 作者：William Chan，Navdeep Jaitly ，Quoc V. Le 和Oriol Vinyals 。听一听，听一听，拼一拼 . CoRR ，abs/1508.01211，2015。[9] 冯程，士林王，和Wee Chung Liew。基于双任务cnn框架的随机提示文本的可视说话人认证。模式识别，83：340[10] 程建鹏、李东、米瑞拉·拉帕塔。机器阅读用的长短期存储器网络。CoRR，abs/1601.06733，2016。[11] 作者：Andrew W.老奥里奥尔·维雅尔斯，还有安德鲁 · 泽瑟曼 . 在野外读唇语句子。 CoRR ，abs/1611.05358，2016。[12] Joon Son Chung和Andrew Zisserman。在野外读唇语。在计算机视觉-ACCV 2016-第13届亚洲计算机视觉会议，台北，台湾，2016年11月20日至24日，修订的论文集，第二，第87[13] Joon Son Chung和Andrew Zisserman。过时了：在野外自动配唇同步在计算机视觉-ACCV 2016研讨会- ACCV2016国际研讨会，台北，台湾，2016年11月20日至24日，修订的选定论文，第二部分，第251-263页[14] Martin Cooke 、 Jon Barker 、 Stuart Cunningham 和 XuShao。语音感知和自动语音识别的视听语料库。美国声学学会杂志，120（5）：2421[15] 蒂莫西·F作者声明：Christopher J.作者：David H. 库珀和吉姆·格雷厄姆主动形状模型的训练与应用。计算机视觉与图像理解，61（1）：38[16] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克支持向量网络。Machine Learning，20（3）：273[17] Saeed Dabbaghchian，Masoumeh P. Ghaemmaghami和AliAghagolzadeh。基于离散余弦变换的人脸特征提取及鉴别力分析识别技术Pattern Recognition，43（4）：1431[18] Yunze Gao ， Yingying Chen ， Jinqiao Wang ， andHanqing Lu.阅读场景文本与注意力卷积序列建模。2017年。[19] Jonas Gehring ， Michael Auli， David Grangier ， DenisYarats ， and Yann N. 太子卷积序列到序列学习。CoRR，abs/1705.03122，2017。[20] Al e xGr av es，SantiagoFer na´ ndez，FaustinoGomez，and J ür genSchmidhube r. 连接主义时间分类：用递归神经网络标记未分割的序列数据。在Proceedings of the23rd International Conference on Machine Learning ，ICMLACM。[21] Alex Graves和Navdeep Jaitly使用递归神经网络进行端到端在Eric P. Xing和Tony Jebara的编辑，Proceedings ofthe 31 st International Conference on Machine Learning，第32卷 Proceedings of Machine Learning Research ，第1764-1772页，中国北京，2014年6月22-24日。PMLR。[22] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。IEEE Transactions on Pattern Analysis and MachineIntelligence，2015。[23] Martial Hebert，Katsushi Ikeuch

下载后可阅读完整内容，剩余1页未读，立即下载