基于子词级别的唇读与视觉注意力

172 浏览量更新于2023-10-25 收藏 13.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

K R PrajwalTriantafyllos AfourasAndrew ZissermanVisual Geometry Group, University of Oxford{prajwal,afourast,az}@robots.ox.ac.ukhttps://www.robots.ox.ac.uk/˜vgg/research/vtp-for-lip-readingnition (ASR) both have the common goal of transcribingspeech, however, they differ regarding the input: while inASR the input signal is an audio waveform, in essence, aone-dimensional time series, lip reading has to deal withhigh-dimensional video inputs that have both temporal andspatial complexity. This makes training large end-to-endmodels harder due to GPU memory and computation con-straints. Furthermore, understanding speech from visual in-formation alone is challenging due to the inherent ambigu-ities present in the visual stream, i.e. the existence of ho-mophemes where different characters that are visually in-distinguishable (e.g. ‘pa’, ‘ba’, and ‘ma’). That lip readingis a much harder task is also supported by the fact that al-though humans can understand speech reasonably well evenin the presence of noise and across a variety of accents, theyperform relatively poorly on lip reading [7,16].Designing a lip reading model requires both a visualcomponent – mouth movements need to be identiﬁed – aswell as a temporal sequence modelling component, whichtypically involves learning a language model that can re-solve ambiguities in individual lip shapes. Recent develop-ments in deep learning models and the availability of large-scale annotated datasets has led to breakthroughs surpassinghuman performance [16]. However, most of these workshave taken the approach of adapting techniques used forASR and machine translation, without catering to the par-ticularities of the vision problem.The conjecture in this paper is that the performance oflip reading, in terms of both accuracy and data efﬁciency,can be improved if the model is designed from the start tak-ing into account the peculiarities of the visual, rather thanthe audio domain. To this end, we consider both the visualencoding and the text tokenisation.Visual encoding. Our ﬁrst contribution is the design of anovel visual backbone for lip reading. The spatiotemporalcomplexity in lip reading requires dealing with problemssuch as tracking the mouth in moving talking heads. This isusually achieved with complicated pre-processing pipelinesbased on facial landmarks. However, those are sub-optimalin many cases. For example, landmarks don’t work well in51620基于子词级别的唇读与视觉注意力0摘要0本文的目标是学习能够在无声视频中识别语音的强大的唇读模型。大多数之前的研究通过在视觉特征上简单池化的基础上，采用现有的自动语音识别技术来处理开放集的视觉语音识别问题。相反，本文着重解决唇读中遇到的独特挑战，并提出了相应的解决方案。为此，我们做出以下贡献：（1）我们提出了一种基于注意力的池化机制来聚合视觉语音表示；（2）我们首次使用子词单元进行唇读，并且表明这使我们能够更好地建模任务的歧义性；（3）我们提出了一种基于唇读网络训练的视觉语音检测（VSD）模型。在上述基础上，我们在具有挑战性的LRS2和LRS3基准测试中，通过在公共数据集上进行训练，获得了最先进的结果，甚至超过了在大规模工业数据集上训练的模型使用数量级更少的数据。我们的最佳模型在LRS2数据集上实现了22.6%的词错误率，这在唇读模型中是前所未有的性能，显著缩小了唇读和自动语音识别之间的性能差距。此外，在AVA-ActiveSpeaker基准测试中，我们的VSD模型超过了所有仅视觉的基线模型，甚至优于几种最近的视听方法。01. 引言0唇读，或者说视觉语音识别，是从无声视频中识别语音的任务。它有许多实际应用，包括改善嘈杂环境中的语音识别，实现无声口述，或者为无声档案电影配音和转录[25]。它还具有重要的医学应用，例如帮助语音受损的个体，例如患有肌萎缩侧索硬化症的人说话[54]，或者使失去声音的人仅通过唇部运动进行交流。唇读和基于音频的自动语音识别-51630个人资料浏览[26]。此外，唇读的最佳感兴趣区域尚不清楚：已经表明，除了嘴唇之外，面部的其他部分，例如脸颊，也可能包含有用的区分信息[68]。此外，这个感兴趣区域在身份和话语方面可能会有很大的尺度和纵横比差异。因此，在这项工作中，我们提出了一种端到端可训练的基于注意力的池化机制，学习跟踪和聚合唇部运动表示，从而显著提高性能。文本标记化。唇读方法最常见的输出是字符级标记。然而，这种输出表示对于输入来说并不是最优的，因为字符有时比输入更细粒度，多个字符对应于单个视频帧。此外，字符不编码关于语言的任何先验知识，这导致对解码器的语言建模能力更高的依赖，解码器必须“学会阅读”。在这项工作中，我们使用子词标记（词片段）代替字符，这些子词标记不仅与多个相邻帧匹配，而且在学习语言方面也具有语义上的意义。子词标记导致输出序列比字符短得多，大大减少了运行时间和内存需求。它们还提供了一种语言先验，减轻了模型的语言建模负担。我们通过实验证明了字符和子词标记化的比较，以证明这个选择的合理性。视觉语音检测。在对现实世界的无声视频进行唇读推断时，一个问题是由于没有音频轨道，没有自动化的程序来裁剪出说话人说话的片段。ASR模型使用语音活动检测（VAD）作为关键的预处理步骤，但这显然不适用于无声视频。在这里，必须仅使用视频输入来确定包含语音的视频部分；换句话说，通过进行视觉语音检测（VSD）来实现。这对于在无声电影上运行推断非常有用。在这项工作中的其他发现中，我们展示了在我们预训练的唇读编码器之上训练一个强大的VSD模型是可能的。其他下游任务。除了改善句子级唇读任务本身的性能之外，获得改进的唇部运动表示还可以对其他相关的下游任务产生更广泛的影响，例如声源分离[19]、视觉关键词检测[42]和视觉语言识别[4]。总之，我们做出了以下三个贡献：（i）使用基于注意力的池化在空间特征图上的视觉主干架构；（ii）使用子词单元而不是字符作为语言标记；（iii）一个强大的视觉语音检测模型，直接在唇读编码器之上进行训练。在实验中，我们展示了（i）和（ii）的好处。0对于提高唇读性能的改进，我们还引入了一个简化之前工作中使用的课程的两阶段训练协议。正如将看到的那样，通过这些设计选择和训练方法，我们最好的模型的性能超过了标准评估基准上的先前工作，甚至超过了使用数量级更多的数据进行训练的专有模型。类似地，我们展示了（i）和唇读编码器对我们的视觉语音检测模型的好处，该模型在标准评估基准上远远优于以前的方法。我们在arXiv版本中讨论了我们的工作的潜在道德问题和局限性。请查看我们的项目页面以获取视频示例、代码和预训练模型。02. 相关工作0我们概述了关于唇读的先前工作，包括讨论这些方法如何选择和跟踪视觉感兴趣区域，以及它们使用的输出标记化方法，然后简要概述了在其他领域中使用注意力进行视觉特征聚合的情况。唇读。早期的唇读工作依赖于手工设计的流水线和统计模型进行视觉特征提取和时间建模[21, 37, 43, 44,48]；这些方法的广泛回顾在[70]中提供。深度学习的出现和大规模的唇读数据集（如LRS2 [15]和LRS3[2]）的可用性使这个领域焕发了新的活力。最初的进展是在词级别的识别[16,58]，然后通过使用LSTM序列到序列[15]或CTC [7,54]方法来调整为句子级别的识别的模型。[47]采用混合方法，训练一个基于LSTM的序列到序列模型，辅以辅助的CTC损失。近期工作的一个趋势是转向基于Transformer的架构[1]，或者使用卷积块的变体[67]和类似Conformer[22]的混合架构。另一个趋势是研究使用更大数据集进行训练的好处，直接通过训练比任何公共数据集大几个数量级的专有数据[40]，或者间接地通过将ASR模型蒸馏为唇读模型[3, 33,65]。对于视觉特征提取和短期动态建模，大多数现代流水线依赖于由多个3D卷积层组成的时空CNN [7,54]，或者由一个3D卷积层后跟2D卷积层[1, 16,58]组成的更轻量级的替代方法，应用于逐帧处理。嘴部感兴趣区域的选择、注册和跟踪。[68]对唇读的面部感兴趣区域（ROI）选择进行了详细的研究。LRS2和LRS3等数据集中的视频通常经过面部检测和跟踪流程进行预处理，该流程输出大致位于说话人脸部周围的剪辑。许多先前的工作使用提供的视频的中央裁剪作为特征提取器的输入[1, 38,58]。更多hw51640精细的管道使用面部标志来将面部注册到规范视图和/或仅提取嘴部区域的裁剪[7, 31, 40, 46, 54,67]。[68]提出输入面部的大部分，结合Cutout[17]鼓励模型也使用额外的口外面部区域。在选择从中提取低级CNN特征的输入区域后，所有上述工作都在提取的视觉特征图上应用全局平均池化（GAP）；这样可以获得紧凑的表示，但会丢弃空间信息。最近的研究[67]表明，用时空融合模块替换GAP可以提高性能。文本标记化。大多数关于唇读的先前研究输出字符级预测[1, 14, 15, 38, 40, 47,67]。这些方法通常在推理过程中使用外部语言模型来提高性能[27,39]。相反，[54]选择输出音素序列，使用音标字典。这种方法具有将唇部运动准确映射到声音的优点，但需要涉及专有有限状态转换器的复杂解码管道。[20,30]使用硬编码的启发式方法将单词映射到视觉音素序列，反之亦然，并使用音素标记来表示输出和目标文本。在这项工作中，我们提出使用子词级标记化，这大大减少了输出序列长度，从而加快了训练和推理速度，并整齐地编码了改善整体性能的先前语言信息。具有注意力的视觉特征聚合。我们的工作还与使用注意力改进图像或视频的视觉表示的方法相关。[24,61]使用注意力加权平均的视觉特征作为各种分类和检测任务的构建模块，而OCNet[66]使用自注意力来建模语义分割中像素之间的上下文。最近的几篇论文已经在视觉表示管道中用Transformer[60]块替换了卷积。DETR [11]和Ef�cient DETR[64]通过在CNN特征提取器之上应用空间变换器来学习目标检测器。类似地，Visual Transformer[62]对低级CNN特征进行标记化，然后使用Transformer来建模标记之间的关系。ViT[18]完全用Transformer层替换了视觉管道中的CNN，应用于图像补丁序列，而Timesformer[10]被认为是一种纯Transformer的视频表示学习解决方案。语音检测。ASR管道中的一个重要的预处理阶段是语音活动检测（VAD），它涉及检测音频中的语音存在[51]。在噪声或鸡尾酒会场景中，基于音频的VAD系统的可靠性会降低[35]。在用于创建大规模音频-视觉语音数据集的音频-视觉管道中[2, 16]，这一步通常被主动说话者检测所取代0（ASD）阶段，确定与语音匹配的面部轨迹。音频-视觉ASD模型可以通过直接监督[6, 13, 32, 52, 59]或自监督[5,16]的方式进行有效训练，采用对比目标。VAD的视觉对应物是视觉语音检测（VAD），它仅在视频输入上操作。早期的VSD工作（也称为视觉VAD或V-VAD）基于手工制作的视觉特征和使用HMM、GMM和PCA等方法的统计建模[8,34-36, 45, 49,55-57]。最近的工作提出了基于光流[9]或CNN和LSTMs的组合[23,53]的方法。这些方法在受限或非公开数据集上进行了训练或评估。WildVVAD的训练集[23]是一个新的带注释的VSD数据集，已经公开发布，但在本文发表时，其测试集尚不可用，因此我们无法将此数据集用于基准测试。03. 方法0在本节中，我们描述了我们提出的方法。模型的架构概述如图1所示。接下来，我们解释了管道的每个阶段，并将读者引用到arXiv版本以获取更多细节。03.1. 视觉主干0CNN。管道的输入是一个T帧的无声视频剪辑，x∈RT×H×W×3。对于5帧（即0.2秒）的子剪辑，使用一个单位帧步长对其应用时空残差CNN，以提取视觉空间特征图f∈RT×h×w×c。对于我们的最佳模型，H=W=96，(h,w)=(H/4,W/4)=(24,24)，c=128。视觉Transformer池化（VTP）。与每个输入帧t∈{1,...,T}对应的CNN特征图ft∈Rhw×c分别通过共享的视觉Transformer池化（VTP）块进行处理。首先，将特征图展平为ft∈Rh×w×c，并投影到所需的Transformer特征维度d，得到ft∈Rhw×d。然后，将空间位置编码（SPE）添加到其中；将结果通过由NVTPTransformer层组成的编码器，得到增强的自我关注特征图0zt = encoderv(ft + SPE1:hw)∈Rhw×d.0然后使用可学习的查询向量Qatt∈Rd×1来提取视觉注意力掩码0at = softmax(Q�attzt)∈Rhw×1.0注意力掩码用于计算自我关注特征图的加权平均值0gt = 1hw0u =1 aut zut ∈ RdTdec51650图1. 提出的唇读架构。左：将输入视频帧通过时空CNN传递，提取低级视觉特征f。然后，将与每个输入帧对应的特征图分别通过VisualTransformerPooling模块（VTP）进行处理。VTP块将空间位置编码（SPE）添加到输入特征中，并将结果通过Transformer编码器传递，以生成自我关注特征图zt。使用查询向量Qatt计算注意力掩码，然后使用该掩码获得zt的空间加权平均值。这样，每个输入视频帧的唇部外观和运动都得到了紧凑的视觉表示。将逐帧特征进行拼接形成时间特征序列g。将其作为输入传递给编码器-解码器Transformer（右侧），以自回归方式逐个预测子词概率。最终，使用波束搜索从这些分布中推断出输出句子。0其中aut和zut分别表示与帧t和位置u∈{1,...,hw}相关联的特征和注意力权重。通过将时间上的结果向量gt堆叠起来，我们得到一个嵌入序列g=(g1,g2,...,gT)∈RT×d，其中包含每个输入帧的紧凑时空表示。编码器-解码器Transformer模型用于从源视频嵌入序列g中逐个标记预测文本标记序列s=(s1,s2,...,sTdec)：将时间位置编码（PE）添加到g中，然后将结果输入到编码器中，编码器由Nenc个多头Transformer层组成，以产生一个自我关注的嵌入序列0genc = ENCODER(g + PE1:T)∈RT×d.0解码器由Ndec个Transformer层组成，然后以自回归方式关注该序列，并通过分解联合概率来预测输出的文本标记序列s：0log p(s|x) =0t=1 log p(st|genc(x),s1:t−1) (1)0在自回归解码器的输入中，还添加了位置编码，如[60]所述。文本句子被编码成标记序列（反之，标记被解码成文本），使用了子词级别的分词器，特别是WordPiece[63]。我们尝试了其他的子词分词方法，如GPT2中使用的字节对编码（BPE），但与使用WordPiece相比，效果更差。0束搜索解码和重新评分。解码采用宽度为B的从左到右的束搜索。我们还在水平翻转所有输入视频帧后进行第二次解码。通过使用外部语言模型（LM）对束搜索的2×B个最佳假设S = {s1 ∙ ∙ ∙ sB; sh1 ∙ ∙ ∙shB}进行重新评分[12]，并将得分最高的假设作为最终的句子预测：0s best = arg max s ∈ S [α log p(s | x) + (1 - α) logp LM (s)]0这里，sh1 ∙ ∙ ∙shB表示水平翻转输入后的束序列。我们发现，额外的测试时增强，如小幅度旋转和/或颜色抖动并没有改善结果。03.2. 训练0优化目标。给定一个由视频剪辑和其真实转录的对(x, s�)组成的训练数据集D，模型通过优化以下目标来最大化转录的对数似然：0L = -E(x, s �) ∈ D log p(s � | x) (2)0教师强制。为了加速训练，我们遵循使用Transformer进行序列到序列训练的常见做法，在每一步中将前一个真实标记作为解码器的输入，而不是使用自回归。标记通过可学习的嵌入层输入到解码器中。51660训练协议。训练分为两个阶段。首先，整个网络在2个单词的短语上进行端到端训练。根据[1,16]，我们使用帧词边界从数据集中的所有2个连续单词的可能组合中裁剪出训练样本，这提供了自然的增强。在收敛后，我们冻结视觉主干，然后预提取并转储所有样本的视觉特征。在随后的第二个训练阶段中，我们在数据集中通过组合连续的单词话语生成的所有可能的长度为2或更长的子序列（n-gram）上训练编码器-解码器子网络。讨论。我们注意到我们的训练协议比先前的工作[1, 16,47]中通常使用的协议要简单得多。通过在主干预训练阶段使用相同的网络和损失，我们获得了整个网络的良好初始化，并实现了平稳的迁移。这与其他需要使用不同的代理损失进行预训练并需要随后丢弃的单独的单词分类头的工作形成对比。第二阶段在实施上要简单得多，只需要一次运行，而不像渐进增加训练句子长度的课程，通常需要复杂的调整过程和多次手动重启才能达到最佳结果。我们观察到，我们提出的第二阶段训练设置与先前工作中使用的复杂课程策略的性能相匹配，同时在培训时间和手动工作方面更加高效。04. 实验04.1. 数据0LRS2和LRS3。我们使用两个公开可用的句子级唇读数据集进行训练和评估：LRS2 [16]和LRS3[2]。LRS2包含来自英国电视节目（如Country�le和TopGear）的各种节目片段；转录内容总共约为224小时。LRS3是从YouTube上的5000多个TED和TEDx演讲中收集的，总计475小时。这两个数据集都是使用检测和跟踪流程创建的，该流程产生大致以说话者的口头为中心的面部裁剪片段。所有视频都以224×224像素分辨率和25fps提供。数据集包含一个“预训练”分区，其中包括通过将字幕强制对齐到音频而产生的包含单词边界的广泛头部跟踪。这些单词对齐使得可以以任何粒度进行训练。测试集仅包含完整的句子。额外的数据集：TEDxext。为了获得更多的训练数据，我们使用类似于[2]的流程从YouTube上下载的TEDx演讲创建了一个新的数据集。我们收集了13211个不包含在LRS3中的英语TEDx演讲。与用于创建...的视频不同。0与LRS3中包含手动注释的转录不同，新的视频只有由YouTubeASR系统自动生成的闭幕字幕。由于这些字幕只是大致对齐到音频，我们使用Montreal Force Aligner [ 41]来获得我们的训练流程所需的准确的单词边界对齐。对于其余的处理（人脸检测、跟踪和裁剪），我们使用与[ 2]中相同的流程。得到的训练数据集总共包含1,204小时，318,459个视觉语音轨道，包括具有单词边界对齐的文本转录。我们将这个新的训练集称为TEDxext。我们注意到，由于这个流程不需要任何手动转录，所以监督是免费的，因此很容易扩展。然而，由于训练数据中由不完美的ASR转录引入的噪音，监督不是很强。但是，正如我们将看到的，我们的模型在训练这些嘈杂的数据之后取得了巨大的性能提升。04.2. 实现细节0在第一阶段的训练中，我们对输入帧应用随机视觉增强以减少过拟合：首先将输入视频调整为160像素的正方形分辨率，然后提取一个96像素的中心正方形裁剪。在输入到唇读取流程之前，还会应用随机水平翻转和旋转（最多10度）。在推理过程中，我们使用中心的96像素裁剪，并且只应用水平翻转增强。对于我们最好的模型，即在(H/4，W/4)上的VTP，我们设置N V T P =6层，每层编码器有8个头。为了计算效率，VTP使用最近提出的线性Transformer [ 28 ]而不是原始的Transformer [60]。我们发现这个改变并没有导致识别性能下降，同时更加计算效率。我们还需要做出的另一个设计选择是决定在哪个CNN层之后应用VTP。Transformer层在更高分辨率的特征图（即较早的层激活）上计算代价高，但可以捕捉更详细的信息。鉴于这种权衡，我们尝试了三种不同的特征图分辨率，分别为(H/4，W/4)，(H/8，W/8)，(H/16，W/16)。对于后两种变体，我们设置特征维度d =512。当在(H/4，W/4)上进行池化时，我们通过进行两个小改变来控制计算和内存需求：对于前3个VTP层，使用d =256，然后对于剩下的3个层，设置d =512，但将特征图下采样到(H/8，W/8)。编码器-解码器Transformer包含N enc = 6和N dec =6层，每层有8个注意力头。我们使用正弦位置编码[ 60]作为PE，使用可学习的位置编码作为SPE。我们使用WordPiece tok-51670训练评估方法使用的数据集总小时数 LRS2 LRS30LIBS [ 69 ] LRS2，LRS3 698 65.3 - Hyb. CTC/Att. [ 47 ] LRS2，LRW 389 63.5 - TDNN [ 65] LRS2 224 48.9 - Conv-seq2seq [ 67 ] LRS2，LRS3 698 51.7 60.1 CTC + KD [ 3 ]LRS2，LRS3，VoxCeleb2 ‡ 1,032 51.3 59.8 Hyb. + Conformer [ 38 ] LRS2，LRW 389 37.9- Hyb. + Conformer [ 38 ] LRS3，LRW 639 - 43.3 我们的LRS2，LRS3 698 28.9 40.60TM-seq2seq [ 1 ] LRS2，LRS3，LRW，MV-LRS † 1,637 48.3 58.90CTC-V2P [ 54 ] LSVSR † 3,886 - 55.10RNN-T [ 40 ] YT31k † 31,000 - 33.60我们的LRS2，LRS3，MV-LRS †，TEDx ext 2,676 22.6 30.70表1.在LRS2和LRS3数据集的测试集上，根据单词错误率％（WER，越低越好）比较不同的唇读取模型，以及用于训练每个模型的数据集和总小时数。我们的模型在使用公开可用的数据（即LRS2和LRS3）进行训练时，实现了最先进的结果，优于所有先前的基线。如果我们额外使用MV-LRS和TEDx ext进行训练，那么我们的最佳模型的结果与[ 40]的结果相当，尽管我们只使用了数量级较少的数据。这表明了我们提出的流程的数据效率。†大型非公开标记数据集：MV-LRS [ 1]包含730小时，LSVSR [ 54 ]包含3.9k小时，YT31k [ 40]包含31k小时的转录视频。‡未标记数据集。以蓝色显示的结果是通过在非公开数据上（部分或全部）进行训练获得的。0我们使用HuggingFace的BERT模型的分词器[1]，词汇表大小为30522个标记。我们还使用现成的预训练GPT2语言模型进行beam重排序。对于beam重排序，我们分别设置超参数α=0.7和α=0.6。我们使用Adam优化器[29]进行所有模型的训练，其中β1=0.9，β2=0.98，ϵ=10^-9。在训练的第一阶段，我们遵循Noam学习率调度[60]，前50个epoch的学习率按照因子5的倍数逐渐降低，直到达到10^-6。对于第二阶段，学习率最初设置为5e-5，并在学习率下降到10^-6时按照因子5的倍数降低。对于我们在公共数据上报告的最佳模型，第一阶段的训练大约需要4个Tesla V100GPU的14天。第二阶段需要1个Tesla V100 GPU的1.5天。04.3. 最先进的唇读技术0我们将我们的方法与现有的工作在表1中进行了比较。显然，我们的最佳模型在公共数据上的训练结果优于所有先前的工作，无论是在LRS2还是LRS3基准上。特别是，与[38]的最强基线相比，我们的最佳模型在LRS2上表现出9％的改进，在LRS3上表现出2.7％的改进。当还使用MV-LRS和TEDxext进行训练时，我们获得了显著的提升，分别在LRS2和LRS3上实现了22.6％和30.7％的WER。我们甚至在很大程度上超过了[40]。01 https://huggingface.co/transformers/pretrained models.html0使用10倍较少的训练数据的情况下，我们的流程明显表明我们的流程具有高效的数据利用率。04.4. 消融实验0我们进行了各种消融实验，以更好地理解我们的流程的不同方面。对于所有消融实验，模型只在公共数据上进行训练和评估，即LRS2和LRS3数据集。每个模块的重要性。我们展示了每个提出的模块对最终得分的影响，从TM-seq2seq模型[1]的一个变体开始，逐步构建到我们的完整模型。我们在表2中总结了这项研究的结果。显然，所有提出的改进都显著提高了性能，并且在很大程度上是正交的。特别是，使用WordPiece标记在LRS2上提供了3.8％的绝对改进，而引入VTP模块则将WER降低了6.3％。使用LM对beam进行重排序并应用测试时间水平翻转分别导致了另外1.1％和0.9％的改进。VTP分辨率。VTP模块能够在任意特征图分辨率上聚合空间特征。但是，我们表明它在操作更细的高分辨率特征图上比操作更粗的低分辨率特征图时更有效。这在表3中是明显的，在空间分辨率为24×24的conv2,3之后进行池化比在12×12或6×6的较低分辨率特征图上进行池化更有效。02 为了公平比较，使用与我们模型相同的CNN特征提取器y = σ( FC (genc) ) ∈ RT .51680图2. 可视化的VTP模块生成的视觉注意力掩码a叠加在输入帧上。这里使用的视频剪辑是从LRS3数据集中随机采样的。显然，模型遵循更具辨别力的嘴部区域。0方法 WER ∆0TM-seq2seq † 基准 41.0 - + WordPiece37.2 − 3 . 8 + VTP 30.9 − 6 . 3 + BeamLM 重排序 29.8 − 1 . 1 + 测试时间增强28.9 − 0 . 90表2.对本文提出的设计改进进行的消融实验。报告的结果是在LRS2数据集的测试集上的结果。显然，所有提出的组件都独立地对性能提升做出了贡献。† 基准是TM-seq2seq[1]的改进版本（详细信息请参见arXiv版本）。0方法 # transformer层数 WER0没有VTP 0 37.2 VTP @ ( H/ 16 , W/ 16) 2 35.7 VTP@ ( H/ 8 , W/ 8) 3 33.8 VTP @ ( H/ 4 , W/ 4) 6 30.90表 3.VTP模块输入空间分辨率的消融实验。为了使视觉前端的参数总数大致相同，为每个阶段选择了相应的Transformer层数。我们可以看到，从更高分辨率的特征图进行池化明显会得到更好的结果。0训练协议。之前的研究[ 1]在训练过程中采用了课程学习策略：序列长度逐渐增加。虽然这种协议确实效果更好，但我们认为性能的提升并不是来自课程学习，而是来自其他方面的改进。0来自其他方面的改进：数据增强。在训练过程中，模型可以训练各种长度的所有子序列（n-gram），这是一种有效的数据增强方法，可以减少过拟合。事实上，我们观察到，如果我们一次性训练所有n-gram子序列（而不是逐渐增加长度），我们可以达到 30 . 92的词错误率（WER），这与按照课程计划的 30 . 91的WER相当。这个实验不仅为当前对唇读训练流程的理解提供了新的见解，而且在遵循一个更简单的训练过程时取得了类似的结果，这个过程需要更少的手动调整。04.5. 视觉注意力可视化0在图 2中，我们展示了VTP模块生成的视觉注意力图。请注意，即使说话者转动头部，唇部区域也能被准确地跟踪，即使是极端侧面视图也是如此。05. 视觉语音检测应用0我们在我们的唇读转换编码器之上构建了一个VSD模型，只需在帧级编码器的输出之上添加一个全连接（FC）层和一个sigmoid激活函数，用于对该帧是否在说话进行分类：0该架构如图 3所示。我们使用一个预训练的唇读编码器来训练VSD头部。Lv = 1TT�t=1y∗t log yt + (1 − y∗t ) log(1 − yt)(3)3https://tinyurl.com/ava-script51690图 3.视觉语音检测流程。为了预测每个视频帧中是否存在语音，我们在唇读模型的视觉编码器之上添加了一个sigmoid预测头。0预测标签和真实标签之间的二元交叉熵损失，即 y t 和 y �t :0数据集和评估。我们在流行的AVAActiveSpeaker数据集的训练集上训练了我们的VSD模型[52 ]。该数据集是从电影中创建的，包含 120个视频（2.6百万帧）用于训练，33个视频（768千帧）用于验证，109个视频（2百万帧）用于测试。每个帧都包含人脸的边界框注释，以及一个标签，指示该人是否（i）正在说话并且可听见，（ii）正在说话但不可听见，（iii）不可听见。第二类情况涵盖了人在背景中口型但声音不可听见的情况。由于我们只处理视觉帧，我们将第一类和第二类样本合并，并训练模型进行二元分类。我们使用预训练的唇读模型初始化权重，并使用Adam优化器对所有层进行微调，学习率为10^-6。为了评估我们模型和基准模型的性能，我们使用数据集作者提供的平均精度（mAP）指标进行计算；我们使用作者提供的评估脚本3计算指标。我们还通过Ava-ActiveSpeaker挑战组织者的协助在非公开测试集上报告我们的分数。结果。我们在表4中展示了定量结果，报告了我们最佳基于VTP的VSD模型的性能（对应于表1的最后一行），以及之前的研究结果。显然，我们的模型表现出色。0大大优于[52]的仅视频基线，甚至优于几种最近提出的音频-视觉方法([6,13])。此外，为了再次展示VTP模块的好处，我们还将其与我们模型的一个消融版本进行了比较，该版本在CNN特征之上使用了全局平均池化(GAP)，并且具有相同的训练-验证-测试设置。在这个任务上，VTP模块的性能也优于这个模型，提高了8个mAP点。我们在项目页面提供了定性视频示例和使用整个流程(包括VSD和唇读)对无声视频进行推理的示例。0方法 A V mAP (val) mAP (test)0Roth等人[52] � � 79.2 82.1 Alcazar等人[6] � � 87.186.7 Chung等人[13] � � 87.8 87.8 MAAS-TAN [32] �� 88.8 88.3 TalkNet [59] � � 92.3 90.80Roth等人[52] � � 73.5 71.1 我们的(CNN + GAP) � �81.4 80.2 我们的(VTP) � � 89.2 88.20表4. AVAActiveSpeaker基准数据集验证集(val)和测试集上的视觉语音检测性能。A和V列表示相应方法使用的模态。我们的VTP模型在这个任务上大大优于[52]的仅视频基线(超过17个mAP改进)。实际上，我们甚至优于几种最近提出的音频-视觉方法([6,13])，在不使用任何音频的情况下获得接近当前最先进的结果。0限制和道德考虑。我们在arXiv版本中探讨了唇读和VSD模型的限制和失败案例。我们还讨论了我们工作的道德问题和积极的现实应用。06. 结论0我们提出了一种基于注意力聚合视觉表示的唇读改进架构，以及训练协议的几个增强，包括使用子词标记化。我们的最佳模型取得了最先进的结果，在公共数据上训练的先前工作相比，性能有显著提升，甚至超过了训练数据数量级更多的工业模型。我们还设计了一个基于我们的唇读系统的视觉语音检测模型，在这个任务上取得了最先进的结果，甚至超过了几个音频-视觉基线。致谢。本研究的资金支持由EPSRC项目VisualAIEP/T028572/1和DeepMind研究生奖学金提供。51700参考文献0[1] Triantafyllos Afouras, Joon Son Chung, Andrew Senior,Oriol Vinyals, and Andrew Zisserman. 深度音频-视觉语音识别.IEEE PAMI , 2019年. 2 , 3 , 5 , 6 , 70[2] Triantafyllos Afouras, Joon Son Chung, and AndrewZisserman. LRS3-TED: 用于视觉语音识别的大规模数据集.在arXiv预印本arXiv:1809.00496中，2018年. 2 , 3 , 50[3] Triantafyllos Afouras, Joon Son Chung, and A

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于子词级别的唇读与视觉注意力

将convnext加入CBAM注意力.zip

基于注意力机制的RGBT图像融合算法

视觉transformer的综述

归纳显著性检测与目标分割的主要研究方向及主要方法

视觉transformer模型详解

语义分割算法发展脉络

relational graph attention networks

语义分割算法国内外研究现状以及进展，要求2000字左右

谈一谈基于卷积神经网络的文本分析的发展历程、相关研究现状或进展

极线Transformer是什么

swinTransformer

swinTransformer用于中草药分类

高精度语义分割方法发展史

timm.models swintransformer

Pyraformer

resnet与swin transformer

vovnet构建细节及过程

Pixel Transformer中的编码器和解码器各有几层

transformer边缘检测

Vision Transformer 创新点

最新资源