视觉关键字定位的纯视觉自动语音识别方法

31 浏览量更新于2023-10-13 收藏 792KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于野外ThemosStafylakis[0000−0002−9227−3588]和GeorgiosTzimiropoulos[0000−0002−1803−5338]英国诺丁汉大学计算机视觉实验室{themos.stafylakis，yorgos.tzimiropoulos} @ nottingham.ac.uk抽象。视觉关键字定位（KWS）是估计是否出现在一个给定的记录只使用视频信息的文本查询的问题。本文的重点是视觉KWS的训练过程中看不见的话，一个真实的世界，实际的设置，到目前为止还没有收到注意力的社会。为此，我们设计了一种端到端架构，包括（a）基于时空残差网络的最先进的视觉特征提取器，（b）基于序列到序列神经网络的字素到音素模型，以及（c）学习如何将视觉特征与关键字表示相关联的递归神经网络的堆栈与KWS上的先前作品不同，KWS试图仅仅从字素序列（即字母），我们提出使用一个字形到音素编码器-解码器模型，学习如何映射单词到他们的发音。我们证明，我们的系统获得了非常有前途的视觉只有KWS的结果具有挑战性的LRS2数据库，在训练过程中看不见的关键字。我们还表明，我们的系统优于通过自动语音识别（ASR）解决KWS的基线，而它大大改善，证明了其他最近提出的ASR免费KWS方法。关键词：视觉关键词识别·视觉语音识别·零次学习1介绍本文研究了纯视觉自动语音识别（ASR）的问题。仅从视频信息识别语音的问题，特别是从分析由嘴和嘴唇运动引起的时空视觉模式。VisualASR是一个具有挑战性的研究问题，由于深度学习的出现和大型且具有挑战性的数据集的收集，最近才报道了一些不错的结果[1特别是，我们专注于关键字定位（KWS）的问题，即。在一组记录中找到文本查询的出现的问题。在这项工作中，我们只考虑单词，但同样的架构可以用于短语。虽然这个问题可以用标准的2T. 斯塔菲拉基斯湾TzimiropoulosAS Rmethods、reecentworksaimtoadressithedireti t 此外，这种KWS方法符合ASR（通常称为声学到单词）中最近出现的研究方向，其中单词取代音素、三音子或字母作为基本识别单元[5，6]。动机关于使用词作为基本识别单元的主要问题之一是词汇表外（OOV）词的存在，即，精确语音音标未知的单词，以及在训练集中出现很少或零次的单词这个问题在视觉领域中更加严重，其中收集、注释和分发用于完全监督的视觉语音识别的大型据我们所知，本文是第一次尝试对视觉KWS下的零拍设置。与零射击学习有关。我们的方法与零射击学习方法有某些相似之处，例如。用于识别图像中的对象，而无需训练特定对象的示例[7]。与[7]不同，其中对象的表示编码语义关系，我们希望学习仅编码其语音内容的单词表示。为此，我们提出使用一个字素到音素（G2 P）编码器-解码器模型，它学习如何映射单词（即字素序列或简单的字母）到它们的发音（即，到音素序列）1.通过使用这样的对的训练集（即单词及其发音），我们获得任何单词的固定长度表示（嵌入），包括没有出现在语音词典或视觉语音训练集中的单词。所提出的系统接收视频和关键字作为输入，并且估计关键字是否包含在视频中。我们使用LRS 2数据库来训练循环神经网络（双向长短期记忆，BiL-STM），其学习视觉特征与其对应的关键词表示之间的非线性相关性[8]。网络的后端对视频包含关键词的概率进行所提出的系统是端到端训练的，没有关于关键字边界的信息，并且一旦训练完毕，它就可以发现任何关键字，即使是那些不包括在LRS2训练集中的关键字。总的来说，我们的贡献是：– 我们是第一个研究按文本查询的视觉KWS在训练过程中看不见的话– 我们设计了一种端到端架构，包括（a）基于时空残差网络的最先进的视觉特征提取器，（b）基于序列到序列神经网络的G2P模型，以及（c）学习如何将视觉特征与时间相关的递归神经网络堆栈。关键字表示。– 我们证明，我们的系统获得了非常有前途的视觉只有KWS的结果具有挑战性的LRS2数据库。1例如，单词“finish”的音标是“F IH1N IH0SH”，其中元音“IH”之后的数值表示不同的拉伸水平。零击关键词识别32相关工作视觉ASR。在过去的几年里，人们对视觉和视听ASR的兴趣已经恢复。该领域的研究在很大程度上受到纯音频ASR的最新进展以及计算机视觉的最新技术的影响，主要用于提取视觉特征。在[9]中，CNN特征与端到端视觉ASR架构中的门控递归单元（GRU）相结合，能够在相对简单的数据集（GRID [10]）上执行句子级视觉ASR 类似于几种最近的基于端到端音频的ASR方法，部署CTC以便规避帧和非帧文件之间的时间对准的缺乏[11，12]。在[1，13]中，“列表、时间和空间”（[ 14]）仅限音频的ASR架构适用于音频视频领域，并且在最近发布的野外音频视频数据集上进行该架构是一种attentive编码器-解码器模型，其中解码器直接对字母（即字母）进行操作。而不是音素或视位（即，音素的视觉模拟[15]）。它部署了一个VGG提取视觉特征和音频和视觉模态融合在解码器。该模型在视听ASR中产生了最先进的结果。视觉和视听ASR的其他最新进展涉及残余LSTM、对抗性域适应方法、自我注意层（即自适应层）的使用、自适应域适应方法和自适应域适应方法。Transformer [16]）、CTC和注意力的组合、门控神经网络以及新型融合方法[17单词作为识别单元。深度学习向端到端架构发展的总体趋势，以及简化相当复杂的传统ASR范式的挑战，导致了直接使用单词作为识别单元的新研究方向在[25]中，引入了声学深度架构，其通过将单词投影到连续嵌入空间来对单词进行在这个嵌入空间中，听起来相似的单词在欧几里得意义上是附近的，将其与距离对应于句法和语义关系的其他单词嵌入空间区分开来[26，27]。在[5，6]中，引入了两种基于CTC的ASR架构，其中CTC将声学特征直接映射到单词。实验表明，CTC词模型可以优于最先进的基线，利用上下文相关的三音子作为识别单元，语音词典和语言模型。在基于音频的KWS问题中，也出现了端到端的基于单词的方法。在[28]中，作者介绍了一种基于序列训练的KWS系统，该系统由用于声学建模的CNN和聚合阶段组成，该阶段将帧级分数聚合为单词的序列级分数。然而，该系统仅限于在训练期间看到的单词，因为它仅将每个单词与标签（即，标签）相关联。独热向量），而不将它们视为字符序列。其他最近的工作旨在发现用于激活语音助理系统的特定关键字[29-31]。BiLSTM在KWS上的应用首先在[32]中提出。该架构能够识别至少一组有限的关键字，具有与关键字一样多的输出单元的softmax输出层，以及用于训练的CTC损失。最近，[4]中的作者提出了一种仅音频的KWS系统，能够使用CNN/RNN自动编码字素序列（对应于单词或4T. 斯塔菲拉基斯湾Tzimiropoulos短短语）转换成固定长度的表示向量。所提取的表示连同用声学自动编码器提取的音频特征表示一起被传递到前馈神经网络，该前馈神经网络被训练以预测关键字是否出现在话语中。虽然这种仅音频的方法与我们的方法在概念上有某些相似之处，但实现方式在几个方面有所不同。我们的方法部署了一个字到音素模型来学习关键字表示，它不使用自动编码器来提取视觉序列的表示，更重要的是，它学习如何从低级别的视觉特征，而不是从视频级表示的关键字相关的视觉信息[33]的作者最近提出了一种使用单词作为识别单元的视觉KWS方法他们与我们一起部署了ResNet特征提取器（由我们的团队在[34，35]中提出并在LRW [2]上进行了训练），并且他们展示了他们的网络在发现LRW中出现Nw他们的方法的瓶颈是单词表示（每个单词对应于一个标签，而不考虑单词作为字素序列这样的非结构化单词表示可以在闭集单词识别/检测任务上表现良好，但是防止该方法推广到在训练期间看不见的单词。零射击学习可以在具有不可见单词的KWS和用于检测新类（诸如对象或动物）的零射击学习之间进行类比。具有未见过单词的KWS本质上是一个零射击学习问题，其中属性（字母）在类（单词）之间共享，以便从可见类中学习到的知识转移到未见过的类[37]。此外，类似于其中未给出感兴趣对象的边界框的典型零激发学习训练设置，KWS训练算法仅知道在给定训练视频中是否说出特定单词，而不具有关于确切时间间隔的信息。由于这些原因，零触发学习方法，例如从图像特征空间到语义空间学习映射（[38，39]）与我们的方法有关。最后，最近的方法在动作识别中使用表示向量来编码，例如3D人体骨骼序列也与我们的方法有一定的相似性[40]。3该方法3.1系统概述我们的系统由四个不同的模块组成。第一模块是视觉特征提取器，其接收图像帧序列作为输入（假设已经应用了面部检测器，如在LRS2中），并且输出特征。时空残差网络用于此目的，其在单词级视觉ASR中表现出显着的性能[34，35]。该架构的第二模块接收用户定义的关键字（或更一般地文本查询）作为输入，并以Rde输出关键字的固定长度表示。该映射通过字素到音素（G2P）来学习零击关键词识别5[41])模型，这是一个序列到序列神经网络，其中两个RNN扮演编码器和解码器的角色（类似于[42]）。这两个RNN通过编码器的最后一个隐藏状态相互作用，解码器使用该隐藏状态来初始化自己的隐藏状态。我们声称，这种表示是提取单词表示的一个很好的选择，因为（a）它包含有关其发音的信息，而不需要在评估期间的语音转录，以及（b）它推广到在训练期间看不见的单词，只要G2P是用足够大的词汇表训练的。第三模块是其中组合具有关键字表示的视觉特征并且学习它们之间的非线性相关性。它由双向LSTM的堆栈实现，其接收特征向量的序列作为输入，并将每个这样的向量与单词表示向量连接。最后，第四模块是后端分类器和定位器，其目的是（a）估计查询是否出现在视频中，以及（b）为我们提供其在视频中的位置的估计。请注意，我们不使用关键字出现的时间间隔信息来训练网络。在训练期间使用的唯一监督是指示关键字是否出现在视频中的二进制标签，以及关键字的字素和音素序列该模型的基本构建块如图所示1.一、图图1：拟议的KWS系统的框图3.2基于时空ResNet的视觉模式网络的前端是一个18层残差网络（ResNet），它在LRW [34][43]和LRS2 [20]上表现出非常好的性能已经证实，CNN在其第一层中编码时空信息的特征在唇读中产生更好的性能，即使在后端与深度LSTM或GRU结合时也是如此[34，9，13]。出于这个原因，我们将ResNet的第一个2D卷积层、批处理归一化层和最大池化层替换为3D对应层。内核的时间大小设置为相等6T. 斯塔菲拉基斯湾Tzimiropoulos到 Tr=5 ，并且因此每个 ResNet 特征在 0.2s 的窗口上被提取（假设25fps）。时间步长等于1，因为在该阶段不期望时间分辨率最后，ResNet输出的平均池化层（例如，在ResNet的ImageNet版本中[43]）被完全连接的层取代总的来说，时空ResNet实现函数xt=fr（[It-2，It-1，It，It+1，It+2]，Wr），其中Wrd不是ResNet的参数，并且It是时间t处的（灰度和裁剪的）帧。我们在LRW上使用预训练模型，我们使用闭集单词识别对LRS2的预训练集进行微调LRS2的预训练集对于此目的是有用的，这不仅是因为它包含大量的话语，而且还因为它更详细的注释文件，其中包含关于每个单词开始和结束的（估计）时间的单词边界允许我们摘录包含特定单词的固定持续时间的视频片段，并且基本上模仿LRW设置。为此，我们选择了2000最频繁出现的话，包含至少4个音素，我们提取帧序列的1.5秒的持续时间，在中心的目标字。后端是一个2层LSTM（在LRW上联合预训练），一旦训练完成，我们就删除它。预处理。LRS2中的帧已经根据由面部检测器和跟踪器提取的边界框被裁剪[1，2]。我们使用一组固定的系数Ccrop=[15，46，145，125]进一步裁剪帧，将它们调整为122× 122，最后在训练中应用随机裁剪（用于数据增强）并在测试中使用固定的中心裁剪后，将大小为112× 112的帧输入ResNet，如 [34]所示。3.3用于编码关键字的字素到音素（G2P）模型广泛用于语音技术中，以便学习从字素序列G∈G到音素序列P ∈ P的映射G ›→ P。这样的模型通常使用语音词典（诸如CMU词典（用于英语））以监督方式训练CMU词典中不同音素的数量等于Nphn= 69，由于拉伸的可变水平，每个元音贡献多于一个音素G2P模式的有效性通过其普遍性来衡量即通过其估计在训练期间未看到的单词的正确发音的能力。序列到序列神经网络最近在解决这个问题方面显示出了它们的实力[41]。在序列到序列G2P模型中，两个序列通常由RNN（诸如LSTM或GRU）建模。第一RNN是由We参数化的函数r =fe（G，We），其将粗映射方程编码为固定大小的预处理。|G，其中rrr∈Rdr，其中s econdRNN表示相位方程P≡fd（r，Wd）。这是一个非常重要的问题向量通常被定义为最后一步的输出，即一旦RNN已经看到整个字素序列。我们的G2P实现涉及两个单向LSTM，其隐藏大小等于dl= 64。类似于机器翻译的序列到序列模型（例如，[42]），编码器接收（反向）序列作为输入。零击关键词识别7不t=1在一个实施例中，每个字素被编码，并且解码器从编码器接收ce，T和输出he ，T（对应于最后的时间步长t=T）以初始化其自己的状态，由cd，0和hd，0表示。为了提取单词表示r，我们首先连接两个向量，然后将它们投影到Rdr以获得r，最后重新投影Σ返回到R2dl，即te，T不Σte，TΣ›→r ›→td，0Σttd，0，其中xt表示x的转置对于投影，我们使用具有方阵的两个线性层（因为dr=2dl），而偏置被省略以具有更紧凑的符号。G2P模型是通过最小化路径P * 和向量P（P t）的概率之间的交叉熵（CE）来训练的|G），一个版本的数据库时间步长，即Lw（P*， G）=1ΣT不t=1CE（P*，P（Pt|G））。（一）由于G2P模型是用反向传播训练的，因此其损失函数可以作为辅助损失被添加到主KWS损失函数，并且可以联合训练联合训练是非常需要的，因为它迫使编码器学习不仅对解码最优的表示，而且对我们的主要任务也是最优的。在评估期间，由编码器学习的映射Gd-z是所要求的全部，并且对于KWS不需要针对解码器dec（·，Wdec）的所要求的以及针对P* 的所述规则3.4BiLSTM堆栈、二元分类器和损失函数模型的后端接收以下的视觉特征序列X ={ xt} T视频和单词表示向量r，并且估计关键字是否是由说话者说出的。捕获与BiLSTM的相关性。LSTM在建模输入向量之间的长期相关性以及输入向量的不同条目之间的相关性方面具有卓越的能力，这是由于其控制存储单元和输出的门控机制的表达能力我们使用两个双向LSTM（BiLSTM），其中第一个BiLSTM仅应用特征序列X→ Y的变换，即Σ。⭢ ΣΣΣ好吧是的ΣΣht， ct、ht， ct=fl0xt，ht−1，ct−1，fl0xt，ht+1，ct+1（二）和Σt tΣtyt = Wth， h（三）l0t t其中W10是尺寸为（2dv，dv）的线性层⭢fl0和f10是函数cor-响应于前向和后向LSTM模型（对它们的参数保持隐式），而dv= 256。输入向量X是批量归一化的，并且在p = 0时退出。2通过重复相同C，hC，h8T. 斯塔菲拉基斯湾Tzimiropoulost=1t=1t=1t=1t=1t=1t=1相同序列的所有特征向量的dropout掩码[45]。第一BiLSTM的输出向量与单词表示向量级联以获得y+ =[yt， rt]t。在对y+应用批量归一化后，我们将它们传递给t t t作为到第二BiLSTM的输入，其中等式如上文所定义，从而产生由Z = { z t } T表示的输出向量的序列，其中z t∈R dv.注意所提出的帧级级联与基于关键字的模型自适应之间的等效性我们可以将r视为调整三个门中的线性层的偏置和单元的输入的手段，以使得其神经元的激活仅在Z中对应于r中编码的关键字的子序列上激发用于网络初始化的前馈分类器。对于最初的几个epoch，我们使用一个简单的前馈分类器，随后我们将其替换为下面讨论的BiLSTM后端BiLSTM堆栈的输出被投影到线性层（dv，dv/2），并被传递到非线性（Leaky Rectified Linear Units，由LReLU表示），以过滤掉具有负线性的那些条目tive值，通过一个简单的操作来跟踪Σd，以汇总所有的数据。mension，即v=不t=1 LReLU（Wt zt）. 在对v应用dropouts之后，我们投影将它们映射到线性层（dv/2，dv/ 4），并且我们再次应用LReLU层。最后，我们应用线性层将大小从dv/4降至1，并应用Sigmoid层，其中这是一个很好的方法。否则，posteΣri或probabiliti将使vide o cont ttt ek eyword或不是我e. Pl|{I}T，G，其中rel∈{0，1}，则binar iiicat或变量且l它的真正价值。BiLSTM分类器和关键字本地化。一旦带有前馈分类器的网络被训练好，我们就用BiLSTM分类器替换它后者不在时间维度上聚合，因为其旨在联合地（a）估计视频包含关键词的后验概率，以及（b）定位关键词出现的时间步长。回想一下，网络是在没有关于关键字出现的实际时间间隔的信息的情况下训练的尽管如此，仍然可以估计关键字的近似位置如图2所示，BiLSTM分类器的输入的平均激活（在应用线性层和ReLU之后）表现出峰值，通常在关键字边界内BiLSTMCl是一种独特的方法，通过分别应用max（·）和argmax（·）来确定关键字的位置或关键字的位置，从而实现对该关键字的精确定位。更具体地说，BiLSTM分类器接收BiLSTM堆栈的输出特征，并将其传递给大小为（dv，ds）的线性层W，其中dl= 16，以及LReLU，即s t= LReLU（W t z t）。然后将BiLSTM应用于序列，然后是线性层（其将来自2ds的di m e n s i on d r 〇 m t o l，即d i m en siondr 〇 mtol）。e. avectorwabiasb）、max（·）和最终dσ（·）的值。通常，H=BiLSTM（S），yt=wtht+b和p=σ（m. ax（y）），t=argΣmax（y）whenheS={st}T，H={ht}T，y={yt}T，p=Pl=1|{It}T，G（i. e. 这是一个在由G定义的关键字出现在帧序列{It}T中之前），以及t是最大值出现的时间步长，应该在关键字的实际边界。请注意，我们没有成功地训练零击关键词识别9t=1vt=1图2：短语“Everyonehasgonehomehappyyanddthat’swhatit’salllabout”中的关键字about的本地化。在对数频谱图上，用两条垂直线标出了关键字。具有BILSTMCl作为唯一形式的表达式的两个表达式可能由于max（·）运算符。联合训练的损失。主要损失定义为：L.l*，ΣΣΣ{I t}T、G=CE.l*，P.ΣΣL|{It}T、G 、（四）而整个模型通过最小化主损耗和辅助损耗的加权和来联合训练，即，.∗∗ ΣTΣΣ. 中文（简体）L [l，P]，{I t}t= l，G= Lvl，{I t}t=1，G + αwLw（P，G），（5）其中αw是用于平衡两个损耗的标量。值得注意的是，经由G2P模型的解码器和LSTM后端，来自两个损失函数的恢复向量和恢复编码的参数的可靠性。相反地，解码器和二元分类器仅从Lw（·，·）和Lv（·，·）接收梯度。4训练模型在本节中，我们将描述训练模型的方法。我们解释了我们如何划分数据，我们如何创建小批量，我们给出了有关优化参数的详细信息。4.1LRS2和CMU字典分区我们使用LRS2的官方划分为预训练，训练，验证和测试集。KWS网络在预训练集和训练集上进行训练。预训练集也用于微调ResNet，如我们在3.2节中讨论的那样。G2P模型从头开始训练，并与整个KWS网络联合训练LRS2包含大约145K来自BBC TV的口语句子视频（96K在预训练中，46K在训练中，1082在验证中，1243在测试集中）。测试集中每个视频的帧数在15到145之间变化。在关键词方面，我们随机地将CMU语音词典划分为训练词、验证词和测试词（分别对应于0.75、0.05和0.20），而去除具有小于np= 4个音素的词最后，10T. 斯塔菲拉基斯湾Tzimiropoulos我们将最初分配给训练和验证集的那些单词添加到字典的测试集，这些单词没有出现在LRS2预训练或训练集中，因为它们在训练期间没有以任何方式使用。4.2小批量、训练集和后端用于训练KWS模型的小批处理应包含正面和负面示例，即：视频和关键字对，其中当视频包含相应的关键字时，每一对被认为基于视频定义时期和小批量，即，每个时期包含LRS2的训练集和预训练集的所有视频，这些视频被划分成小批次。每个小批量中的关键字列表由小批量中出现的属于CMU词典的训练集并且具有至少np个音素的所有词创建在每个小批量中，每个视频都与(a) 其所有关键字（正对）和（b）从列表中随机选择的相等数量的其他关键字（负对）。通过这种方式，我们可以确保每个视频都有相同数量的正面和负面示例。在每一个时期，我们洗牌的视频，以创建新的负对。通过在每个小批量中在不同的二进制标签下为算法提供相同的视频和关键字集合，我们强制它捕获视频和单词之间的相关性，而不是试图将二进制标签与某些关键字或特定视频的不相关方面相关联。对于前20个epoch，我们使用（a）仅LRS2的训练集（因为与预训练相比，它包含更短的话语和更少的标记错误），（b）np= 4和αw=1。0（即，分别是音素的最小数量和辅助损失的权重），以及（c）简单的前馈后端。在第20个epoch之后，（a）我们添加预训练集，（b）我们设置np= 6和αw= 0。1，以及（c）我们用基于BiLSTM的（除了后端的那些之外的所有网络参数在第21个时期期间保持冻结）替换后端4.3优化方程中的损失函数(5)使用Adam优化器进行反向传播优化[46]。epoch的数量是100，初始学习率是2× 10−3，每20个epoch我们将其降低2倍。基于验证集上的性能选择最佳模型。该实现基于PyTorch，代码以及预训练模型和ResNet功能将很快发布每个minibatch中的视频数量是40，但是，如第4.2节所述，我们为每个视频创建多个训练示例（等于它包含的训练关键字数量的两倍）。最后，使用[34]中建议的配置优化ResNet。5实验我们在这里提出的实验装置，我们使用的指标和结果我们使用建议的KWS模型获得此外，我们报告基线结果零击关键词识别11使用（a）具有混合CTC/注意力架构的视觉ASR模型，以及(b) 最近在[4]中提出的无ASR的KWS方法的实现5.1评估指标和关键字选择KWS本质上是一个检测问题，并且在这样的问题中，最佳阈值是依赖于应用的，通常由虚警率（FAR）和漏检率（MDR）之间的期望平衡来确定。我们的主要错误度量是相等错误率（EER），当阈值被设置为使得两个速率相等时，其被定义为FAR（或MDR）。我们还报告了某些低FAR值的MDR（反之亦然）以及FAR与MDR曲线。除了EER、FAR和MDR，我们还根据排名措施评估性能。更具体地，对于每个文本查询（即，关键字），我们报告包含查询的视频的分数在前N个分数内的次数的百分比，其中N∈ {1，2，4，8}。由于查询q可能出现在多于一个视频中，因此如果与具有高于sq，v’的分数的给定查询q相关联的负对的数量小于N，i，则具有分数sq，v’的正对被认为是Top-N。e.If|{q，v|lq，v=0，sq，v>sq，v′}|Nq，因为一些关键词出现在多于一个视频中。5.2基线和拟议网络CTC/Attention混合ASR模型。我们在这里提出了我们的基线获得的ASR为基础的模型。我们使用相同的ResNet功能，但更深（4层）和更宽（320单元）的BiLSTM。该实现基于[47]中提出的开源ESPnet Python工具包，使用[48]中介绍的混合CTC/注意字符级网络该系统在LRS2的预训练集和训练集上进行训练网络达到WER = 71。LRS2测试集上的4%。在解码中，我们使用单步解码器波束搜索（在[48]中提出），其中|H|= 40个解码假设h ∈ H。类似于[50]，代替仅在最佳解码假设上搜索关键字，我们如下近似关键字q出现在具有特征序列X的视频v中的后验概率：P（l = 1 |q，X）= Σh∈H1 [q∈h]P（h|（X）、（6）P（h| X）≈ Σ 出口（sh/c）h′∈Hexp（sh′/c）、（7）12T. 斯塔菲拉基斯湾Tzimiropoulos其中1 [q∈h]是解码假设h包含q的指示函数，sh是假设h的得分（对数似然）（结合CTC和注意力[48]），c = 5。0是在验证集中优化的模糊因子。视频嵌入基线。我们实现了一种无ASR的方法，该方法非常接近[4]提出的基于音频的KWS。与[4]不同，我们使用基于LSTM的编码器-解码器，而不是提出的基于CNN的编码器-解码器。从整个话语中提取视频嵌入，将其与单词表示连接并馈送到前馈二元分类器，如[4]中所述这个网络是有用的，以强调我们的帧级级联的有效性建议网络和替代编解码器损失到由于所提出的G2P训练方法的有效性，我们检查了3种替代策略：（a）编码器仅从解码器接收梯度，这相当于仅使用出现在训练集中的字单独训练G2P网络。(b)该网络没有解码器、辅助损耗或基于音素的监督，即通过仅最小化主要损失来训练编码器。(c)使用字形到字形（G2G）网络来代替G2P。与G2P相比，这种方法的优点是它不需要发音字典，即它需要较少的监督。相对于第二种方法的优点是使用辅助损失（在字素上而不是在字素上）。音素），其充当正则化器。5.3LRS2上的实验结果我们基于检测度量的第一组结果在表1中给出我们观察到，所提出的网络的所有变种获得更好的性能相比，视频嵌入。显然，视频级表示无法保留发现单个单词所需的细粒度信息。我们的最佳网络是所提出的联合G2P网络（即，KWS网络联合训练与G2P），而退化的网络时，使用字素作为辅助损失中的目标（Joint-G2 G）强调了使用语音监督的好处。然而，退化是相对较小的，表明所提出的架构是能够学习基本的发音规则，即使没有语音监督。最后，在训练期间没有解码器的变体劣于所有其他变体（包括Joint-G2 G），示出了解码器的正则化能力 FAR-MDR权衡曲线如图所示。3（a），通过移动我们应用于网络输出的决策阈值获得。曲线表明，所提出的架构与G2P和联合训练是优于所有其他检查和在所有操作点。最后，我们省略了使用基于ASR的模型作为等式中描述（6）-（7）不足以测量EER。该模型产生非常低的FAR（≈ 0. 2%），代价是所有合理操作点的非常高的MDR（≈关键字和摄像机视图的长度。我们也有兴趣在考试-宁的程度上的长度的关键字影响的性能。为此，我们将音素的最小数量从np=6增加到7和8。此外，我们只对那些标记为近正面的视频进行网络零击关键词识别13表1：等误差、虚警和漏检率网络EERMDRFAR=5% MDRFAR=1% FARMDR=5%FARMDR=1%视频嵌入32.09%77.32%92.67%66.76%83.57%Prop. w/o Dec.8.46%百分之十四点零九40.32%14.25%36.43%号提案仅G2P7.22%百分之十点八八29.21%10.85%百分之三十点九九号提案Joint-G2G7.26%百分之十点零八百分之二十七点三八百分之十点五一40.26%号提案联合G2P6.46%8.93%26.00%8.48%20.11%(a)（b）第（1）款图3：FAR-MDR权衡。(a)建议的网络配置之间的比较。（b）每个关键词的音素的最小数目和摄像机视图在通过Joint-G2 P获得的性能中的效果正如预期的那样，较长的关键字和近正面（NF）视图会产生更好的结果。(NF)视图，通过删除标记为多视图的视图（标记在LRS2的注释文件中给出）。结果如图所示。3（b）款。正如预期的那样，关键字越长，错误率越低此外，当仅考虑NF视图时，性能排名措施和定位精度。我们在这里测量包含查询的视频在前N个分数中的次数百分比。结果在表2中给出正如我们观察到的，我们最好的系统得分Top-1等于34.14%，这意味着在3个查询中的大约1个中，包含查询的视频在N个测试= 1243个视频中排名第一。此外，在3个查询中的2个中，包含查询的视频在前8名之列。其他训练策略也表现良好，特别是仅使用辅助损失（仅G2P）训练编码器的策略。视频嵌入方法获得的排名措施是非常糟糕的，所以我们省略它们。基于ASR的系统获得相对高的Top-1分数，然而其余分数相当差。我们应该强调的是，其他基于ASR的KWS方法存在用于近似关键字出现的后验，例如使用显式14T. 斯塔菲拉基斯湾Tzimiropoulos关键字格[51]，而不是使用由等式1中的波束搜索创建的解码假设H的集合（6）-（7）。最后，我们报告了所提出的网络的所有版本的定位准确度，定义为估计位置t在关键字边界（±2帧）内的时间百分比。通过在音频和实际文本之间应用强制对齐来估计参考词边界。我们观察到，尽管该算法在没有任何关于关键字位置的信息的情况下进行训练，但在绝大多数情况下，它仍然可以提供对关键字位置的非常精确的估计。表2：示出包含关键词的视频序列在前N个分数中的比率的排名结果还提供了定位精度网络Top-1前2名前四名前8名本地. Acc.基于ASR24.51%31.39%33.51%37.57%-Prop. w/o Dec23.71%33.68%百分之四十三点九九55.90%96.20%号提案仅G2P34.14%46.28%57.16%百分之六十五点七五97.39%号提案Joint-G2G31.16%43.07%百分之五十四点九八百分之六十五点七五97.86%号提案联合G2P34.14%46.96%57.04%67.70%96.67%6结论我们提出了一个体系结构的视觉只有KWS与文本查询。而不是使用子字单元（例如，音素、视位）作为主要识别单位，直接遵循了词建模的方向。与其他基于单词的方法相反，这些方法仅将单词视为由标签定义的类（例如，[35]），我们将通过字素到音素模型提取的单词表示注入模型这种零射击学习方法使模型能够学习视觉帧和单词表示之间的非线性相关性，并将其知识转移到训练过程中看不见的单词。实验表明，所提出的方法能够在最具挑战性的公开数据集（LRS2）上获得非常有希望的结果，大大优于两个基线。最后，我们展示了它在帧序列中定位关键字的能力，即使我们在训练期间不使用任何关于关键字位置的信息。7确认本集团根据MarieSklodowska-Curie资助协议第706668号（Talking Heads），为欧盟大学2020年研究及创新计划提供可靠资金。我们感谢博士。StavrosPetridis先生。马平川（i-bug，伦敦帝国理工学院）为他们的贡献基于ASR的实验。零击关键词识别15引用1. Chung，J.S.，Senior，A. Vinyals，O.，齐瑟曼，A.：在野外读唇语句子。计算机视觉与模式识别（CVPR）（2017年）2. Chung，J.S.，齐瑟曼，A.：在野外读唇语。在：亚洲计算机视觉会议（ACCV），Springer（2016）873. 阿宁阿岛，Zhou，Z.， Zhao，G.， Pietiküainen，M. ：〇u uuVS2：用于非刚性嘴部运动分析的多个嘴部运动在：自动人脸和手势识别（FG），2015年第11届IEEE国际会议和研讨会上。第一卷，IEEE（2015）14. Audhkhasi，K.，Rosenberg，A.，Sethy，A.，Ramabhadran，B.，Kingsbury，B.：从语音中进行端到端的无ASR关键字搜索。IEEE Journal of Selected Topics inSignal Processing11（8）（2017）13515. Audhkhasi，K.， Ramabhadran，B.， Saon，G. Picheny，M.， Nahamoo，D.：直接英语会话语音识别的声学到词模型。In：Interspeech. （2017年）6. Soltau，H.，Liao，H.，Sak，H.：神经语音识别器：用于大词汇量语音识别的声学到单词LSTM模型。In：Interspeech.（2017年）7. 索赫尔河Ganjoo，M.，曼宁哥伦比亚特区Ng，A.：通过跨模态迁移实现零触发学习。神经信息处理系统进展（ Advances in Neural Information ProcessingSystems，NIPS）。（二零一三年）8. Chung，J.S.，齐瑟曼，A.：唇读句子在野外（链接到LRS2）。http://www.robots.ox.ac.uk/~vgg/data/lip_reading_sentences/9. Assael，Y.M.，Shillingford，B.Whiteson，S.，de Freitas，N.：Lipnet：句子级唇读 arXiv预印本arXiv：1611.01599（2016）10. Cooke，M.，巴克，J.坎宁安，S.，Shao，X.：语音感知和自动语音识别的视听语料库。美国声学学会杂志120（5）（2006）242111. 格雷夫斯，A.，Jaitly，N.：基于递归神经网络的端到端语音识别网络. 国际机器学习会议（International Conference on Machine Learning）（2014）176412. Zweig，G.，Yu，C.，Droppo，J.，Stolcke，A.：全神经语音识别研究进展。在：IEEE声学，语音和信号处理国际会议（ICASSP），IEEE（2017）480513. Chung，J.S.，齐瑟曼，A.：唇读在轮廓。英国机器视觉会议（BMVC）（2017年）14. 陈伟，Jaitly，N.，Le，Q.，Vinyals，O.：听一听，听一听，拼写：一种用于大词汇量会话语音识别的神经网络。IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP）.（2016）4960- 496415. 熊，H.L.，哈维，R.：解码视位：改善机器唇读。在：IEEE声学，语音和信号处理国际会议（ICASSP），IEEE（2016）200916. Vaswani，A.，Shazeer，N. Parmar，N. Uszkoreit，J.，琼斯湖戈麦斯，A.N.，Kaiser ， L-. ，我是波罗蜜。： Attentionisallyouunned. In ：神经形式处理系统（NIPS）中的Avances（2017）599817. Koumparoulis，A.，Potamianos，G. Mroueh，Y.，Rennie，S.J.：探索基于深度学习的唇读中的ROI大小。In：AVSP.（2017年）18. Petridis，S.，Stafylakis，T. Ma，P.，Cai，F.

下载后可阅读完整内容，剩余1页未读，立即下载