连续手语识别的基于对齐网络与迭代优化的弱监督连续手语识别算法

80 浏览量更新于2023-10-19 收藏 851KB PDF 举报

特征学习

弱监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4165用于连续手语识别的李俊福蒲文刚周厚强中国科学技术大学GIPAS中科院重点实验室网址：pjh@mail.ustc.edu.cn，zhwg@ustc.edu.cn，网址：www.example.com，lihq@ustc.edu.cn摘要在本文中，我们提出了一个对齐网络与迭代优化的弱监督连续手语识别。我们的框架由两个模块组成：用于特征学习的3D卷积残差网络（3D-ResNet）和用于序列建模的具有连接时间分类（CTC）的编码器-解码器网络对上述两个模块进行了交替优化。在编码器-解码器序列学习网络中，包括两个解码器，即，LSTM解码器和CTC解码器。这两个解码器联合训练的最大似然准则与软动态时间规整（软DTW）对齐约束。扭曲路径指示输入视频剪辑和符号词之间的可能对齐，用于微调3D-ResNet作为具有分类损失的训练标签。微调后，提取改进的特征，用于下一次迭代中编解码器序列学习网络的优化。该算法在两个大规模连续手语识别基准上进行了评估，即，RWTH-凤凰城-天气和CSL。实验结果证明了该方法的有效性。1. 介绍手语作为与聋哑人交流的重要方式之一然而，由于对手语缺乏系统的研究，很多人与聋哑人交流变得非常困难。为了使这种交流更加方便，有必要开发一种有效的手语识别算法。近年来，越来越多的研究者将目光投向手语识别，不仅是因为其社会影响，也有学术上的探索。与孤立SLR相比[16，22，42，43]，即类似于动作识别[19，24]，连续SLR [9，26，29]要复杂得多，因为对于完整的标志视频，没有文本单词到视频剪辑的作为一种弱监督序列学习任务的核心思想是学习符号视频与其对应的文本句子注释之间的映射。由于符号翻译结果受到严格的语法约束，因此连续SLR任务具有非常标准的形式化定义。到目前为止，现有的连续SLR方法可以分为两大类基于所涉及的特征表示，即，基于手工制作的特征和基于深度学习的方法。早期的作品[35]主要使用手工制作的功能与统计序列建模方法，如隐马尔可夫模型（HMM）或隐藏的条件随机场（HCRF）。 Starner等人 [35]提出了两个基于HMM的实时系统，用于识别连续的美国手语（ASL）。后来，Wang et al. [40]推导出一种用于手势识别的具有隐藏条件随机场（HCRF）的判别序列模型，以解决HMM中观测值之间的长程依赖性问题。近年来，得益于深度学习的发展，手语识别领域取得了随着大规模连续手语数据集的出现[9，23，25]，基于深度学习的连续SLR方法逐渐成为主流。借助残差网络（ResNet）[18]和3D卷积神经网络（3D-CNN）[33，37]的强大视频表示，用于连续SLR的深度学习方法实现了最先进的性能。Cui等人。 [10]提出使用具有阶段优化的递归卷积神经网络来识别连续手语。另一项工作[23]在潜在空间中使用分层注意力也显示了深度学习优于手工制作的基于特征的方法。在本文中，我们提出了一种新的用于连续SLR的深度学习架构。我们的框架包括用于特征提取的3D残差网络（3D-ResNet）和用于序列建模的编码器-解码器网络。考虑到连续单反相机在计算机视觉和自然语言处理领域的特殊性，本文探讨了连续单反相机的视频表示和理解技术，以及基于语法的序列建模技术。我们将视觉表示学习和序列建模统一在4166t=1^^我们的框架，并对这两个模块进行联合优化。本文的主要贡献归纳如下：a) 一个统一的深度学习架构，集成了编码器-解码器网络和连接主义时间分类（CTC），用于连续手语识别。b) LSTM和CTC解码器之间的软动态时间规整（soft-DTW）对齐约束，其指示标志视频中的时间分割。c) 迭代优化策略，通过扭曲路径交替训练特征提取器和编码器-解码器网络与对齐建议。我们将本文的其余部分组织如下：在回顾了第二节中的相关工作之后，我们分别在第三节和第四节中详细阐述了我们提出的结构和迭代优化算法。在第五节中，我们进行了一系列的实验，并进行了讨论和分析。最后，我们总结了第六节的工作。2. 相关作品基于视频的连续SLR系统基本上由特征提取器和序列建模模块组成，其中后者通常通过编码器-解码器网络或连接主义时间分类来实现。在本节中，我们从以下两个方面简要回顾了与连续SLR相关的工作2.1. 视频表示视频表示对于许多计算机视觉任务起着重要作用，例如。动作识别[24，33，37]和视频字幕[5]。由于Ji等人 [24]将3D卷积神经网络（3D-CNN）应用于动作识别任务[4，17]，3D-CNN已成为视频表示的最着名架构之一。不同改进的3D-CNN架构的变体出现在不同的视觉任务中。同时，深度残差网络（ResNet）[18]已经显示出强大的图像表示能力受到ResNet最近在许多具有挑战性的图像识别任务中取得成功的启发，Qiu等人开发了一个名为伪3D（P3D）块的新构建模块家族[33]，以取代ResNet中的2D残差单元。在[17]中展示了将残差网络和3D卷积网络组合用于视频表示的潜在能力。2.2. 序列建模端到端序列学习方法通常分为两种类型：基于注意力的编码器-解码器[7，8，38]网络和基于连接主义时间分类（CTC）的网络[12，21]。在[7]中，编码器-解码器网络编码器-解码器架构由两个递归神经网络（RNN）组成，它们充当一对编码器和解码器对。编码器将可变长度的源序列映射到固定长度的向量，而解码器将向量表示映射回可变长度的目标序列。尽管编码器-解码器网络已广泛用于语音识别[8]和视频字幕[2]，但在建模长期依赖性时仍存在一些限制为了克服这个问题，Bahdanau等人 [1]将注意力机制引入到编码器-解码器网络中，以学习源序列和目标序列之间的对应关系。在此之后，越来越多不同的注意力方法[2，30，41，36]被提出来改进特定任务的编码器-解码器网络。连接主义时间分类（CTC）[12]是一种用于语音和手写识别的端到端序列学习模型[13，21]。CTC能够处理未分割的输入数据，并学习输入序列与输出序列之间的对应关系。它适用于连续SLR，因为连续SLR在某种程度上是一种弱监督序列学习问题。凭借CTC的优越性，Cui等人 [10]实现了连续SLR的最先进性能。3. 对齐网络架构在本节中，我们提出了一种用于连续SLR的新型深度学习框架。我们的方法将编码器-解码器网络和连接主义时间分类集成到一个统一的深度架构中。为了探索输入序列和目标翻译之间的对应关系，我们使用软动态时间规整（ soft-DTW ）来对齐 CTC 解码器和LSTM解码器。3.1. 框架和制定连续SLR处理来自具有T帧的视频的序列映射V={xt∈Rh×w×c}={xt}T对于L字序列s ={si∈ V|i =1，···，L}，其中h×w是图像x t的大小，对于RGB视频，c是3。建立了连续激光测距的数学模型根据贝叶斯决策理论，用所有可能的序列s中最可能的单词序列估计翻译句子s，如下所示，s= arg max p（s|V）。（一）s∈s图1说明了我们的连续SLR系统的框架框架的输入是带有成对的视频级注释的符号视频。我们的连续SLR系统由以下四层神经网络组成。1) 特征提取器3D-ResNet将输入的视频片段序列转换为固定长度的特征，并总结了空间和时间信息。2) 序列编码器3D-ResNet提供的序列视频描述符由2层双向长短期记忆（Bi-LSTM）编码器建模4167t=1t=1t=1t=1图1：我们的SLR框架概述。该系统由3D-ResNet和具有连接主义时间分类的编码器-解码器网络组成。CTC解码器和LSTM解码器与软动态时间规整约束对齐内积层将BLSTM和LSTM输出投影到单词识别的分类概率3) 目标解码器为了预测目标序列，在网络中嵌入了两个解码器，分别是连接主义时间分类（CTC）解码器和LSTM解码器。4) 对齐约束软DTW约束用于对齐CTC解码器和LSTM解码器，它们都描述了目标序列的概率分布。本节的以下部分将详细阐述我们框架的每个模块。3.2. 视频表示：3D ResNet3D-CNN已广泛应用于动作识别[24，37]和手语识别[23，32]中的视频表示，并实现了最先进的性能。考虑到残差网络在不同的计算机视觉任务中的成功，我们使用三维残差网络（3D-ResNet）来表示视频片段，它继承了两种模型的优点。给定符号视频V=（x，· · ·，x）={x}T，其中考虑到低延迟的GPU内存和计算成本，我们使用18层3D-ResNet，它足够轻，功能强大，可以用于符号视频表示。3.3. 时间编码器：双向LSTM递归神经网络已经在各种序列处理任务中取得了巨大的成功，例如：语音识别[14，21]，神经机器翻译[6]和视频字幕[2]。最流行的RNN架构之一是长短期记忆（LSTM）[20]，与传统RNN相比，它保留了长期依赖性以避免梯度消失。LSTM单元使用专门构建的记忆单元来存储和传递信息，这更好地探索长期依赖关系。LSTM单元的当前状态用单元状态Ct和隐藏状态ht来描述。LSTM最奇特的想法是使用门结构，可选地让信息通过。LSTM的一个缺点是它只对当前输入和先前时间步长之间的当前时间步t之后的输入在生成LSTM输出时不起作用。连续1吨日t=1SLR，标志视频代表一个语义句子，T帧，其中xi是i视频中的一帧，窗口沿着图像序列移动以生成一组有序的视频剪辑。这样，标志视频就表示为V=（v1，· · ·，vN）={vt}N，具有N个剪辑。我们使用Fθ来表示3D-ResNet特征提取器，其中θ是网络权重。对于每个视频片段vt，我们通过3D-ResNet得到表示ft=Fθ（vt）∈Rd，其中d是视频特征的维度。因此，标志视频被表示为如下的3D-CNN特征的序列，语法规则，也就是说前后框架都要考虑。为此，我们使用双向LSTM（BLSTM）来编码输入的符号视频。BLSTM的基本思想是将训练序列向前和向后呈现给两个单独的LSTM，并在馈送到更深层之前将两个输出连接起来。这意味着对于当前时间步长，BLSTM的输出具有在其之前和之后的所有时间步上的完整的顺序我们使用R来表示BLSTM，则编码器的输出表示如下：FN=（f1，···，fN）={FΘ（vt）}N.（二）E={et}N=R（{ft}N）的情况。（三）BLSTM编码器BLSTMBLSTM内积今晚BLSTMBLSTM内积LSTM雨内积雨内积LSTM将BLSTMBLSTM内积将内积LSTM它它BLSTMBLSTM内积LSTM<开始>内积关注LSTM解码器3D-ResNet目标：今晚会下雨连接时态分类CTC解码器软DTW对齐convconvconvconvconvconvconvconv池池池池4168St=1Nk−1k−1t，l12Np（π|V）=p（πt|vt）=输出通过如下的全连接层嵌入到词汇量中的词级标签的非归一化分类概率中，yt=Wfc1·et+bfc1。（四）对于具有N个剪辑的符号视频，由BLSTM表征的概率分布可以写为如下，对应于单词标签的概率分布。CTC方法通过引入一个空标签（blank label，缩写为E-T）作为辅助标记，从3.3节中解释的概率矩阵Y其间限定出一通路π=（π1，···，πT），πt∈ V {n}，其中V是符号词汇。给定符号video V={vt}N的路径π的概率计算如下，Y=（Y ）=[y，y，· · ·，y]T，（5）YY其中Yt，l是第t个剪辑属于单词l的概率。t=1t=13.4. 目标解码器：LSTM和CTC为了从标志视频中解码出目标句子，我们使用了两种解码器，，具有注意力机制的LSTM解码器和CTC解码器。为了得到没有空白的最终解码序列，CTC定义了一个多对一映射M，它去除了重复的标签和空白，例如。，M（raain）=M（r a i n）= rain. 由CTC解码的句子s =（s1，···，sL）的概率是如下所有可能路径的概率的总和，3.4.1注意力感知LSTM解码器在BLSTM编码器之后，LSTM解码器生成器-p反恐中心（s）|V）=0π∈M−1（s）p（π|（10）从编码器输出中选择相应的句子。在所有输入片段都通过BLSTM之后，LSTM解码器将被馈送句子的标记（BOS>），这提示网络开始将当前隐藏状态解码为单词序列。在训练阶段，该模型在给定隐藏状态和先前单词的情况下最大化目标句子的对数似然。在推理中，我们选择概率最大的单词，直到它发出句子结束（EOS>）标记。我们将注意力机制[1]应用于LSTM解码器。第k个字的解码器输出写为如下，其中M-1是M的逆映射，即，M−1（s）={π|M（π）=s}。3.5. 序列比对：软DTW我们将两种解码器应用于3.4节中介绍的网络。本质上，CTC解码器和LSTM解码器的这两个概率分布Y和Z之间存在某种潜在的相关性因此，我们的目标是最大化Y和Z之间的相似性。然而，从不同解码器生成的句子的长度可能dk=解码器Istm（ck，sk，hd）、（6）彼此不相等。为了评估不同长度序列之间的相似性，我们使用软动态时间扭曲-其中ck是上下文向量，sk和hd是嵌入式字ing（soft-DTW）[11]以获得Y和Z之间的距离，和解码器的隐藏状态。LSTM连接到内积层，以将LSTM输出投影到具有M个类的分类概率中，其中M=|V|是词汇量。内积层的最终活化定义如下，zk=Wfc2 ·dk+bfc2.（七）与3.3节类似，翻译句子的概率分布公式如下：Z=（Zk，l）=[z1，z2，···，zL]T，（8）其中L是句子的长度，Zk，l是给定sk−1时sk属于单词标签l的概率。3.4.2CTC解码器连接主义时间分类（CTC）[12]是一种流行的序列学习算法，它对映射进行建模，NYt，πt。（九）4169以及翘曲路径。Soft-DTW是时间序列之间的可微分学习距离，建立在原始动态时间扭曲（DTW）[34]差异的基础上。DTW算法用于寻找两个序列的最小累积距离和时间弯曲路径。给定两个序列u =（u1，···，um）和v=（v1，···，vn），子序列ui=（u1，···，ui）和vj=（v1，···，vj）被表示为Di，j并定义如下，Di， j=di， j+ min（Di−1 ， j，Di， j−1，Di−1 ，j−1），（11）其中di，j=||ui−vj||二、（十二）为了使DTW差异可微，通过引入广义min算子来实现软DTW算法，其中平滑参数γ≥0[11]：min{ai}，γ= 0。我最小γ{a}=我在输入序列和目标序列之间ping。出去-在BLSTM编码器我的天-γ测井e−ai/γ，γ >0。（十三）我4170与Lctc类似，LSTM损失函数定义为：Llstm= − ln plstm（s|V）。（十八）此外，CTC解码器和LSTM解码器存在对齐项，其受软DTW距离约束。为了使两个概率分布更接近，我们将对齐损失定义为Lalign=Dp（Y，Z），（19）图2：我们的迭代训练算法的说明。在对3D-ResNet提取的序列特征进行编码后，CTC解码器和LSTM解码器将其解码为符号注释。解码器还通过软DTW生成具有扭曲路径的对齐建议，以在下一次迭代中微调3D-ResNet。利用软DTW的基本公式，概率分布Y和Z之间的距离被定义为：Dp=DN，L（Y，Z），（14）其中，N和L是Y和Z的序列长度，req。我们可以通过回溯来恢复翘曲路径。扭曲路径指示标志剪辑和单词之间的可能对齐将翘曲路径表示为：|p ≤N，q≤L}，第p个剪辑的标签Rlp通过以下方式获得：p=sq.（十五）4. 优化和解码在本节中，我们将介绍目标函数和迭代训练算法来优化网络。此外，为了提高识别率，提出了一种CTC解码器和LSTM解码器相结合的4.1. 目标函数在3.4节中，我们描述了两种解码器。LSTM解码器和CTC解码器都是用最大似然准则训练的。给定符号视频V及其对应的注释s=（s1，· · ·，sL），CTC解码器的损失函数被公式化为Lctc=−lnpctc（s|V），（ 16）其中pctc（s|V）是给定V时s的后验概率其在等式10中定义。对于LSTM解码器，给定V，s的概率为其中Dp在等式14中描述。我们联合训练网络和目标函数的优化表示为L= λLctc+ （ 1 − λ ） Llstm+ Lalign+ µ||ω||二、（二十）其中λ是可调超参数，用于平衡两个解码器的潜在重要性，µ||ω||2是避免过拟合的正则化项。4.2. 优化策略在识别连续标志视频时，3D-ResNet作为特征表示学习模块发挥了重要作用。代表性特征有助于良好的性能。当以端到端的方式训练网络时，由于反向传播的链式规则，目标损失对3D-ResNet低层参数的学习贡献有限为了缓解这个问题，另一种方法是通过直接使用剪辑级别标签优化特征提取器来然而，在我们的连续SLR任务中，这样的标签不可用。为了解决上述问题，我们建议使用软DTW比对建议作为伪标签来学习代表性的3D-CNN特征，并在EM样迭代中优化特征提取器和序列学习模块，如图2所示。在我们的方法中，我们首先使用3D-ResNet从标志视频中提取特征在那之后，我们训练编码器-解码器网络通过最小化总损失L。在收敛之后，网络提供翘曲路径通过软DTW在输入片段和词之间进行匹配为了更好地表示3D-ResNet的特征，我们使用等式15中描述的对齐建议作为视频剪辑的监督，以微调具有交叉熵分类损失的特征提取器（ 3D-ResNet ）。通过优化的 3D-ResNet，我们提取具有更强代表性的特征，以在下一次迭代中训练编码器-解码器网络。网络的这两个部分交替优化，直到它们都收敛到最优。4.3. 解码L L本节介绍解码方法，plstm（s|V）=Yp（si|si−1）=YZi，si.（十七）BLSTM编码器序列建模DTW对齐3D-ResNet剪辑标签校准建议重新训练今天晚上会下雨翻译12N-2N-1NLSTM解码器CTC解码器4171潜在地利用了CTC解码器的优点，i=1i=1注意力感知LSTM解码器。我们的网络允许CTC4172^^解码器和LSTM解码器来独立地解码符号视频。为了结合这两种解码器的优势，我们使用两遍重新排序的方法来融合结果。在推理阶段，CTC解码器使用波束搜索获得一组完整的假设语句作为候选。我们使用CTC和LSTM解码器对候选人进行假设我们有K个候选人C={si|i=1，···，K}，假设句子si的得分表示为r（si）=αlnpctc（si|V）+（1−α）lnplstm（si|V）+β1nLi，（二十一）其中α是可调参数，Li是si的长度，β ln Li是平衡长序列得分的附加长度项。给定CTC解码器经由波束搜索产生的K个最佳假设，我们通过下式确定最终结果s：s=arg max r（s）。（二十二）S5. 实验我们提供了大量的实验来评估我们的方法的有效性。首先介绍了数据集和评价指标。在此基础上，详细介绍了实验装置，并对实验结果进行了分析。5.1. 数据集和评价我们在两个公共数据集上进行了实验，分别是德国SLR的RWTH-PHOENIX-Weather多签名器[25]和中国SLR的CSL [23RWTH-PHOENIX-Weather数据集包含大约7 K的标志视频，总共77 K字。提供RGB视频及其相应的注释。这些注释是用德国手语写的天气预报. 所有视频均为25帧每秒（FPS），分辨率为210×260。数据集分为三个部分部分：5，672个用于训练的实例，540个用于验证，629个用于测试。CSL数据集有178个中文单词，主要用于日常交流。语料库包含100个句子。每个句子由50个签名者执行。因此，这个数据集中有5,000个视频。平均每句话包含5个词（阶段）。在连续SLR中，字错误率（WER）是最广泛使用的评价性能的指标。WER本质上是一个编辑距离。换句话说，WER表示将预测语句转换为参考序列的替换、插入和删除的最少操作#替换+#插入+#删除70686664626058560.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1λ图3：迭代-0时公式20中权重参数λ广泛应用于图像字幕和神经机器翻译（NMT），即. 、CIDER、BLEU、ROUGE-L和METEOR。5.2. 实验环境我们的模型由两个模块组成：用于特征学习的3D-ResNet和用于序列学习的具有软DTW对齐的编码器-解码器网络。我们使用4.2中描述的迭代优化策略交替训练这两个部分。在这一部分中，我们在 RWTH-PHOENIX-Weather数据集上进行了参数选择3D-ResNet的输入必须是固定长度的视频剪辑。因此，我们对原始视频进行滑动窗口以生成剪辑。窗口大小设置为8，步幅为4，这意味着相邻剪辑之间有50%的重叠。从3D-ResNet中提取512维池5层的激活作为视频片段的表示。在训练特征提取器时，我们使用随机梯度下降（SGD）优化器来训练我们的网络。初始学习率和权重衰减为分别设为1×10−3和5×10−5在初始步骤中，为了提取编码器-解码器网络的特征，3D-ResNet在[43]中发布的孤立手语识别数据集上进行预训练。 2 层 BLSTM编码器的隐藏状态被设置为1024。为了在等式20中设置最佳权重λ，我们使用初始步骤中所示的特征进行具有不同λ的实验，如图3所示。对于0<λ1，我们使用第4.3节中介绍的联合重排序解码算法。公式21中的超参数α和β被设置为0。85和0。7，分别。请注意，当λ=0或1时，这意味着我们仅使用其中一个解码器进行训练和推理，而无需软DTW对齐。由结果可知，λ = 0. 9是最好的选择。因此，所有WER =参考长度.（二十三）下面的实验使用λ = 0的设置。9 .第九条。5.3. 结果在RWTH PHOENIX天气除此之外，在这项工作[15]之后，我们使用一些其他的评估-CSL数据集上的评价指标，包括精确度和Acc-w，分别是严格正确句子的比率和参考句子中正确词的比率。我们还采用语义评估指标，字错误率（%）4173在本节中，我们将展示RWTH-PHOENIX-Weather的性能比较我们分析了不同优化迭代的性能，并给出了一个例子，说明视频剪辑和注释之间的对齐41747570656055504540350 1 2 3 4迭代图4：对准机制的性能比较。迭代偏差（%）del /insWER试验（%）del /insWERIter-019.46 /2.7457.7220.26 /2.4957.90Iter-115.01 /2.6941.4814.12 /2.2240.38Iter-213.16 /2.8339.1113.40 /2.7439.17Iter-312.68 /2.9337.3912.94 /2.5837.56Iter-412.86 /2.6437.0712.97 /2.4736.71表1：RWTH-PHOENIX-Weather-2014上不同迭代的字错误率（WER）（越低越好）。5.3.1迭代优化结果我们的网络通过迭代训练进行优化。表1显示了不同迭代中开发集和测试集的性能。在该表中，“del”和“ins”分别代表删除错误和插入错误。可以观察到，词错误率（WER）随着训练迭代的进行而下降，这证明了迭代优化策略的有效性4次迭代后，我们停止迭代训练过程，因为WER不再下降，网络收敛到最优。此外，图4给出了网络中是否存在对齐机制的比较。如图所示，仅CTC和仅LSTM对应于仅具有CTC损失Lctc或LSTM交叉熵损失的Llstm，分别。对齐意味着网络经过训练并联合解码句子两个解码器。从图4中，我们注意到具有对齐约束的网络在每次迭代中都优于具有不同目标函数的另外两个网络。实验结果表明，对齐机制在我们提出的网络中工作良好。5.3.2对齐和比较在本节中，我们给出一个示例，定性地描述输入视频与其对应的注释之间的对齐。此外，我们还讨论了我们的方法的性能以及RWTH上的最新技术表2：RWTH-PHOENIX- Weather-2014上的字错误率（WER）（越低越好）。PHOENIX-天气多签名者数据集。图5显示了Dev set的对齐结果示例1所有的剪辑都是从同一个标志视频的顺序。每个剪辑都与其对应的单词对齐。不同的标志词在标志视频中出现的周期可能不同。我们的网络具有探索序列比对的能力。我们评估了我们的方法在大规模连续 SLR 基准RWTH-PHOENIX- Weather上的性能，不同方法的比较结果如表2所示。1-Mio-Hands [25，27]实现了47的WER。1%，45。1%的开发集和测试集，分别通过在迭代EM算法中嵌入CNN。CNN-Hybrid [28]将CNN的端到端嵌入到HMM中，同时以真正的贝叶斯方式解释CNN的输出。SubUNet [3]和Staged-Opt [10]中的基本架构都是CNN+BLSTM+CTC。主要区别在于Staged-Opt提出了一种带有检测网的分阶段优化算法，其性能优于Sub-UNet。另外两个作品CTF [39]和Dilated-SLR[32]都是基于CTC的方法。此外，LS-HAN [23]是一种具有分层注意机制的编码器-解码器框架，用于更好的识别。与仅使用其中一个解码器的结果相比，，LSTM或CTC，用于训练和推理，使用软DTW对齐的网络具有迭代优化策略的两个解码器实现了最佳性能。我们还以端到端的方式训练我们的网络，表示为Align-end 2end。然而，结果还不够好。这些对比实验说明了在我们的方法中，对齐机制和迭代优化都工作得很好。1Video ID：03February 2010 Wednesday tagesschau default-0.2由于WER是插入错误、删除错误和替换错误的总和，我们只列出其中3个没有替换错误。LSTM-OnlyCTC-OnlyAlignment字错误率（%）方法偏差（%）del / ins WER试验（%）del / ins WER[25，27]第二十五话16.3/4.6 47.115.2/4.6 45.1[28]第二十八话12.6/5.1 38.311.1/5.7 38.8SubUNet [3]14.6/4.0 40.814.3/4.0 40.7[第10话]13.7/7.3 39.412.2/7.5 38.7[39]第三十九话12.8/5.2 37.911.9/5.6 37.8[32]第三十二话8.3/4.8 38.07.6/4.8 37.3LS-HAN [23]---38.3我们的（LSTM）13.8/3.3 45.613.6/3.3 46.1我们的（反恐委员会）11.4/3.8 38.211.9/3.5 37.9我们的（Align-end 2end）12.6/2.2 69.122.0/2.6 69.34175字OFF2月维耶尔特·多纳斯塔格·摩根·维特WIE-AUSSEHEN杰特对夹图5：视频剪辑和来自Dev集的德语句子注释之间的对齐结果示例方法斯普利特岛Split II精度BLEU-1 苹果酒ROUGE-L流星Acc-wBLEU-1 苹果酒ROUGE-L流星WERLSTM CTC [12，20]0.8580.936 8.6320.9400.6460.3320.343 0.2410.3620.1110.757S2VT [38]0.8970.902 8.5120.9040.6420.4570.466 0.4790.4610.1890.670S2VT（3层）[38]0.9030.911 8.5920.9110.6480.4610.475 0.4770.4650.1860.652[15]第15话0.9100.935 8.9070.9380.6830.4590.463 0.4760.4620.1730.630HLSTM [15]0.9240.942 9.0190.9440.6990.4820.487 0.5610.4810.1930.662[第15话]0.9290.948 9.0840.9510.7030.5060.508 0.6050.5030.2050.641我们0.9390.980 9.3420.9810.7130.6700.724 3.9460.7160.3830.327表3：对CSL数据集Split I的可见句子识别和Split II的不可见句子识别的评估（WER越低越好，其他指标越高越好）。5.4. 关于CSLCSL数据集包含与RWTH-PHOENIX-Weather相比更小的词汇表。我们在两个数据集上使用相同的超参数。在这项工作之后[15]，使用两种不同的策略生成训练集和测试集。 (a)分割I签名者独立测试：我们使用40个签名者的视频进行训练，其余10个签名者的视频进行测试。训练集和测试集的语义相同，但签名者不同. (b)Split II -看不见的句子测试：我们选择94句（94×50=3700视频）进行训练-ing，剩下的6个句子（6×50= 300个视频）用于测试。测试集中的句子与而测试集中的词汇是训练集中词汇的子集。我们在孤立的SLR数据集上预训练3D-ResNet [43]。由于CSL数据集中的词汇表都来自孤立的SLR数据集，因此我们在不进行迭代的情况下获得了足够好的性能。我们的方法与CSL数据集上现有方法相比的性能总结在表3中。我们将我们的方法与LSTM CTC，S2VT [38]和HLSTM [15]在两个分割上进行比较。实验结果表明，我们的方法优于国家的最先进的方法分裂I与签名者独立性测试。在连续SLR中，识别训练集中没有出现的句子是相当困难的。为了评估我们的方法在这种情况下的能力，我们在CSLSplit II上进行了实验，与其他方法相比的性能如表3（Split II）所示。我们方法在所有评估指标（包括Acc-w、CIDER、BLEU、ROUGE-L、METEOR和WER）上均以较大幅度在SplitII上的实验结果表明，该方法具有较强的处理不可见句子识别问题的能力。6. 结论在本文中，我们提出了一种新的深度架构的基础上3D-ResNet和编码器-解码器网络与连接主义的时间分类，通过迭代优化连续SLR。我们通过最小化CTC损失和交叉熵损失来联合训练编码器-解码器由扭曲路径生成的剪辑标签将每个剪辑与其对应的符号词对齐，被视为微调特征提取器的监督。3D-ResNet特征提取器和编码器-解码器序列建模网络逐步交替优化我们的方法在两个公共连续SLR数据集上取得了比现有方法更好的性能。实验结果证明了该方法的有效性和优越性。确认这项工作得到了博士的部分支持。李厚强通过973计划（No. 2015CB351803）和国家自然科学基金（No.国家自然科学基金资助项目（编号：61836011）、国家自然科学基金资助项目（编号： 61822208 、61632019）、中国科协青年拔尖科学家资助项目（编号：2016QNRC001）、中央高校基金资助项目。4176引用[1] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年，国际会议。二、四[2] Lorenzo Baraldi Costantino Grana和Rita Cucchiara 用于视频字幕的高性能边界感知神经编码器在CVPR，2017年。二、三[3] Necati Cihan Camgoz，Simon Hadfield，Oscar Koller和Richard Bowden。SubUNets：端到端手形和连续手语识别。InICCV，2017. 7[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。2[5] 陈世哲、陈嘉、秦晋、亚历山大·豪普特曼。多模态潜在主题引导下的视频字幕。在ACM MM，2017年。2[6] KyunghyunCho，BartVanMerrieenboer，DzmitryBahdanau，and Yoshua Bengio.关于神经机器翻译的特性：编码器-解码器方法。arXiv预印本arXiv：1409.1259，2014。3[7] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。在EMNLP，2014年。2[8] JanKChorowski ， DzmitryBahdanau ， DmitriySerdyuk，Kyunghyun Cho，and Yoshua Bengio.用于语音识别的基于注意力的2015年，在NIPS中。2[9] Necati Cihan Camgoz，Simon Hadfield，Oscar Koller，Her- mann Ney和Richard Bowden。神经手语翻译。在CVPR，2018年。1[10] Runpeng Cui，Hu Liu，and Changshui Zhang.递归卷积神经网络通过阶段优化用于连续手语识别。在CVPR，2017年。一、二、七[11] 马可·库图里和马修·布隆德尔。Soft-dtw：时间序列的可微分损失函数。ICML，2017。4[12] Al e xGr av es，SantiagoFer na´ ndez，FaustinoGomez，andJ ür genSchmidhube r. 连接主义时间分类：用递归神经网络标记未分割序列数据。ICML，2006年。二四八[13] Al e xGr av es ， MarcusLiwicki ， SantiagoFern a'ndez ，Roman Bertolami，HorstBun k e，andJürgenSchmidhube r.一个用于无约束手写体识别的非连接主义系统TPAMI，31（5）：855-868，2009. 2[14] Al e xGr av es和J ür genSchmidhube r. 用双向lstm和其他神经网络结构进行帧式音素Neural Networks，2005. 3[15] Dan Guo ， Wengang Zhou ， Houqiang Li ， and MengWang.用于手语翻译的分层LSTM。在AAAI，2018。六、八[16] Dan Guo ， Wengang Zhou ， Houqiang Li ， and MengWang.基于自适应HMM的在线早晚融合手语识别。TOMM，14（1）：8，2018. 1[17] 原贤章片冈广胜佐藤丰时空3D CNN可以追溯2D CNN和imagenet的历史吗？arXiv预印本arXiv：1711.09577，2017。24177[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。一、二[19] Alejandro Hernandez Ruiz ， Lorenzo Porzi ， SamuelRotaBul o` ，andFrancescMoreno-Nogue r.距离矩阵上的3DCNN在ACM MM，2017年。1[20] SeppHochreiter 和 Jür genSchmidhube r. 长短期记忆。Neural Computation，9（8）：1735-1780，1997. 三、八[21] Hori Takaaki，Shinji Watanabe，and John Hershey.用于端到端语音识别的联合CTC/注意解码。在ACL，2017年。二、三[22] Jie Huang，Wengang Zhou，Houqiang Li，and WeipingLi.用于大词汇量符号语言识别的基于注意力的3D-CNN。TCSVT，2018年。1[23] Jie Huang ， Wengan

下载后可阅读完整内容，剩余1页未读，立即下载