没有合适的资源?快使用搜索试试~ 我知道了~
1Re-Sign:使用深度递归CNN Hysteresis重新对齐端到端序列Oscar Koller、Sepehr Zargaran和Hermann Ney人类语言技术模式识别小组德国亚琛工业大学@cs.rwth-aachen.de摘要这项工作提出了一种迭代的重新对齐方法,适用于视觉序列标记任务,如手势识别,活动识别和连续手语识别。以往处理视频数据的方法查看最近的数据集,这些标签往往是嘈杂的,这是常见的监督。我们提出了一种算法,该算法将提供的训练标签视为弱标签,并以弱监督的方式实时改进标签到图像的对齐给定一系列帧和序列级标签,端到端地训练深度递归CNN-BLSTM网络。嵌入到HMM中,产生的深度模型校正帧标签并在几次重新对齐中不断提高其性能。我们评估了两个具有挑战性的公开可用的标志识别基准数据集,具有超过1000类。我们的绝对性能和相对性能分别比最先进的高出10%和30%。1. 介绍序列数据很难注释,当试图为每个帧提供标签时。大量的连续数据通常包含标签歧义,并且不是没有错误的。社区需要找到解决这个问题的方法序列数据注释应该在质量上有所不同,弱监督方法可以应对这一点。评估指标可以在序列水平上而不是在精确的帧匹配上进行判断,有利于那些概括注释缺陷的方法。在这项工作中,我们提出了一个迭代的重新调整算法,以克服这些挑战。所提出的方法对训练分类器具有直接影响,这些分类器用于具有挑战性的序列任务,如手势或手语识别以及相关的邻近领域。长短期记忆(LSTM)模型ELS在语音识别、手写识别、机器翻译、图像字幕和图像翻译中取得了出色的结果,直到现在,它们还没有在区分大量类别的现实生活中的连续手势和手语识别任务上被完全训练。 我们的实验证据表明,需要对视频进行重新对齐,以允许这种重复训练。自然连续的手语,作为反对,提出了一个真正具有挑战性的大规模分类任务与固有的分割。连续的手势流构成了重叠的上下文和用户相关的交互,这些交互利用了经常可以在非同步实现中观察到的多模态通道。在本文中,我们介绍了在人类手势和手语识别领域超越当前最先进技术我们提出了一个多层双向LSTM,它是用深度卷积神经网络(CNN)进行端到端训练的。联合模型被嵌入到隐马尔可夫模型(HMM)的迭代细化和最终识别优于两个公开可用的基准数据集上的最新技术水平的大幅度。因此,我们做出了几项贡献,解决了当前最先进技术中的短路问题:1. 我们经验性地验证了重新对齐对于连续手势和手语识别任务的重要性,并提出了一种基于嵌入到HMM中的混合CNN-BLSTM的迭代2. 为了提高选定语料库的可重复性,我们将公开提供最佳比对1。3. 据 我 们 所 知 , 我 们 是 第 一 个 对 端 到 端 CNN-BLSTM进行连续手势和手语任务训练的公司,区分了1000多个类别。1http://www-i6.informatik.rwth-aachen.de/42974298114. 我们发现,整个帧图像优于跟踪的手。本文件的结构如下:在第2节中讨论了最新技术水平和它的缺点之后,我们在第3节中介绍了这种方法。在第4节中,我们展示了所有支持我们命题的经验实验。最后,我们在第5节中结束了结论和未来的工作2. 相关工作这项工作介绍了新的指导方针,优于目前国家的最先进的人类手势和手语识别领域也就是说,我们的主张依赖于迭代重新对齐算法。迭代地细化所提供的训练标签允许充分利用深度递归CNN-BLSTM模型,该深度递归CNN-BLSTM模型到目前为止还没有被成功地应用于具有大量类的真实生活、大量共同表达的手势和手势语言数据的可比任务。使用不推荐的GMM-HMM方法重新对齐标签长期以来一直是语音识别中的常见过程在最近的语音文献中,可以观察到一些效果,这些效果与纯粹基于深度神经网络的无GMM系统[33]进行重新对齐然而,在手势识别和邻近领域中,利用重新对准的工作并不多大多数方法简单地依赖于提供的帧标签或将输入序列长度除以执行非最佳平坦分割的建模状态或类的数量,如[41]所示。LSTM[19]在近20年前被发现。从那时起,他们在许多人类语言相关的技术上取得了巨大的成功。作为双向LSTM基于声学模型[32,44,15]或语言模型[35]的语音识别,神经机器翻译[36,7]或手写识别[16]。在相关的计算机视觉任务中,例如动作或活动识别,LSTM似乎产生更少的增益,甚至优于池化多流前馈架构[28]。我们认为,虽然,附议庇古等人。[29],当前通用视频分类数据集构成了挑战,其中场景中特定物体的检测通常足以成功分类。然而,当涉及到手势和手语识别时,时间序列信息,例如,运动,往往是关键。看看这些领域的最新技术水平,我们注意到在过去三年中(特别是2015年之后),有几项工作成功地利用了LSTM的不同变体。但所有先前的工作都有一些短期的预防措施-它们不采用双向LSTM [10,2,42,43,28]。所有之前的工作都是在少量类别上进行评估的[29,38,26,12],有时具有不需要图像处理的低输入维度(数据集提供跟踪的骨架)[26,12]。没有工作存在,模型- els真正连续的数据与重叠类,因为它是在自然手势和手语识别的情况。据我们所知,在活动、动作、手势和手语识别领域,我们是第一个成功报告CNN-LSTM网络端到端训练的公司,用于识别超过1000个类的具有挑战性的连续识别任务。然而,最近,我们了解到唇读中的一些作品也采用了LSTM [8]和门控递归单元(GRU)[1]来成功地区分大量的类。后一篇论文采用了联结主义时间分类(CTC)[16],这与本论文中提出的方法有关,但在几个方面有所不同。CTC可以被看作是混合全和HMM对齐的一个特例,而我们提出了一个维特比最佳路径对齐。此外,CTC有一个特定的HMM拓扑结构(1个状态,没有重复,然后是绑定空白状态),我们遵循标准的自动语音识别(ASR)bakis拓扑结构,有3个状态和2个重复。此外,在CTC训练中,实际的重新对齐通常应用于每个小批量,而我们每4个时期重新对齐一次。我们的方法的一个很大的优点是,它这允许使用具有更大内存占用的更复杂的视觉模型关于这两种方法的比较,请参阅[5]。在手语识别方面,我们的工作与[23]有关,但在我们提出的迭代标签重新对齐策略和循环CNN-BLSTM模型方面有所不同。3. 标签和视频在最近的一系列工作[25,41,23]中,使用混合神经网络和HMM建模[6,3]进行手势和手语识别,我们也选择了混合架构。然而,与之前提到的出版物不同,我们将CNN-BLSTM嵌入到HMM中,并在下面的小节中提出了一种迭代重新对齐算法。所提出的算法的概述可以在图1中看到。3.1. 识别基础所有序列学习任务的目标都是在给定输入序列的情况下预测输出符号序列wN使其无法充分利用架构的全部优势,图像xT=x1,. . . ,xT. 为了训练序列类-将其转移到更具挑战性的问题上:大多数作品不以端到端的方式与CNNss联合训练LSTM [2,26,42,43],它们的架构不深[38],或者在监督设置中的筛选器,或者直接帧标记可用或者目标标签序列w被给定,并且对应事件在429911111111111argmaxN1.p(w)max不1YTt=1Σp(xt|,st,w)p(st|st−1,w)(六)图1. 概述了用于细化训练标签的迭代重新对齐算法。视频资料可以下载。我们所采用的混合建模方法利用了贝叶斯决策规则的统计范式为了能够使用强视觉模型,我们将发射概率p(x t)|st,wN)的隐马尔可夫模型。其输出构成后验概率。因此,为了保持该方法完全贝叶斯,需要遵循贝叶斯规则将后验转换为类条件似然p(st,wN|xt)语音识别、手写识别和统计-p(xt|st,wN)= p(xt)·1(七)机器翻译已经有几十年了。目标是最大化真类后验概率分布Pr(wN|xT)在整个话语上。决定1p(st,wN)其中p(st,wN)可以由状态la近似1 11理论允许将类先验Pr(wN)中的类后验概率和类条件概率分开,概率(xT|wN),然后我们可以通过不同的我们的帧状态对齐中的bel计数用于训练CNN-LSTM。在实现中,我们添加了几个超参数,允许控制语言的影响1 1信息来源。 p(wN)将由n元语言模型建模,而p(xT|wN)将由CNN-LSTM建模:模型(γ)和状态先验(α)。 忽略常数帧先验p(xt),我们最终优化以下等式以找到最佳输出序列:[wN].NTN。YΣ1opt= argmaxN1p(w1)·p(x1|w1)(一)argmaxWp(w)γMax不1tp(st,w|xt)p(st,w)αp(st|st−1,w)(八)用HMM表示类条件概率添加隐藏变量sT:Σp(st|st−1)构成了状态转换模型,我们对所有输出类进行了建模。 只有遍历垃圾类有单独的转移概率,p(xT|wN)=p(xT,sT|wN)(2)=11ΣYT1 1 1不1p(x,s |xt−1,st−1,wN) (3)它总是可以说明输出sym之间的帧- 是的所采用的隐马尔可夫模型是bakis结构,这是一种从左到右的结构,具有最多跨越一个状态的前向、循环和跳跃过渡。此外,我们实现了每个手势类与六个状态,其中两个subse-ΣYTTt=1t−1不不11t−11t−1quent状态共享相同的类概率。除了转发、循环和跳过之外,我们还对退出惩罚进行建模,每当发出完整符号(手势类)时都会添加退出惩罚。这些处罚与上述γ和=p(xt|x ,st,wN)·p(st|X,s,wN)(4)1 1 1Tt=1ΣYT1 1 1α表示这种方法中的超参数,在独立开发集上使用网格搜索进行优化。所有的HMM实验都是通过RASR [31]进行的,RASR是一种免费的开源语音,=p(xt|,st,wN)·p(st|st−1,wN)(5)1 1Tt=1其中等式2中的和表示导致相同输出序列wN的所有可行路径。方程3和4借助于链式法则构成了重新表述。假设s是不可观测的,并且一阶马尔可夫过程导致等式5。在应用只考虑最可能路径的维特比近似之后,识别框架。 我们使用直方图和阈值-旧的搜索空间修剪,以获得更好的性能和内存消耗。所有的实验都是根据单词错误率(WER)进行评估的,WER测量了将识别的句子转换为参考句子所必需的插入、替换和删除#删除+#插入+#替换WSWSSSSS4300把所有的东西代入方程1,我们得到:WER=(九)#参考观察结果4301113.2. 迭代EM重对准CNN在手势和手语处理方面表现出令人难以置信的进步[23]。但在这些任务中,运动似乎起着非常重要的作用,仅仅依靠生成式HMM状态序列来捕捉节奏变化可能是不够的。诸如LSTM之类的递归网络可以访问整个序列或至少一个子序列,因此可以弥补该缺点。然而,我们将前馈转移到循环网络的实验很快就表明,从增加的建模复杂性中获益并不容易固定的帧状态对齐对于前馈CNN是好的,已经证明对于训练LSTM是非最优的在这项工作中,我们提出了一个迭代的重新调整al-这有助于克服这些问题。基本思想依赖于期望最大化(EM)[9]。我们在ILSVRC中实现了68.7%的前1准确度和88.9%该网络在其卷积层中使用ReLU作为非线性,并设置70%的丢弃率以防止过度拟合。LSTM是RNN的变体,被发明来克服消失梯度问题[4],因此可以比普通RNN更好地学习长时间依赖性。由于梯度是完全可微的,我们可以用时间反向传播(BPTT)训练递归网络[40]。 我们使用随机梯度下降,初始学习率λ0=0。001for CNN-LSTM archi-结构,λ0=0。01CNN网络我们采用了多项式方案,以随着训练的进行而降低迭代i的学习率 λi , 同 时 在 我 们 的 实 验 中 对 于 最 大 迭 代 次 数imax=100k(大致为4个epoch)达到λi=0使用提供的帧标记或由标准CNN训练生成的帧状态对齐来初始化算法。然后,我们首先迭代地执行最大化步骤,λi=λ0·.我1− ImaxΣ0 5(十)这对应于将我们的CNN-LSTM模型拟合到数据,然后是期望步骤,其中先前训练的模型嵌入到混合HMM识别中,如前一节所述。然而,不执行完全识别,而是执行强制对齐:我们强制单词序列wN匹配训练数据中的给定转录,并搜索最可能的状态序列sT。如图1所示,在每次重新对齐之后,CNN-LSTM训练的后续迭代将受益于新的帧状态标签,并且它还使用先前迭代在每次迭代之后,我们执行对设备数据的识别。在这里,我们优化上述超参数以获得最佳结果。然后使用相同的超参数来重新对齐下一次迭代。3.3. 递归CNN LSTM在这项工作中,我们处理具有挑战性的现实生活中的手势和手语视频数据的识别因此,我们的目标是将一个强大而深入的CNN与几个双向LSTM层结合起来[17,27]。为了训练完整的端到端网络,选择的CNN架构应该具有低内存占用,同时仍然非常深。在比较了不同的CNN架构[34,24,37]之后,我们选择了22层深度的GoogleNet [37]架构,我们最初在ILSVRC-2012 [30]的140万张图像上进行预训练。该架构的主要构建块降维工具。最后,除了最后一个分类器,GoogLeNet还使用了两个辅助分类器,它们位于较低层,以0.3的权重添加到最终损失中。预训练的独立CNN我们的CNN-LSTM实现基于[20]。他们-所采用的双向CNN-LSTM-HMM架构在图2中描述。所有图像都直接作为深度CNN架构的输入。我们实验中的所有手部补丁都以与[11]的基于动态规划的方法此外,所有与手相关的实验都使用右手,这是签名者的优势手。输入到CNN的手和全帧图像的大小都是256x256像素。通过减去训练集中所有图像的逐像素平均值,对每个输入进行归一化然后在随机位置将生成的图像裁剪为224x224像素的新大小。4. 实验我们在RWTH-PHOENIX- Weather 2014 [14]数据集上进行了实验,该数据集具有超过100万帧和1,081个独特单词的词汇量。该数据集是从公共电视广播中记录的,包含9个不同签名者执行的句子在该数据集中,除了训练集之外,还提供了两个独立的评估集,每个评估集的大小几乎占训练集的10%重要的是要注意,这些集合不是独立于签名者的,这意味着所有签名者都出现在所有3个集合中。一个困惑度为46.9的4-gram语言模型被训练并用于该数据集的实验。此外,我们创建了PHOENIX 2014的签名者独立子集和签名者独立的4-gram语言模型,在开发集上测量的困惑度为60.4由于数据量很大,我们选择忽略签名者5进行签名者独立实验。4.1. 单模态与多模态鉴于先前的工作[22,23]对手动(手)特征的成功,我们使用右4302图2.具有两个BLSTM层的端到端CNN-LSTM架构如表3所示,在第一次重新调整之后,我们看到开发集和测试集分别提高了1.7和0.9个百分点然而,下一次重新调整的影响似乎较小,测试集的WER提高了0.4个百分点。这种相对于现有技术的初始显著改进表明,在混合DNN-HMM框架内使用重新对齐可能是非常有益的。考虑到手语的多模态性质,我们知道单独使用右手不会产生最好的因此,使用包含所有手语模态的视觉信息的全帧进行类似的实验(例如,手、脸等)。表3再次显示了我们使用全帧的实验结果。我们可以看到,在第一次迭代中,全帧图像在开发和测试集上的表现分别超过了最先进的单模态手模型3.9和4.7个百分点。重要的是要注意,当使用右手补丁作为特征时,需要额外的跟踪步骤。这与全帧实验相反,在全帧实验中,CNN不仅能够自己区分双手,还能够识别其他模式,从而获得更好的结果。此外,遵循与右手实验相同的模式,使用全帧的重新对准导致第二次迭代中的初始改进和第三次迭代中的稳定。这证实了重新对准导致改进的性能,但也证实了增益对于几次迭代是有限的考虑到全帧的相对简单性和更高的性能,它们应该是混合DNN-HMM方法中手语识别的选择特征LSTM层重新对齐迭代输入1 2 30右手38.3 36.6 36.90全帧33.7 30.7 29.0表3.识别结果为WER [%](越低越好),其中使用PHOENIX2014 Dev上的GoogleNet结构进行不同数量的重新对齐,用于全帧跟踪右手。表2. Phoenix-2014 Signer Independent SI 5数据集的统计。手补丁。如前所述,我们选择了GoogleNet。其通过在ImageNet数据集上学习的权重进行初始化,并使用从[22]的方法生成的对齐(标签)在跟踪的右手补丁上进行训练4.2. 通过LSTM的时间上下文LSTM是在深度神经网络中捕获序列和时间信息的强大单元。在计算机视觉的背景下,这些单元的使用通常是孤立地完成的,并且是在通过单独训练的CNN。然而,在这项工作中,我们选择了深度CNN-LSTM网络的端到端训练这导致网络由许多卷积层组成在最初的实验中,单个LSTM层堆叠在GoogLeNet的最后一个池化层的顶部,然后是火车Dev测试签名者999持续时间[小时]8.880.840.99帧799,00675,18689,472句子5,672540629运行注释65,2275,5406,504词汇1,081467500表1. Phoenix-2014数据集统计。火车Dev测试签名者811持续时间[小时]6.800.180.30帧612,02716,46026,891句子4,376111180运行注释49,9661,1671,901词汇1,0812392944303最后的softmax分类器。4.3. 预训练和LSTM初始化如前所述,我们使用ImageNet数据集上学习的权重初始化网络。然而,在该数据集上没有顺序信息,使得不可能在其上预训练LSTM单元。这种影响可以具 有 CNN-BLSTM ( 单 个 BLSTM 层 ) 和 CNN-2BLSTM(两个连续的BLSTM层)。与仅CNN和其他基于LSTM的实验相比,CNN-BLSTM的性能更差另一方面,CNN-2BLSTM方法在所有迭代中都优于所有其他方法,使PHOENIX 2014数据集的开发集上的WER降至27.1可以在表4中看到,其中CNN-LSTM架构初始化为仅在ImageNet上训练CNN(GoogLeNet)的权重。如果不进行任何调整,WER将下降近11个然而,在仅两次重新对准迭代之后,CNN-BLSTM网络的WER达到仅CNN网络的WER。LSTM双向重新对齐迭代LSTM重新对齐迭代预训练表 5.CNN-LSTM GoogleNet 结 构 在 Phoenix- 2014 ( 仅 限CNN)上进行了预训练,在几次重新对齐的识别结果在PHOENIX 2014 Dev上以WER[%]表示(越低越好),采用全帧。表 4. CNN-LSTM GoogleNet 结 构 , 在 ImageNet 或 Phoenix-2014(仅CNN)上进行预训练,经过多次重新对齐迭代。使用全帧图像,PHOENIX 2014 Dev上的识别结果为WER [%](越低越好)。尽管使用重新对齐有所改进,但我们希望将必要的重新对齐次数保持在尽可能低的水平。解决这个问题的一种方法是使用在同一数据集上训练仅CNN网络的权 重 。 因 此 , 最 初 , 仅 CNN 的 GoogLeNet 通 过 在ImageNet数据集上学习的权重初始化,并在PHOENIX2014上进行训练。然后,将得到的权重用于初始化CNN-LSTM模型。表4显示,4.5. LSTM尺寸还进行了额外的实验以确定LSTM神经元数量的影响。到目前为止,我们所有的实验都使用了具有1024个neurons的LSTM层考虑到我们实验所用设置的内存消耗,使用超过1024是不可行的然而,我们能够使用具有512个神经元的LSTM层重复CNN-2BLSTM设置,其结果如表5所示。可以看出,即使512个神经元模型设法优于仅CNN的实验,但较低数量的神经元导致几乎所有迭代上的较差WER。导致WER与仅CNN模型相当后在一个重新对齐步骤中,CNN-LSTM模型在WER中的表现优于仅CNN模型的相同迭代1.3个百分点。尽管如此,仅CNN模型在第三次迭代时达到了更好的WER。BLSTM数量重新对齐迭代4.4. LSTM vs. 2BLSTM最初的端到端CNN-LSTM实验表明,使用LSTM层可以获得收益,但是需要进一步研究精确的LSTM配置。LSTM单元可以访问来自当前序列位置以及先前特征的信息。相反,双向LSTM(BLSTM)单元也提供对即将到来的序列信息的访问。这可以通过两个LSTM单元的融合来实现,其中一个从开始到结束处理序列,而另一个从结束到开始处理序列。这样,在每个时间步,BLSTM单元可以访问先前和即将到来的数据。我们比较了CNN-LSTM架构表6. CNN-BLSTM GoogleNet结构在Phoenix-2014(仅CNN)上进行了预训练,具有两层,每层隐藏单元的数量在重新对齐的几次迭代中变化。识别结果在PHOENIX 2014 Dev上以WER [%]表示(越低越好),采用全帧。4.6. 签名者独立识别在这项工作的范围内,我们正在PHOENIX 2014上进行签名者依赖实验,我们在训练期间没有看到的单个个体上进行由于没有先前的比对可用于此任务,因此我们首先对数据集进行线性分割。图3示出了作为训练迭代的函数的WER。经过10次迭代,算法已经收敛,我们达到层12340-33.730.729.029.11没有33.829.429.529.71是的34.430.230.230.0层1230ImageNet33.730.729.01ImageNet44.236.933.81凤凰-201433.829.429.5层隐藏单元1234251232.829.227.928.52102432.729.527.127.24304PHOENIX-2014 SI 5Dev PHOENIX-2014 SI5测试[23])。 这是通过应用重新对齐铅增加-70的WER比2.4个百分点高,最先进的技术。和以前一样,重新排列会导致不一致-60证明,但经过几次迭代后,结果稳定下来。在第三次迭代中,CNN-2BLSTM设置实现了IM-100。绝对WER为0.5%,相对WER为50比CNN唯一的架构。401 2 3 4 5 6 7 8 9 10 11重新对齐迭代LSTM重新对齐迭代双向图3.在RWTH-PHOENIX- Weather 2014 SI 5语料库上显示签名者5的WER [%](越低越好)中的签名者独立识别结果所采用的CNN-2BLSTM混合系统通过线性分割语料库数据来初始化。开发和测试的WER分别为45.1%和44.1%。将这些数字与PHOENIX 2014多签名器上的最佳错误率(27.1%Dev和26.8% Test)进行比较,我们注意到签名者独立设置带来了一个更加困难的问题。多签名者的性能比签名者独立识别好近20%。4.7. 可概括性鉴于所提出的方法的成功,我们在另一个手语数据集上进行了相同的实验SIGNUM [39]是由单个签名者在受控环境中执行的句子的中等大小的数据集。签名者已做出额外努力,使所有的姿势和动作在视觉上可见且易于理解。与包含真实世界数据的其他数据集相比,这使得该数据集中的句子识别更容易。一个困惑度为97.6的3-gram语言模型被训练并用于这个数据集上的实验。该数据集中的所有句子都是预先安排的,导致相对较强的语言模型。请注意,最新的WER是7.4%。火车测试签名者11持续时间[小时]3.851.05帧416,620114,230句子1,809531运行注释11,1092,805词汇455-表7. SIGNUM数据集统计。OOV指的是在列车集词汇表我们可以再次看到,使用全帧图像导致WER提高了1.7个百分点(与表8.仅CNN与CNN-2BLSTM GoogleNet结构在SIGNUM(仅CNN)上经过几次重新对齐迭代的预训练。使用全帧识别SIGNUM单个歌手的结果为WER [%](越低越好)。4.8. 概述表9显示了我们的结果与最新技术水平的比较。可以看出,重新比对的迭代使用有助于在仅CNN和CNN-2BLSTM方法上实现最佳可能的WER。此外,通过合并BLSTM单元来获得广告改进,从而产生端到端CNN-2BLSTM架构。在PHOENIX 2014数据集上,我们的方法在开发和测试集上的表现优于最先进的方法,在没有重新对齐的情况下,绝对值为5.9个百分点或相对值为15.2%,在重新对齐的情况下,绝对值为12.0个百分点或相对值为30.9%。同样,SIGNUM的最新技术水平绝对提高了2.4个百分点,相对提高了32.4%。没有任何重新对齐的结果5. 结论本文提出了一种基于嵌入HMM的混合CNN-BLSTM的迭代重对齐算法,该算法适用于手势识别、活动识别和连续手语识别等视觉序列标记任务。在这项工作中,我们经验性地验证了这种重新对齐对于连续手势和手语识别任务的重要性。正因为如此,我们能够成功地训练端到端的CNN-BLSTM,以挑战现实生活中的连续手势和手语任务,区分1000多个类别。据我们所知,我们是第一个在大词汇量手语或手势识别方面实现这一目标的人我们评估了两个具有挑战性的公共标志识别基准数据集,具有超过1000类。我们超过了国家的最先进的高达10%的绝对溶质和30%的相对。嵌入到隐马尔可夫模型中,产生的深层模型会不断纠正帧标签,WER [%]层1230-5.75.05.32是的6.55.04.84305凤凰2014SignumDev测试测试[39]12.7[18]11.9[13]10.7[21] 57.3 55.610.0[22] 47.1 45.17.6[23] 38.3 38.87.4美国有线电视新闻网33.7 33.35.7CNN重新调整29.0 29.45.0CNN-2BLSTM32.732.96.5CNN-2BLSTM重新对齐27.126.84.8表9.根据已发表的最佳结果概述所提出的方法。PHOENIX2014 Multisigner和SIGNUM上的连续手语识别结果为WER[%] ( 越 低 越 好 ) 。 CNN-2BLSTM 指 的 是 与2 层 双 向LSTM。在几次重新排列中提高其性能此外,我们发现,整个帧图像优于跟踪的手,这曾经是选择的方法,直到现在。就未来的工作而言,将该算法与联结主义时间分类进行比较可能是有希望的。此外,还需要更多的工作来解决签名者独立性。引用[1] Y. M. 阿 萨 埃 尔 湾 Shillingford , S. Whiteson 和 N. deFreitas LipNet:端到端句子级唇读。arXiv:1611.01599[cs],Nov. 2016. 2[2] M. 巴库切, F. 玛玛莱特 C. 狼 C. 加西亚和A.巴斯库尔特用于人类动作识别的顺序深度学习。第二届人类行为理解国际会议论文集,HBU'11,第29-39页,柏林,海德堡,2011年史普林格出版社2[3] Y.本吉奥。语音识别的连接主义方法。国际模式识别与人工智能杂志,7(04):647-667,1993. 2[4] Y. Bengio,P. Simard,and P.弗拉斯科尼用梯度下降法学习长期依赖关系是困难的。IEEE神经网络事务,5(2):157-166,1994. 4[5] T. 布鲁什,H。Ney,J.Louradour,和C.克莫万特手写体识别神经网络的逐帧和CTC训练. 2015年第13届国际文件分析与识别会议(ICDAR),第812015年8月。2[6] H. A. Bourlard和N.Morgan. 连接主义言语识别:混合方法,第247卷。Springer Science Business Media,1994. 2[7] K.乔湾,巴西-地van Merrienboer、D. Bahdanau和Y.本吉奥。关于神经机器翻译的特性:编码器-解码器方法。在SSST-8会议录中,第八次统计学翻译,第103-111页,多哈,卡塔尔,10月。2014.计算语言学协会。2[8] J. S. Chung,A. Senior、O. Vinyals和A.齐瑟曼。在野外读唇语句子arXiv:1611.05358 [cs],2016年11月2[9] A. P. Dempster,N. M. Laird和D. B.鲁宾通过EM算法从不完整数据中获得最大似然 英国皇家统计学会杂志。B辑(方法),第1-38页,1977年。4[10] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach,S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。第2625-2634页2[11] P. Dreuw,T.Deselaers,D.Rybach,D.Keysers和H.内伊基于外观的手语识别的动态规划跟踪。在IEEE国际会议自动面部和手势识别,第293-298页,英国南安普敦,4月29日。2006.美国电气与电子工程师协会。4[12] Y. 杜,W.Wang和L.王. 用于骨架动作识别的层次递归第1110-1118页,2015年。2[13] J. Forste r,C. Ober doürfer,O. Kolle r和H. 是的。连续手语识别中的模态组合技术。在Iberian Conference onPattern Recognition and Image Analysis,Lecture Notes inComputer Science 7887,第89-99页斯普林格。8[14] J. Forster,C.施密特O. Koller,M. Bellgardt和H.内伊手语 识 别 和 翻 译 语 料 库 的 扩 展 RWTH-PHOENIX-Weather。在语言资源和评估,第1911-1916页4[15] A. Graves和N.贾特利用递归神经网络实现端到端语音识别。第1764- 1772页2[16] A. 谢谢你M Liwicki,S. 弗恩阿南德斯河贝托拉米,H. Bunke和J.施密特胡博一种新的用于无约束手写体识别 的 连 接 主 义 系 统 。 IEEE Transactions on PatternAnalysis and Machine Intelligence,31(5):855-868,2009年5月。2[17] A. Graves和J.施密特胡博使用双向LSTM和其他神经网络架构进行逐帧音素分类。神经网络,18(5):602-610,2005年。4[18] Y. Gweth角Plahl和H.内伊使用PCA和神经网络特征的增强连续在CVPR 2012手势识别研讨会,第55-60页,普罗维登斯,罗德岛,美国,2012年6月。8[19] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,9(8):1735-1780,1997。2[20] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地 Gir- shick , S. Guadarrama 和 T. 达 雷 尔 。 Caffe :Convolutional Architecture for Fast Feature EmbeddingarXiv预印本arXiv:1408.5093,2014。4[21] O. Koller,J. Forster,and H.内伊连续手语识别:面向大词汇量统计识别4306处理多个签名者的系统 计算机视觉和图像理解,141:108-125,12月。2015. 8[22] O. Koller,H. Ney和R.鲍登Deep Hand:How to Train aCNN on 1 Million Hand Images When Your Data IsContinuous and Weakly Labelled.在内华达州拉斯维加斯举行的IEEE计算机视觉和模式识别会议USA,June 2016. 四五八[23] O. Koller,S. Zargaran,H. Ney和R.鲍登Deep Sign:HybridCNN-HMMforContinuousSignLanguageRecognition. 在英国约克举行的英国机器视觉会议九月2016. 二、四、七、八[24] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络的ImageNet分类神经信息处理系统的进展,第1106-1114页,2012年。4[25] H.- S. Le,N.- Q.范和D. D.阮神经网络与隐马尔可夫模型在基于马尔可夫模型的手势识别中的应用。在V中- H.Nguyen,A.- C. Le和V。- N. Huynh,编辑,《知识与系统工程》,智能系统与计算进展第326期,第299-311页。Springer International Publishing,2015. 2[26] G. Lefebvre,S. Berlemont,F. Mamalet和C.加西亚基于BLSTM-RNN的3D手势分类。在人工神经网络国际会议上,第381388. Springer,2013. 2[27] M. Liwicki,A.格雷夫斯,H. Bunke和J.施密特胡博一种基于双向长短时记忆网络的联机手写体识别新方法。在第九届国际文件分析和识别会议上,ICDAR 2007,2007年。4[28] J.Y.-- H.吴先生,M.豪斯克内希特,S.Vijayanarasimhan,O.维尼亚尔斯河Monga和G.托德里奇Beyond Short Snip-pets : Deep Networks for Video Classification. 第 4694-4702页2[29] L. Pigou,A. van den Oord,S. Dieleman,M. Van Her-reweghe和J.丹布尔超越时间池:视频中手势识别的递归和时间卷积arXiv:1506.01911 [cs,stat],June 2015. 2[30]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A.卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机视觉杂志,115(3):211-252,12月。2015.4[31] D. Rybach,S.Hahn,P.Lehnen,D.Nolden,M.桑德迈尔,Z. Tu? s k e,S. 怀斯勒河 Sch lué te r和H. 是的。RASR-亚琛工业大学开源语音识别工具包。在IEEE自动语音识别和理解研讨会上,美国夏威夷州怀科洛阿,12月15日。2011. 3[32] H. Sak,A. W.高级和F.波费用于大规模声学建模的长短期记忆递归神经网络结构。在INTERSPEECH,第3382[33] A. Senior,G. Heigold,M. Bacchiani和H.辽GMM-免费DNN培训。在ICASSP的会议记录中,第5639- 5643页2[34] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。4[35] M. 松德梅河 Sch lué te r和H. 是的。用于语言建模的LSTM神经在INTERSPEECH,第194-197页,2012中。2[36] I. Sutskever,O. Vinyals和Q.乐序列到序列学习与神经网络。神经信息处理系统进展,第3104-3112页,2014年。2[37] C. 塞格迪W. 刘先生,Y. 贾, P. SermanetS. 里德D.安格洛夫,D。Erhan,V. Vanhoucke,和A.拉比诺维奇。用卷积更深入。在IEEE计算机视觉和模式识别会议(CVPR)中,第14[38] E. Tsironi、P. Barros和S. Wermter基于卷积长短期记忆递归神经网络的手势识别。2016年,比利时布鲁日。2[39] 联合von Agris,M. Knorr和K.- F.克雷
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功