没有合适的资源?快使用搜索试试~ 我知道了~
11542特征对准模块提取器视觉对准损失视觉增强损失向前传球向后传球连续手语识别中的视觉对齐约束闵悦聪1,2,郝爱明1,2,柴秀娟3,陈西林1,21中国科学院智能信息处理重点实验室,中国科学院计算技术研究所,北京,1001902中国科学院大学,北京,1000493中国农业科学院农业信息研究所,北京,100081{yuecong.min,aiming.hao} @ vipl.ict.ac.cn,chaixiujuan@caas.cn,xlchen@ict.ac.cn摘要基于视觉的连续手语识别(CSLR)旨在从图像流中识别未分割的手语。 过拟合是CSLR训练中最关键的问题之一,以往的研究表明迭代训练方案可以部分解决这个问题,但同时也会花费更多的训练时间。在这项研究中,我们重新审视了最近CSLR作品中的迭代训练方案,并认识到特征提取器的充分训练对于解决过拟合问题至关重要。因此,我们提出了一个视觉对齐约束(VAC),以加强与对齐监督的特征提取。具体地,所提出的VAC包括两个辅助损耗:一个仅关注视觉特征,而另一个实施特征提取器和对准模块之间的预测对准。此外,我们提出了两个指标,以反映过拟合,通过测量的特征提取器和对齐模块之间的预测不一致。在两个具有挑战性的CSLR数据集上的实验结果表明,所提出的VAC使CSLR网络具有端到端的可训练性,并获得了有竞争力的性能。1. 介绍手语是一种完整而自然的语言,通过手动组件(手/手臂手势)和非手动组件(面部表情,头部运动和身体姿势)传达信息[10,37],并具有自己的语法和词汇[41]。基于视觉的连续手语识别(CSLA)旨在从图像流中自动识别手语,可以弥补聋人和听力正常人之间的沟通障碍。它还为手语使用者提供了更多的非侵入式交流渠道。与语音识别不同,手语的数据采集和标注成本高,这对语音识别的研究提出了一种新的要求视觉对齐约束图1.概述所提出的非迭代CLSR方法与视觉对齐约束。为了解决特征提取器训练不足的问题,提出的VAC通过对齐监督约束特征空间来增强视觉提取器的泛化能力。承认的重要问题[2]。因此,大多数CLR工作解决这个问题,在弱监督的方式,并采用网络结构组成的特征提取器和对齐模块。特征提取器从每一帧中提取视觉信息,并且对齐模块搜索视觉特征与对应的标注之间的可能的对齐。与那些作品[27,29,31]不同的是,采用HMM来更新特征提取器的逐帧状态标签,Graves等人。[15]提供了一种更优雅的解决方案,即所谓的Connectionist时间分类(CTC),通过最大化概率之和来对齐预测和标记所有可行的线形,被以下工程采用[3,6,8,9,27,36,46]。尽管基于CTC的CLR方法在训练中提供了便利,但先前的研究[9,39]表明,端到端训练限制了特征提取器的辨别能力。它们利用迭代训练方案来增强特征提取器,这显著提高了性能。然而,除了端到端训练之外,它还需要额外的微调过程,并且增加了训练时间。最近的一些作品[6,36]试图通过采用完全卷积网络和细粒度标签来加速这种训练方案。在这项研究中,我们重新审视基于CTC的CSLR模型在不同的视觉特征目标句子11543迭代次数很少,并且观察到只有少数帧在训练中起关键作用。特征提取器提取视觉信息并为对准模块提供关键帧的初始定位。对齐模块进一步细化特征提取器的识别结果,并利用其强大的时间建模能力学习长期关系。由于CTC的尖峰现象[14,34],在具有有限样本的CSLR数据集上,比对模块比特征提取器收敛得快得多,并且不能向特征提取器提供足够的反馈。对齐模块的过拟合导致特征提取器的训练不足,并且劣化训练模型的泛化能力迭代训练方案试图通过用迭代细化的伪标签增强特征提取器来解决这个问题基于以上观察,我们得出结论,约束特征空间对于有效地训练CSLR模型至关重要。为了解决这个问题,我们提出了一个视觉对齐约束(VAC),使CSLR网络端到端可训练。如图1中,所提出的VAC由两个辅助损耗组成,这两个辅助损耗为特征提取器提供额外的监督。视觉增强损失迫使特征提取器仅基于视觉特征进行预测,并且视觉对齐损失将短期视觉预测与长期上下文预测对齐。通过两种损失的组合,所提出的方法在PHOENIX14 [28]和CSL [23]数据集上实现了与最新方法的为了更好地理解性能的提高,我们提出了两个指标,名为字恶化率(WDR)和字改善率(WAR),以评估特征提取器和对齐模块的贡献,这也可以用作过拟合的指标实验结果表明,与迭代训练方法相比,该方法能获得更强的分类能力特征提取器,并更好地利用视觉特征。主要贡献概述如下:• 重新审视CSLR中的迭代训练方案,并表明对齐模块的过拟合导致特征提取器的训练不足。• 提出了一个视觉对齐约束,使网络端到端的训练,通过增强特征提取器和对齐视觉和上下文特征。• 提出了两个度量指标来评价特征提取器和对齐模块的贡献,验证了所提方法的有效性。2. 相关工作2.1. 连续手语识别手语识别(SLR)方法可以大致分为孤立的SLR[25,32,33]和con-SLR[ 25,32,33 ]连续SLR [9,27]。 与孤立的SLR不同,大多数CSLR方法以弱监督的方式模型序列识别:仅提供句子级标记。一些早期的CSLR方法[12,18,37]采用分而治之的范例,将标志视频分成几个子单元,使用基于HMM的识别系统来处理有限的数据。精心选择手工制作的特征[11,28,43],以提供更好的视觉信息。CNN最近在计算机视觉中的成功[20,42,44]为视觉特征表示提供了强大的工具。然而,CNN需要逐帧注释,这与CSLR的弱监督性质为了解决这个问题,Koller等。[29]提出了一种迭代期望最大化方法,通过将手形分类器添加到GMM-HMM模型作为中间任务来提供帧级监督。一些研究通过提出CNN+LSTM+HMM框架[30],结合更多线索[27]并改进迭代对齐方法[31]来扩展这项工作。这种迭代的CNN-LSTM-HMM设置提供了许多最近的作品[4,7]所采用的鲁棒视觉特征虽然CNN-LSTM-HMM混合方法取得了很好的效果,但它们仍然需要HMM来提供逐帧标签。格雷夫斯等人[15]提出CTC损失以最大化所有可行比对的概率,其广泛用于许多序列问题[17,16]。最近的几项工作[3,8]使用CTC损失来实现CSL的端到端训练。然而,一些工作[8,9,39]发现这种端到端方法无法正确训练特征提取器并重新使用迭代训练。直到最近,一些作品[6,36]试图以端到端的方式解决这个问题。Cheng等人[6]提出一个光泽特征增强模块来学习更好的视觉特征。Niu和Mak [36]提出了一种多状态方法和几种操作来缓解过拟合问题。在这项工作中,我们试图探索迭代训练的本质,并提出了一种更有效的方法来训练CSLR模型。2.2. 辅助学习与旨在提高所有任务的概括性的传统多任务学习[5]不同一种直接的方法是在输出阶段组合多个任务。根据这个想法,Kim等人。[26]使用CTC来加速训练过程并提供单调对齐约束。Pu等人[39]提出了一种迭代对齐网络,该网络联合优化CTC解码器和LSTM解码器,另外具有软DTW对齐约束。Goyal等人[13]提出了一种辅助损失来消除自回归解码器中的后验崩溃现象[1]。另一个想法是在不同的阶段使用不同的监督。Sanabria等人[40]使用多个11544...LLBB∈∈····B→········Y|BB1BN. ΣΣ特征提取器对齐模块图2. 拟议框架包括三个部分:特征提取器、对齐模块和辅助分类器Fa。特征提取器首先提取图像序列的帧间特征,然后应用1D-CNN提取具有Δt时间感受野的局部视觉信息。被标记为视觉特征的1D-CNN的输出被发送到对准模型并被发送到匹配模型。辅助分类器。训练时采用两种辅助损耗:视觉增强损失(VE)将视觉特征和靶序列对齐,并且视觉对齐损失(VA)通过知识蒸馏将短期视觉预测和长期上下文预测对齐。较低级别的任务,例如音素识别,以约束用于语音识别的中间表示。在这项研究中,我们采用辅助学习策略,提供视觉对齐约束的特征提取器。3. 再论CSLR中的迭代训练CSLR旨在基于T的序列预测对应的光泽标签序列l=(l,...,l)。(-aaa --aabbb-)=(-a-ab-)=aab. 在该函数的帮助下,CTC可以通过对所有可行路径的概率求和来提供对特征提取器和对齐模块的参数θ的LCTC= − log p(l|X; θ)=− logp(π|X; θ)。(一)π∈B−1(l)帧X=(x1,,XT)。 要素提取器播放在CSLR中起着重要的作用,它从图像序列中提取视觉特征V=(v1,,vT′)。如图2,我们选择2D-CNN来提取逐帧特征,选择1D-CNN来从相邻帧中提取局部姿势和运动信息,就像以前的工作一样[9,48]。光泽度方面的特征被馈送到两层BiLSTM和主分类器Fp中以组合长期关系并提供预测的logits Z=(Z1,Z2,T’)。采用CTC损失以通过对齐预测和序列标记来提供监督3.1. CTC的尖峰现象连接主义时间分类[15]被设计用于具有未分段数据的端到端时间分类任务为了提供更有效的监督,CTC引入空白类和注释词汇G构建最终扩展的注释词汇表G′=G ∪{blank}。CTC定义了一个多对一函数:G′TG≤T对齐标记序列,称为路径πG′T,并且通过从路径中顺序地移除重复标签和空白来标记lG≤T。例如,条件概率p(π X)可以根据条件独立性假设计算:T′p(π|X)=p(π t|X; θ),(2)t=1其中,通过将softmax函数应用于网络输出logit来计算概率:P θ= softmax(Z)。如上所述,CTC通过引入空白类并移除重复标签来对齐路径和标签。当使用CTC优化网络时,预测往往会形成一系列尖峰响应[15,34]。其主要原因是,当网络不能自信地区分光泽边界时,预测空白标签是CTC的更安全的选择。 例如,(aaab)和(a--b)都对应于相同的标号,但(abab)即使只有一个错误也会带来更大的损失。因此,CTC损失主要集中在关键帧上,并且最终的预测由少数非空白关键帧和许多高置信度空白帧。3.2. LSTM门长短期记忆[22]广泛用于序列建模,它可以很好地对长期依赖性进行建模。LSTM的核心组件是它的内存2DCNNBiLSTMΔ1DCNN预测句话2DCNNℒ���������Δ1DCNN...............ℒ������目标句子2DCNNΔ1DCNNℒ������向前传球向后传递逐帧特征视觉特征11545(a) 迭代1(b)迭代2(c)迭代3图3.门值的可视化、特征的l2范数和训练样本在不同迭代之间的最终预测设计:输入和遗忘门控制信息从当前输入和过去存储器到当前存储器。输出门控制期望从当前存储器输出什么总的更新机制如下(⊙表示Hadamard乘积):it=σ(Uivt+Wiht−1+bi),ft=σ(Ufvt+Wfht−1+bf),流如Equ. 3、三个门采用相同的输入,参数独立。因此,我们将问题指向输入特征的大小,并进一步可视化第一和第二BiLSTM层之前的激活的l23 .第三章。3.3. 震级假设ot=σ( Uovt+Woht−1+bo ) ,c~t=σ( Ucvt+Wcht−1+bc ) ,ct=ft⊙ct−1+it⊙c~t,ht= ot⊙ tanh(ct)。(三)图3呈现了一个有趣的观察,即光泽和序列特征的l2此外,光泽度和序列的大小方差随着迭代的进行而变小。最近的几篇文章[35,45]发现,分离良好的特征往往具有这里,it、ft和ot对应于输入,对于得到和输出门时,向量h_t和c_t是隐藏和单元状态。其中U·和W·是输入到隐藏和隐藏到隐藏权重矩阵,并且b·是偏置向量。用σ表示逐元素的sigmoid。以前的作品[8,9,39]采用迭代训练来增强视觉提取器。为了探索迭代训练如何工作以及LSTM如何在CSLR中进行预测,我们首先将最后一个正向LSTM的平均门值和图中不同迭代的网络预测可视化。3.第三章。对于预测,我们只可视化标签中出现的非空白类我们可以从折线图的比较中得出一些观察结果1) 门值和预测在训练集上具有正相关性,并且它们在相似的帧子集上达到局部最大值。2) 随着迭代的进行,相关性似乎减弱,特别是对于输入和输出门,其变得更大和更平滑。上述两个观察结果相当令人费解,因为三个门被期望在信息中扮演不同的角色更大的幅度,并且我们假设幅度变化与帧的重要性相关:特征的l2范数是反映帧重要性:该优化算法在抑制非关键帧时,由于CTC的尖峰现象,将降低激活的幅度。利用上述假设,很明显,图1B中具有较大幅度的帧是不可能的。3与他们的邻居相比发挥关键作用。我们进一步解释了基于CTC的CSLR模型的学习过程分为两个阶段:1)特征提取器为对齐模块提供视觉和初始定位信息,以及2)BiLSTM层细化定位并学习关键帧之间的长期关系。这样的学习方案可以有效地利用数据并加速训练过程。然而,当前的CSLR数据集包含的数据少于其他序列学习任务[17,19],这意味着BiLSTM层可以很容易地用部分视觉信息过拟合整个训练集,并且其他帧在训练过程中的参与程度越来越低虽然网络可以实现稳定的收敛,但特征提取器序列光泽输出门遗忘门输入门预测规范规范价值观值值11546····参考编号:HYP:参考HYP:∗对HEUTE NACHT MEHR SCHNEE NORD SUEDOST ABER KALT对HEUTE NACHT *SCHNEE NORD SUEDOST阿伯 *对HEUTE NACHT MEHR SCHNEE NORD* 伊斯坦布尔*对***对HEUTE NACHT MEHR SCHNEE NORDSUEDOST SUEDOSTSUED ABERKALT参考编号:上HEUTE NACHT MEHR SCHNEE NORD * SUEDOST * ABER KALTHYP :ONHEUTE NACHT MEHR SCHNEE NORDSUEDOST SUEDOSTSUED ABER KALTvsoftmax(), softmax()τ τ τ还没有得到充分的探索。因此,特征提取器在推理期间不能提供鲁棒的视觉特征,并且恶化了泛化性能。基于这些分析,我们将迭代训练的成功归因于过拟合问题的减少。利用由比对模块生成的伪标签,微调阶段可以增强特征提取器以使其更好地泛化。虽然伪标签在一定程度上缓解了过拟合问题,但仍然是不够的。因此,我们提出了视觉特征空间上的视觉对齐约束,该约束强制特征提取器自己进行预测,并采用蒸馏损失来对齐视觉和上下文尖峰响应。4. 视觉对齐约束如上所述,BiLSTM层可以容易地用部分视觉信息过拟合训练集。在本文中,我们提出了视觉对齐约束(VAC),以提高更多的对齐监督的特征提取。建议的VAC通过两个简单的辅助损耗实现:视觉增强(VE)损失和视觉对准(VA)损失。此外,我们提出了两个新的评价指标,词恶化率(WDR)和词改善率(WAR),以评估的特征提取器和对齐模块的贡献。4.1. 真空吸尘器的损耗设计VE损失。为了增强特征提取器,我们提出在视觉特征V 上 添 加 辅 助 分 类 器 Fa 以 得 到 辅 助 对 数 Z~=(z~1,,z~T′)=Fa(V),并提出直接为功能提供监督的VE损失萃取器这种辅助损失迫使特征提取器仅基于局部视觉信息进行预测相比以前的光泽明智的监督,需要生成伪标签,我们建议添加一个CTC损失的辅助分类器作为VE损失,这是兼容的主要CTC损失和灵活的网络设计。VE损失仅提供对特征提取器和辅助分类器的参数θv的监督总之,为了实现视觉对准目标,VE损失强制特征提取器为对准模块提供更鲁棒的视觉特征,而VA损失通过为视觉提取器提供长期监督来对准两个分类器的预测。在这两种损失的帮助下,特征提取器获得与对准模块兼容的更多监督。最终目标函数由主要CTC损失、视觉增强损失和视觉对准损失组成L= LCTC+ LVE+ αLVA。(六)4.2. 预测不一致性度量字错误率(WER)是一个广泛使用的度量,以评估CSLR中识别算法的性能[28]。它也被称为长度归一化编辑距离,其首先将识别的序列与参考句子进行比对,然后对从参考转移到识别的序列的操作的数量进行 计 数 , 包 括 替 换 ( sub ) 、 删 除 ( del ) 和 插 入(ins):WER =(#sub + #del + #ins)/#reference。如图4,辅助句和主句(HYPa和HYPp)具有相同的WER 22.22%(HYPa有两个删除错误,HYPp有两个插入错误)。主分类器纠正了辅助分类器的错误识别结果,但产生了新的错误,这不能用WER来衡量。在那里-因此, 我们首 先对齐句子三元组( REF* , HYP*a ,HYP*p),然后计算WDR和WAR:WDR测量被辅助分类器正确识别的比率但被主分类器错误识别(HYP * p中的两个“SUED”),而WAR在相反方向上被错误识别(HYP * p中的“MEHR”和“KA L T”)。使用所提出的度量,我们可以通过以下方式连接两个分类器的WER*1WER *p=WER *a+WDR −W AR。(七)WER= WER = 2 T9 ≈ 22.2%���LV E=LCTC=−log p(l|X; θ v)。(四)VA损失。由于VE损失缺乏上下文信息并且独立于主要损失,这可能导致两个分类器之间的不对齐,因此我们进一步提出VA损失。VA损失被实现为知识蒸馏损失[21],其将整个网络和视觉特征提取器分别视为教师和学生模型。采用高温τ来“软化”来自尖峰响应的概率分布。蒸馏过程的公式为:战争 = 2 T9≈ 22.2%WDR = 2 T9 ≈ 22.2%图4. 建议指标的对齐结果。我们重点分析了错误识别的注释以及辅助分类器和主分类器的比对结果。在Equ. 7,最终结果WER*p来自三个方面:视觉提取器的表现如何(与WER*a相关),有多少视觉信息没有得到充分利用.ZZ~Σ(五)1所采用的对齐方法导致性能略有下降。比一般的WER。LVA=KL.11547L×个LLLL表1. 迭代训练和BN的消融结果(WER,%)。不含BN,含BN 偏差测试偏差测试132.733.027.228.0228.929.825.526.3328.328.924.726.2没有一30.432.125.426.6(与WDR相关)以及有多少预测仅由上下文信息(与WAR相关)做出。更多细节见补充材料。5. 实验5.1. 实验装置数据集。我们在两个广泛使用的数据集上评估所提出的方法:RWTH-PHOENIX-Weather-2014(PHOENIX14)[28]和中国手语(CSL)数据集[23]。所有消融均在PHOENIX14上进行。PHOENIX14数据集是一个广泛使用的CSLR数据集,记录自德国电视天气预报,并由9名听力SL口译员执行。它包含6841个句子和1295个不同的注释。该数据集分为5672个训练句子,540个开发(Dev)句子,629个测试句子的多签名设置。CSL数据集是在实验室条件下收集50名签名者将每个 句子 表演 五次 (在 25000 个 视频 中, 100多 个小时)。我们遵循之前的设置[6],并将数据集按照8:2的比例分为训练集和测试集。实施详情。考虑到ResNet18 [20]在PHOENIX14数据集上的效率,选择其作为逐帧特征提取。对于CSL数据集,我们采用VGG11 [42]作为主干,以减少在签名者无关设置下不一致统计的副作用。光泽度时态层和两个BiLSTM层默认设置采用2 512维隐藏状态。默认情况下,VA的权重α被设置为25,并且其温度τ我们为PHOENIX14训练了80个epoch的所有模型,为CSL训练了20个epoch,小批量大小为2。Adam优化器的初始学习率为10−4,PHOENIX14在40和60个历元后除以5,CSL在10和15个历元后除以5对于迭代训练,我们在每次迭代后将学习率降低五倍所有帧的大小都调整为256 x256,训练集增加了随机裁剪(224 x224),水平-说话翻转(50%)和随机时间缩放(±20%)。5.2. 定量结果迭代训练和BN上的消融。批量归一化(BN)[24]是一种广泛使用的工具,通过归一化激活来加速深度网络的训练。Al-表2. 学习率(LR)比率(特征提取器的LR/比对模型的LR)的消融结果(WER,%)。LR比率0.10.51210Dev25.025.625.426.934.8测试25.626.526.627.535.1表3. VAC设计的消融结果(WER,%)。LCTCLVELVADevTestBaseline ✓ 25.4 26.6基线+VE ✓ ✓ 23.3 23.8基线+增值✓ ✓ 24.5 25.1基线+VAC ✓21.2 22.3虽然我们采用小批量,BN显着改善的性能。如表1所示,在每个时间卷积层之后添加BN层在Dev集上的每次迭代处带来5.5%、3.4%和3.6%的性能增益,这指示存在特征提取器的我们还可以观察到,与非迭代训练相比,采用迭代训练可以导致明显的性能增益。学习速度消融。解决训练不足问题的自然想法是调整特征提取器和对准模块的学习速度。在表2中,我们比较了不同学习率比率下的结果。对特征提取器采用较小的学习率会导致与迭代训练相当的结果,这表明存在训练不足。然而,很难找到最佳的学习设置。我们采用了一个非迭代模型与BN层和正常的1:1的学习率比作为我们的基线。VAC消融。VAC消融见表3。用VE和VA约束视觉特征,识别结果分别提高了2.1%和0.9%,验证了加强对特征提取器监管的必要性还值得注意的是,虽然采用VA仅导致比仅VE更小的增益,但是采用两种损耗可以实现进一步的改进。这表明,对齐两个尖峰响应提供了更有效的监督比采用独立的监督或蒸馏。关于过拟合问题的观察。图6可视化了不同评估指标的性能比较,我们可以得出一些关于过拟合的有趣观察结果。首先,主分类器可以在训练集上达到比图1中的辅助分类器低得多的WER。6(a),这反映了其强大的节奏建模能力。其次,WDR上的训练集和Dev集之间存在显著的性能差距,这表明BiLSTM层没有完全结合视觉信息,尽管它成功地过拟合了训练集。第三,实际的绩效差距比WER显示的要大得多(∆WER*)。比如说迭代11548LL标签GT基线(P)基线(A)VAC(P)VAC(A)标签GT基线(P)基线(A)VAC(P)VAC(A)图5.不同设置之间的定性比较,示例来自PHOENIX14的训练集(上部)和Dev集(下部)错误识别的注释(del除外)以红色标记主分类器和辅助分类器输出被标记为(P)和(A)。表4.颞层设计的消融结果(WER,%)。Cβ和Pβ分别对应于内核大小为β的时域层∆t开发/测试逐帧C1125.2/26.5C3324.4/25.4(a) PHOENIX14训练集上的结果。(b) PHOENIX14开发套件上的结果。图6.不同指标和设置的性能比较(∆WER*=WER*a−WER*p=WAR−WDR)。在图2中的基线上的两个分类器之间的性能差距6(b)的预测结果仅为4.9%(=30.4%-25.5%),然而,初级分类器仅基于上下文信息(WAR)做出11.3%的正确预测,并且忽略6.5%的正确视觉信息(WDR)。所提出的不一致预测度量为理解和评估过拟合问题提供了一个有用的工具。关于性能差距的观察。另一个有趣的观察图。6(b)是,虽然交互式训练加强了视觉提取器,但它也增加了WDR。我们假设基于伪标记的方法与主要CTC损失不太兼容(先前的工作[6]采用平衡比率以减少“空白”标记的影响因此,我们采用额外的CTC损失作为我们的VE,并且它显著改善了WAR和WDR。所提出的VA对视觉提取器的影响有限,但它可以缩小两个分类器之间的性能差距。两种助剂的组合使用亚光C5-P2 6 24.0 /24.3光泽度C5-P2-C5-P2 1621.2/22.3在实际性能差距(WDR和WAR)较小的情况下,视觉对准约束具有更好的性能,验证了所提出的视觉对准约束的有效性。时间网络设计的消融。先前的基于伪标记的方法需要仔细设计时间感受野,其被设置为近似于孤立符号的平均长度[6,9]。表4显示了不同时间感受野的∆t,以显示拟议VAC的有效性和灵活性。令我们惊讶的是,逐帧特征提取器仍然实现了与其他设置竞争的结果,并且在时间层设计中存在小的性能差异。VAC为特征提取器提供了更灵活的监督,结果表明它优于迭代训练方案[9]。5.3. 定性结果结果可视化。为了更好地理解学习过程,我们在图中给出了一些公认的例子。五、来自训练集的上部样本示出了基线的辅助分类器没有正确地识别一些注释(NACHT、loc-SUEDWEST、ORT-PLUSPLUS)。但是初级分类器仍然可以提供正确的结果。虽然主分类器仅基于上下文信息进行预测是合理的,但是对特征空间缺乏约束增加了过度拟合的风险,这可能导致在推断期间上下文改变在VAC的帮助下,辅助分类器和主分类器都得到了充分的训练,并在训练集上做出了更好的预测。Dev集的下部示例显示了失败案例空白KOMMENWehen奥弗洛森HEUTEOSTSCHONTROCKENNACHMITTAG KOENNENSonne科宁Nebel贝多腾IXBergNebel音乐丝带PUPUSUEDOST空白对loc-NORDWESTHEUTENACHTTROCKEN BLEIBENloc-SUEDWESTKOENNEN REGEN-PLUSPLUSORT-PLUSPLUS格威特大足REGENREGENREGENREGENR*ΔWE11549表5. PHOENIX14数据集上的性能比较。所提出的方法的结果是基于ResNet18和光泽度的时间层。由“*”表示的条目方法主干迭代差(%)检验(%)表6. CSL数据集的性能比较(%)。由“*”表示的条目方法WERLS-HAN [23]17.3SubUNet [3] 11.0[47] 2016年中国国际汽车工业展览会[6] 2016年12月16日STMC [48]* 2.1基线3.5基线+VAC1.6的对准模块。辅助分类器仅基于视觉特征做出正确的预测(HEUTE、OST和SCHON然而,主分类器忽略该信息并给出更差的结果,这在WER度量中没有提到,但可以通过所提出的度量来识别。更多定性结果见补充材料。5.4. 与最先进技术的比较。我们在表5和表6中呈现了与几种最先进方法的比较结果。从表5可以看出,所提出的具有光泽度时域层和VAC的方法实现了与先前基于迭代的方法竞争的结果。我们还可以从过拟合的角度说明STMC [48]和CMA [38]的成功:前者强制特征提取器从额外的监督中提取视觉信息,而后者通过数据增强来削弱上下文信息。为了检查所提出的方法的泛化,我们还评估了CSL数据集。由于没有给出官方的划分,表6中方法之间的性能比较具有有限的实用价值。所提出的方法显示出比基线的改进,并取得更好的性能。在相同的设置下,性能优于最近的工作[65.5. 讨论我们可以从过拟合的角度将最近的方法大致分为两类:增强特征提取器[6,9,39,27,47,48]并弱化对准模块[6,31,36]。提出的VAC是一种尝试,更好地利用视觉信息,这提供了一个新的视角来解决这个问题。如何更好地利用视觉特征与更强大的时态模型,这将是更容易过拟合,但可以进一步提高WAR,是一个具有挑战性的问题。6. 结论过拟合是基于CTC的手语识别中的主要问题之一,它导致特征提取器的训练不足在这项研究中,我们提出了视觉对齐约束,使CSLR网络端到端的训练,通过强制执行的特征提取器进行预测与更多的对齐监督。提出了两个度量标准来衡量不一致的特征提取器和对齐模块的预测。实验结果表明,建议的VAC缩小了差距之间的预测的辅助和主要的分类器。所提出的度量和相关实验为视觉和比对模块之间的关系提供了一个新的视角,我们希望它们能启发未来的研究CSLR和其他序列分类任务。我们的源代码和经过训练的模型可在https://vipl.ict.ac.cn/resources/codes或https://github.com/ycmin95/VAC_CSLR获得。谢谢。本研究部分由中国自然科学基金资助,合同编号61976219。del/insWERdel/insWERSubUNet [3]CaffeNet14.6/4.040.814.3/4.040.7[8]第十八话VGG-S/GoogLeNet✓13.7/7.339.412.2/7.538.7Align-iOpt [39]3D-ResNet✓12.6/2.637.113.0/2.536.7重新签名[31]GoogLeNet✓-27.1-26.8SFL [36]ResNet187.9/6.526.27.5/6.326.8STMC [48]VGG11✓-25.0--国家队[9]GoogLeNet✓7.8/3.523.87.8/3.424.4简体中文[CN]自定义-23.7-23.9CMA [38]GoogLeNet✓7.3/2.721.37.3/2.421.9CNN+LSTM+HMM [27]*GoogLeNet✓-26.0-26.0DNF [9]*GoogLeNet✓7.3/3.323.16.7/3.322.9STMC [48]*VGG11✓7.7/3.421.17.4/2.620.7基线ResNet188.3/3.125.48.8/3.226.6基线+VACResNet187.9/2.521.28.4/2.622.311550引用[1] Samuel Bowman、Luke Vilnis、Oriol Vinyals、AndrewDai、Rafal Jozefowicz和Samy Bengio。从连续空间生成句子。第20届SIGNLL计算自然语言学习会议论文集,第10-21页,2016。二个[2] Danielle Bragg , Oscar Koller ,Mary Bellard , LarwanBerke , Patrick Boudreault , Annelies Braffort , NaomiCaselli , Matt Huenerfauth , Hernisa Kacorri , TessaVerhoef,et al.手语识别、生成和翻译:一个跨学科的视角。在第21届国际ACM SIGACCESS计算机和无障碍会议上,第16-31页,2019年。一个[3] Necati Cihan Camgoz,Simon Hadfield,Oscar Koller和Richard Bowden。Subunets:端到端手形和连续手语识别。在IEEE计算机视觉国际会议论文集,第3075-3084页,2017年。一、二、八[4] Necati Cihan Camgoz,Oscar Koller,Simon Hadfield和Richard Bowden。手语转换器:联合端到端手语识别和翻译。在IEEE计算机视觉和模式识别会议论文集,第10023-10033页,2020年。二个[5] 瑞 奇 · 卡 鲁 阿 纳 多 任 务 学 习 。Machine learning , 28(1):41-75,1997. 二个[6] 郑家亮,杨朝阳,陈奇峰,戴玉荣.用于连续手语识别的 全 卷 积 网 络 。 在 Proceedings of the EuropeanConference on Computer Vision ,第697Springer ,2020年。一二六七八[7] Necati Cihan Camgoz,Simon Hadfield,Oscar Koller,Her- mann Ney和Richard Bowden。神经手语翻译。在IEEE计算机视觉和模式识别集,第7784-7793页,2018年。二个[8] Runpeng Cui,Hu Liu,and Changshui Zhang.递归卷积神经网络通过阶段优化用于连续手语识别。在IEEE计算机视觉和模式识别会议集,第7361-7369页,2017年。一、二、四、八[9] Runpeng Cui,Hu Liu,and Changshui Zhang.通过迭代训 练 进 行 连 续 手 语 识 别 的 深 度 神 经 框 架 。 IEEETransactions on Multimedia , 21 ( 7 ) : 1880-1891 ,2019。一二三四七八[10] Philippe Dreuw , David Rybach , Thomas Deselaers ,Morteza Zahedi,and Hermann Ney.手语识别系统的语音识别技术。2007年第八届国际言语交际协会年会. 一个[11] William T Freeman和Michal Roth。用于手势识别的方向直方图。在Proceedings of the International Workshop onAutomatic Face and Gesture recognition , 第 12 卷 , 第296-301页,1995中。二个[12] Wen Gao,Gaolin Fang,Debin Zhao,and Yiqiang Chen.基 于 sofm/srn/hmm 的 中 国 手 语 识 别 系 统 。 PatternRecognition,37(12):2389-2402,2004. 二个[13] AnirudhGo yal,AlessandroSordoni,Marc-Ale xandreCote´,Nan Rosemary Ke,and Yoshua Bengio.Z-forcing:训练随机递归网络。神经信息处理系统进展,第30卷。柯伦联合公司股份有限公司、2017. 二个[14] 亚 历 克 斯 · 格 雷 夫 斯 联 结 主 义 时 间 分 类 法 。 在 Su-pervisedsequencelabelingwithrecurrentneuralnetworks,第385卷StudiesinComputationalIntelligence,第61-62页中。Springer,2012. 二个[15] Al e xGr av es,SantiagoFer na´ ndez,FaustinoGomez,and J ür genSchmidhube r. 连接主义时间分类:用递归神经网络标记未分割序列数据。在Proceedings of the 23rdInternational Conference on Machine learning , 第 369-376页,2006中。一、二、三[16] Al e xGr av es , MarcusLiwicki , SantiagoFern a'ndez ,Roman Bertolami,HorstBun k e,andJürgenSchmidhube r.一个用于无约束手写识别的非开放IEEE Transactions onPattern Analysis and Machine Intelligence,31(5 ):855-868,2008. 二个[17] 亚历克斯·格雷夫斯,阿卜杜勒·拉赫曼·穆罕默德,杰弗里·辛顿。用深度递归神经网络进行语音识别。在IEEE声学、语音和信号处理国际会议论文集,第6645- 6649页IEEE,2013。二、四[18] Junwei Han,George Awad,and Alistair Sutherland.基于手部运动分析的手语识别的建模和分割子单元PatternRecognition Letters,30(6):623-633,2009. 二个[19] Awni Hannun , Carl Case , Jared Casper , BryanCatanzaro,GregDiamos,Erich Elsen,Ryan Prenger,Sanjeev Satheesh,Shubho Sengupta,Adam Coates,etal. 深度 演讲:扩 展端到 端语音 识别。arXiv预印 本arX
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功