没有合适的资源?快使用搜索试试~ 我知道了~
连续手语识别的自互蒸馏学习方法
11303权重向量连续手语识别的自互蒸馏学习郝爱明1,2,闵悦聪1,2,陈西林1,21中国科学院智能信息处理重点实验室,中国科学院计算技术研究所,北京,1001902中国科学院大学,北京,100049{aiming.hao,yuecong.min} @ vipl.ict.ac.cn,xlchen@ict.ac.cn摘要近年来,深度学习对基于视频的连续手语识别(CSLA)有着显著的推动作用视觉模块场境模块性新目前,T的典型网络组合CSLR包括一个视觉模块,它关注空间和短时信息,接着是一个上下文模块,它关注长时信息,并且连接主义时间分类(CTC)损失是光泽视觉特征上下文特征TT共享分类器光泽用于训练网络。然而,由于反向传播中链式规则的限制,可视化模块分割HEUTE空白NACHT识别难以调整以寻求优化的视觉特征。因此,它强制上下文模块仅关注上下文信息优化,而不是平衡有效的视觉和上下文信息。在本文中,我们提出了一种自互知识蒸馏(SMKD)方法,该方法强制视觉和上下文模块关注短期和长期信息,并同时增强两个模块的区分能力。具体而言,视觉和上下文模块共享其对应分类器的权重,并且同时使用CTC损失进行训练此外,尖峰现象广泛存在与CTC损失。虽然它可以帮助我们选择光泽的几个关键帧,但它确实会在光泽中丢弃其他在视觉模块中,采用光泽度分割技术来消除图像中的尖峰现象,降低饱和度。我们在两个CSLR基准点PHOENIX 14和PHOENIX 14-T上进行了实验。实验结果证明了SMKD的有效性。1. 介绍手语作为能说能听人日常会话中的口语,在听障者的交流中起着至关重要的作用。手势语被全世界数以百万计的人使用。与口语不同,手语通过手动元素(例如,手配置)和非图1.所提出的SMKD方法的概述。在共享分类器的帮助下,视觉和上下文模块试图在光泽度水平上对齐特征。这使得这两个模块更加关注时空信息。为了探索短期的时间信息,光泽分割被提议到视觉模块中。手动元件(例如,面部表情)[24],并有自己的词汇和语法。这些特征使得说-听人难以理解手语。自动手语识别(SLR)为克服这一差距提供了一座桥梁。与基于视频的孤立SLR不同,基于视频的孤立SLR将光泽度剪辑重新识别为其对应的光泽度(即,表示符 号 的 书 面 文 字 ) , 基 于 视 频 的 连 续 手 语 识 别(CSLR)是一项复杂得多的任务,其目的是将手语视频翻译成其对应的符号注释序列。由于创建帧级注释的巨大成本,大多数CSLR数据集仅具有句子级注释,并且研究人员通常将基于视频的CSLR视为弱监督问题[6,3]。这进一步增加了任务的难度。为了解决这些问题,一些最近的作品[6,26]采用深度网络来处理基于视频的CSL。该网络包括一个视觉模块,以提取输入序列的短期时空信息,并遵循由上下文模块编码的长期上下文信息。为了训练所设计的网络,使用连接时间分类(CTC)[9]损失11304以搜索所提取的特征与对应的标记之间的对准。然而,端到端训练使得视觉模块难以学习有效的视觉特征,因为惩罚难以从上下文模块进行[26,34]。这使得上下文模块倾向于过度拟合上下文信息,如符号动作的顺序,而不是寻求优化的视觉信息[3]。视觉模块的表征能力还没有得到充分的研究。同时,由于数据集规模有限,使得网络在测试集上的性能迅速下降。为了开发视觉模块然而,独立训练视觉模块不是一个好的选择,因为这将失去视觉和上下文模块之间的合作,如[22]所示。在本研究中,我们的目标是加强语境模块对视觉信息的关注,并加强视觉模块的辨别能力,以确保强大的视觉特征。为了实现这一点,我们提出了一种知识蒸馏方法命名为自互知识蒸馏(SMKD),让视觉模块和上下文模块共享其相应的分类器的权重,并同时执行CTC训练。SMKD受到两个事实的启发:1)CTC损失可以被视为迭代的softmax损失,如[ 19 ]所示; 2)根据[27],分类器权重向量可以被视为它们各自类的原型,并且它们可以用于指导具有softmax损失的网络的特征学习。基于这两个事实,最初共享视觉和上下文模块的权重,以强制它们产生尽可能一致的特征。在光泽度水平的特征对准的情况下,视觉特征的辨别能力被增强,并且上下文模块被强制以更多地关注视觉特征序列。此外,由于CTC丢失将带来尖峰现象[19,8],这导致只有少数关键帧对最终结果有贡献,并且使视觉模块失去其对其他帧的区分能力。为了探索在CTC约束训练期间被抑制的短期时间信息,我们进一步提出将光泽分割添加到视觉模块中,其中伪光泽段标签由所提出的光泽段边界分配(GSBA)算法产生从上述机制中可以看出,每个注释的权重向量我们提出的方法的概述如图所示。1.一、值得注意的是,我们将在最后的训练阶段解耦两个模块之间的权重矩阵共享,以放松对上下文模块的约束,并使上下文模块与上下文模块之间的权重矩阵共享相匹配。它关注长期的时间信息。我们在两个CSLR基准上进行了广泛的实验,以证明SMKD的有效性。概而言之,我们工作的主要贡献如下:• 提出了一种SMKD方法,使视觉和上下文模块更加关注时空信息,同时增强了两个模块的区分能力。• 在模型训练过程中,为了缓解CTC约束引起的尖峰现象,降低视觉模块的饱和度,提出了光泽分割算法。2. 相关工作2.1. 连续手语识别近期著作[6,3,23]的学习过程可以概括为三个方面:特征提取、识别和对准。最近的CSLR系统的大多数 特 征 提 取 由 视 觉 模 块 ( Conv2D [23] 、Conv2D+Conv1D [6,3]或Conv3D [34])组成。26] ) 和 上 下 文 模 块 ( RNN [6] 或 Transformer [23 ,2])。对于每个输入序列,视觉模块将短期时空信息编码成视觉特征。然后将视觉特征作为输入,上下文模块将长期上下文信息编码为上下文特征。基于所提取的特征,分类器可以获得用于识别的每个帧的后验概率。由于视频流是连续的CSLR,对齐模块需要找到适当的对齐之间的剪辑和注释,以确保训练过程。像[17 , 18 , 15] 这 样 的 方 法 通 过 在 隐 马 尔 可 夫 模 型(HMM)上应用维特比搜索来将视频帧对齐到注释。而其他一些[6,3]采用CTC约束,其中软全和对齐被计算为最终训练目标。然而,正如一些工作已经发现的那样,端到端训练不能完全利用高复杂度的深度神经网络[6,23]。一些作品通过添加辅助损耗来解决这个问题。例如,Cuietal.[6]使用由上下文模块产生的伪标签来监督视觉模块 , Cheng 等 人 。 [3] 提 出 了 一 个 光 泽 特 征 增 强(GFE)模块,以提高视觉特征的质量。由于视觉特征的增强,整个模块与上述方法不同,我们提出了一种SMKD方法,通过在视觉和上下文模块之间共享权重来加强两个模块的区分能力,以更好地提取特征。2.2. 知识蒸馏知识蒸馏(KD)是一种有效的将教师模型中的知识转移到11305视觉模块模块2DCNNΔt1DCNNBiLSTM2DCNN光泽分割...分类器分享分类器Δt1DCNN............BiLSTM2DCNNΔt1DCNN...BiLSTMΔt1DCNN...分类器分享分类器2DCNN推断结果分类器分享分类器i=1Σ∈RΣΣ∥∥t=1关于我们t=1不上下文HEUTE / NACHT / FLUSS /DREI不图2.拟定SMKD的流程图。该过程包括使用2D-CNN+1D-CNN(视觉模块)的视觉提取和使用BiLSTM(上下文模块)的上下文集成。视觉和上下文模块共享其相应分类器的权重,并同时使用CTC和光泽分割进行训练注意,只有来自上下文模块的预测序列有助于推断阶段期间的识别,如虚线框所示。学生模型,通过提供软目标[11]或直接继承教师然而,如[32]所示,朴素知识蒸馏存在两个问题:知识转移效率低,教师模式设计困难。为了解决这些问题,Zhang等。[32]提出了自蒸馏的思想,即从模型本身提取知识,以提高泛化性能。此外,一些作品[33,31]建议完全免除教师,并允许学生合奏教每个bel序列l=L iGN其中G是注释词汇表。为了对映射进行建模,所提出的方法包含如Sect.2.1.所提出的方法的结构如图所示。2,详情如下。特征提取。视觉模块Ev由分别编码空间和短期时间信息的2D-CNN和1D-CNN形成。然后,我们得到局部视觉特征(LVF):另一种称为互蒸馏。在这项工作中,我们建议将模型的不同模块视为多个模块。V=. vtDTt=1 ⇒vt =Ev.Σxt−r/2 、...、Xt+r/2、(一)通过共享学生网络的权重矩阵实现知识转移3. 自互知识蒸馏提出了一种SMKD方法,以充分利用视觉模块的能力我们首先提出的框架和制定所提出的方法(节。第3.1节)。然后,我们重新审视CTC损失(第二节)。3.2)其中,T=T/S表示LVF的持续时间,S是下采样率,并且r表示视觉模块的时间接收场。对于上下文模块Eg,利用两层BiLSTM来编码视觉信息。在一些实施例中,所述方法包括:存储由视觉模块提供的长期上下文信息,并且将所述长期上下文信息与内部状态一起存储。然后,获得全局上下文特征(GCF):T并给出了权重分配的细节,以促进视觉模块的贡献(Sect.3.3)。之后,我们显示G=. gt∈RdΣ t=1 ⇒gt=Eg.Σv1,…, vTΣΣ.(二)Sect.3.4,随后是添加光泽分割以强制视觉模块在更多帧中提供视觉特征的所提出的解决方案(Sect.3.5)。最后,我们提出了一个三阶段的优化方法的网络的训练(节。3.6)。识别. 与A-softmax损失类似[20],我们不-将分类器的权重W平均化并忽略其偏置项(即,wi=l,bi=0)。给定学习的特征向量,类别c处的ftzc=wc·ft=ftcosθc,(3)3.1. 框架和制定给定图像序列X=. Xt∈Rh×w×cΣT其中Z =。zt不E∈R|G|+1ΣT不是在软-通过T图像,CSLR旨在学习将图像序列变换为其对应的光泽度la-最大激活函数,θc表示wc和ft。基于提取的fea-逐帧特征视觉特征连接时态分类HEUTE NACHT FLUSS DREI11306、|G|+1个不不−−Σ∈RL不t=1不T=t=1 tt。YYT真实和权重向量,该网络得到注释的预测概率为:和类原型,最大化类内相似性以及最小化类间相似性。”[19]这句话的意思是:Y=softmax(z)= ,yt∈RT.t=1(四)通过在上述特征和权重之间切换,具有CTC损失的网络的训练过程可以是对齐。为了将预测的光泽序列与目标光泽序列进行比对,我们采用CTC损失进行比对。本节以下各部分将详细阐述反恐委员会及其培训进程。3.2. 重新审视CTC损失CTC是一种流行的序列学习算法,它通过引入一个空标号作为k_en的辅助,从概率分布Y_(?)定义一条路π={π},π∈G∪ {blank}.鉴于长度T(特征序列F),观察特定路径π的条件概率计算为:TˆTˆp(π|F)= p(πt|ft)= yπt.(五)总结为:给定帧的特征f t,CTC丢失将产生伪地面实况概率分布y t,并且最初为其分配伪标签c。以这种方式,ft将被视为类c的类相关特征,因此ft和wc之间的相似性将增加。随着W和F的更新,网络将更新每个帧的分配,直到收敛。然后,逐步增加每帧伪标签yc的概率,并按收敛分配进行网络训练。3.3. 共享权重矩阵当上下文模块从所有帧信息学习时,它倾向于这导致训练期间的过拟合问题,因为t=1t=1如[3]所示。基于上述对网络为了得到没有空白的最终解码序列,CTC定义一个多对一函数B:(G∪ {blank})→G≤T,它消除了重复标号和重复链表。由CTC解码的符号注释语句l的概率是所有可能路径的概率的总和,如下:Σ训练过程中的CTC损失,我们提出了一个权重共享(WS)的方法,共享相同的分类器此操作有两个见解:1) 给定光泽度c,假设LVFvc和GCFg c c c c。p(l|F)=π∈B−1(l)p(π|F)。(六)响应它的是通过两个虚拟分类器Cv和CTC损失函数计算为正确标记序列的负对数概率:LCTC。l,YΣ=−lnp.L|YΣ.(七)CTC损失可以被重新解释为迭代的软最大损失,其产生伪地面真值概率。Cg产生预测。尽管两个分类器最可能不同,但是它们应当保持相同的趋势,即,C g(gc)C v(vc)0的情况。一旦我们将模型发布到这两个特征上的统一分类器,那么我们就有了一个等价的gcvc0.在光泽度级别上进行特征对齐,这将强制视觉模块增强视觉特征提取,并限制上下文模块聚焦能力分布Y=. yt不不 t=1kTt=1 和伪标签更多关于短期时空信息。2)视觉和上下文模块可以被视为Tc={c=arg max(y)}迭代地用于输入序列在得到伪地面实况y之后,CTC损失将使用softmax执行相同的梯度反向传播损失根据[19]结果,我们有:两个学生网络,他们构建了一个通用权重矩阵,它平衡了这两个模块的贡献,用于特征学习。LCTC。l,YLCE.Y,YΣΣTylog y具体地,LVFV和GCFG将通过相同的分类器,并得到预测概率分布z伊茨(八)Yv和Yg,分别为iv el y。然后,我们使用CTC损失进行训练其中CE表示交叉熵损失。相同梯度的反向传播使得关于softmax损失的一些观察结果[27,29]也适合CTC损失。特别地,学习的分类器给定伪地面实况Y,CTC损失将优化训练样本之间的相似性=11307全网总体目标LWS变为:LWS=LCTC。l,Y≡g;WΣ+α·LCTC.l,Yv;WΣ,(9)其中α是可调超参数,其平衡视觉模块和上下文模块之间的贡献。11308空白演示单击输入您的封面副标题空白演示单击输入您的封面副标题空白演示单击输入您的封面副标题∈∈- -T T TT T TLVFs(a) LVF的自相似矩阵GCF(b) GCF的自相似矩阵LVFs(c) LVF和GCF之间的相似性矩阵图3. LVF和GCF的自相似性矩阵以及LVF和GCF之间的相似性矩阵的热图3.4. 可视化相似性矩阵到探索 的财产的的特征在共享权重之后,我们选择一个实例(2010年4月01日星期四,默认值为0,更多示例在补充材料中示出),并计算LVF和GCF的帧到帧自相似性(特征之间的余弦相似性)矩阵以及LVF和GCF之间的相似性矩阵。然后,将所获得的矩阵的热图可视化并示于图1中。3 .第三章。在图3(c)中,可以观察到关键帧的GCF与相邻帧的LVF之间的强相关性。也就是说,关键帧的GCF聚焦其附近的LVF。考虑到视觉模块由于较少的句子级监督而独立地学习注释,上下文模块尝试通过更多地关注视觉信息而不是通过使用全帧信息“记住”所有签名序列来学习注释。在图3(a)和图3(b)表明,无论是左心室纤维还是GCF都具有局部相似性。此外,在图3(b)一些帧的GCF与其他帧具有显著差异。同时,我们发现所有这些帧被预测为非空白类,而其他帧被预测为空白类。造成这种现象的原因有两个:1) 在CTC丢失的训练过程中广泛存在的尖峰现象在使用WS时仍然会发生。2) 由于视觉模块和语境模块具有不同的感受野,因此,尖峰现象在不同尺度上影响着语境模块和视觉模块的特征学习。上下文模块具有更大的接受域,这允许其在一个时刻聚合全局上下文信息。相应地,可视模块只有一个局部感受野,这导致仅少数关键帧对结果有贡献,并且使得视觉模块失去其对其他帧的辨别能力。3.5. 光泽段边界指定为了提高短时时空信息的利用率,一个有效的方法是增加非空白类相关特征的比例。因此,光泽分割被添加到视觉模块中,其中伪光泽段标签由建议的GSBA算法产生。下面将详细描述所提出的GSBA算法。所提出的GSBA算法基于两个假设:1)对于给定的图像序列X,每个帧Xt响应于类别c t1,其中1是其对应的符号光泽序列; 2)由CTC产生的伪标签可以被视为用于光泽分割的单帧监督[21]。类似于CTC,GSBA将在视觉模块的训练期间迭代地产生光泽分割建议。具体地,每个关键帧被视为锚定帧。给定时间t处的锚帧,其对应的类是首先设置扩展半径d以限制最大扩展距离(d随着迭代而增加)。然后,我们对t1到t的过去帧进行注释d帧和从t+1到t + d帧的未来帧。如果当前扩展帧的GCF与c_a的权向量之间的余弦相似度是类c_j中最大的l,该帧将用标签c a来注释。否则,我们将停止扩展过程(伪代码显示在补充材料中)。该方法的运行时间几乎与整个数据集中的不同注释呈线性关系,这是所有注释序列的大小。因此,它是快速生产的光泽段标签。由GSBA产生的假光泽片段标记(d=l、2、3)的可视化示于图1B中。4.第一章利用所产生的分段标签Y分段,为视觉模块添加光泽分段还有softmax的损失LVFsGCFGCF11309LL×个×× ×视觉模块分类器上下文模块光泽分割分类器CTCHEUTE NACHT FLUSS DREIMINUS视觉模块上下文模块分类器分享CTCHEUTE NACHT FLUSS DREIMINUS分类器CTC视觉模块上下文模块分类器光泽分割分享HEUTE NACHT FLUSS DREIMINUS分类器CTC图4.从上到下是尖峰现象和由GSBA产生的伪光泽片段标记,其中d=1、2、3(不同的颜色表示不同的类别)。标签平滑[30]用于光泽分割。总目标L变为:LGS BA=LCTC。l,YgΣ+αLCE-LS.Y〜seg,YvΣ,(10)哪里CE-LS代表CE,并且y~seg表示平滑的标签。此外,由于片段标签是从上下文模块以这种方式,在时间水平上建立LVF和GCF之间的多对一对准。3.6. 优化方法由于上下文信息对于识别任务也是至关重要的,因此两个模块之间共享的权重矩阵应当在最终训练阶段期间 因此,我们认为,提出了一种用于训练的三阶段优化方法,其包括同步训练阶段、光泽分割阶段和解耦训练阶段,如图1所示。五、三阶段优化方法包括:1)共享视觉模块和上下文模块的权值矩阵,使它们更加关注短期时间信息; 2)为视觉模块添加注释分割任务以增强短期时间信息的利用率; 3)解耦权重矩阵以使上下文模块关注长期时间信息。4. 实验结果在本节中,我们评估了所提出的方法在两个CSLR数据集上的有效性。我们首先详细介绍了实验设置(节。4.1)。然后我们进行消融图5.我们提出的三阶段优化方法的图示,该方法由三个阶段组成:同步训练阶段、光泽分割阶段和解耦训练阶段。Sect.四点二。最后,我们比较SMKD与其他国家的最先进的方法(节。4.3)。4.1. 实验设置数据集。两个公共数据集:RWTH-PHOENIX-天气-2014(PHOENIX 14)and RWTH-PHOENIX-本研究选择了2014-Weather-T(PHOENIX 14-T)。PHOENIX14 [16]是一个流行的德国手语数据集,从天气预报广播中收集,有9个签名者签署的6,841个句子(约80,000个用1,295个符号的词汇表进行注释所有视频都每秒25帧,分辨率为210 260。 数据集分为三个部分:5,672个用于训练,540个用于开发,629个用于测试。PHOENIX 14-T [4]可视为凤凰14.它包含并行手语、注释和翻译,使其可用于评估SLR和手语翻译(SLT)任务。该数据集有1,085个符号的词汇表,也分为三个部分:7,096例用于培训,519例用于开发,642例用于测试。评估指标。对于基于视频的CSLR,我们使用字错误率(WER)作为度量,其被定义为替换(#sub)、插入(#sub(#ins)和删除(#del)操作来将rec-将已识别句子转换为相应的参考句子(#参考):WER =#sub+#ins+#del。(十一)#引用实施详情。对于这两个数据集,帧的大小都调整为256256然后裁剪到224 224 在训练过程中,我们使用随机裁剪和水平翻转(50%)进行数据增强。在测试期间,我们仅采用中心裁剪。令Ck、Pk分别表示具有k(= 1024)个滤波器的时间卷积层和具有步幅k的时间最大池化层。可视化模块是11310×个- -| |表1. PHOENIX14重量归一化(WN)有效性的消融研究方法WN偏差(%)试验(%)基线24.325.4✓24.121.424.721.9基线基线+WS基线+WS✓21.221.4使用在Ima-geNet上预先训练的2D Resnet 18 [10]和作为默认设置的C5P2C5在每个卷积层之后添加批量归一化[13]以加速训练。上下文模块包含两个BiLSTM [12]层,具有2 512维隐藏状态。在特征提取阶段之后,分类器将特征通道数转换为G+1。该模型使用Adam优化器[14]以初始学习率η=10−4训练,批量大小为2。每个模型训练100个epoch,在40、60和80时学习率减半。在时期30之后激活光泽分割任务,并且每10个时期更新光泽分割建议。初始d被设置为1,然后每20个时期加1。标签平滑率设置为0。二、对于解耦训练阶段,我们训练网络10个epoch并使用Adam优化器,学习率η=4×10−6。4.2. 消融研究在本节中,进行消融研究以证明SMKD的有效性。在上下文模块中仅具有CTC损失的网络被选择为基线。为了公平比较,实验都在PHOENIX14上进行。体重正常化的影响 如表1所示,在识别期间添加权重归一化可以改善基线和基线添加WS两者的性能,特别是在测试集上。如[20]所述,范数可以被视为一种先验。因此,权重wi的归一化在处理不平衡数据集(如PHOENIX14)时起着重要作用。我们采用权重归一化作为以下实验的默认设置构造权重矩阵的不同方法。为了研究方程(9)中α的影响,我们测试了不同的α值,结果如图所示。六、结果表明,随着α的增大,系统性能先提高后下降。我们假设,为了获得更好的性能,视觉模块和上下文模块需要达到一定的在选定的α中,最佳α为0。5用于开发集和测试集。此外,我们还测试了不同的方法来构造一般的权值矩阵,即,仅使用LVF、GCF(当反向传播由GCF或LVF计算的梯度时冻结W),并同时使用它们。结果示于表2中。仅LVF的性能优于仅GCF,而同时使用它们实现了图6. PHOENIX14上不同α值的消融研究。表2.在PHOENIX14上构建权重矩阵的不同方式的消融研究偏差(%)试验(%)仅GCF22.422.9仅LVF22.122.5GCF21.221.4表3. PHOENIX14上不同KD方法的消融研究。方法偏差(%)试验(%)基线24.124.7基线+KD23.223.6基线+WS21.221.4基线+GSBA21.522.0相对较好的性能。除非另有说明,我们选择α=0的情况。5作为下一个实验中的默认设置。与一般KD比较。为了显示有效性我们提出的KD方法:WS和GSBA(硬KD的扩展),我们将它们与一般KD方法[11]进行比较,即,使用从上下文模块产生的软概率分布来指导视觉模块。然后,总目标L变为:LKD=LCTC。l,YgΣ+LCE.Yg/τ,Yv/τΣ,(12)其中τ=8表示温度。结果示于表3中,其中SMKD和GSBA都比KD表现更好。如第3.4、锋电位现象对视觉模块和语境模块有不同的影响,语境模块产生的软目标是由大量锋电位组成的,会误导视觉模块的训练。为了阐明我们提出的优化方法的有效性,我们在表4中评估了不同阶段的性能。注意,基线+dec训练意味着视觉和上下文模块在整个训练过程中具有独立的分类器。我们可以观察到dec训练的性能不如sync训练。这表明,与WS约束,上下文模块可以更好地利用视觉信息。基地-11311空白演示单击输入您的封面副标题表5. 在PHOENIX14上的性能比较(%)(符号 * 表示使用额外线索),T误差和插入误差。LVFs图7.光泽分割阶段后LVF和GCF之间的相似性矩阵。line+sync train+dec train意味着视觉模块将不执行光泽分割任务,性能不会受到太大影响,因为网络已经趋于稳定。使用光泽分割任务将引入更多的视觉信息,以提高性能。此外,在dec训练之后,上下文模块可以选择有用的视觉信息,然后进一步提升性能以实现最佳WER(Dev:20块8,测试:21。0)。 如图在图7中,我们还在执行光泽分割阶段之后可视化LVF和GCF之间的相似性矩阵。通过光泽分割,关键帧的GCF将集中在其附近的更多LVF上。表4. 消融研究 的 PHOENIX14的优化方法(同步序列:同步训练阶段,光泽段:光泽分割阶段,dec train:解耦训练阶段)。4.3. 与现有技术的在这一节中,我们提出了与其他国家的最先进的(SOTA)的方法在节中提到的两个数据集的彻底比较。4.1.对 PHOENIX14 的 评 价 。 表 5 显 示 了 我 们 的 方 法 与PHOENIX14上的其他方法的我们的SMKD方法在开发集和测试集上的WER是20。8%和21。0%,并且对于基于RGB的方法实现SOTA性能。此外,虽然我们没有使用任何额外的线索,但我们的模型在使用额外线索训练的模型中获得了可比较的结果。表6. PHOENIX14-T(v:视频,m:嘴,h:手,t:文本,f:面部,p:姿势)。方法WER偏差(%)试验(%)SFL(v)[23]25.126.1CNN+LSTM+HMM(v)[15]24.526.5SLT(v)[2]24.924.6(v)[3]23.325.1CNN+LSTM+HMM(v+m)[15]24.525.4CNN+LSTM+HMM(v+m+h)[15]22.124.1SLT(v+t)[2]24.624.5STMC(v+h+f+p)[35]19.621.0SMKD(v)20.822.4PHOENIX 14-T 的 性 能 评 价 在 表 6 中 , 我 们 在PHOENIX 14-T上评估了我们的方法。我们可以观察到,我们的方法也实现了最佳性能(Dev:20块8%,测试:22。4%)仅提供视频信息。5. 结论在本文中,我们提出了一种SMKD方法,在训练的初始阶段同时优化视觉和上下文模块,为了处理CTC约束引起的尖峰现象,并利用更多的视觉信息,我们建议增加一个额外的光泽分割,为了训练SMKD,我们提出了三阶段优化方法。实验结果表明,该方法在两个基准数据集上均取得了较好的性能。手语识别是一个典型的时空序列问题,提出的SMKD可以进一步扩展到其他类似的任务。GCF方法Devdel/ins(%)WER测试del/ins(%)WERSubUNet [1]14.6/4.040.814.3/4.040.7分阶段选择[5]13.7/7.339.412.2/7.538.7比对-选择[26]12.6/2.637.113.0/2.536.7DPD+TEM [34]9.5/3.235.69.3/3.134.5重新签名[18]-27.1-26.8SFL [23]7.9/6.526.27.5/6.326.8DNF [6]7.8/3.523.87.8/3.424.4简体中文[CN]-23.7-23.9真空[22]7.9/2.521.28.4/2.622.3[25]第二十五话7.3/2.721.37.3/2.421.9SFL [23]10.3/4.124.910.4/3.625.3DNF [6]*7.3/3.323.16.7/3.322.9[35]*7.7/3.421.17.4/2.620.7SMKD(我们的)6.8/2.520.86.3/2.321.0基线同步火车光泽段Dec火车偏差(%)试验(%)✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓24.122.021.221.020.920.824.722.421.421.321.321.011312引用[1] Necati Cihan Camgoz,Simon Hadfield,Oscar Koller和Richard Bowden。Subunets:端到端手形和连续手语识别。在IEEE计算机视觉国际会议论文集,第3075-3084页,2017年。八个[2] Necati Cihan Camgoz,Oscar Koller,Simon Hadfield和Richard Bowden。手语转换器:联合端到端手语识别和翻译。在IEEE计算机视觉和模式识别会议论文集,第10023-10033页,2020年。二、八[3] 郑家亮,杨朝阳,陈奇峰,戴玉荣.用于连续手语识别的 全 卷 积 网 络 。 在 Proceedings of the EuropeanConference on Computer Vision ,第697Springer ,2020年。一、二、四、八[4] Necati Cihan Camgoz,Simon Hadfield,Oscar Koller,Her- mann Ney和Richard Bowden。神经手语翻译。在IEEE计算机视觉和模式识别集,第7784-7793页,2018年。六个[5] Runpeng Cui,Hu Liu,and Changshui Zhang.递归卷积神经网络通过阶段优化用于连续手语识别。在IEEE计算机视觉和模式识别会议集,第7361-7369页,2017年。八个[6] Runpeng Cui,Hu Liu,and Changshui Zhang.通过迭代训 练 进 行 连 续 手 语 识 别 的 深 度 神 经 框 架 。 IEEETransactions on Multimedia , 21 ( 7 ) : 1880-1891 ,2019。一、二、八[7] 邓建康,郭佳,张德兵,邓亚峰,卢祥菊,宋石.轻量级人脸识别挑战。在IEEE计算机视觉研讨会国际会议集,第0-0页,2019年。三个[8] 亚历克斯·格雷夫斯监督序列标记。在使用递归神经网络的监督序列标记中,第513. Springer,2012. 二个[9] Al e xGr av es,SantiagoFer na´ ndez,FaustinoGomez,andJ ür genSchmidhube r. 连接主义时间分类:用递归神经网络标记未分割序列数据。在Proceedings of the 23rdInternational Conference on Machine learning , 第 369-376页,2006中。一个[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页,2016中。七个[11] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。三、七[12] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation,9(8):1735-1780,1997. 七个[13] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上,第448-456页。PMLR,2015. 七个[14] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。七个[15] Oscar Koller、Cihan Camgoz、Hermann Ney和RichardBowden。弱监督学习与多流cnn-lstm-hmms在手语视频中 发 现 顺 序 并 行 性 。 IEEE Transactions on PatternAnalysis and Machine Intelligence,2019。二、八[16] Oscar Koller,Jens Forster,and Hermann Ney.连续手语识别:面向大词汇量统计识别系统处理多个签名者。计算机视觉和图像理解,141:108-125,2015。六个[17] 奥斯卡·科勒,奥·扎加兰,赫尔曼·奈伊,理查德·鲍登.深符号:用于连续符号语言识别的混合cnn-hmm。英国机器视觉会议论文集,2016年。二个[18] Oscar Koller,Sepehr Zargaran,and Hermann Ney.重新标记:用深循环cnn-hmms重新对齐端到端序列建模。在IEEE计算机视觉和模式识别会议论文集,第4297-4305页,2017年。二、八[19] 李洪柱和王伟强将ctc训练重新解释模式识别,105:107392,2020。二、四[20] 刘未央,温延东,余智定,李明,拉吉比丘,宋乐。Sphereface : 用于 人脸 识别 的深 度超 球 面嵌 入。 在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,第212-220页三个[21] Fan Ma , Linchao Zhu , Yi Yang , Shengxin Zha ,Gourab Kundu,Matt Feiszli,and Zheng Shou. Sf-net:用于时间动作定位的单帧监督。在欧洲计算机视觉会议的会议记录中,第420- 429437. Springer,2020年。五个[22] 闵悦聪,郝爱明,柴秀娟,陈西林。连续手语识别的视觉对齐约束。arXiv预印本arXiv:2104.02330,2021。二、八[23] 牛哲和麦文斌。用于连续手语识别的多状态符号注释的随机细粒度标记。欧洲计算机视觉会议论文集,第172-186页,2020年二、八[24] Sylvie CW Ong和Surendra Ranganath。自动手语分析:词汇意义之外的调查与未来。IEEE模式分析与机器智能学报,(6):873-891,2005。一个[25] Junfu Pu,Wengang Zhou,Hezhen Hu,and Houqiang Li.通过跨模态增强来增强连续手语识别。第28届ACM国际多媒体会议论文集,第1497-1505页,2020年。八个[26] Junfu Pu,Wengang Zhou,and Houqiang Li.用于连续手语识别的迭代对齐网络。在IEEE计算机视觉和模式识别会议论文集,第4165-4174页,2019年。一、二、八[27] Rajeev Ranjan,Carlos D Castillo,and Rama Chellappa.L2约束的softmax损失用于区分性人脸验证。arXiv预印本arXiv:1703.09507,2017。二、四[28] 施卫东,任光辉,陈云鹏,严水城。Proxylesskd:基于遗传分类器的直接知识提取人脸识别。arXiv预印本arXiv:2011.00265,2020。三个11313[29] Yifan Sun , Changmao Cheng , Yuhan Zhang , ChiZhang,Liang Zheng,Zhongdao Wang,and Yichen Wei.循环损失:对相似性优化的统一观点在IEEE计算机视觉和模式识别会议的论文集,第6398-6407页四个[30] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构在Proceedings of the IEEE conference on computervision and pattern recognition,pages 2818六个[31] Li Yuan,Francis EH Tay,Guilin Li,Tao Wang,andJiashi Feng.通过标签平滑正则化重新审视知识蒸馏。在IEEE计算机视觉和模式识别会议论文集,第3903- 3911页,2020年。三个[32] 张林峰,宋杰波,高安妮,陈经纬
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功