没有合适的资源?快使用搜索试试~ 我知道了~
1919混合信号:通过运动原语的混合产生手语Ben Saunders,Necati Cihan Camgoz,RichardBowden萨里{b.saunders,n.camgoz,r.bowden} @ surrey.ac.uk摘要表示口语是常见的做法在他们的语音水平。然而,对于手语来说,这意味着将运动分解成其组成运动基元。基于化身的手语制作(SLP)传统上就是这样做的,从手部动作,形状和面部表情的序列中构建动画。然而,最近的基于深度学习的SLP解决方案已经使用估计完整骨架结构的单个网络来解决该问题。我们建议将SLP任务拆分为两个不同的联合训练子任务。第一个翻译子任务从口语翻译成潜在的手语表示,与光泽监督。随后,动画子任务的目的是产生表达的符号语言序列,非常类似于学习的时空表示。使用渐进式Transformer的翻译子任务,我们提出了一种新的混合运动原语(M O MP)体系结构的手语动画。在训练期间学习一组不同的运动基元,其可以在推理时在时间上组合以动画化连续的手语序列。我 们 对 具 有 挑 战 性 的 RWTH-PHOENIX- Weather-2014 T(PHOENIX 14 T)数据集进行了评估,展示了广泛的消融研究,并显示MO MP在用户评估中优于基线。我们实现了最先进的回译性能,比竞争结果提高了11%。重要的是,我们第一次展示了从口语到手语的完整翻译管道的更强性能,而不是从注释到手语。1. 介绍手语是聋人社区用于交流的视觉语言。类似于语音中的音素,手语可以被分解成chereme,最小的独特结构单元[58]。Cheremes可以表示为运动基元,一组手动和手动的运动基元。口语句子图1:翻译和动画的SLP子任务概述。非手动运动1,其被组合以表示所有手语话语。这种语音表示通常由语言学家用于注释[29,62]或用于基于图形的化身以用于符号生成。手语生成(SLP)是将口语句子翻译成连续的手语序列的过程,它既需要准确的翻译,也需要富有表现力的动画。以前的工作传统上将这两个子任务作为一个网络的单个任务[52,59,68],导致表达不足的生产。尽管先前的SLP模型使用注释 2作为中间表示[60],但这创建了一个信息瓶颈,忽略了原始文本中可用的上下文信息。在本文中,我们建议将SLP制定为两个不同但联合训练的子任务,如图1所示:1)从口语到手语表示的初始翻译,具有注释监督; 2)视觉手语序列的后续动画。这可以被视为类似于具有到音素的初始翻译和随后的发声的文本到语音流水线。然而,我们并不强制使用注释信息的瓶颈,而是根据注释来调节学习,从而导致1手动特征是手的形状和动作,而非手动特征是口型和面部表情2注释是符号的书面符号表示,定义为最小词汇项。手语注释翻译动画渐进混合Transformer运动基元1920显著的性能提升。我 们 利 用 渐 进 式 Transformer 模 型 作 为 翻 译 骨 干[52]。使用光泽监督每帧学习手语表示。这促使子网络学习有意义的表示,以实现手语产生的最终目标。为了实现表情手语序列的动画,我们提出了一种新的 运 动 基 元 混 合 ( MOMP ) 网 络 . 基 于 混 合 专 家(MoE)架构,我们学习的不同的运动原语,能够产生无限数量的独特的符号语言话语的组合。由于连续性的标志语言,语言,我们应用专家混合每帧的基础上,从而使不同的专家被激活的输出序列的单独部分。由于运动基元的子集明显小于符号的全集,因此动画子任务被简化为选通网络,该选通网络选择正确的基元以针对全序列的特定部分进行动画。这也使得SLP模型能够扩展到更大的数据集,新的符号是学习的基元的新组合。我们将专家表示为蒙面Transformer器编码器,使用自我注意力来学习独特的结构运动。我们使用了进一步的Transformer编码器模型的门控网络,从而建立,据我们所知,第一个完整的变压器为基础的MoE架构。我们在具有挑战性的PHOENIX14T语料库上进行了评估,对所提出的网络进行了广泛的消融研究,并进行了用户评估,突出了MOMP的动画质量。此外,我们实现了最先进的SLP回译结果,并首次展示了直接从源口语产生符号序列的完整翻译管道本文的贡献可以概括为:• 一种新的基于变换器的MoE架构,运动基元的混合(Mixture of Motion Primitives,MOMP),其在帧级结合学习的运动基元。• 第一个SLP模型,分别对翻译和动画的子任务进行建模。• PHOENIX14T数据集上最先进的SLP性能和用户评价结果。• 第一个SLP模型实现了从口语到符号的完整翻译管道的更高性能本文件的其余部分组织如下:在第2节中,我们回顾了SLP和MoE的文献。在第3节中,我们概述了建议的MO MP网络。我们在第4节中提出了定量和定性模型比较,最后在第5节中得出结论。2. 相关工作手语运动基元音素被定义为口语中最小的独特结构单位,可以组合起来创造无限数量的有意义的话语[39,64]。Cheremes被用作特定于手语的等效表示[5,14,58]。手语的语音结构包括用于描述所有符号的运动和结构的形状、运动和位置的子词汇参数[6,22]。运动基元可以被视为chereme的子集,包括手动和非手动特征的手势运动。尽管可能的运动基元在数量上比符号的完整集合小得多,但是它们可以被组合以重新创建所有唯一的符号语言序列。手语产生计算手语研究在过去30年中一直很突出[3,57,63]。以前的研究集中在孤立的符号识别[1,28,45],连续手语识别-[7][17][37][36 ][37][38][39][39][39]手语翻译(SLT)[8,9,35,44]。Camgoz等人[10]提出了一种联合训练的CSLR和SLT系统,显示了两项任务的性能提高。手语产生(SLP),从口语句子到手语序列的翻译,传统上使用化身来解决[2,15,18,20,24]。使用化身制作手语动画有助于将翻译任务与动画分开,最初手动将文本翻译成手语表示,如HamNoSys [29]或SignWriting [62]。相比之下,最近的工作已经将深度学习应用于SLP[16,43,50,51,53,59,66,68],Saunders等人。[52]提出第一SLP模型以端到端的方式从口语句子翻译成手语序列。然而,这些方法将翻译和动画元素结合到单个管道中,导致缺乏表现力的动画。Stoll等人[60]使用光泽度的中间表示,但是这产生了所有符号必须通过的信息瓶颈在这项工作中,我们使用光泽和骨骼姿势的联合监督将动画与翻译子任务分开。此外,我们结合了一组学习的运动原语,可以动画任何手语发音,并使用光泽条件学习,而不是形成瓶颈。专家混合(MoE)是一个联合训练的专家系统集合,每个专家系统都针对不同的输入子域进行本地专业化[31,32]。门控网络预测一组混合系数,用于在最终输出中对每个专家的决定进行我们1921XYZ=加权求和MORGEN维尔·索恩CTC层Softmax翻译动画翻译编码器翻译解码器门控网络运动基元源代码嵌入标志嵌入门控嵌入运动嵌入上午标记Morgen图2:运动基元混合(Mixture of Motion Primitives,Μ 0 Μ Ρ)网络概述,示出了从口语xl:T到具有注释监督的手语表示zl:V(左)的初始翻译子任务随后的动画子任务使用K个学习到的运动原语的混合物M PK,以产生连续的手语序列y(1:U,(右)。参见Gormleyet al. [26]《明史》卷最近,MoE在神经机器翻译(NMT)中变得流行[23,47,48,67]。稀疏门控MoE使用MoE层来实现参数的广泛缩放,仅需要为每个序列计算专家的子集[21,40,49,55]。MoE也被用来促进文本生成的多样性[13,30,56],甚至可以实现多任务学习[33,41]。Stoll等人[61]将MoEs概念应用于SLP,从105个注释的小词汇表中产生孤立的符号。我们的工作产生连续的符号序列直接从口语,使用不同的运动原语结合在输出水平为1066个注释。将变压器与MoE相结合的动机是研究表明变压器网络 被 过 度 参 数 化 [42 , 65] 。 Peng 等 [47] 由 多 个Transformer头和Lepikhin等组成的构建专家。[40]使用Transformer MoE构建大规模NMT模型。我们的工作不同之处在于,我们代表每个专家作为一个individualTransformer编码器,并提出了一个基于变压器的门控网络。此外,我们在令牌即与序列级相对的帧级,使得能够对专门的运动基元进行建模。可能最接近我们的工作是张等的方法。[69],他们使用MoE对四步运动的重复步态序列进行每个专家都经过培训,专门从事某种类型的运动的生产。但我们解决手语在翻译的上下文中的微妙动作,并且为了实现所需的微妙之处,在输出级别而不是在特征空间中执行混合。3. 方法给定一源口语语言序列,=(X1,…x T),SLP模型的目标是产生手语序列,=(y1,… yU)具有U帧。最先进的SLP作品已经使用没有中间表示的单个端到端网络来完成任务[52,68]。这同时解决了准确翻译成手语语法和手语运动的表达性动画的挑战性任务,具有单一的统一损失函数,影响网络在任一任务中表现良好的能力。基于此,我们建议将SLP任务分成两个联合训练的子任务:1)从口语到手语表示的初始翻译任务,具有注释监督,z V)具有V掩饰; 2)以骨骼姿势序列的形式的后续手语动画任务。我们提出了一个混合的运动原语(MOMP)网络,采用了一个进步的Transformer的手语翻译(图2的左边)和一个新的MoE架构的手语生产(图2的右边)。在本节的剩余部分中,我们详细描述MOMP1922u+1ΣMPu+1u+1i=1ui=0时uyu+1=MP(ru)。一U1:U3.1. 翻译:渐进式Transformer如图2所示,我们利用渐进式变换器网络[52]进行翻译子任务,该任务学习从口语翻译为手语表示。Transformer编码器学习表示-门控网络我们利用具有用于门控网络GN的子序列掩蔽的Transformer编码器,使用自注意力来学习正确的专家分配。我们像在Transformer解码器中一样屏蔽未来的时间步长,以禁用未来的视图从形式上讲,门控网络亲-输入的口语句子x1:T,通过引入了一组混合系数BCu+1,条件是翻译的手语表示,ru:到自回归Transformer解码器。给了一个征兆语言序列,y1:U和相应的计数器值,BCu+1={α1、...、αuK+1}=GN(r,u|r1:u−1)(4)解码器在每帧的基础上学习手语表示,R=r1:U:ru+1=Ttranslation(yu|yi:u−1,X)(1)我们在训练过程中为翻译子网络提供来自注释信息的额外监督,提示模型学习有意义的潜在时间表示,以实现手语制作的最终目标。由于缺乏帧级注释,我们使用连接主义时间分类(CTC)层以序列到序列的方式提供监督[27]。CTC层使用解码后的潜在表示来进行解码。其中,softmax运算应用于生成的混合系数,以确保αk>0且Σkα k= 1。连续的手语序列由多个不同的运动部分组成。例如,一只手向上移动,然后随后穿过身体。我们的目标是将这些不同的多帧运动中的每一个表示为单独的运动基元,这些运动基元可以在时间上组合以产生不间断的连续签名运动的完整序列在训练过程中,鼓励每个学习的运动基元考虑数据的单独部分,成为特定运动的专用运动每个帧,r1:U,并计算p(Z| D.边缘化可以在推理时拼接在一起。类似于门控网络,我们建立运动初始-在所有可能的对齐中:p(Z| R)= p(π| R)(2)π∈B其中π是路径,B是对应于Z的所有可行路径的集合。然后,转换损失计算为:使用具有子序列掩蔽的Transformer编码器。我们在翻译的符号语言表示上使用自我注意我们避免对源口语进行条件反射,以确保该子任务仅专注于动画。形式上,每帧的每个运动基元的输出被计算为:Ku+1 =MPk(ru)(5)LT= 1 − p(Z*| R)(3)因此,每个输出帧是通过混合运动基元以自回归方式产生的单个姿态yu+1其中Z*是地面真实光泽序列。ku+1 ,以及它们各自的混合系数αk:K3.2. 动画:运动基元yu+1=动画(ru|r1:u−1)=Σαkku+1(六)从译文中产生富有表现力的手势在手语表示中,我们学习了一个运动基元混合(MOMP)网络(图2右侧),它其中Kexperts且ΣKi=1ku+1i=1=1时。如[52]中所示,使用MoE在帧级组合学习的运动基元。MoE是用于ensem的常见技术。 BLE学习[31]其中K个专家系统的集合还为每个帧产生有效的计数器值一旦产生全符号姿势序列,动画丢失,LA被计算为均方误差(MSE)损失为{MPi}k、 联合训练 每一个都是当地的专业在预测的y=1:U和地面实况y=1:U序列之间在不同的专业领域,以产生一个输出使用1ΣkkL=(y*-yyyyα1:U1923uu--第二章(七)门控网络GN学习一组混合系数,BC u=α1,…,αk,用于在最终输出中对每个专家的决策进行加权。与每个序列应用唯一混合的传统MoE架构[47,55,56]相反,我们为输出序列的每个帧生成唯一的混合系数。这使得能够针对输出手语序列的某些部分学习不同的运动基元i=1我们通过最小化总体SLP损失LSLP来训练我们的网络,其是基于CTC的平移损失LT和关节距离动画损失LA的加权和,如下:LSLP=λTLT+λALA(8)其中λT和λA对训练期间每个损失函数的重要性进行加权,并在第4.1节中进行评估。1924FFGLFGG FGΣL =−var{α}(10)VkLG3.3. 训练时间表具有反向传播的MoE的朴素端到端训练已被证明会导致退化的局部最小值,其中专家权重是一致的,无论输入如何[47,56]。因此,我们使用块坐标下降(BCD)训练和专家平衡损失的组合来克服这种现象,如下所述。块坐标下降我们应用BCD训练时间表,如Peng等人所介绍的。[47],其将更新分解为两个交织步骤,并且:该步骤处理具有混合输出的前向通路,固定平移子网络和运动基元,并且仅更新选通网络GN;该步骤然后冻结选通网络,并且针对从混合系数权重采样的每个帧,沿着单个专家更新全平移子网络Ek(x)在训练过程中,需要的步数比步数少,比例为3每个步骤实现最佳性能步骤。具体到MoEs,BCD迫使专家专业化的受与dropout[47]的比较的启发,我们添加了选择专家k的随机机会,并在训练期间对概率进行退火。专家平衡损失正如在以前的MoE部架构[19,55,56]中所看到的,我们发现一小部分专家往往是不平衡的,并获得更高的混合系数。 这种效果是自我强化的,因为大众专家得到更快的培训,得到进一步的分配。此外,由于MOMP产生具有每帧应用的混合系数的连续符号姿势序列,因此我们支持具有稀疏激活的门控网络这避免了本身可能无效的两个运动基元的加权平均继Bengioet al. [4],我们采用软约束方法来进行专家平衡,并应用两个正则化项。第一项是平衡损失B,它在期望中鼓励相等的专家份额:3.4. 手语输出从所产生的骨架姿势序列生成视频是微不足道的任务,连接每个帧的相关关节,如图3所示。4. 实验在我们的实验中,我们构建了具有两层(2L)两个头(2H)和嵌入大小为256(256Em)的翻译子网络。运 动 基 元 和 门 控 网 络 的 结 构 分 别 为 ( 2L , 2H ,128Em)和(2L,4H,64Em)。我们提出的架构仅包含7.8M参数,与SOTA模型的16.3M参数相同[54]。我们应用高斯噪声与噪声率为5,提出了由桑德斯等人。[52]。我们网络的所有部分都使用Xavier初始化[25],Adam优化[34]进行训练,默认参数和门控网络的 学 习 率 为 10- 4 , 其 余 为 10- 3 我 们 的 代 码 是 基 于Kreutzer等人的。的NMT工具包JoeyNMT [38],并使用PyTorch [46]实现。数据集我们评估我们的方法公开可用的PHOENIX14 T数据集介绍Camgoz等。[8]的一项建议。该语料库提供了8257个德语句子、符号注释翻译和符号姿势视频的平行序列。由于低视频质量,这是具有挑战性的数据集。然而,最近的手语数据集是可用的,其尚未用于SLP [11]。我们训练MO MP生成骨骼关节位置的符号姿势序列。使用OpenPose [12]在2D中提取每个视频的手动和非手动特征,使用[68]中我们如[52]中所示对骨架姿势进行归一化评估为了与现有技术进行比较,我们使用回译评估度量[52],其采用预训练的SLT模型[10]将产生的符号姿势 序 列 翻 译 回 口 语 。 针 对 原 始 输 入 计 算 BLEU 和ROUGE分数具有从1到4的BLEU n元语法的UK被提供用于完成-L =<$1<$(αk−τ)2(9)K奈斯 PHOENIX14T上的SLP评估协议Bu=1uk=1数据集,由[52]设置如下:姿态光泽度(G2P)从光泽中介、评价、其中τ是预期的平衡负载,1。第二任期是方差损失V,它鼓励K稀疏分配每帧:UKuu=1我们仅在BCD训练的步骤上添加这些损失,以单独地调节门控网络。我们在第4.1节中删除了拟议的培训计划。标志生产能力; T2P(Text to Pose)直接从口语中产生符号姿势,并且是SLP系统的更困难的端到端测试。4.1. 定量评价运动基元的数量我们开始对光泽到姿势任务进行实验,并评估动画子网络的生产因此,我们将平移损失LT设置为零。我们的第一个实验评估1925KLLLLLLL损失权重开发套件测试集λTλABLEU-4红色BLEU-4红色开发设置测试设置方法:蓝色-4红色蓝色-4红色612.6735.1712.3835.29712.5735.9012.1535.37813.3237.5812.6735.61912.5536.1412.3134.931012.5335.9011.9934.62MO MP13.3237.5812.6735.61MO MP -随机12.1435.6711.9335.45MO MP -BCD10.8533.6410.4032.11MO MP +EM11.8435.1611.6334.71MO MP -LBMO MP -LV12.2011.8835.4335.4711.7211.4534.6034.45表1:不同数量的运动基元对用于光泽到姿势任务的MO MP的性能的影响。当改变运动原语专家的数量时的性能虽然拥有大量的运动基元可以使每个运动基元更加专业化,但这也使模型更难收敛,并且容易过拟合。为此,我们使用6至10个原语构建MO MP网络,并评估其光泽的姿态性能。如表1所示,我们发现8个运动基元表现最好,在开发集上实现了13.32的BLEU-4分数。这在专家的专业化和训练收敛困难之间取得了平衡,因为我们发现太多的专家会导致过拟合。对于我们的实验的其余部分,我们用8个运动基元构建了我们的MO MP模型消融研究我们接下来消融我们的MOMP网络,以突出每个建议的网络属性的重要性。表2示出了光泽到姿态模型性能。我们首先删除随机性应用到BCD训练,如第3.3节(MOMP -兰德)所述。模型性能显著下降,导致开发集上的BLEU-4为12.14。这是由于在BCD的专家更新F步骤中移除了用于探索的可以看出,完全移除BCD训练(MOMP-BCD这是由于门控网络和专家参数的组合更新导致非专业专家的不稳定MoE模型,如先前的工作[47,56]所示。我们还进行实验与一个简单的EM训练(MOMP +EM),交替更新之间的门控网络,和非采样的运动基元的组合。然而,这仍然导致11.84 BLEU-4的较差性能。删除专家平衡损失(MOMP -B)的结果,在一个不平衡的门控网络,激活只有一个单一的运动原语。这意味着该模型没有充分利用可用于专业化的多个专家,导致12.20 BLEU的性能较差4. 去除方差损失(MOMP-V)使得每个帧具有专家的组合而不是稀疏表示。这导致回归到平均值的混合输出,导致非表达性骨骼姿势和仅11.88 BLEU-4的差性能。表2:M0MP性能的消融研究“光泽到姿势”任务。翻译和动画在我们的下一组实验中,我们切换到完整的文本到姿势任务。我们检查了添加平移损失T和动画损失A后的性能增益。作为基线,我们通过将翻译权重λT设置为零,仅使用动画损失并且没有光泽监督来训练MO MP模型然后,我们共同培训翻译和动画,在损失之间具有各种权重。表3显示了关于失重、λT和λA的实验。 可以看出,联合培养MO MP在平移和动画上具有相等权重( T=A=1 ) , 将 反 向 平 移 性 能 显 著 提 高 到 13.72BLEU-4。 这证明了明确培训翻译和动画子任务的价值。 将翻译损失权重增加到T=2进一步将性能提高到14.03 BLEU-4,甚至更大的翻译损失会降低性能。我们认为这是由于光泽监督和最终SLP性能之间需要平衡我们将MO MP的性能与3个基线SLP模型进行比较:1)渐进式转换器[52],将经典的转换器架构应用于手语制作。2)对抗性训练[50],其利用对抗性鉴别器来提示 更 具 表 达 力 的 产 品 , 以 及 3 ) 混 合 密 度 网 络(MDN)[54],其使用多个分布来对整个预测子空间进行参数化,从而对手语中发现的变化进行建模。1.01.013.7237.6313.1836.842.01.014.0337.7613.3036.775.01.013.6937.6713.1237.1010.01.013.5136.9912.8336.53表3:不同平移和动画损失权重对MO MP文本到姿势性能的影响。运动次数开发套件测试集原语:BLEU-4 ROUGE BLEU-4ROUGE0.01.012.74 36.1712.16 35.5319261:U开发设置测试设置方法:BLEU-4BLEU-3BLEU-2BLEU-1胭脂BLEU-4BLEU-3BLEU-2BLEU-1胭脂[52]第五十二话11.9315.0820.5032.4034.0110.4313.5119.1931.8032.02对抗训练[50]13.1616.5222.4234.0936.7512.1615.3120.9532.4134.19混合密度网络[54]13.1416.7722.5933.8439.0611.9415.2221.1933.6635.19MO MP(Ours)13.3216.7122.6734.2137.5812.6716.0322.0233.9535.61表4:针对光泽到姿势任务的PH0ENIX14T数据集的反向翻译结果开发设置测试设置方法:BLEU-4BLEU-3BLEU-2BLEU-1胭脂BLEU-4BLEU-3BLEU-2BLEU-1胭脂[52]第五十二话11.8214.8019.9731.4133.1810.5113.5419.0431.3632.46对抗训练[50]12.6515.6120.5831.8433.6810.8113.7218.9930.9332.74混合密度网络[54]11.5414.4819.6330.9433.4011.6814.5519.7031.5633.19MO MP(Ours)14.0317.5023.4935.2337.7613.3016.8623.2735.8936.77表5:文本到姿势任务在PHOENIX14T数据集上的反向翻译结果表4示出了MOMP分别对于开发组和测试组实现了13.32/12.67BLEU-4的现有技术的光泽度对姿态这示出了可以从动画子任务产生的表达性手语序列,突出了所提出的MO MP网络内的学习的运动基元的效果。Text to Pose结果示于表5中,其中对于开发和测试集,MO MP实现14.03/13.30BLEU-4,比现有技术提高11%/14%。这些结果突出了将翻译和动画子任务分离为SLP的最终任务的重大成功。此外,文本到姿势任务中的性能高于光泽到姿势任务。这对于SLP来说是令人惊讶和重要的,因为光泽到姿势经常被引用为更简单的任务[52]。我们认为这是由于口语中的语境比符号注释更广泛由于我们没有强迫翻译通过注释瓶颈,因此该模型可以获得更微妙的语法提示以用于符号生成。相反,我们使用注释信息来监督口语的端到端培训这对于将SLP扩展到具有有限带宽的域非常重要有限的注释,这可能是昂贵的获得。感知研究我们对我们的骨骼姿势制作进行感知研究,向参与者展示由MO MP制作的视频和最先进的基线尤其是手总共有24名参与者完成了这项研究,其中13%是签名者。表6显示了偏好我们的输出、基线输出或对整体骨骼和手部两者没有偏好的参与者的百分比。可以清楚地看到,与基线相比,参与者更喜欢我们的 输出 , 无论 是整 体 骨骼 (49%) 还是 特 别是 手(50%),只有33%(骨骼)和36%(手)更喜欢基线。这进一步表明,所提出的MOMP网络从所学习的运动基元的组合产生富有表现力和逼真的动画4.2. 定性评价在本节中,我们报告定性结果。图3示出了从源口语产生的符号,以及原始视频。被激活的专家示出为每个产生的骨架,突出显示在一个完整的序列的多个-tiple运动原语的使用。可以看出专家5产生右手运动,而专家2处理双手的向下运动。运动基元为了在测试时评估每个运动基元的重要性,我们选择性地停用特定的基元并观察视觉结果。实际上,我们将pre-softmax混合系数设置为minusMDN模型[54]。 参与者被要求选择无穷大,力αk=0。这就要求模型能够...视频有最好的逼真的动作,对于整体骨架[54]第54话骷髅百分之四十九百分之三十三百分之十八手百分之五十百分之三十六百分之十四表6:感知研究结果,显示了对于整体骨骼和手两者,偏好我们的输出、基线输出或没有偏好的参与者的百分比为这些框架评估其他专家。我们观察到输出骨架姿势退化到平均姿势时,专家k打算被激活,执行- ING一个非表达性的运动。我们注意到对非手动功能的特殊影响,这些功能会降低到明显更差的输出。此外,我们发现禁用单个运动原语时,平均性能下降0.83 BLEU-4我们认为这种现象是由于专家k变得专门用于期望的运动,这意味着所有其他专家没有被训练来执行该运动。1927输入La)我在南方呆了一段时间,在北方也呆了一段时间(转:周二在南半部多阵雨,北半部友好路段偶有雷雨b)、c)、d)、图3:定性结果,示出了a)源口语,b)产生的符号姿势序列,c)每帧的专家分配和d)用于比较的原始视频。图4示出了每个序列绘制的一些示例性混合系数。这些图表显示了序列中每帧每个权重的混合系数,每个专家用不同的颜色绘制。如图所示,针对序列的不同部分激活不同的运动基元,组合独特的运动以创建连续的手语序列。可以看出专家的平衡性质,因为每个专家都在序列上表示。这突出了平衡损失B在确保充分利用专家库方面的效果。此外,每个帧由单个专家表示,显示方差损失LV的影响。5. 结论尽管SLP需要准确的翻译和富有表现力的生产,但以前的工作已经将这些任务结合到具有统一损失函数的单个端到端架构中[52,60,68]。在本文中,我们提出了分离的SLP任务分为两个不同的联合训练的子任务。第一个翻译子任务是从口语翻译成手语,语言表示,具有明确的光泽监督。其次,动画子任务产生与光泽表示非常相似的表达性手语序列。受语音学的启发,我们提出了一种运动基元混合(Mixture ofMotion Primitives,MO MP)架构,这是一种基于MoE的新型网络,其学习组合不同的运动基元以产生连续的手语序列。我们在PHOENIX14T数据集上评估了MOMP,感知研究表明MOMP实现了最佳动画质量。我们实现了最先进的回译性能,并报告了更好的SLP性能,从文本,即直接翻译。从文本到姿势,与光泽中介相比,即光泽到姿势。6. 确认该项 目得 到了 EPSRC项目 Ex- TOL(EP/R 03298X/1)、SNSF项目SMILE 2(CR-SII 5 193686)和欧盟项目EASIER(ICT-57-2020-2020)的支持。101016982)。本著作仅反映作者的观点,委员会不对其中所载资料的任何使用负责。我们也要感谢NVIDIA公司的GPU拨款。图4:示出了针对帧的每个专家的混合系数权重的示例专家分配图452250制作姿势原始视频专家1928引用[1] Epameinondas Antonakos , Vassilis Pitsikalis , IsidorosRodomagoulakis,and Petros Maragos.无监督分类极端面部事件使用主动外观模型跟踪手语视频。2012年第19届IEEE图像处理国际会议(ICIP)[2] J Andrew Bangham 、 SJ Cox 、 Ralph Elliott 、 JRWGlauert、Ian Marshall、Sanja Rankov和Mark Wells。虚拟签名:采集、动画、存储和传输--ViSiCAST项目概述。残疾人和老年人的言语和语言,2000年。[3] 布雷塔·鲍尔,赫尔曼·海因茨,K-F·克莱斯基于统计方法的视频连续手语识别。国际模式识别会议论文集(ICPR),2000年。[4] Emmanuel Bengio ,Pierre-Luc Bacon ,Joelle Pineau ,and Doina Precup.用于更快模型的神经网络条件计算arXiv预印本arXiv:1511.06297,2015。[5] 戴安·布伦塔莉手语语音学的韵律模型。Mit Press,1998.[6] 戴安·布伦塔莉手语语音学和形态音位学中的情态差异。2002年,《手语和口语中的情态和结构》[7] Necati Cihan Camgoz,Simon Hadfield,Oscar Koller和Richard Bowden 。 SubUNets : End-to-End Hand Shapeand Continuous Sign Language Recognition. 在IEEE国际计算机视觉会议(ICCV)的论文集,2017。[8] Necati Cihan Camgoz,Simon Hadfield,Oscar Koller,Her- mann Ney和Richard Bowden。神经手语翻译。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[9] Necati Cihan Camgoz,Oscar Koller,Simon Hadfield和Richard Bowden。用于多发音手语翻译的多通道转换器。在辅助计算机视觉和机器人研讨会(ACVR),2020年。[10] Necati Cihan Camgoz,Oscar Koller,Simon Hadfield和Richard Bowden。手语变形金刚:联合端到端手语识别和翻译。在IEEE计算机视觉和模式识别会议(CVPR)上,2020年。[11] Necati Cihan Camgoz , Ben Saunders , Guillaume Ro-chette , Marco Giovanelli , Giacomo Inches , RobinNachtrab- Ribback和Richard Bowden。Content4All开放研究手语翻译数据集。IEEEInternational Conference onAutomatic Face and Gesture Recognition(FG),2021年。[12] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose:使用部件亲和场的实时多人2D姿势估计。在IEEE计算机视觉和模式识别会议,2017年。[13] Jaemin Cho,Minjoon Seo,and Hannaneh Hajishirzi.混合内容选择多样化的序列生成。在2019年自然语言处理经验方法会议(EMNLP)的会议记录中,2019年。[14] 大卫·科里纳和温迪·桑德勒。论手语音系结构的本质。Phonology,1993.[15] 斯蒂芬·考克斯、迈克尔·林肯、朱迪·特里格瓦森、梅勒妮·纳基萨、马克·威尔斯、马库斯·图特和桑贾·阿博特 。 TESSA , 一 个 辅 助 聋 人 交 流 的 系 统 。 ACMInternational Conference on Assistive Technologies ,2002。[16] Runpeng Cui , Zhong Cao , Weishen Pan , ChangshuiZhang , and Jianqiang Wang. 利 用 感 兴 趣 区 域 IEEETransactions on Multimedia,2019。[17] Runpeng Cui,Hu Liu,and Changshui Zhang.递归卷积神经网络用于连续符号语言识别的阶段优化。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年。[18] Sarah Ebling和Matt Huenerfauth基于序列分类的手语机器翻译与手语动画的衔接在SLPAT 2015的过程中2015年[19] David Eigen,Marc'Aurelio Ranzato和Ilya Sutskever。在深度混合的实验中学习因子表示。arXiv预印本arXiv:1312.4314,2013。[20] Ralph Elliott , John RW Glauert , JR Kennaway , IanMar- shall,and Eva Safar.基于化身的手语表示的语言建模和语言处理技术。《信息社会的普遍获取》,2008年。[21] William Fedus Barret Zoph和Noam Shazeer开关变压器:用简单有效的稀疏性扩展到万亿参数模型。arXiv预印本arXiv:2101.03961,2021。[22] Jordan Fenlon Kearsy Cormier和Diane Brentari 手语的语音学。阿宾顿/纽约:2018年路特-利奇。[23] Ekaterina Garmash和Christof Monz多源神经机器翻译的集成学习。在COLING 2016会议录中,第26届计算语言学国际会议:技术论文,2016年。[24] JRW Glauert,R Elliott,SJ Cox,J Tryggvason,and MSheard. VANESSA:聋人和听力正常人之间的沟通系统。技术与残疾,2006年。[25] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。人工智能和统计国际会议,2010年。[26] IsobelClaireGorml e y和SylviaFrühwirth-Schnatter. 专家模型的混合。混合物分析手册。2019.[27] Al e xGr av es,SantiagoFer na´ ndez,FaustinoGomez,and J ür genSchmidhube r. 连接主义时间分类:用递归神经网络标记未分割的序列数据国际机器学习会议论文集(ICML),2006年。[28] Kirsti Grobel和Marcell Assan。使用隐马尔可夫模型的孤立手语识别IEEEInternational Conference on Systems,Man,and Cybernetics,1997.1929−[29] 托马斯·汉克。HamNoSys–Representing Sign LanguageData 2004年,在手语的表示和处理研讨会上[30] Xuanli He , Gholamreza Haffari , and MohammadNorouzi.面向多种机器翻译的序列到序列混合模型。第22届计算自然语言学习会议,2018年。[31] Robert A Jacobs,Michael I Jordan,Steven J Nowlan,and Geoffr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功