大规模手语生成：学习共同表达符号

77 浏览量更新于2023-10-25 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5141大规模签署：学习共同表达符号大规模照片逼真的手语制作Ben Saunders，Necati Cihan Camgoz，RichardBowden萨里{b.saunders，n.camgoz，r.bowden} @ surrey.ac.uka）今天在文化或流浪者中也有更多的人（transs：然而，今天在文化或其他地方也有更多的竞争者我们认识我们自己，也认识我们自己，（transs：我们可以改变自己或给予欢乐）b）、HEUTE1 MEHR 1 VERSCHIEDENES2 KULTUR1AVERSCHIEDENES1KORPER1 SELBST1A ODER6B FROH1 GEBEN1c）、d）、图1. 照片真实的手语制作：给定来自不受约束的话语域的口语句子（a），初始翻译被执行为注释序列（b）。FS-NET接下来从字典符号产生共同铰接的连续骨架姿势序列（c），SIGN GAN将其生成为给定风格的照片般逼真的手语视频（d）。摘要手语是一种视觉语言，其词汇和口语一样丰富。然而，当前基于深度学习的手语生成（SLP）模型从受约束的词汇表产生欠关节连接的骨架姿势序列，这限制了适用性。为了被聋人理解和接受，自动SLP系统必须能够为大型话语域生成共同表达的照片般逼真的签名序列。在这项工作中，我们通过学习字典符号之间的共同表达来解决大规模的SLP，这种方法能够产生平滑的签名，同时扩展到不受约束的话语领域。为了学习符号协同发音，我们提出了一种新的帧选择网络（FS-NET），它改进了内插字典符号到连续符号序列的时间对齐。此外，我们提出了S IGN GAN，一个姿势调节的人类合成模型，直接从骨架姿势产生逼真的手语视频。我们提出了一个新的关键点-的损失函数，提高了合成大小的手部图像的质量。我们在大规模meineDGS（mDGS）语料库上评估了我们的SLP模型，进行了广泛的用户评估，表明我们的FS-NET方法提高了内插字典符号的协同发音。此外，我们表明，S IGN GAN显着优于所有的基线方法的定量指标，人类感知研究和本地聋人手语理解。1. 介绍手语是一种丰富的视觉语言，具有大量的法律词汇[52]以及手动（手和身体）和非手动（面部）特征的复杂共同表达运动。手语生成（SLP）是将口语句子自动翻译成手语序列的过程，它必须能够为聋人群体提供大量的、具有照片般真实感的连续手语之前的SLP深度学习方法要么支持，5142引入了忽略符号之间的自然协同发音的级联孤立序列[53，68]或遭受欠发音的端到端连续序列[22，44，46，68][43]。此外，这些方法一直难以推广到有限的天气领域之外[14]。在本文中，我们提出了一种SLP方法，直接从无约束的口语序列产生逼真的连续手语视频首先，我们从口语翻译到注释1序列。接下来，我们学习基于注释的字典符号之间的时间协同发音，对手语的时间韵律进行建模[3]。为了对符号协同发音进行建模，我们提出了一种新的帧选择网络（FS-NET），它学习最能代表连续符号序列的帧2中间）。我们构建了一个具有交叉注意力的Transformer 编码器 [58] ，以预测由动态时间规整（DTW）监督的时间对齐路径。随后，将生成的骨架姿势序列用于调节视频到视频合成模型，该模型能够生成照片般逼真的手语视频，称为SIGN GAN（图2右）。由于来自快速移动的手的手语数据集中自然存在运动模糊[15]，手部模糊的经典应用导致模糊手部生成的增加。为了避免这一点，我们提出了一种新的基于关键点的损失，显着提高了我们的照片般逼真的签名生成模块中的手图像合成的质量。为了在不同的手语数据集上进行训练，我们提出了一种可控视频生成方法，该方法对不同风格的手语视频的多模态分布进行建模。我们基于深度学习的SLP模型能够推广到大型话语领域，因为在连续的签名上下文中使用这种新符号的一些示例我们对mDGS的翻译协议进行了广泛的聋人用户评估[20]，表明FS-NET改善了内插字典序列的自然签名运动，并且压倒性地优于基线SLP方法[47]。此外，我们在RWTH-PHOENIX-Weather-2014T（PHOENIX 14T）上实现了最先进的反向翻译性能，在基线上的改进，突出了我们方法的可理解性。此外，我们使用高质量的Content4All（C4A）数据集[5]评估了SIGNGAN，在定量评估和人类感知研究方面优于最先进的合成方法[6，54，62，63最后，我们进行了进一步的聋人用户评估，以表明SIGN GAN比错误地用于表示符号的骨架序列更容易理解[44]。1注释是遵循手语顺序和语法的书面符号表示，定义为最小词汇项[52]。本文的贡献可以概括为：• 第一个SLP模型产生大规模的符号语言序列，从一个不受约束的域的话语，以理解的水平，由一个本地聋人签名• 一种新的帧选择网络，FS-NET，通过对连续序列• 一种生成照片级真实感连续手语视频的方法，SIGN GAN，具有新的手部关键点丢失，提高了手部合成质量• 广泛的用户评价我们提出的方法，显示我们提出的方法的偏好，以及国家的最先进的回翻译结果2. 相关工作手语产生计算手语技术的最初重点是手语识别（SLR）[11，18，28]，很少有作品解决不受约束的SLR [8，25，29]。最近，重点转移到手语翻译（手语翻译）[4，7，27]。手语产生（SLP），从口语到手语的翻译，历史上一直使用动画化身[9，26，36]进行处理，并基于规则的协同发音，不会推广到看不见的序列[49]。最初基于深度学习的SLP方法连接了孤立的符号，而不考虑自然的协同发音[53，68]。最近，连续SLP方法已经直接回归多个符号的序列[22，44，46-为了克服欠清晰度，我们避免直接生成姿势，并学习字典和连续符号序列之间的最佳时间对齐。此外，先前的工作将手语表示为骨架姿势序列，与照片般逼真的产品相比，这已被证明会降低聋人的理解力[59]。以前的作品已经尝试了照片般逼真的签名生成[10，45，54]，但低分辨率孤立的标志。在这项工作中，我们直接从spo- ken语言输入，从不受限制的话语领域产生高分辨率的照片般逼真的连续手语视频姿势条件下的人类合成生成对抗网络（GAN）[17]在图像[23，41，63，70]以及最近的视频生成方面取得了令人印象深刻的结果。任务[35，57，60具体到姿势条件下的人类合成，已经有同时的研究集中在整个身体的生成[1，34，37，50，55，71]，脸[12，31，67]和手[33，56，66]图像。然而，还没有研究在全身合成的背景下精确的手部生成，5143不VZZXYSYZW口语句子，文本到光泽光泽序列，连续签名序列，照片般逼真的标牌语言视频，连续字典表示字典栈迹象字典符号，字典符号，=矢量级联风格形象，图2.我们提出的大规模SLP方法的概述。一个初始的文本注释（左）动画一个插值的字典序列，我，与帧选择网络（FS-NET），学习时间对齐（中）的连续签名序列，Y。最后，SIGNGAN从连续的skeleton姿势和given风格图像SI生成照片般逼真的手语视频V（右）。无法生成高质量手部图像的方法[59]。由于手是高保真对象，它们在模型优化中经常被忽略。Chan等人引入FaceGAN用于高分辨率人脸生成[6]，但没有类似的工作被提出用于手语背景下更具挑战性的手部合成任务，其中手与手的交互无处不在。在这项工作中，我们提出了一个基于关键点的损失，以提高手合成。人类运动转移的任务，通过关键点提取将运动从源视频转移到目标视频，与我们的任务有关[6，65，69]。然而，对于从一个特定的口语句子中产生的新奇姿势的研究却很此外，作品试图以少数镜头的方式产生看不见的外观[61，67]，但仍然只产生单一的推理风格。手语协同发音手语协同发音可以被定义为共构音涉及符号的运动和持续时间，特别关注符号之间的过渡[39]。符号的边界也会根据上下文进行修改，连续的签名通常比孤立的签名更快[49]。在这项工作中，我们通过学习孤立符号和连续符号序列之间的最佳对齐，预测上下文中每个符号的持续时间，边界和过渡来建模时间协同发音。3. 大规模照片真实感SLP大规模SLP模型的真正目的是从不受约束的话语域中翻译口语序列，X =（x1，...， xU）与U字，以连续-真实感手语视频，S=（v1，...，vT）与frame. 这是一项具有挑战性的任务，因为不受约束的签名和符号的复杂的空间性质的词汇，与自然连续签名的指示的时间共同表达的要求。我们将此问题视为一个多阶段的序列到序列任务。首先，口语被翻译成符号gloss，=（ z1，...，zW），作为中间表示（Sec. 第3.1节）。接下来，我们的FS-NET模型共同表达基于注释的字典符号之间，以产生完整的连续签名序列，=（y1，… yT）（第3.2）。最后，GIV EN和风格图像，我，我们的视频到视频签名生成模块生成照片般逼真的手语视频S（Sec.3.3）。我们的方法的概述可以在图中看到。二、在本节的剩余部分，我们将详细描述我们方法的每个组成部分。3.1. 文本到光泽给定一个口语序列，我们首先转换为一个手语语法和顺序，由一个注释序列表示，=（z1，...，zW）与光泽（图。2左）。我们将其表述为一个序列到序列的问题，这是由于不同长度的两个序列之间的非单调关系。我们使用编码器-解码器Transformer [58]来执行这种转换，形式化为：ft=ET2G（xt|x1：T）（1）5144ZYTYTD ddZ一GpI I IQIG我Y∈A我A QTQTpQT一符号Pg w +1=D T 2 G（g w |g1：w−1，f1：T）（2）其中，fi和gw分别是编码的源令牌和目标令牌，g0是特殊bos令牌的编码< 输出光泽标记可以计算为zw=argmaxi（gw），直到预测到特殊的eos>标记。<3.2. Gloss to Pose接下来，受单调关系的启发，注释和符号，我们产生连续的符号姿势序列，（T）与帧，从翻译的光泽序列，，使用学习的协同发音，字典符号我们首先使用具有自关注的Transformer编码器对光泽序列进行编码，如下所示：hw= EG2S（zw|z1：W）（3）帧选择网络为了在字典符号之间进行协同表达，我们提出了一个帧选择网络（FS-NET），它学习预测连续符号序列的时间对齐，=（y0，.，（T）与框架（图2中）。我们注意到这是一个单调序列-to序列任务，由于签名的匹配顺序和不同的序列长度（=）。形式上，FS-NET预测离散稀疏单调时间对齐路径，A∈RQ×Q：A=FS-NET（R，h1：W）（5）其中，SNR包含表示帧选择或跳过的二进制判决。图2示出了跳过输出序列中的帧3、5和8的产生的示例对准，去除冗余帧以创建更平滑的共同铰接的连续序列。我们将FS-NET构建为Transformer编码器[58]，并对编码的光泽序列进行额外的交叉关注以产生其中hw是步骤w的编码的注释记号。我们接下来W对于共同铰接的连续签名姿势序列Y，可以在I和A之间应用矩阵乘法，如下：收集字典样本，D 每一个迹象，gloss词汇表根据定义，字典符号包含准确和清晰的符号内容。而且Y=I×A（六）扩展到更大的话语领域是微不足道的，只是简单地收集扩展词汇的字典例子内插字典表示给定翻译的注释序列，我们创建一个有序字典符号栈，[1，...，（图左下角）2）。与以前的作品[46]一样，我们表示每个字典符号作为骨架姿势序列，Dw =（sw，.，（sww）PThis enables the mapping between varied length se-序列，其中序列预测的结束被确定为最终字典帧的对齐选择。在实践中，直接预测2D对齐，由于对齐的稀疏性质，提供了弱的gra-1。因此，我们建议使用动态时间扭曲（DTW）监督信号[2]来训练FS-NET，该信号旨在学习操作，1与w跳转我们首先转换字典通过线性内插，在相邻的符号之间进行预定义的固定NLI帧。最后插入的字典序列，=（1，…，Q）是骨架姿态和相应线性插值的组合。接下来，我们构建一个连续的字典序列表示，用作FS-NET的输入。除了的骨架姿势，我们学习了词汇表中每个光泽度所特有的光泽度嵌入w，以及所有插值帧的单独共享嵌入LI。此外，我们使用了桑德斯等人提出的反嵌入。[44]，扩展为与每个字典符号的进展相关的特定计数器Cw和与全序列I的进展相关的全局计数器Cq。最后的骗局-连续字典表示，R =（R1，...，RQ）与Q帧，是通过连接相应的-时间单调时间对齐我们预先计算01- 02 - 2016刘晓波（、）之间的插值字典序列，和目标连续序列，. 由于2D比对路径预测的棘手性，我们在比对期间将比对折叠到1D序列。训练，ARQ=argmaxq（q）。这使得时间掩码预测超过，选择哪些帧的输入-插入字典序列来依次制作动画以创建连续序列。我们认为，对于大多数序列（ mDGS 为88%），>>，由于连续符号的节奏更快[39]。因此，我们假设在时间对准期间没有添加帧，仅移除帧。为了训练FS-NET，我们计算预处理之间的交叉熵损失L CE。指定的一维时间对齐，A∈RQ，和地面真值DTW对齐，A∈RQ×1，为：Q每帧的骨架、光泽和反嵌入，如下所示：WWLCE（A，A）=−1<$A·log（Aq）（7）Rq=[sp， G，Cw，Cq]（4）Qq=1最终的连续符号姿势序列，其中帧q表示进入光泽w的时间步长p帧。Y=（y1，...， yT），如等式中所示产生。六、Q5145Y一双真正的手，VS−SSLKV ∈ {}LLLK不不yt我不不FM我V千兆克不不−⋆3.3. pose视频为了生成逼真的手语视频，S，以所产生的签名姿势序列Sign为条件，我们提出了一种用于视频到视频签名者生成的方法Sign-GAN（图2右）。从[ 6 ]中获得灵感，在条件GAN设置中，生成器网络G在最小-最大博弈中与多尺度网络D=（D1，D2，D3）竞争。G的目标是合成与地面实况图像质量相似的图像，以欺骗D。相反，D的目的是从“真实”图像中辨别出为了我们的目的，Gsyn-在给定人类姿势yt的情况下，生成的图像，房关键点，生成的关键点，手剪，风格图像，I.在[23]之后，我们将skip连接引入到在每个下采样层i和上采样层n i之间的U-Net结构[42]中的G的架构，其中n是上采样层的总数跳过连接图3.手部关键点丢失概述。关键点D_H比较来自生成的手的k个关键点和真实的手的k个关键点。“real” keypoints,通过网络传播姿态信息，生成精细的细节。具体来说，我们在每个下采样层i和上采样层n i之间添加跳过连接，其中n是上采样层的总数。可控视频生成为了能够在不同的手语数据集上进行训练，我们使用风格可控的视频生成方法[45]。一种时尚形象，I，提供了条件合成旁边的姿态序列，如图2所示。SIGN GAN学习将给定的风格，与相应的目标图像的个人特定方面，如服装或面部，但不一致，kH=H（G（yH）），导致目标：LKEY（G，DH）=EyH，zH[logDH（kH）]+EyH[log（1−DH（kH））]（8）在标准的图像到图像翻译框架中[23，63]，G是使用对抗和感知损失的组合进行训练的我们更新了多尺度对抗损失GAN（G，D），以反映具有对符号姿势yt和样式图像S1的联合条件的可控生成：LGAN（G，D）=ΣEy，z[logDi（zt|yt，SI）]i=1可控生成允许SIGN GAN利用数据中签名者外观的可变性。一+E[lo g（1−D（G（y，SI））|y，S1））]（9）可以产生不同风格S的手语视频的多模态分布，其中S1，NS表示在训练2期间看到的风格。手部关键点丢失先前的姿势调节的人类合成方法未能生成逼真和准确的手部图像[59]。为了提高手部合成的质量，我们引入了一种在关键点空间中操作的新型损失，如图3所示。预先训练的2D手部姿势估计器[16]H用于提取手部关键点。其中k=3反映了多尺度λ。对抗性损失补充了两个特征匹配损失;FM（G，D），pix 2 pixHD [ 63 ]中提出的特征匹配损失，以及VGG（G，D），感知重建损失[24]，其比较了网络多层的预训练VGGNet [51]特征。我们的完整SIGN GAN目标，T总，是这些的加权和，以及我们提出的手部关键点丢失（等式10）。8），如：点，kH从裁剪的手部区域（即，60x60补丁L=min（（max）L（G、D））以中间关节为中心），vH，即kH=H（vH）。我们避免在图像空间中操作，因为存在托塔尔GKDii=1GAN i模糊的手图像的数据集，而提取的关键点对于运动模糊是不变的。然后，手关键点DH+λμLi=1（G，D）+λL（G（y，IS），z）2+λKEYLKEY（G，DH））（10）对于定性示例（例如，在图4）中，我们共享单个签名者ap-因为我们已经得到了这个签名者的同意，可以将他们的外表用于出版目的。其中k=3且λFM使签名不变的骨架姿势缠结。FMV千兆克5146每一次的损失。，λVGG，λKEY 重量贡献，5147N图4.具有使用FS-NET生成的骨架姿势的照片级真实感帧和使用SIGN GAN生成的照片级真实感视频的示例4. 实验在本节中，我们评估我们的大规模照片逼真的SLP方法。我们概述了我们的实验设置，然后进行定量，定性的用户评价。4.1. 实验装置为了训练我们的大规模SLP方法，我们在MeineDGS（mDGS）语料库3[20]上设置了一个新的翻译协议，这是一个大型的德国手语-DeutscheGebaürdensprache（DGS）语言资源，从330名聋人参与者那里捕获自由形式的签名，词汇量为10，042个注释。为了使语料库适应翻译，我们将自由流动的话语分割成40，230段德语句子，符号注释翻译和手语视频。我们预处理mDGS光泽注释[30]并创建两个协议，包括光泽变体（ mDGS-V ）或删除光泽变体（mDGS）。我们公开发布这些翻译协议4，以促进未来大规模SLP和CSTR研究的发展，附录中提供了进一步的细节必须从汉堡大学获得许可证才能将mDGS用于计算研究。对于其他实验，我们使用来自受约束天气广播域的基准PHOENIX 14T数据集[4]，设置和骨架姿势配置如[44]所示。我们收集了mDGS和PHOENIX 14T中存在的每个DGS符号的详尽字典示例，修剪以删除符号起始和偏移。对于没有表达性口型的样本，我们插入来自连续训练集的相应光泽的示例中存在的面部特征。为了生成照片般逼真的视频，我们使用C4A数据集[5]，因为它具有高视频质量和多样化的解释器外观。我们用热图表示4.2. 定量评价4.2.1文本到光泽我们首先评估我们的文本到光泽的翻译描述在节。第3.1条表 1 显示了 PHOENIX 14T 上 BLEU-4 的性能为21.93，优于[44]（20.23），但低于使用较大训练数据的[38]（23.17）。由于更大的域，在meineDGS-变体（mDGS-V）和mDGS上的翻译性能都相当低，这表明需要进一步的研究来将任务扩展到更大的词汇表。DEV SET TEST SET数据集：BLEU-4胭脂BLEU-4胭脂mDGS-V1.9624.511.1625.34千年目标3.1732.933.0832.52凤凰14T21.9357.2520.0856.63表1.mDGS和PHOENIX 14T上的文本至光泽度结果。4.2.2光泽到姿势反向翻译反向翻译已发展成为最先进的SLP评估指标[44]。我们在PHOENIX 14T上训练了一个模型[7]，使用我们的FS-NET方法生成骨架姿势序列。表2显示了与基线方法相比，在光泽到姿势任务[43，44，46，47]上的相当大的性能增益（43%）。这突出表明，与基线端到端回归方法相比，FS-NET提供了更高的理解能力，能够克服PHOENIX 14T数据集的质量差。此外，可以看出，内插字典序列（与姿势条件，绘制每个骨骼肢体在一个独立的专题频道我们建立我们的文本光泽模型与2层，4头和隐藏大小为128和我们的FS-NET与2层，4头和64隐藏大小。我们设置插值帧，LI，到5，学习率到10−3。我们的代码基于JoeyNMT[32]，并使用PyTorch [40]实现。方法：开发设置测试设置BLEU-4胭脂BLEU-4胭脂3经汉堡大学许可。4https://github.com/BenSaunders27/meineDGS-Translation-Protocols表2.在PHOENIX14T数据集上进行“光泽到姿态”任务的反向转换结果[44]第四十四话11.9334.0110.4332.02[43]第四十三话13.1636.7512.1634.19混合密度网络[46]13.1439.0611.9435.19运动基元的混合[47]13.3237.5812.6735.61内插字典序列16.2838.1116.2736.95FS-NET（Ours）19.1440.9418.7840.605148数据集FS-N ET基线[47] 平等开发设置测试设置进路：BLEU-4胭脂BLEU-4胭脂表3.PHOENIX 14T数据集上的文本到姿势任务的反向翻译结果[53]）获得更差的回译结果，突出了FS-NET协同发音对理解的影响。此外，表3显示了关于要摆姿势的文本的完整流水线的进一步的最先进的结果，具有初始文本到注释翻译和随后的标志动画。这突出了真正SLP所需的完整口语到照片般逼真的视频管道的有效性。签名用户评估我们接下来使用本地签名者执行广泛的用户评估，使用SIGNGAN动画化我们的骨架姿势输出所有基线也由SIGN GAN生成，以减轻比较中的视觉差异。总共有10名参与者完成了我们的手语使用者评估，其中所有人都是流利的手语使用者，20%是聋人。我们在补充材料中提供所有生成的用户评价视频。我们首先将FS-NET组件的理解与最先进的基于深度学习的SLP方法进行比较[47]。我们向参与者展示了从同一序列生成的视频对，要求选择哪个视频更容易理解。表4显示了mDGS和PHOENIX 14T如何一致首选我们的产品。这一压倒性的结果突出了对FS-NET的理解的增加，以及先前的方法无法扩展到不受约束的话语领域。接下来，我们评估我们的大规模标志制作在隔离中的可理解性。我们向每位参与者展示了一个制作的视频，旁边有10个标志，其中5个在视频中签名，并要求他们选择他们认为正在签名的标志。对于FS-NET制作，每个视频平均识别4.8个标志。这表明，我们的产品是容易理解的本地签名者，准确的大规模SLP的一个必要的结果。我们的最终用户评估评估如何共同阐述千年目标百分之九十五0%的百分比百分之五凤凰14T百分之九十五0%的百分比百分之五表4.理解用户评估结果，显示了从FS-NET或基线[47]中选择产品的参与者的百分比，以便更容易理解或平等。表5.协同发音用户评估结果，显示了认为具有最平滑过渡的视频来自FS-NET、孤立拼接或等同的参与者百分比。我们的FS-NET产品。我们向参与者展示了相同序列的两个视频，一个是孤立的字典序列，另一个是由FS-NET生成的共同表达的连续视频，并要求他们选择他们认为在符号之间过渡最平滑的视频。我们首先在不修剪符号起始和偏移的情况下评估字典符号，表5显示我们的产品是unanimously首选的。移动到修剪的字典符号，FS-NEET产品的首选40%的时间，13%的同等偏好。这突出了FS-NET在改善字典符号之间的协同发音和在时间上与连续符号序列对齐方面的有效性。4.2.3pose视频最后，我们评估我们的照片般逼真的手语视频方法，SIGN GAN。我们将SIGN GAN的性能与最先进的图像到图像和视频到视频转换方法[6，54，62，63]进行了比较，条件是骨骼姿态图像。我们使用以下指标来衡量合成图像的质量：1）SSIM：结构相似性[64]在整个图像。2)Hand SSIM：每只手的裁剪上的SSIM度量。3)Hand Pose：使用预先训练的手部姿势估计模型[ 16 ]，生成的2D手部关键点与地面真实手部图像之间的绝对距离。4）FID：在整个图像上的Fre'chet初始距离[21基线比较我们首先将SIGN GAN与基线方法进行比较，以在给定一系列地面真实姿势作为输入的情况下生成照片级真实感。表6显示了C4A数据的结果，SIGNGAN优于所有基线，特别是对于Hand SSIM和FID。我们相信这是由于通过使用所提出的手部关键点丢失来改善合成手部图像的质量。SSIM ↑ 手 SSIM ↑手姿势↓FID ↓EDN [6]0.737 0.55323.09 41.54[第62话]0.750 0.57022.51 56.17[63]第63话0.737 0.55323.06 42.57Stoll等人[五十四]0.727 0.53323.17 64.01SIGN GAN（Ours）0.759 0.60522.05 27.75表6.真实感手语视频生成的基线模型比较结果[44]第四十四话11.8233.1810.5132.46[43]第四十三话12.6533.6810.8132.74混合密度网络[46]11.5433.4011.6833.19运动基元的混合[47]14.0337.7613.3036.77FS-NET（Ours）16.9235.7421.1042.57FS-NET分离平等未修剪百分百0%的百分比0%的百分比5149SSIM ↑ 手 SSIM ↑手姿势↓FID ↓基线0.743 0.58222.87 39.33手部鉴别器0.738 0.56522.81 39.22手部关键点丢失0.759 0.60522.05 27.75表7. SIGN GAN的消融研究结果消融研究我们对SIGN-GAN进行了消融研究，结果见表7。如SEC所建议。3.3，由于产生模糊的手，所以对于SSIM和手SSIM两者，手识别器表现不佳然而，我们提出的手部关键点损失大大提高了模型性能，特别是对于手部SSIM，强调了对抗损失不变量对模糊的重要性。感知研究我们对我们的照片级真实感生成进行了额外的感知研究，显示了由SIGN GAN生成的10秒视频的参与者对和相应的基线方法。参与者被要求选择哪个视频在视觉上更逼真，并分别关注身体和手。总共有46名参与者完成了研究，其中28%是签名者，每人观看了从每个基线随机选择的2个视频表8显示了与基线方法相比，更喜欢SIGNGAN输出的参与者百分比。可以看出，SIGN GAN输出对于身体（平均96.2%）和手部（平均95.6%）合成都是一致优选的。Vid2vid [62]是最强的竞争者，我们的作品只有85%的时间是首选的。聋人用户评估我们的最终用户评估将照片级真实感视频的理解与先前使用的骨架姿势表示进行比较[44]。我们向聋人参与者提供了5个30秒的地面真实骨骼序列视频和相应的照片逼真视频，要求他们对每个视频的可理解性进行评分。合成视频的理解力评分更高，为3.9，而骨骼序列为3.2。这表明，照片般逼真的内容比骨架序列更容易理解聋人签名者。4.3. 定性评价我们在图中示出了示例生成的照片般逼真的帧。4、突出生产质量。我们在补充材料中提供了身体之手EDN [6]100% 97.8%[第62话]百分之八十五点九百分之八十四点八[63]第63话98.9% 100%Stoll等人[五十四]100% 100%表8.感知研究结果，显示与基线模型相比，更喜欢SIGN5. 潜在负面社会影响我们承认SLP技术的潜在用途，以消除对人类口译员的依赖。然而，我们认为这项工作能够提供更多的有符号内容，特别是在不存在解释的情况下我们也认识到，如果这项技术产生不正确的手语内容，特别是在紧急情况下，可能会造成危害。虽然本文大大推进了SLP领域，但我们想指出的是，SLP技术仍处于开发阶段，不应依赖。6. 结论大规模照片般逼真的SLP对于为聋人社区提供高质量的签名内容非常重要。在本文中，我们提出了第一个SLP方法来实现大规模签名和照片般真实感的视频生成。我们提出了FS-NET，它通过对连续序列的最佳时间对齐进行建模来学习字典符号之间的共同表达。此外，我们提出了SIGN GAN来制作照片般逼真的手语视频。我们提出了一种新的基于关键点的损失函数，提高了手部合成的质量，在关键点空间中操作，以避免运动模糊引起的问题。我们展示了我们的方法如何扩展到不受约束的话语领域，并被本地手语者理解，具有相当先进的PHOENIX 14T回译性能。此外，我们进行了广泛的用户评估，显示我们的方法增加了插值字典符号的真实性，可以理解的本地聋人签名，是压倒性的首选基线方法。最后，我们表明，SIGN GAN在定量指标、人类评估和母语聋人手语理解方面优于所有基线方法。我们的方法是有限的，目前的表现，文本的大规模领域的注释翻译。可用的注释是有限的，使得手语翻译任务成为低资源机器翻译任务[38]。需要对体系结构和数据集进行改进，以与口语神经机器翻译（NMT）方法竞争。在未来的工作中，我们计划解决字典符号之间的空间协同发音。致谢该项目得到了 EPSRC 项目 ExTOL （ EP/R 03298X/1）、SNSF项目SMILE-II（CR-SII 5 193686）和欧盟项目EASIER（ICT-57-2020-2020）的支持。101016982）。本工作仅反映作者的观点，委员会不对任何可能由它所包含的信息组成。我们感谢ThomasHanke 和汉堡大学使用 mDGS 数据。我们感谢SWISSTXT使用解释器应用程序数据。5150引用[1] Guha Balakrishnan，Amy Zhao，Adrian V Dalca，FredoDu- rand，and John Guttag.在看不见的姿势中合成人类的图像。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。2[2] 唐纳德·J·伯恩特和詹姆斯·克利福德。使用动态时间规整来发现时间序列中的模式在AAA1-94 Work-shop onKnowledge Discovery in Databases，1994。4[3] Diane Brentari，Joshua Falk，Anastasia Giannakidou，AnnikaHerrmann ， ElisabethVolk ， andMarkusSteinbach.手语祈使句韵律标记的产生与理解。心理学前沿，2018年。2[4] NecatiCihanCamgoíz，SimonHadfield，OscarKoller，Her-mann Ney，and Richard Bowden.神经手语翻译。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。二、六[5] NecatiCihanCamgóz ， BenSaunders ， Guillaum eRo-chette ， Marco Giovanelli ， Giacomo Inches ， RobinNachtrab- Ribback，and Richard Bowden.Content4All开放研究手语翻译数据集。IEEEInternational Conferenceon Automatic Face and Gesture Recognition （ FG ），2021年。二、六[6] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros. 现在大家跳舞。 IEEE InternationalConference on Computer Vision（CVPR），2019。二三五七八[7] NecatiCihanCamg ？ z ， OscarKoller， SimonHadfield ，andRichard Bowden.手语变形金刚：联合端到端手语识别和翻译。在 IEEE 计算机视觉和模式识别会议（CVPR）上，2020年。二、六[8] 海伦·库珀和理查德·鲍登手语的大词典检测。2007年，人机交互国际研讨会。2[9] 斯蒂芬·考克斯、迈克尔·林肯、朱迪·特里格瓦森、梅勒妮·纳基萨、马克·威尔斯、马库斯·图特和桑贾·阿博特。 TESSA ，一个辅助聋人交流的系统。 ACMInternational Conference on Assistive Technologies ，2002。2[10] Runpeng Cui ， Zhong Cao ， Weishen Pan ， ChangshuiZhang ， and Jianqiang Wang. 利用感兴趣区域 IEEETransactions on Multimedia，2019。2[11] Runpeng Cui，Hu Liu，and Changshui Zhang.递归卷积神经网络用于连续符号语言识别的阶段优化。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。2[12] 邓宇，杨蛟龙，陈冬，方文，童欣。通过3D模仿对比学习的解纠缠和可控的人脸图像在IEEE计算机视觉和模式识别会议（CVPR）上，2020年。2[13] 朱尔斯·迪金森工作场所的手语翻译.北京：清华大学出版社. 8[14] Jens Forster ， Christoph Schmidt ， Thomas Hoyoux ，Oscar Koller，Uwe Zelle，Justus H Piater，and HermannNey.RWTH-PHOENIX-Weather ： A Large Vocabulary SignLanguage Recognition and Translation Corpus.语言资源与评估国际会议，2012年。2[15] 延斯·福斯特，克里斯托夫·施密特，奥斯卡·科勒，马丁·贝尔加特，赫尔曼·奈伊.手语识别和翻译语料库的扩展RWTH-PHOENIX-天气。语言资源与评估国际会议，2014年。2[16] Liuhao Ge ， Zhou Ren ， Yuncheng Li ， Zehao Xue ，Yingying Wang，Jianfei Cai，and Junsong Yuan.从单个RGB图像估计3D手部形状和姿态。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年。五、七[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成对抗网络。神经信息处理系统进展（NIPS），2014年。2[18] Kirsti Grobel和Marcell Assan。使用隐马尔可夫模型的孤立手语识别IEEEInternational Conference on Systems，Man，and Cybernetics，1997.2[19] 迈克尔·安德鲁·格罗斯瓦尔德长距离协同发音：英语和美国手语的产生和感知研究。加州大学戴维斯分校，2009年。3[20] ThomasHank e ， LutzK ？nig ， SvenWagner ， andSilkeMatthes.DGS语料&库听写-签名：汉堡工作室设置。在第四届研讨会上的表示和处理的手语：语料库和手语技术（CSLT 2010），瓦莱塔，马耳他，2010年。二、六[21] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。由两个时间尺度更新规则训练的GANs收敛到局部纳什均衡。在神经信息处理系统（NIPS）的进展，2017年。7[22] 黄文灿、潘雯雯、周昭、齐天。快速、高质量的手语制作。2021年第29届ACM国际多媒体会议论文集。2[23] Phi

下载后可阅读完整内容，剩余1页未读，立即下载