手语变形金刚：联合手语识别与翻译的端到端方法

107 浏览量更新于2023-10-23 1 收藏 668KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10023手语变形金刚：联合端到端手语识别与翻译NecatiCihanCam góz，OscarKoller，SimonHadfieldandRichardBo wdenCVSSP，萨里大学，吉尔福德，英国，微软，德国{n.camgoz，s.hadfield，r.bowden}@ surrey.ac.uk，oscar. microsoft.com摘要先前关于手语翻译的工作已经表明，具有中级符号注释表示（有效地识别各个符号）大大提高了翻译性能。事实上，目前最先进的翻译需要注释级别标记化才能工作。我们介绍了一种新的基于Transformer的架构，该架构可以在端到端的方式下共同学习连续手语识别和翻译这是通过使用连接主义时间分类（CTC）损失绑定到一个单一的统一架构的识别和翻译问题这种联合方法不需要任何地面实况定时信息，同时解决两个相互依赖的序列到序列学习问题，并导致显着的性能增益。我们在具有挑战性的 RWTH-PHOENIX-Weather-2014T（PHOENIX 14T）数据集上评估了我们的方法的识别和翻译性能。我们报告国家的最先进的手语识别和翻译的结果取得了我们的手语转换器。我们的翻译网络优于手语视频到口语和注释到口语的翻译模型，在某些情况下，性能提高了一倍以上（9.58vs.21.80 BLEU-4评分）。我们还分享了使用Transformer网络进行其他几个文本到文本手语翻译任务的新1. 介绍手语是聋人的母语，也是他们主要的交流媒介作为视觉语言，它们利用多个互补通道1来传达信息[62]。这包括手动特征，例如手形、运动和姿势，以及非手动特征，例如面部表情、嘴部以及头部、肩部和躯干的运动[5]。手语翻译的目标是将书面语言转换为手语（生产）的视频[59，60]或从某人执行连续手语的视频中提取等效的口语句子[9]。怎么-标志语言眼镜连接时态分类口语句子Transformer编码器Transformer解码器Transformer编码器Transformer解码器SLRTSLTT空间嵌入词嵌入口语词移位图1：使用transformers的端到端手语识别和翻译方法专注于识别符号注释 2 的序列（连续手语识别（CSLR）），而不是完全翻译为口语等价物（手语翻译（Sign Language Translation））。这种区别是重要的，因为手语和口语的语法是非常不同的。这些差异包括（仅举几例）：不同的词序、用于传达并发信息的多个通道以及使用方向和空间来传达对象之间的关系。简而言之，语音和符号之间的映射是复杂的，不存在简单的单词到符号的映射。因此，给定手语视频生成口语句子是时空机器翻译任务[9]。这样一个翻译系统需要我们完成几个子任务，目前尚未解决：标志分割：首先，系统需要从连续的手语视频中检测通常使用主题-评论结构形成的手语句子[62]。这对于基于文本的机器翻译任务来说是微不足道的[48]，其中模型可以使用标点符号来分隔句子。另一方面，基于语音的识别和翻译系统寻找停顿，例如：无声区域，音素之间的分割口语话语[69，76]。在文献中已经有研究涉及自动符号分割[36，52，55，4，13]。然而，据作者所在计算机视觉领域，2符号注释是口语中的单词，[1]语言学家将这些通道称为发音器官。符号，在语言学上，表现为最小的词汇项目。10024手语识别和理解：在成功分割之后，系统需要理解在符号句中传达了什么信息。目前的方法通过识别符号修饰和其他语言成分来解决这个问题。这些方法可以归为CSLR [40，8]的旗帜从计算机视觉的角度来看，这是最具挑战性的任务。考虑到系统的输入是高维时空数据，即：签署视频，模型需要了解什么样的签署人看起来像，他们如何互动，并在他们的三维签署空间移动。此外，模型需要理解这些方面的组合意味着什么这个复杂的建模问题是由手语的异步多发音性质所引起的[51，58]。尽管CSL已经取得了有希望的结果，但最新技术水平[39]只能识别符号注释，并在有限的话语范围内操作，即天气预报[26]。手语翻译：一旦系统理解了符号句中嵌入的信息，最后一步就是生成口语句子。与任何其他自然语言一样，手语有自己独特的语言和语法结构，通常与其口语对应物没有一对一的映射。因此，这个问题真正代表了一个机器翻译任务。计算语言学家进行的初步研究使用文本到文本统计机器翻译模型来学习符号注释与其口语翻译之间的映射[45]。然而，注释是手语的简化表示，语言学家尚未就如何注释手语达成共识对基于视频的连续SLT的贡献很少，主要是由于缺乏合适的数据集来训练这样的模型。最近，Camgoz等人[9]发布了第一个公开可用的手语视频到口语翻译数据集，即PHOENIX 14T。在他们的工作中，作者提出了将机器翻译作为神经机器翻译（NMT）问题来处理。使用基于注意力的NMT模型[44，3]，他们定义了几个翻译任务，并实现了第一个端到端的手语视频到口语句子翻译模型，即Sign2Text。[9]的主要发现之一是，与端到端Sign2Text方法相比，使用基于光泽度的中级表示大大提高了浏览器性能。由此产生的Sign2Gloss2Text模型首先使用最先进的CSLR方法[41]从连续标志视频中识别出注释，该方法用作标记层。然后将识别出的符号注释传递到基于文本到文本注意力的NMT网络[44]以生成口语句子。我们假设有两个主要原因Sign2Gloss2Text的性能优于Sign2Text（18.13 vs9.58 BLEU-4分）。首先，符号注释的数量远低于视频中的帧的数量他们代表。通过使用光泽表示而不是从视频帧中提取的空间嵌入，Sign2Gloss2Text避免了Sign2Text遭受的长期依赖性问题。我们认为第二个也是更关键的原因是在Sign2Text训练中缺乏对符号句子理解的直接指导。鉴于上述任务的复杂性，当前的神经手语翻译架构在没有任何显式中间监督的情况下理解手语可能太困难了。在本文中，我们提出了一种新的手语Transformer方法，它解决了这个问题，同时避免了需要一个两步的管道，其中翻译是完全依赖于识别精度。这是通过以端到端的方式从手语视频的利用Transformer网络[70]的基于编码器-解码器的架构，我们提出了联合连续手语识别和翻译问题的多任务形式化。为了帮助我们的翻译网络理解手语并实现CSL，我们引入了手语识别Transformer（SLRT），这是一种使用CTC损失训练的编码器transformer模型[2]，用于预测符号光泽序列。SLRT采用从标志视频中提取的空间嵌入，并学习时空表示。然后，这些表示被馈送到符号语言翻译Transformer（SLTT），这是一种自回归Transformer解码器模型，它被训练为每次预测一个单词以生成相应的口语句子。该方法的概述可以在图1中看到。本文的贡献可以概括为：• 一个新的多任务形式化的CSL和注释，它利用了监督权力的注释，没有限制的翻译口语。• 首次成功将转换器应用于CSL和CSL，在识别和翻译准确性方面都达到了最先进的水平优于所有可比较的先前方法。• 一系列新的基线结果，以指导该领域的未来研究。本文其余部分的组织结构如下：在第二节中，我们回顾了以往的研究成果，并介绍了NMT领域的最新研究进展。在第3节中，我们介绍了手语转换器，这是一种新型的联合手语识别和翻译方法，可以以端到端的方式进行训练。我们在第4节中分享我们的实验设置。然后，我们在第5节中报告了手语转换器的定量结果，并为先前定义的文本到文本翻译任务提供了新的基线结果在第6节中，我们分享了由我们的网络生成的翻译示例，以使读者进一步了解我们的方法如何执行。我们在第7节中通过讨论我们的发现和未来可能的工作来结束本文。100252. 相关工作在过去的三十年里，计算机视觉社区一直在研究手语[65，56]。计算手语研究的最终目标是建立翻译和制作系统[16]，能够将手语视频翻译为口语句子，反之亦然，以缓解聋人的日常生活[15，6]。然而，迄今为止，大多数研究主要集中在孤立的手语识别[35，75，72，10，63，67]，致力于应用程序特定的数据集[11，71，23]，从而限制了这些技术的适用性。最近的工作已经解决了连续数据[42，32，17，18]，但从识别到翻译的转变仍处于起步阶段[9]。计算语言学家们在此之前曾尝试过实现可译性然而，现有的工作仅仅集中在文本到文本的翻译问题上，并且在大小上非常有限，平均大约3000个单词[46，57，54]。使用统计机器翻译方法，Steinet al. [57]使用 RWTH-PHOENIX-Weather-2012 （ PHOENIX12），提出了一个从德语口语到德语手语的天气广播翻译系统 -DeutscheGe bürdensprache （ DGS ）和viceversa[25]数据集。另一种方法将航空旅行信息从英语口语翻译为爱尔兰手语（ISL），将德语口语翻译为ISL，将英语口语翻译为 DGS ，将德语口语翻译为 DGS[45]。Ebling [22]开发了一种方法，将德语书面列车公告翻译成瑞士德语手语 -Deutschweizer Gebürdensprache（DSGS）。虽然大多数以前的系统中没有包含非手动信息，但EblingHuenerfauth [24]提出了一种基于序列分类的模型，以在核心机器翻译步骤之后调度非手动特征的自动生成。基于视频的概念性网络系统在21世纪初被引入有一些研究，如[12]，提出了孤立地识别符号，然后使用语言模型构建句子然而，端到端的视频传输直到最近才得以实现基于视觉的图像检索的最大障碍是缺乏合适的数据集.用口语翻译对连续的手语视频进行评级和有来自语言来源的数据集[53，31]和广播中的手语翻译[14]。然而，现有的注释要么很弱（字幕），要么太少，无法建立起适用于大量话语的模型。此外，这样的数据集缺乏传统手语识别（SLR）方法严重依赖的人类姿势信息。符号句与其口语翻译之间的关系是非单调的，因为它们具有不同的顺序。此外，符号注释和语言结构不一定与其口语对应物一一对应。这使得使用可用的CSLR方法[42，41]（旨在从弱注释数据中学习）是不可行的，因为它们是建立在手语视频和相应注释共享相同时间顺序的假设上的。为了解决这些问题，Camgozet al. [9]发布了第一个公开可用的天气数据集PHOENIX 14T，它是流行的RWTH-PHOENIX- Weather-2014 （ PHOENIX 14 ）CSLR数据集的扩展。作者将该任务视为时空神经机器翻译问题，他们称之为他们提出了一种使用卷积神经网络（CNN）结合基于注意力的NMT方法[44，3]的系统，以实现第一个端到端的网络模型。在此之后，Koet al.提出了类似的方法，但使用身体关键点坐标作为其翻译网络的输入，并在韩国手语数据集上评估了他们的方法[38]。同时，NMT领域取得了一些进展，其中最重要的一项是引入了Transformer网络[70]。Transformers与传统的基于注意力的编码器-解码器方法相比，显著提高了翻译性能。此外，由于该架构的全连接性质，transformer快速且易于并行化，这使其成为许多机器翻译任务的新架构。除了NMT之外，transformers还在其他各种具有挑战性的任务中取得了成功，例如语言建模[19，77]，学习句子表示[21]，多模态语言理解[68]，活动[73]和语音识别[34]。受他们最近广泛成功的启发，在这项工作中，我们提出了一种新的架构，其中多个相互依赖的Transformer网络同时训练，以共同解决相关的任务。然后，我们将此架构的问题，同时识别和翻译的联合训练提供了显着的好处。3. 手语转换器在本节中，我们将介绍手语转换器，它们共同学习以端到端的方式识别手语视频序列并将其转换我们的目标是学习一致概率p（G| V）和p（S|（五）生成a符号注释序列G =（g1，...， g N），具有N个光泽度，口语句子S =（w1，...， w U），其中U个字被给定符号视频V =（I1，...， I T）与T帧。模拟这些条件概率是一个序列-任务，并提出了几个挑战。在这两种情况下，源域中令牌的数量远大于相应的目标序列长度（即，TN和TU）。此外，手语视频，V，和口语句子，S，是非单调的，因为两种语言有不同的词汇-laries，语法规则和排序。关于SLT的先前的基于序列到序列的文献可以被分类为两组：第一组把问题分成两个阶段。他们认为CSLR是10026（中文（简体）中文（简体）中文（简体）SoftmaxSoftmaxSoftmax连接时态分类SoftmaxSoftmaxSoftmax线性ℎ0线性ℎ��线性ℎ��SLTT添加规格化线性1线性线性FFFFFFSLRT添加规格化添加规格化FFFFFF编码器-解码器注意添加规格化添加规格化Self-Attention（面具）自我注意��መ1��መ��መ��0��PE（1）SEPE（聚乙烯）PE（聚乙烯）CNNPE（1）我们PE（聚乙烯）PE（聚乙烯）1CNNCNN0线性线性线性<公司简介1图2：单层手语Transformer的详细概述(SE：空间嵌入，WE：单词嵌入，PE：位置编码，FF：前馈）初始过程，然后尝试将问题解决为文本到文本翻译任务[12，9]。Camgoz等人利用最先进的CSL方法[41]来获得符号注释，然后使用基于注意力的文本到文本NMT模型[44]来学习符号注释到口语句子翻译，p（S| G）[9]。然而，在这样做的时候，这种方法在中级光泽度表示中引入了信息瓶颈，位置。这限制了网络还有一个固有的信息损失，因为符号注释是一个不完整的注释，仅用于语言研究，因此它忽略了许多关键的细节和信息在原始手语视频。第二组方法专注于从符号视频表示到口语的翻译，没有中间表示 [9 ， 38]。这些方法试图学习 p（ S|（五）直接。如果有足够的数据和足够复杂的网络架构，这种模式-ELS在理论上可以实现端到端的互连，而不需要作为瓶颈的人类可解释的信息。然而，由于缺乏指导手语理解的直接监督，这些方法的性能明显低于当前可用数据集上的对应方法[9]。为了解决这个问题，我们提出共同学习p（G| V）和p（S| V），以端到端的方式。我们建立在trans-former网络[70]上，以创建一个统一的模型，我们称之为手语转换器（见图2）。我们训练我们的网络从手语视频表示生成口语句子。在训练期间，我们以CTC丢失的形式将中间光泽监督注入手语识别Transformer（SLRT）编码器。这有助于我们的网络学习更多的意思-该方法可以在不限制传递给解码器的信息的情况下实现符号的有效时空表示。我们采用自回归手语翻译转换器（SLTT）解码器，每次预测一个单词来生成口语句子翻译。3.1. 空间和单词嵌入遵循经典的NMT管道，我们首先嵌入源和目标令牌，即手语视频帧和口语单词。作为单词嵌入，我们使用线性层，该层在训练期间从头开始初始化，将单词的one-hot-vector表示为了嵌入视频帧，我们使用SpatialEmbedding方法[9]，并通过CNN传播我们将这些操作公式化为：mu= WordEmbedding（wu）（一）ft= SpatialEmbedding（It）其中mu是口语单词wu的嵌入表示，并且ft对应于从CNN获得的非线性帧级空间表示。与其他序列到序列模型[61，27]不同，Transformer网络不采用递归或卷积，因此缺乏序列内的位置信息。为了解决这个问题，我们遵循[70]中提出的位置编码方法，并将时间排序信息添加到我们的嵌入式表示中：ft=ft+ PositionalEncoding（t）mu=mu+PositionalEncoding（u）其中PositionalEncoding是预定义函数，其针对每个时间步长产生相移正弦波形式的唯一向量10027u3.2. 手语识别转换器SLRT的目的是从连续的手语视频中识别注释，同时学习有意义的时空表示，以实现手语翻译的最终目标。使用位置编码的空间嵌入f 1：T，我们训练了一个Transformer编码器模型[70]。SLRT的输入首先由Self建模注意层，它学习视频的帧表示之间的上下文关系然后，自注意的输出通过非线性逐点前馈层。所有的操作之后的剩余连接和归一化，以帮助训练。我们将此编码过程公式化为：zt=SL RT（ft|其中，z t表示所述空间的时空表示。给定所有视频帧的空间表示，由SLRT在时间步长t生成的帧It，f∈1：T。我们注入中间监督，帮助我们的网络理解符号，并引导他们学习有意义的符号表示，这有助于翻译的主要任务我们将SLRT训练为模型p（G|V）和预测符号注释。由于符号的时空性质，注释具有到视频帧的一对多映射，但共享相同的命令。在提取上下文信息时，每个令牌可以仅使用其前任。这个屏蔽操作是必要的，因为在推理时，SLTT从SLRT和SLTT自注意层两者提取的表示被组合并且被给予编码器-解码器注意模块，该编码器-解码器注意模块学习源序列和目标序列之间的映射。编码器-解码器注意力的输出然后通过非线性逐点前馈层。与SLRT类似，所有操作之后都是残差连接和归一化。我们将该解码过程公式化为：hu+1=SLTT（mu|m1：u−1，z1：T）。（五）SLTT每次学习生成一个单词，直到它生成特殊的句子结束标记eos>。< 它是通过分解序列级条件概率p（S）来训练的|V）为有序条件概率YUp（S| V）= p（w u|（6）u=1其用于计算每个单词的交叉熵损失为：训练SLRT的一种方法是使用具有帧级注释的交叉熵损失[29]。然而，签YULT=1 −ΣD p（wd）p（wd|（7）第二节具有如此精确度的注释是罕见的。较弱监督的替代形式是使用序列到序列学习损失函数，例如CTC [30]。给定空间-时间表示z1：T，我们获得帧级光泽概率p（g t| V），使用线性投影层，然后是softmax激活。然后我们使用CTC来计算p（G| V）通过边缘化所有可能的V至G比对为：Σu uu=1d=1其中p（w_d）表示在解码步骤u处单词w_d的真实概率，并且D是目标语言词汇量。我们通过最小化联合损失项L来训练我们的网络，联合损失项L是识别损失LR和翻译损失LT的加权和：p（G| V）=π∈Bp（π|（三）L=λRLR+λTLT（8）其中π是路径，B是对应于G的所有可行路径的集合。然后我们使用p（G| V）将CSLR损失计算为：LR=1 − p（G|（四）其中，G是地面实况注释序列。3.3. 手语翻译我们的方法的最终目标是从符号视频表示生成口语句子。我们提出了一个自回归Transformer解码器模型，名为SLTT，它利用时空表示，学习了SLRT。我们首先在目标口语句子S前面加上特殊的句子开头标记bos>。<然后，我们提取位置编码的字嵌入。这些嵌入被传递给伪装的自我关注层虽然在自注意层后的主要思想与SLRT中相同，但SLTT在自注意层输入上使用掩码这确保其中λR和λT是超参数，决定了训练过程中每个损失函数的重要性，并在第5节中进行了评估。4. 数据集和翻译协议我们在最近发布的PHOENIX 14T数据集[9]上评估了我们的方法，该数据集是一个大词汇量的连续语料库。PHOENIX14T是PHOENIX14语料库的翻译扩展，近年来已成为CSL的主要基准。PHOENIX 14T包含并行手语视频、注释及其翻译，这使其成为唯一适用于训练和评估联合SLR和SLR技术的可用数据集。该语料库包括来自9个不同手语者的不受约束的连续手语，词汇量为1066个不同的手语。这些视频的翻译提供德语口语，词汇量为2887个不同的单词。10028PHOENIX 14T数据集的评价方案，如[9]所述，如下所示：Sign 2 Text是Sign的最终目标，其目标是直接从连续的标志视频翻译为spo- ken语言句子，而不需要通过任何中间表示，例如注释。Gloss2Text是一个文本到文本的翻译问题，其目标是将地面真值符号注释序列翻译成德语口语句子。这些实验的结果作为一个虚拟的上限为现有的NMT翻译技术。这种解释是基于这样一个事实，即完美的手语识别/理解是通过使用地面实况注释来模拟的。然而，如前所述，需要记住光泽表示是不精确的。由于注释是多通道时间信号的文本表示这意味着在理想条件下，Sign2Text系统可以而且应该优于Gloss2Text。然而，需要更复杂的网络架构和数据来实现这一目标，因此这一目标仍然是一个长期目标，超出了本文的范围。Sign2Gloss2Text是目前最先进的XML。该方法利用CLR模型从手语视频中提取注释序列，然后使用将翻译任务作为文本到文本的问题来解决，通过使用CSL预测来训练Gloss2TextSign2Gloss→Gloss2Text类似于Sign2Gloss2Text，还使用CSLR模型来提取注释序列。怎么-以往，Sign2Gloss→Gloss2Text模型不是从头开始训练文本到文本翻译网络，而是使用性能最好的Gloss2Text网络，该网络已使用地面实况注释进行训练，以从中间符号注释序列从CSLR模型的输出。除了评估我们的网络，在上述协议中，我们另外引入了两个遵循相同命名约定的新协议。Sign2Gloss是一个基本上执行CSL的协议，而Sign2（Gloss+Text）需要联合学习连续的手语识别和翻译。5. 定量结果在本节中，我们将分享我们的手语识别和翻译实验设置，并报告定量结果。我们首先回顾一下实现细节，并介绍我们将用来衡量模型性能的评估指标。我们通过将Transformer网络应用于文本到基于文本的文本检索任务，即 Gloss2Text ，Sign2Gloss2Text，Sign2Gloss→Gloss2Text，并报告了使用基于递归神经网络（RNN）的模型的改进性能我们分享了我们的Sign2Gloss实验，在实验中我们探索了不同类型的空间嵌入和网络的影响关于CSLR绩效的工作结构然后我们训练Sign2Text和Sign2（Gloss+Text）模型，并研究了不同识别损失权重对联合识别和翻译性能的影响。最后，我们将我们的最佳性能模型与其他方法进行比较，并报告最先进的结果。5.1. 实施和评估详细信息框架：我们使用了JoeyNMT的修改版本[43]来实现我们的手语变形金刚3所有我们的网络组件是使用PyTorch框架[50]构建的，除了CTC波束搜索解码，我们使用TensorFlow实现[1]。网络详细信息：我们的变压器使用512个隐藏单元和每层8个头构建。我们使用Xavier初始化[28]并从头开始训练我们所有的网络。我们还使用0的dropout。Transformer层和字嵌入的下降率为1，以减轻过度拟合。性能指标：我们使用字错误率（WER）来评估我们的识别模型，因为它是评估CSL性能的普遍指标[40]。为了衡量我们网络的翻译性能，我们使用了BLEU [49]得分（n-gram范围从1到4），这是机器翻译最常见的度量标准。训练：我们使用Adam [37]优化器来训练我们的网络，使用批量大小为32，学习率为10−3（β1 = 0）。9，β2 = 0。998）和10−3的重量衰减。我们利用高原学习率调度，跟踪去-设置性能参数。我们每100次迭代评估一次网络如果开发分数在8个评估步骤中没有下降，我们将学习率降低0倍。7 .第一次会议。这种情况一直持续到学习率下降到10- 6以下。解码：在训练和验证步骤中，采用贪婪搜索来解码光泽序列，口语句子在推理时，我们利用宽度范围从0到10的波束搜索解码。我们还实现了长度惩罚[74]，α值范围从0到2。我们在开发集上找到了波束宽度和α的最佳性能组合，并将这些值用于测试集评估。5.2. 中文手语翻译在我们的第一组实验中，我们调整了我们技术的trans-former主干，用于文本到文本的符号语言翻译。然后，我们评估了基于RNN的注意力架构所获得的性能增益。从表1中可以看出，利用转换器进行文本到文本的手语翻译提高了所有任务的性能，达到了令人印象深刻的25。35/24. 54BLEU-4在开发和测试集上的得分我们认为这种性能的提高是由于更复杂的注意力架构，即自我注意模块，它学习源和目标序列中的上下文信息3https://github.com/neccam/slt10029DEV测试文本到文本任务（RNN vs Transformers）WERBLEU-1BLEU-2BLEU-3BLEU-4WERBLEU-1BLEU-2BLEU-3BLEU-4Gloss2Text [9]-44.4031.8324.6120.16-44.1331.4723.8919.26我们的Gloss2Text-50.6938.1630.5325.35-48.9036.8829.4524.54[9]第九话-42.8830.3023.0218.40-43.2930.3922.8218.13我们的Sign2Gloss2Text-47.7334.8227.1122.11-48.4735.3527.5722.45Sign2Gloss→Gloss2Text[9]-41.0829.1022.1617.86-41.5429.5222.2417.79我们的Sign2Gloss→Gloss2Text-47.8434.6526.8821.84-47.7434.3726.5521.59视频转文本任务WERBLEU-1BLEU-2BLEU-3BLEU-4WERBLEU-1BLEU-2BLEU-3BLEU-4CNN+LSTM+HMM [39]24.50----26.50----我们的Sign2Gloss24.88----24.59----Sign2Text [9]-31.8719.1113.169.94-32.2419.0312.839.58我们的Sign2Text-45.5432.6025.3020.69-45.3432.3124.8320.17我们最好的面包。标志2（光泽+文字）24.6146.5634.0326.8322.1224.4947.2034.4626.7521.80我们最好的Trans.标志2（光泽+文字）24.9847.2634.4027.0522.3826.1646.6133.7326.1921.32表1：（上）使用Transformer网络在Phoenix 2014 T [9]上进行文本到文本任务的新基线结果，以及（下）我们与最先进的手语转换器进行比较的最佳性能。5.3. Sign2Gloss为了解决Sign2Gloss任务，我们利用我们的SLRT网络。任何CNN架构都可以用作空间嵌入层，以学习手语视频帧表示，同时以端到端的方式训练SLRT。然而，由于硬件限制（显卡），我们使用预训练的CNN作为空间嵌入。我们从标志视频中提取帧级表示，并训练我们的手语转换器，以端到端的方式共同学习CSLR和在我们的第一组实验中，我们研究了应该使用哪个我们利用最先进的EfficientNets [66]，即B0，B4和B7，它们在ImageNet [20]上训练。我们还使用了一个Inception [64]网络，该网络在CNN+LSTM+HMM设置中进行了预训练以学习在这组实验中，我们采用了两层变压器编码器模型。表2显示，随着空间嵌入层变得更高级，即. B0与B7相比，识别率增加。然而，当我们使用预训练的特征时，我们的网络受益然后，我们尝试使用批量归一化[33]，然后使用ReLU [47]来规范化我们的输入，并允许我们的网络学习更抽象的非线性表示。这极大地改善了我们的结果，使我们在开发集和测试集上的绝对WER降低分别提高了近7%和6% 考虑到这些发现-空间嵌入DEVdel /insWER测试del /insWER高效Net-B 047.22 /1.5957.0646.09 /1.7556.29高效网络B440.73 /2.4551.2638.34 /2.8050.09efficientnet-B739.29 /2.8450.1837.05 /2.7647.96预训练CNN21.51 /6.1033.9020.29 /5.3533.39+ BN ReLU13.54 /5.7426.7013.85 /6.4327.62表2：空间嵌入层变体的影响。ings，我们的其余实验使用[39]的批量归一化预训练CNN特征，然后使用ReLU。接下来，我们研究了具有不同数量的Transformer层的影响。虽然拥有更多的层可以让我们的网络学习更抽象的表示，但这也使它们容易过度拟合。为此，我们使用一到六层构建了SLRT网络，并评估了它们的CSLR性能。我们的识别性能最初通过广告层得到改善然而，随着我们继续添加更多的层，我们的网络开始过度拟合训练数据，导致性能下降。有鉴于此，在我们剩下的实验中，我们使用三层构建了我们的手语转换器。5.4. Sign2Text和Sign2（光泽+文本）在我们的下一组实验中，我们将检查通过将识别和翻译任务统一到单个模型中所实现的性能增益。作为基线，我们通过将识别损失权重λR设置为零来训练Sign2Text然后，我们共同训练我们的手语转换器，用于识别和翻译，在损失之间具有各种权重。从表4中可以看出，以相等的权重（λ R = λ T= 1. 0）改进了翻译性能，同时与任务特定网络相比降低了识别性能。我们认为这是由于CTC的尺度差异和词级交叉熵损失造成的。增加识别损失权重，DEV测试层数del/insWERdel/insWER111.72 /9.0228.0811时20分/10时57分29.90213.54 /5.7426.7013.85 /6.4327.62311.68 /6.4824.8811.16 /6.0924.59412.55 /5.8724.9713.48 /6.0226.87511.94 /6.1225.2311.81 /6.1225.51615.01 /6.1127.4614.30 /6.2827.78表3：不同层数的影响10030损失权重λRλTDEV测试WERBLEU-4WERBLEU-41.00.024.88-24.59-0.01.0-20.69-20.171.01.035.1321.7333.7521.222.51.026.9922.1127.5521.375.01.024.6122.1224.4921.8010.01.024.9822.3826.1621.3220.01.025.8720.9025.7320.93表4：训练手语转换器以联合学习识别和翻译，其中识别损失具有不同权重翻译性能，证明了在这些相关任务之间共享培训的价值。与以前发表的方法相比，我们的手语转换器超越了它们的识别和翻译性能（见表 1 ）。我们报告在Sign2Gloss 和 Sign2 （ Gloss+Text ）设置中测试集的WER比[39]降低了2% 更令人印象深刻的是，我们的Sign2Text和Sign2（Gloss+Text）网络的翻译结果比之前的最先进的翻译结果翻了一番（9.58 vs. 20.17和21.32 BLEU-4）。此外，我们最好的翻译信号2（光泽+文本）优于卡姆戈兹等人。的基于文本到文本的Gloss 2 Text翻译每-BLEU（19.26 vs 21.32 BLEU-4），这是以前在[9]中提出的性能伪上限。这支持了我们的主张，即给定更复杂的网络架构，人们将并且应该实现直接从视频表示进行翻译的更好性能，而不是通过有限的注释表示进行文本到文本的翻译。6. 定性结果在本节中，我们报告我们的定性结果。我们分享了由我们最好的Sign2（光泽+文本）模型生成的口语翻译，给出了标志视频表示（见表 5 ） 4 。由于PHOENIX14T数据集中的注释是德语的，因此我们将生成的句子及其翻译共享为英语。总的来说，翻译的质量是好的，即使在确切的措辞不同，它传达了相同的信息。最困难的翻译似乎是命名实体，如训练数据中有限上下文中出现的位置具体的数字也具有挑战性，因为没有语法上下文来区分彼此。尽管如此，生成的句子遵循标准的语法，几乎没有例外。7. 结论和未来工作手语识别和理解是手语翻译任务的重要组成部分。以前的翻译方法在很大程度上依赖于识别作为其系统的初始步骤。在本文中，我们提出了手语转换器，一种新的基于转换器的架构，共同学习手语识别和转换，4访问我们的代码库，获取更多定性示例。表5：手语转换器生成的口语翻译。以端到端的方式。我们利用CTC损失向Transformer编码器中注入光泽度监督，训练它进行手语识别，同时学习有意义的表示，以实现手语翻译的最终目标，而没有明确的光泽表示作为信息瓶颈。我们在具有挑战性的PHOENIX 14T数据集上评估了我们的方法，并报告了最先进的手语识别和翻译结果，在某些情况下，比以前的翻译方法性能提高了一倍。我们的第一组实验表明使用在符号数据上预训练的特征优于使用基于通用ImageNet的空间表示。此外，我们已经证明，联合学习识别和翻译提高了两项任务的绩效。更重要的是，我们已经超越了文本到文本的翻译结果，这被设置为一个虚拟的上限，通过直接翻译口语句子从视频表示。作为未来的工作，我们希望扩展我们的方法来单独建模多个符号发音器官，即面部，手部和身体，以鼓励我们的网络学习它们之间的语言关系。8. 确认这项工作得到了SNSF Sinergia项目的资助“微笑”（CRSII 2 160811），欧盟的地平线2020研究和创新计划根据赠款协议没有。762021“Content 4All”和EPSRC项目“ExTOL”（EP/R 03298 X/1）。本作品仅反映作者我们也要感谢NVIDIA公司的GPU拨款。参考文件：我们的：我的风很大。（在南风中。）的方式风把我吹得很急。（南风吹得很柔和。）的方式参考文件：我们的：我也是。（星期四也是类似的天气。）的方式你也会在舞会上变得更湿。（星期四的天气也差不多。）的方式参考文件：我们的：今天的气温和往常一样高。（与今天的气温相当，在6到11度之间。）就像今天晚上一样。（类似于今天晚上的六到十一度。）的方式参考文件：我们的：今天晚上，我的房间里有两个房间。（今晚东南部十九到十五度，十二度。）的方式今天晚上我们要做两件事，一件事是把它做成两件事。（今晚东南部的温度在九到十五度之间，一直到十二度。）的方式参考文件：我们的：am sonntag im norden und in der mitte schauer dabei ist es im norden s türmisch.（星期天北部有阵雨，北部有暴风雨。）的方式am sonntag im norden und in der mitte niederschlaüge im norden ist es weitersturürmisch.（周日北部，降雨中心北部持续暴雨。）的方式参考文件：我们的：im su¨ den und su¨ dwesten gebietsweise r e gen sonst recht freundlich.（南部和西南部部分地区下雨，否则相当友好。）imsudwesten re gnet es zum teil kraftig.（西南部局部大雨。）的方式参考文件：我们的：夜晚的温度会下降到深夜。（夜间气温降至十四至七度。）今天晚上我们要做两件事，一件事。（今晚的温度在7到7度之间。）的方式参考文件：今天晚上是最黑暗的时候了。（今晚多云局部有雨或小雨。）的方10031引用[1] Mart 'ın Abadi，Paul Barham，Jianmin Chen，ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe- mawat，Geoffrey Irving，Michael Isar

下载后可阅读完整内容，剩余1页未读，立即下载