简单多模态迁移学习基线用于手语翻译的有效方法

107 浏览量更新于2023-10-26 收藏 12.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

51200一种用于手语翻译的简单多模态迁移学习基线0陈雨桐 1 * 魏方云 2 孙晓 2 吴志荣 2 林石 201 清华大学 2 微软亚洲研究院0chenytjudy@gmail.com { fawe, xias, wuzhiron, stevelin } @microsoft.com0摘要0本文提出了一种简单的手语翻译迁移学习基线。现有的手语数据集（如PHOENIX-2014T、CSL-Daily）仅包含约10K-20K对手语视频、手语注释和文本，这比训练口语翻译模型的典型平行数据小一个数量级。因此，数据是训练有效的手语翻译模型的瓶颈。为了缓解这个问题，我们提出了逐步从包含大量外部监督的通用领域数据集到领域内数据集进行模型预训练的方法。具体而言，我们在人类动作的通用领域和手语到手语数据集的领域内分别对手语到手语的视觉网络和手语到文本的翻译网络进行预训练。联合模型通过一个名为视觉-语言映射器的附加模块连接这两个网络。这种简单的基线在两个手语翻译基准测试中超过了先前的最新结果，证明了迁移学习的有效性。由于其简单性和强大的性能，这种方法可以作为未来研究的坚实基础。01. 引言0手语是聋人和听力障碍人群之间的视觉信号交流方式。这些语言主要通过手部表达，但也受到身体、头部、嘴巴、眼睛和眉毛的运动的极大帮助。虽然自动机器翻译口语的技术已经成功地投入生产[8, 25, 33,44]，但手语翻译（SLT）的研究落后于并且仍处于早期开发阶段。一个有效的自动手语翻译系统可以帮助建立聋人和听力正常人之间的桥梁。现有的手语翻译方法遵循最初为口语开发的神经机器翻译（NMT）框架[4-6, 46, 49,50]，区别在于源语言表示为时空像素而不是离散标记。具体而言，手语视频首先通过视频主干网络提取中间表示，然后通过NMT将其映射到目标语言文本。中间表示通常由手语注释进行监督[6, 49,50]，其中每个手语注释对应于连续视频输入中单个手语的语义含义（例如，快乐、悲伤）。尽管采用了先进的神经机器翻译的公式，但目前的结果远未令人满意。0* 陈雨桐在微软亚洲研究院实习期间完成。0手语视频0视觉编码器0视觉监督0视觉-语言映射器0翻译编码器0翻译解码器0语言监督0端到端训练0视觉预训练语言预训练0视觉特征0语言特征0图1.我们将手语翻译分解为视觉任务（左侧）和语言任务（右侧），并提出了一个视觉-语言映射器（V-LMapper）来连接它们之间的关系。这种分解允许视觉和语言网络在联合训练之前进行有效和独立的预训练。手语视频的时空信息和文本转录的语义知识都通过VL-Mapper进行编码。0听力障碍和听力正常人之间的桥梁。现有的手语翻译方法遵循最初为口语开发的神经机器翻译（NMT）框架[4-6, 46,49,50]，区别在于源语言表示为时空像素而不是离散标记。具体而言，手语视频首先通过视频主干网络提取中间表示，然后通过NMT将其映射到目标语言文本。中间表示通常由手语注释进行监督[6, 49,50]，其中每个手语注释对应于连续视频输入中单个手语的语义含义（例如，快乐、悲伤）。尽管采用了先进的神经机器翻译的公式，但目前的结果远未令人满意。01注释是手语的逐字转录，其中每个注释都是一个唯一的标签，用于表示一个手势。通常，我们通过一个大写字母来标识每个注释，该字母与手势的含义 loosly 相关联。2. Related WorkSign Language Recognition. A fundamental task in signlanguage understanding is Isolated Sign Language Recog-nition (ISLR), which aims to identify a single gloss wordlabel for a short video clip [2, 19, 20, 28, 30, 43]. The morechallenging task of Continuous Sign Language Recogni-tion (CSLR) seeks to convert a continuous sign video intoa gloss sequence using only weak sentence-level annota-tions [9, 22, 23, 37, 50]. Our work fully exploits gloss an-notations for SLT by transferring within-domain knowledgefrom ISLR to CSLR and SLT.Sign Language Translation. Sign Language Translation(SLT) aims to translate a raw video sequence to a spokenlanguage sentence [4–6, 12, 29, 46, 49, 50]. Existing worksattempt to formulate this task as a neural machine transla-tion (NMT) problem. However, unlike NMT which ben-efits from a large-scale parallel corpus, SLT greatly suf-fers from data scarcity.To tackle this issue, [6] jointlytrains SLR and SLT to enforce regularization on the trans-lation encoder; [49] proposes a data augmentation strategyof back-translating text to visual features using glosses asthe pivot. Moreover, [5, 50] manually design sophisticatedmulti-cue channels to model the collaboration of multiplevisual cues in sign language, and [29] introduces a tempo-ral semantic pyramid network to capture multiple levels oftemporal granularity in sign videos. Compared to these ef-51210令人满意。在PHOENIX-Weather-2014T测试数据集上，最好的报告的手语翻译性能[49]是BLEU-4方面的24.32，而基线变压器在英语到德语翻译方面达到30.9BLEU-4分数[33]。我们假设阻碍手语翻译进展的关键因素是训练数据的规模。要有效地训练一个典型的NMT模型，通常需要一个包含100万个平行样本的语料库[42]。然而，现有的手语数据集小了一个数量级，只包含不到2万个平行样本[4,49]。在本文中，我们研究了一种多模态预训练方法，以应对手语翻译中的数据稀缺问题。虽然预训练和迁移学习在视觉[11,17,34]、语言[10,25,27,33,40]和跨模态[26,31,35,39,47]任务中极大地提高了性能，但在SLT中仍然不够充分。我们的工作旨在利用它们在SLT中的优势。SLT可以分解为两个不相交的任务：一个视觉动作识别任务，将手势视频转换为语义注释（Sign2Gloss），以及一个语言翻译任务，将注释映射到口语文本（Gloss2Text）。我们的迁移学习方法逐步分别预训练每个任务，然后微调联合模型。对于Sign2Gloss，我们首先在通用领域上预训练视觉模型以学习通用人类动作[21,28]，然后将其迁移到领域内以学习细粒度的注释。类似地，对于Gloss2Text，我们采用mBART[33]，它是一个在大规模通用领域多语言语料库上预训练的去噪自动编码器，并将其迁移到领域内的注释到文本翻译任务。通过利用可以有效转移到手语翻译的现有数据集和监督，减少了收集大规模平行数据的必要性。通过训练良好的Sign2Gloss和Gloss2Text模块，我们可以构建一个称为Sign2Gloss2Text的两阶段流水线，从视频生成注释序列，然后将预测的注释序列翻译成文本。这个两阶段的流水线也在[4,6,46,49]中实现，并显示出有希望的结果。然而，注释是语言模态的离散表示，没有编码手势视频的任何时空视觉信息，比如面部表情[2]，这可能导致翻译性能下降。例如，听障人士使用夸张的面部表情来传达副词“极其”，但这种信息在注释中被忽略。相反，标注者和语言学家必须考虑这些副词，以产生完整和语义准确的翻译句子。因此，需要结合视觉和语言模态。02 在手语中，面部表情被用来表达语言信息和情感。0为此，我们引入了一个视觉-语言映射器，它将视觉模型中的注释分类之前的视觉特征与翻译模型中的注释嵌入连接起来。通过这个映射器，完整的模型在联合训练中进行优化，并且离散的注释表示在联合训练中被规避。该映射器只是一个具有两个隐藏层的全连接MLP。图1显示了我们的设计。与以往试图通过手工方式集成来自口型或手势的多个线索来提高翻译性能的工作[5,50]或采用高级机器翻译技术如回译[49]相比，我们的整体框架非常简单，是在标准NMT模型之上的迁移学习方法。一些以前的工作通过在人类动作识别[29]上预训练视觉骨干或加载预训练的词嵌入[29,46]来进行SLT的迁移学习，而我们是第一个以渐进的方式采用通用领域和领域内预训练，并将预训练的口语模型融入SLT。我们的实验结果表明，这种渐进的视觉和翻译模型的预训练极大地提升了性能。我们简单的方法在PHOENIX-2014T[4]和CSL-Daily[49]上超过了所有现有方法，包括那些采用半监督学习的方法。………VisualEncoderVisualPretrainingVisual FeatureCTC LossGloss: BESONDERS/NORDWEST/WIND/STARK(Especially/Northwest/Wind/Strong)TranslationDecoderTranslation LossText: VOR ALLEM IM NORDWESTEN IST ES SEHR WINDIG.(Especially in the northwest it is very windy.)LanguagePretrainingLanguage ModuleT/4ClassifierSign Language VideoTCKVisual Module 224x224x3xT1xCxT/41xKxT/4TranslationEncoderV-L Mapper as BridgeV-L MapperLanguage FeatureFigure 2. Overview of our framework. We decouple sign language translation into a visual task and a language task. The proposedvisual-language mapper (V-L Mapper) establishes a bridge between features of the visual modality and language modality for end-to-endtraining. The decoupling allows both visual and language networks to be progressively and independently pretrained.forts, our method is simple yet more effective by utilizinga large amount of external supervision through progressivepretraining.Action Recognition. A related research field that may fa-cilitate visual modeling of sign language is action recog-nition, where many works focus on network architec-ture [7, 13, 14, 38, 45] and large-scale dataset construction[15, 18, 21].As fine-grained gesture understanding is aspecial case of human action recognition, some works forISLR [2,28,30] and SLT [29] initialize their visual networkwith weights pretrained on action classification task. Weemploy general-domain pretraining on action recognitiontogether with within-domain pretraining on Sign2Gloss ina progressive manner.Pretraining for Text Generation.Recently, the NLPcommunity has seen rapid progress in large-scale self-supervised pretraining [8, 10, 27, 40, 41], which brings sig-nificant gains on downstream tasks.In particular, pre-training a language model on a large-scale monolingualcorpus brings large improvements in low-resource NMT[1,3,8,33]. Some multi-modality tasks such as image cap-tion and VQA also leverage pretrained language models asinitialization for bi-modal transformers [31,35,48]. As signlanguage is a full-fledged language system, powerful NLPtechniques can likely be extended into SLT to help addressthe data-scarcity issue. We are the first to apply a pretrainedlanguage model for spoken language in SLT.Transfer learning in SLT. Some previous works attemptto transfer external vision or language knowledge to SLT.For visual pretraining, [29] pretrains the visual backboneon Kinetics-400 [21] and two ISLR datasets [20, 28].[4,51220[6, 49,50]在领域内的Sign2Gloss任务中预训练他们的视觉骨干网络并使用手语注释。我们采用了通用领域和领域内的渐进式预训练。对于语言预训练，[29,46]将预训练的词嵌入加载到解码器的嵌入层中0但未能证明它们的有效性。我们是第一个利用强大的预训练语言模型，带来了显著的改进。03.方法在本节中，我们介绍了我们的手语翻译简单方法。给定一个输入手语视频V =(v1，...，vT)，其中T帧，我们的目标是学习一个神经网络Nθ(∙)，它可以直接从手语视频V预测出关联的口语句子S =(s1，...，sU)：0S = Nθ(V). (1)0为了从行动识别和机器翻译的一般领域中转移知识，我们将SLT框架分解为两个不相交的任务：一个将手语视频转换为语义手语（Sign2Gloss）的视觉行动识别任务，以及一个将手语转换为口语文本（Gloss2Text）的语言翻译任务。这样我们可以分别预训练每个任务，然后微调联合模型。在我们的方法中，整体网络Nθ(.)由三个子网络组成：1）将原始视频转换为视觉特征的视觉编码器网络E；2）将语言特征翻译成口语文本的序列到序列翻译网络D；3）用于联合训练的视觉-语言映射器M。该框架如图2所示。在这项工作中，我们证明使用这样一个简单的、不加修饰的框架可以实现高水平的手语翻译性能。除了其简单性和高性能，我们还发现当前SLT系统的瓶颈主要在于缺乏训练数据，因此一种能够通过预训练从视觉和语言两方面充分利用尽可能多的训练数据的更灵活的架构是更优越的。51230S3D（1-4块）0线性/BN/ReLU0时间卷积0块0Softmax0CTC损失0手语逻辑（T/4xK）0手语概率（T/4xK）0手语预测（V）0S3D特征（T/4x843）0线性分类器0手语表示（T/4x512）0CTC解码器0手语视频0（Tx224x224x3）0头部0骨干0仅推理0图3. 我们视觉编码器网络的架构。03.1. 视觉编码器网络和预训练0视觉编码器网络E将原始视频输入转换为视觉特征。这个阶段的视觉特征主要用于预测手语标签，本质上是一个细粒度的行动识别任务。图3显示了网络架构，它由一个视频骨干和一个轻量级头部组成，用于进一步编码时间信息。视频骨干。我们使用S3D[45]作为我们的骨干，因为它在性能和推理速度之间有很好的平衡。我们将每个T×224×224×3的视频输入到骨干中。只使用S3D的前四个块，因为我们的目标是提取用于手语序列预测的密集表示，因此提取的S3D特征在空间池化后的大小为T/4×832。然后，提取的特征作为我们头部网络的输入。头部网络。如图3所示，我们的轻量级头部网络包含一个投影块，其中包含一个时间线性层、一个批归一化层和一个ReLU层，以及一个时间卷积块，其中包含两个时间卷积层，时间核大小为3，步长为1，一个线性翻译层和一个ReLU层。我们将S3D特征输入到投影块和后续的时间卷积块中，生成Z∈RT/4×512。我们称之为手语表示，因为它在高维空间中表示手语类别。然后，应用线性分类器和Softmax函数提取帧级手语概率P∈RT/4×K，其中K是手语词汇的大小。渐进式预训练。我们通过首先在通用领域进行预训练来逐步预训练视觉编码器E，以学习通用的人类行为，然后将其转移0针对学习细粒度手语标记的领域内任务。具体而言，对于通用领域的预训练，我们在Kinetics-400上预训练了S3D骨干网络，这是一个动作识别数据集[21]，然后在WLASL上进行了预训练，这是一个孤立手语识别数据集[28]。接下来，对于领域内预训练，我们在SLT数据集中提供的连续手语标记的监督下，通过Sign2Gloss任务对我们的视觉编码器进行训练。与口语文本不同，连续手语标记在时间上与手语信号保持一致。我们使用著名的连接主义时序分类（CTC）损失[16]在手语标记的监督下进行领域内预训练。CTC损失考虑了两个序列之间的所有可能对齐，并最小化误差。具体而言，对于输入视频V和相应的真实手语序列G，我们使用CTC计算p(G|V)，通过对所有可能的V到G的对齐进行边际化计算：0p(G|V) = 0π ∈B p ( π |V ) , (2)0其中π表示路径，B是与G对应的所有可行路径的集合。概率p(π|V)由视觉编码器E计算。然后，CTC损失被定义为：0L = -ln p(G|V). (3)0手语序列预测。一旦预训练完成，我们的视觉编码器网络可以用于根据手语视频预测手语序列。如图3所示，我们首先使用视觉编码器提取手语概率，然后使用CTC解码生成预测的手语序列。CTC解码的详细信息可以在补充材料中找到。03.2. 翻译网络和预训练0现在我们介绍翻译网络D，它学习了手语序列和口语文本之间的映射，并提出了相应的渐进预训练过程。翻译网络。受到神经机器翻译和多语言去噪预训练的最新进展的启发，我们使用mBART[33]作为初始化的序列到序列去噪自编码器，在大规模多语言语料库上进行预训练，作为我们的翻译网络的初始化。该架构是一个标准的序列到序列Transformer[44]，编码器有12层，解码器有12层，模型维度为1024，头数为16。渐进预训练。在mBART初始化的基础上，我们的翻译网络已经在通用语言领域进行了预训练。我们进一步在Gloss2Text任务上进行领域内预训练，将mBART转移到手语到文本翻译的特定领域。我们的目标是训练一个能够从给定的手语序列G预测文本句子S的翻译网络。具体而言，我们将其分割为51240使用mBART的Sen-tencePiece分词器将G和S都转换为子词单位，并通过mBART的预训练词嵌入层将one-hot向量投影到稠密嵌入中。然后，我们将位置嵌入添加到词嵌入中，作为编码器和解码器堆栈底部的输入。我们在Gloss2Text语料库上训练mBART，以最小化序列到序列的交叉熵损失L = -logP(S|G)。在获得训练良好的翻译模型后，我们可以根据手语序列预测口语句子。将手语序列从真实标记的手语序列翻译成口语文本（Gloss2Text）被认为是SLT任务性能的虚拟上限[4,6]。首先利用Sign2Gloss模型（我们的视觉编码器）生成手语序列，然后将预测的手语序列馈送到训练良好的Gloss2Text流水线中，这被称为Sign2Gloss2Text的两阶段翻译任务。然而，使用手语作为中间表示可能是次优的，因为手语无法完全编码时空视觉信息。为了克服这个限制，我们通过V-L映射器进行联合训练，将视觉和语言模态进行桥接。03.3. 端到端手语翻译0到目前为止，我们已经描述了我们的视觉编码器和翻译网络的架构和预训练过程。现在我们介绍视觉语言映射器（V-LMapper），它建立了两个模态的网络之间的连接，以实现联合训练的目的。我们的V-LMapper只是一个具有两个隐藏层的全连接MLP。如图2所示，它将视觉编码器提取的视觉特征转换为语言特征，然后将其作为翻译编码器的输入。我们在第4.4.3节中研究了将不同的视觉特征输入到V-LMapper的效果，并使用手语表示（见图3）作为我们的默认设置。由于V-LMapper的存在，我们的框架可以以端到端的方式进行训练，同时接受CTC损失和翻译损失的联合监督。令人惊讶的是，我们的框架甚至在RWTH-PHOENIX-Weather-2014T测试集上超过了公认的上限，即使用经过良好训练的Gloss2Text模型将真实的手语词汇序列翻译为口语文本。这是因为我们的框架既编码了手语视频的时空信息，又编码了文本转录的语义知识，提供了更多的线索，而Gloss2Text模型仅具有语言模态。04. 实验04.1. 数据集和评估指标0RWTH-PHOENIX-Weather 2014T. PHOENIX-2014T[4]是近年来最广泛使用的手语翻译基准数据集[4, 6, 46, 49,50]。该平行语料库收集了0来自德国公共电视台PHOENIX三年的天气预报新闻，包括九个手语演员表演德国手语（DGS）的8k个RGB手语视频三元组，句子级的手语注释以及从新闻播音员转录的德语翻译。它包含7096个、519个和642个视频片段的训练、开发和测试集。手语词汇量为1066，德语文本词汇量为2887。我们在开发集和测试集上与最先进的方法进行比较。CSL-Daily。CSL-Daily[49]是最近在工作室录制的中国手语（CSL）翻译数据集。它包含由十个不同的手语演员表演的20k个（视频，手语，文本）三元组。内容涵盖家庭生活、医疗保健和学校生活等主题。CSL-Daily包含18401个、1077个和1176个片段的训练、开发和测试集。手语词汇量为2000，中文文本词汇量为2343。我们在开发集和测试集上与最先进的方法进行比较。评估任务。我们评估以下任务的性能：0• Sign2Gloss :给定原始视频输入，预测手语词汇序列。这个任务也被称为CSLR（连续手语识别）。这个任务主要用于评估我们的视觉编码器。0• Gloss2Text :将真实的手语序列翻译为文本。其结果通常被认为是手语翻译任务的上限。我们也使用这个任务来评估我们的翻译模型。0• Sign2Gloss2Text :一个两阶段的流水线，我们首先采用Sign2Gloss模块预测手语词汇序列，然后再通过Gloss2Text模块将预测的手语词汇翻译为文本。我们使用这个任务来评估将视觉编码器和翻译模型通过预测的手语词汇序列连接起来的流水线。0• Sign2Text :直接将手语视频翻译为文本，这是我们的目标。我们使用词错误率（WER）评估Sign2Gloss，使用ROUGE和BLEU评估其他三个任务。04.2. 实现细节0我们的模型使用PyTorch实现。有关所有超参数的详细信息请参见补充材料。视觉编码器的预训练。我们从通用领域逐步预训练视觉编码器。首先，我们按顺序在两个动作识别数据集上预训练S3D骨干网络，即Kinetics-400 [21]和WLASL[28]。Kinetics-400是最流行的人体动作识别数据集，包含400个动作类别，而WLASL是一个大规模的基于单词的美国手语视频数据集，包含2000个孤立的手语类别。训练过程遵循[45]。3https://huggingface.co/facebook/mbart-large-cc254https://commoncrawl.org/51250Dev Test Sign2Gloss2Text（两阶段） R B1 B2 B3 B4 R B1 B2 B3 B40SL-Luong [4] 44.14 42.88 30.30 23.02 18.40 43.80 43.29 30.39 22.82 18.13 SL-Transf [6] - 47.73 34.82 27.1122.11 - 48.47 35.35 27.57 22.45 BN-TIN-Transf [49] 47.83 47.72 34.78 26.94 21.86 47.98 47.74 35.27 27.5922.54 BN-TIN-Transf + BT* [49] 49.53 49.33 36.43 28.66 23.51 49.35 48.55 36.13 28.47 23.51 STMC-Transf[46] 46.31 48.27 35.20 27.47 22.47 46.77 48.73 36.53 29.03 24.000我们的 50.23 50.36 37.50 29.69 24.63 49.59 49.94 37.28 29.67 24.600Sign2Text（端到端） R B1 B2 B3 B4 R B1 B2 B3 B40SL-Luong † [4] 31.80 31.87 19.11 13.16 9.94 31.80 32.24 19.03 12.83 9.58 TSPNet-Joint † [29] - - - - - 34.9636.10 23.12 16.88 13.41 SL-Transf [6] - 47.26 34.40 27.05 22.38 - 46.61 33.73 26.19 21.32 STMC-T [50]48.24 47.60 36.43 29.18 24.09 46.65 46.98 36.09 28.70 23.65 BN-TIN-Transf + BT* [49] 50.29 51.11 37.9029.80 24.45 49.54 50.80 37.75 29.72 24.320我们的 53.10 53.95 41.12 33.14 27.61 52.65 53.97 41.75 33.84 28.390表1.在PHOENIX-2014T上与最先进方法的比较。†表示不使用手语注释的方法。*表示使用半监督学习的方法。‘R’表示ROUGE，‘B1’表示BLEU-1，其他类似，我们的框架在各项指标上都大幅优于所有方法。0视频片段通过S3D骨干网络的五个块，然后经过一个3D平均池化层和一个线性分类层，预测动作类别。接下来，我们使用CTC损失（公式3）在Sign2Gloss任务上进行领域内预训练，其中我们只使用预训练的S3D的前四个块，并将S3D特征在空间上池化到T/4×832的大小，作为我们头部网络的输入。翻译预训练。对于通用领域预训练，我们使用官方发布的mBART-large-cc253来初始化我们的语言模型，该模型在CC25上进行了预训练，CC25是一个来自CommonCrawl的1300GB的多语言语料库，涵盖了25种语言。我们还尝试了在16GB德语单语语料库上进行预训练的GPT2[40]。除非另有说明，我们默认使用mBART。联合训练。我们将两个独立预训练的模块作为联合训练的初始化。线性分类器之前的特征，即手语表示，通过V-L映射器投影到1024维的向量中，并添加位置嵌入以形成翻译编码器的输入。整个网络在CTC损失和交叉熵损失的联合监督下进行训练，两者的权重都设置为1.0。04.3. 与最先进方法的比较我们将我们的方法与PHOENIX-2014T和CSL-Daily上的最先进方法进行比较，如表1和表2所示。在不集成多线索特征[5，50]和后向翻译[49]等高级数据增强策略的情况下，我们的简单方法显著超越了所有对应方法。0在PHOENIX-2014T和CSL-Daily上，我们的方法优于其他方法。04.4. 消融研究 4.4.1 视觉编码器的预训练我们的视觉编码器采用渐进式的方式进行预训练。我们首先研究了使用不同的通用领域预训练策略的效果:0• 从头开始.没有进行通用领域预训练。S3D主干网络从头开始训练。0• K-400. 通用领域预训练在Kinetics-400 [ 21]上进行，这是一个大规模的动作识别数据集。0• K-400 −→ WLASL.我们进一步在K-400预训练的S3D主干网络上进行WLASL [28]的预训练，这是一个大规模的基于单词级别的手语识别数据集。我们在这些预训练模型上进行领域内的Sign2Gloss预训练，并在表3中报告对Sign2Gloss和Sign2Text任务的影响。Sign2Gloss的性能直接反映了不同通用领域预训练模型的效果。尽管K-400是一个动作分类数据集，但使用在其上预训练的模型作为初始化仍然改善了Sign2Gloss的性能，将测试集上的WER从28.06降低到23.50。使用K-400 −→WLASL作为初始化进一步提升了性能，在测试集上达到了22.45的WER。尽管WLASL和PHOENIX-2014T之间存在差异，例如前者旨在解决美国手语的孤立手语识别，而后者旨在解决德国手语的连续手语识别，但在WLASL上进行通用领域预训练仍然学习到相关的表示，例如低级别的SL-Luong [4]40.1841.4625.7116.5711.0640.0541.5525.7316.5411.03SL-Transf [6]44.1846.8232.2222.4915.9444.8147.0932.4922.6116.24BN-TIN-Transf [49]44.2146.6132.1122.4415.9344.7846.8532.3722.5716.25BN-TIN-Transf + BT* [49]48.3850.9736.1626.2619.5348.2150.6836.0026.2019.67✓27.2528.0651.9752.9940.4232.5927.2751.8252.5340.1832.3727.01✓✓23.0523.5053.2453.9941.4733.6328.1952.4253.6641.2733.3627.91✓✓✓21.9022.4553.1053.9541.1233.1427.6152.6453.9741.7533.8428.39✓✓--45.8447.3133.6425.8320.7645.9347.4034.3026.4721.444.4.2Pretraining of Translation Modelscale general-domain corpus, through direct evaluation onthe PHOENIX Gloss2Text task.Table 4 shows the re-sults. As baselines, we train two translation networks withthe same architecture as mBART or GPT2 but with ran-dom initializations. mBART outperforms GPT2, suggest-ing that the encoder-decoder architecture and bidirectionalattention of mBART makes it more suitable for Gloss2Textthan GPT2 which only has a decoder with unidirectionalattention.However, general-domain pretraining on largecorpus improves both mBART and GPT2 on Gloss2Textand mBART pretrained on CC25 achieves the best perfor-mance. We use mBART for further experiments. Addition-ally, mBART is pretrained on the multilingual corpus andthus can be used as a generic pretraining model for varioussign languages.Progressive Pretraining Improves Sign2Text. We exam-ine the effects of progressive pretraining of the translationmodel on the Sign2Text task, which is our final goal. Fourpretraining settings are studied: 1) without pretraining; 2)pretraining on the Gloss2Text task; 3) pretraining on theCC25 corpus; 4) progressive pretraining, i.e., the translationmodel is first pretrained on CC25, then a further within-domain pretraining is conducted on the Gloss2Text task.51260开发测试 Sign2Gloss2Text（

下载后可阅读完整内容，剩余1页未读，立即下载