没有合适的资源?快使用搜索试试~ 我知道了~
1316基于手语回译周浩1周文刚1,2,周伟真齐1蒲俊福1李厚强1,2,李伟1中国科学技术大学电子信息系统系GIPAS中科院重点实验室2合肥综合性国家科学中心人工智能研究院zhouh156@mail.ustc.edu.cn,zhwg@ustc.edu.cn,{weizhen,pjh}@ mail.ustc.edu.cn,lihq@ustc.edu.cn摘要尽管已有关于手语翻译的开创性工作,但仍存在一个不小的障碍,即,并行签名文本数据的有限数量。为了解决这种并行数据瓶颈,我们提出了一种符号回译(SignBT)方法,该方法将大量口语文本纳入训练。使用文本到注释翻译模型,我们首先将单语文本回译到其注释序列。然后,通过在特征级拼接来自估计的光泽到符号库的片段来生成成对的符号序列。最后,合成的并行数据作为编码器-解码器并行框架的端到端训练的有力补充为了进一步推动网络安全研究,我们进一步贡献了一个大规模的连续网络安全数据集CSL-Daily。它提供口语翻译和注释级注释。主题围绕着人们的日常生活(例如,旅行、购物、医疗保健),最可能的应用场景。CSL-Daily上报道了大量的实验结果和对这些方法的分析。与建议的符号回翻译方法,我们得到了一个实质性的改进,比以前的国家的最先进的反演算法。1. 介绍手语是聋人社区的主要交流方式。然而,在一个主要使用口语的社会中,聋人在日常生活中面临着社会孤立和沟通障碍的问题[4]。由于手语理解具有显著的社会影响力和跨通道的挑战性,因此它吸引了越来越多的研究关注[1,4,10,17,22,26,37,48]。手语翻译是一种将手语翻译成口语的翻译方法,通讯作者:周文刚,李厚强http://home.ustc.edu.cn/广州h156/dataset/csl-daily图1. 手语翻译(Sign Language Translation,缩写为Sign)和手语翻译(Sign Back-Translation,缩写为SignBT)。我们的SignBT方法建立了一个反向路径,并使用它来丰富来自外部单语数据的文本特征对,以进行训练。连续信号视频考虑到手语和口语的不同语法规则和词汇,手语学习通常被视为序列到序列的学习问题。前向纠错系统通常依赖于编码器-解码器架构[10,11,25]。尽管编码器-解码器网络在神经机器翻译(NMT)中取得了成功,但在NMT中的翻译质量是有限的,这部分归因于训练数据大小的巨大差距。虽然新闻翻译任务[3]提供了超过7700万的英语-德语数据,但唯一合适的翻译数据集PHOENIX-2014 T [10]只有不到9 K的手语-德语数据。为了缓解这种情况,有两种可能的解决办法,收集数以百万计的平行对或引入单语数据。标牌视频采集和标注的高额收费让前者成为一种奢侈品。相比之下,充分利用可接近的单语文本是一个有前途的方向。在这项工作中,我们建议生成合成的并行数据与单语文本的训练。我们的方法受到NMT中文本到文本回译的成功的启发[36]。他们用可用的对训练一个逆模型然而,当它进入数字化时代时,关键的挑战变成了如何弥合文本和视觉信号之间巨大的领域差距一个简单的想法是从一个手语并行数据特征光泽什么(what)时间(time)飞机(plane)迟到(late)No(no)文本飞机什么时候出发?不要迟到。(What飞机什么时候起飞?SignBT口语文本1317句子,然而,这是一个更具挑战性的任务,涉及各种不成熟的技术,如骨架预测[35],手势生成[12]和时间相干保真度[38]。一个折衷的选择是从句子中回归视频帧的特征序列。不幸的是,这是一个不确定的问题,很难公式化,因为一个句子可能对应于许多可能的特征序列,因为标志视频的特征空间远远大于文本词汇的组合空间。为了避免上述问题,我们提出了一个两阶段的符号回译(SignBT)方法:文本到注释和注释到符号。它被公式化为具有附加信号“gloss”(参见图1)的逆问题光泽度是手语词汇的一个表征,它是随着视频中符号的顺序标注的我们首先用可用的文本注释对训练文本到注释翻译器,并预测每个单语文本的注释序列。然后,为了实现序列级的注释到符号转换,我们采用了一种原始但有效的方法,从分段视频的特征中拼接符号片段,这有点类似于拼接的文本到语音合成[18,43]。为了获得每个光泽的精确边界,我们使用连接主义时间分类(CTC)[15]训练了一个符号到光泽的网络,并找到了最可能的对齐路径进行分割。 可以预先将标志片分割并存储为标志库。最后,我们将整个过程简化为一个文本到文本的回译问题和一个序列拼接操作。合成数据有利于模拟训练的关键原因在于两个方面的真实性,所述目标文本来自真实语言语料库,所述源符号序列拼接自真实特征库。虽然伪对作为真实训练数据可能并不完美,但它有助于在讲目标语言时使解码器规则化,并提高从源提取信息的鲁棒性。通过大量的实验,我们验证了单语数据带来的显著改善的学习模型获取高质量的语料一直是语料库研究的关键在本文中,我们提供了第一个大规模的中国手语翻译基准,CSL-Daily。本语料库语言表达的自然性、注释的简洁性和手部细节的清晰性使其适合于手语研究的一系列领域,手语识别、翻译和生成。对CSL-Daily上的各种基线的评估进行了深入分析。我们的主要贡献概述如下,• 提出了一种符号回译的方法来解决并行数据不足的问题。• 我们提供了一个新的大规模的XML基准,内容丰富,紧凑的注释。• 在两个数据集上的大量实验证明了我们的SignBT机制的有效性。2. 相关工作手语识别。手语识别(SLR)包括两个子任务:孤立SLR和连续SLR。虽然孤立的SLR旨在从修剪视频中识别一个标志,但连续SLR试图从连续视频中重新识别有序的标志光泽序列。早期的作品在孤立的SLR利用手工制作的功能[31,41]的标志描述。随着深度学习的成功,2D和3D卷积神经网络(CNN)[6,19,39]在与动作相关的任务上取得了良好的性能[6]。它激发了更多的研究小组研究大规模词汇的连续SLR [13,22,34]。为了实现端到端训练,连续SLR模型广泛采用了连接主义时间分类(CTC)[15][7,14,30,33,49]。随着神经机器翻译的发展,Camg oíz等提出了一种新的机器翻译方法。提出了一个新的任务--神经手语翻译(Neural Sign Language Translation,NSK)[10],这是一个积极而有前途的方向[11,25]。手语翻译。它与SLR的区别主要在于序列学习方面。编码器-采用基于解码器的方法[2,28,42]来处理手语和spoken语言之间的词序和词汇的差异。 在[10]中,Camg oízetal. 提出了一种基于PHOENIX-2014 T的语音数据集,并提供了口语注释。他们使用基于注意力的编码器-解码器模型来学习如何从空间表示或符号注释进行翻译。最近,Transformer网络[44]在神经机器翻译(NMT)中很流行。 Camg oíz等 [11]将变换器应用于手语的序列学习。他们的工作探索了连续SLR和SLR的多任务制定。在Transformer框架下,Li等. [25]探索符号视频表示中的层次结构。此外,一些工作[5,54]通过考虑手语的多线索特性来改进该框架。单语数据探索。神经机器翻译(NMT)模型的单语数据集成首次在[16]中进行了研究。Gulcehre等人独立地训练NMT模型,并使用来自用于在解码过程期间重新评分的单语数据。为了在模型训练中引入单语数据,Sen- nrichet al.提出了一种反向翻译方法[36]来生成用于训练的合成并行数据,而不改变编码器-解码器结构。在文献[8]中,利用具有空白面迹的句子来增强唇读的解码器。与以前的工作不同,我们设计了一个跨视频和语言域的符号回译机制,这带来了最先进的成果,在数据集和新的见解,以接近数字签名。手语数据集。高质量的数据集对于促进手语研究至关重要。基于视频的手语研究的公开数据集摘要见表1。其中大多数是1318x=1u=1v=1n=1Sn=1表1.计算机视觉研究中流行的公共可用视频手语基准摘要(SignDict:语料库具有隔离或分割的标志视频作为字典。连续:语料库由连续的标志句和注释级注释的视频组成。翻译:语料库有口语翻译注释。)数据集语言SignDict属性连续平移决议#标志统计学#视频(平均标志)签名人数源[48]第四十八话CSLC-2,00024 000(1)8实验室ICSL [52]CSLC1280×720500十二万五千(一)50实验室MSASL [20]ASLC-1,00025,513(1)222WebWLASL [24]ASLC-2,00021,083(1)119WebBSL-1K [1]BSLC-1,064273 000(1)40电视包括[40]ISLC1920×10802634,287(1)7实验室[23]第二十三话DGSC210×2601,0816,841(11)9电视CCSL [17]CSLCC1280×72017825,000(4)50实验室[47]第四十七话DGSCCC(德语)776×57845515,075(7)25实验室凤凰-2014T [10]CSL-Daily(我们的)DGSCSLCCCC(德语)C(中文)210×2601920×10801,0662,0008,257(9)20,654(7)910电视实验室由单词级别的标志视频组成为了实现连续的SLR评估,一些数据集提供了光泽级注释[17,23,47]。尽管SIGNUM提供了德语翻译,但由于其词汇量和句子有限,因此,PHOENIX-2014 T [10]成为唯一适合进行数据集检索的数据集[11,25]。然而,[23]中的帧是从天气预报的特定电视节目中裁剪的,因此分辨率较低它限制了对语言的探索(a) 标志嵌入预培训(b) 手语翻译������×Transformer编码器PE������×1日本 语简体中文Softmax线性手模型和手语生成的细节。 作为 作为一个相当大的补充,我们的CSL每日包含超过20K 1080P的标志视频。它提供了光泽和transla-标志嵌入层Transformer解码器单词嵌入层它包含了日常生活的各种主题3. 该方法给定符号视频x={xt}T带T形框架,签名图2.概述我们的可扩展框架。我们在(a)中展示了符号嵌入预训练过程它使用CTC Loss和注释级注释进行训练在(b)中示出了用于MPEG的详细编码器-解码器结构。(PE:位置编码。)语言翻译(language translation)可以被表述为学习条件概率p(y|x)生成具有U个单词的口语句子y={yu}U。此外,现有的XML数据集还提供注释级别的注释用于符号嵌入网络的预训练。与手语非单调的spo- ken语言不同,注释级注释g={gv}V与V 符号注释与手势的顺序一致。图2中描述了我们的XML框架的概述。本节的其余部分组织如下。在第3.1节中,我们详细介绍了使用预训练的符号嵌入网络构建符号库的方法然后利用来自预先训练的符号嵌入网络的估计对准路径来建立所述符号库标志嵌入层。与NMT中用于词联想学习的词嵌入技术不同,符号嵌入是将一系列视频帧转换成其特征表示。我们的符号嵌入层ANN采用2D和1D CNN的组合进行时空编码[14]。在这项工作中,嵌入操作是在剪辑级执行。我们将视频帧x分成N剪辑c={cn}N。剪辑的数量为N = N/T/N,transformer为基础的框架是revisited。最后,我们在3.2小节中详细介绍了我们的符号回译过程。3.1. 签名库生成为了获得光泽到符号的映射,我们致力于构建一个符号库,该符号库包含由其光泽词汇索引的视频片段特征然而,由于聘请专家的成本很高,现有的连续符号数据集只具有无边界地面实况的边界级注释[10,23,52它阻碍了我们的标志库的标志特征序列的分割。因此,我们建议滑动窗口大小W和步幅大小S。 通过传递剪辑通过递归,如下提取嵌入f={fn}Nfn=SignEmbedding ( cn ) =θ ( cn ) ,(1)其中θ表示CNN网络的参数Sign-to-Gloss预培训。嵌入层通常使用光泽级注释进行预训练[10,11]。对于我们的嵌入层,我们使用连接主义时间分类[15](CTC)和Transformer编码器[45]进行光泽级时间建模。光泽概率(1,2,.���,������������������标志嵌入层编码器,带线性CTC损失1319更新标志嵌入G2s银行一B、、、、编码器,带线性Gloss Vocab.对准路径…概率矩阵FEBAGloss GroundTruth:(B,A,F)FA1234512345并行数据视频功能光泽文本并行数据w/合成对特征文本文本到光泽网络注释签名银行火车单语合成文本光泽度拼接特征联系方式(apple,eat,day)每天吃苹果n=1v=1……………2012年2月,、2001年1月,图3.根据最可能的对齐路径构建注释符号(G2S)库的图示。p(g n|f)可以通过具有softmax激活的线性层来估计。根据CTC,条件概率p(g|x)被计算为所有可行路径的概率之和,Σp(g|x)=p(π|(f)、(2)π∈B−1(g)其中π是符号到光泽的对齐路径,B表示它们之间的映射训练嵌入层图4. 符号回译过程的图示。在这里,我们简要介绍了我们的XML框架中基于transformer的编码器-解码器结构(见图2b)。值得注意的是,我们的方法并不局限于这种架构。编码器由几个堆叠的相同层组成。每一层都有一个自注意网络和一个前馈网络。为了提供连续的线索,第 一 层 与 位 置 编 码 ( PE ) 向 量 求 和 为 fn=fn+PE(n)。编码器采用所有编码的输入向量并如下生成N个隐藏向量,h1:N= 编 码 器 ( f1:N ) 。( 四)通过CTC损失Lctc=−ln p(g|x)。Gloss-to-Sign银行 给定符号嵌入序列f={fn}N,从矩阵及其相应的光泽度中提取在解码过程中,我们首先传递每个单词yu用于字嵌入的查找表如下,通过序列g={gv}V,我们找到最可能的排列-wu=WordEmbedding(yu)的。(五)将它们之间的路径划分为如下,ππ=argmaxp(π|(f)。(三)π∈B<$−1(g)搜索空间被限制在符合映射函数B的路径内,没有空白标签(见图3)。值得注意的是,通过空白标签的路径[15]从搜索空间中排除,以确保拼接后作为符号句可以使用Viterbi算法加速搜索问题[46,53]。利用估计的对齐度,我们将每个视频的嵌入序列分割成光泽片。他们constitute-to-sign(G2 S)银行在嵌入空间与查找表,这是索引的光泽词汇。每个光泽槽可以具有多个特征件。3.2. 使用单语言数据进行训练相对于符号文本对的有限规模,单语口语语料库的规模很容易达到百万级。为了利用单语文本,我们建议建立一个反向路径的训练,并使用它来丰富并行数据的训练。手语翻译。编码器-解码器框架被广泛使用,并在[10,11]中进行了探索。……………………1320这里,wu=wu+PE(u)是yu的位置编码的w阶嵌入。解码器网络包括额外的层,其对编码器隐藏向量h1:N和先前预测的字的隐藏状态执行注意操作,用于信息聚合。然后,如下生成第uou=解码器(w1:u−1,h1:N),(6)z u= softmax(Wo u+ b)。(七)开头的词是,表示句子的开头。最后,我们计算p(y)的条件概率|x)如下,YUYUp(y|x)=p(yu|y1:u−1,x)=zu,yu.(八)u=1u =1为了优化整个结构,将目标函数用公式表示为L=−ln p(y|x)。在推断期间,如等式6中那样逐词地预测口语文本中的词。波束搜索[50]策略用于在可接受的范围内估计更好的解码路径。符号反向翻译。给定一个语料库,通过符号嵌入网络将平行的符号视频对X和口语文本对Y转换为(F,Y)对1321表2. CSL-Daily拆分的关键统计数据。(OOV:词汇表外的,例如,出现在Dev集中但不在Train集中的单词。Singleton:在Train unique sentences中只出现一次的单词。标志光泽列车发展测试中国列车发展测试段18,401 1,077 1,176←−相同持续时间(h)20.62 1.24 1.41←−相同帧2,227,178 134,530153,074←−相同词汇大小2,000 1,344 1,3452,343一千三百五十八一千三百五十八总字数/字符数133,714 8,173 9002291,048 17,30419,288总OOV-0 0-64 69独特的句子6,598 797 7986,598 797 798单身人士247号四一八同时,还收集了与Y具有相似词汇的单语口语文本Y′。以下目标是生成具有单语言数据Y' 的合成对(F'syn,Y'),如图4所示。首先,我们训练了一个文本到注释(T2G)网络,其中包含用于反向翻译的(Y,G)并行对。然后,收集的口语文本Y′首先被翻译成符号注释文本G′syn。根据G′syn将G2S库中的注释片段拼接成符号嵌入序列F′syn。由于每个光泽可能有多个特征件在G2S银行,我们随机抽样一块从他们为拼接在不同的训练时期,由于随机选择,同一合成光泽序列的拼接特征它极大地丰富了源域中的特征组合。最后,我们将合成对(F′syn,Y′)与注释对(F,Y)混合在一起进行训练。值得注意的是,解码器端的文本总是来自真实的语料库。4. 拟议的CSL每日数据集《中国手语日报》旨在为社会提供一个新的大规模手语语料库,既适合实际应用,也适合学术研究。在本节中,详细阐述了数据集制作的细节。4.1. 数据收集我们语料库的内容主要围绕聋人群体的日常生活展开。它涵盖的主题很广泛,包括家庭生活、医疗保健、学校生活、银行服务、购物、社交等。聋人社区的参与对于开发手语语料库至关重要[4]。我们邀请了一位手语语言学领域的专家本文主要从中国的手语教材和测试材料中收集,部分来自汉语语料库。有10名签名者参加了录像工作。他们都是来自聋人社区的母语手语者,其中4人从事手语教育。表3.训练数据的统计(OOV-%:在并行数据词汇表之外的单词或字符的比率量OOV(%)源DGS参与7,096-凤凰-2014T德文文本212,247 百分之七点零七Wiki,天气预报网站CSLParticipants中文18,402-CSL日报中文文本566,682 百分之一点八维基百科,WebText in CLUE[51]第为了消除意义的歧义,提前录制了一位资深签名者的签名视频作为参考。在观看指导视频之后,每个参考文本由一个或两个签名者再次签名。没有签名者对同一引用文本签名两次。对手语者的要求是保证手语的自然表达,并尽可能完整地描述参考文本中的录制视频的分辨率为1920×1080,帧率为30 FPS。开始时静止的画面宁和视频的结束被小心地切断4.2. 注释我们的CSL日报提供了两个层次的注释,即,符号注释和口语翻译。我们的注释工作依赖于本作品的资深本地签名者和作者的合作。首先,视频中运行的每个标志都用具有相似含义的中文词然后,我们采用两种策略来融合标志的光泽与相同的视觉表达。一是检查词义相近的注释。另一个是在数据集上训练和测试一个符号到光泽的网络。通过预测光泽度的混淆矩阵,我们关注前k个混淆对,并检查它们是否确实共享相同的符号。通过三轮的双重检查,我们将标注符号注释的词汇量从>3k减少到2k。然后,根据原文参考文本和符号注释进行口语翻译注释。数据集的详细统计数据见表2。此外,还生成了一个符号字典(SignDict)。每个非单一的符号由4名符号老师记录。该Sign- Dict可用于任务,如标志发现,标志分割,孤立的SLR和光泽免费的广告在未来。它也可以作为连续手语相关任务的定性分析的参考集合。5. 实验5.1. 实验装置数据集。我们主要进行消融研究,并在CSL-Daily上评估我们的方法。还报道了PHOENIX-2014 T [10]的实验 分 析 。 PHOENIX-2014 T 是 一 个 由 德 国 手 语(DeutscheGe baürdensprache ,DGS)组成的大规模语料库。它是PHOENIX-2014的扩展版本[23],包含平行标志视频,注释及其德语翻译。培训、开发和测试的视频分割为7096、5191322表4. 用于手语嵌入的时间初始网络架构[14](TIN)在每个时间卷积层之后添加1D批规范(BN)层。层步幅内核输出大小输入--型号:T× 224×224Inception Blocks w/BN1、32、32-T× 7× 7× 1024全球平均池化2D一,七,七一,七,七T ×1024Conv1D-BN1D-ReLU一,一,一五,一,一T ×512MaxPooling1D二,一,一二,一,一(T/2)×512Conv1D-BN1D-ReLU一,一,一五,一,一(T/2)×512MaxPooling1D二,一,一二,一,一(T/4)×512Transformer编码器--(T/4)×512完全连接--(T/4)×C图5. S2 G2 T设置下射束宽度和长度惩罚α分别为642。词汇量为1115的标志光泽和3000的德语。训练数据。除数据集中的句子外,大部分来自开放的维基百科语料库[3](见表3)。为了贴近数据集的主题,我们还从德国天气预报网站上收集了一些文本,并提取了从CLUE语料库中着手日常生活中的琐事[51]。评价为了评估符号嵌入层,我们采用字错误率(WER)作为度量预测的光泽序列和地面真相之间的相似性的度量。为了测量性能,我们选择BLEU [32]和ROUGE [27]分数,通常用于NMT。在这里,BLEU是用从1到2的n元语法计算的4. ROUGE是指ROUGE-L F1评分[27]。子问题定义。在本文中,我们主要讨论了两个子问题,1. Sign-to-Text(S2 T):它直接从端到端管道中的符号嵌入序列预测口语翻译。2. Sign-to-Gloss-to-Text(S2 G2 T):它采用符号光泽作为中间状态。G2T网络使用从S2G网络预测的符号注释进行训练。5.2. 实现细节标志嵌入层。输入帧的大小调整为224×224。对于数据增强,我们使用随机移位和随机丢弃或复制20%的帧。的体系结构我们的符号嵌入层如表4所示。ImageNet上的预训练权重被加载用于初始化。带有分类器的编码器仅用于预训练,并将在下面的实验中被丢弃。1323表5. 对WER的S2G网络组合的评估(越低越好)。S2G组合符号嵌入编码器PH2014TDev测试CSL日报Dev测试i3DTransformer32.633.245.444.3锡Transformer26.227.536.135.7BN-TINTransformer23.024.133.633.1BN-TINConv1D24.725.133.433.3BN-TINBi-GRU22.723.933.232.2表6.CSL-Daily上CSLR基线的性能表示结果基于我们的实现。方法Devdel/insWER测试del/insWERSubUNets [9]14.8/3.041.414.6/2.841.0[17]第十七话14.6/5.739.014.8/5.039.4[14]第十四话12.8/3.332.812.5/2.732.4[11]第十一话10.3/4.433.19.6/4.132.0FCN-GFE认证 [7]12.8/4.033.212.6/3.732.5BN-TIN+Transf. 编码器13.9/3.433.613.5/3.033.1Transformer。在我们的实验中,所有Transformer层的设置都相同。隐藏大小为512,前馈大小为2048。每层有8个注意头,这是Transformer的基本设置[44]。丢弃率全部设置为0.1以减轻过度拟合。优化. 符号嵌入层在CTC Loss下以批量大小2进行端到端训练。没有使用迭代训练[53],在线精炼[7]或时间采样[30我们使用Adam优化器[21]并将权重衰减设置为1×10−6。 学习率初始化为5×10−5。它WER将以0.5的系数减小到2×10−6,的Dev停止下降3个epoch。 实验运行4个Titan RTX GPU。Transformer在掩蔽交叉熵损失下进行端到端训练[45],批量大小为32。拉贝尔平滑率[29,45]为0.1。我们使用亚当优化器,没有重量衰减。学习率固定为5×10−5。实验运行在1 Titan RTX GPU上。推理。对于推理过程中的解码,我们使用波束搜索策略[50]。它与长度惩罚α[50]相结合,用于长度归一化。对于PHOENIX-2014 T,我们按照[11]将波束宽度设置为3,α设置为1。相比之下,中文句子在字符级标记化中更长。我们搜索图5中的组合,并使用波束宽度3和长度惩罚α 3。5.3. 消融研究消融实验主要在CSL-Daily-Dev上进行,展示了这一新语料库的特点手语嵌入。 在表5中,我们investi-门哪种时空组合是适合的,能够符号嵌入。I3D模型[6]实现在动作识别任务中表现良好。然而,由于空间细节较少,它仍然与基于2D-CNN的方法存在性能差距。与以前的精炼方法[7,14,53]不同,我们使用1D批次归一化(BN)来1324表7. 在CSL-Daily上评估不同的编码器-解码器框架。(R:ROUGE,B-n:BLEU-n,越高越好。S2G2TRB-1B-2B-3B-4seq2seq w/ Bahdanau [2]39.6341.5825.3416.0810.63[28]第二十八话40.1841.4625.7116.5711.06Transformer [45]44.2146.6132.1122.4415.93S2tRB-1B-2B-3B-4seq2seq w/ Bahdanau [2]33.8333.9919.4811.667.11[28]第二十八话34.2834.2219.7212.247.96Transformer [45]37.2940.6626.5618.0612.73表8. CSL-Daily上的预热时期数。(预热:将所有合成数据与并行数据混合进行训练)热身#epochsRS2G2TB-2 B-3B-4RS2tB-2 B-3B-40(0.4小时)44.21 32.11 22.44 15.93 37.29 26.56 18.06 12.731(0.6小时)46.22 34.47 24.70 18.06 42.69 31.72 22.03 15.645(1.6小时)47.68 35.51 25.58 18.73 46.56 34.33 24.54 17.9810(2.9小时)47.88 36.08 26.20 19.38 47.75 35.17 25.58 19.1120(5.4小时)48.01 35.57 25.82 19.18 48.55 36.07 26.24 19.6150(12.9小时)48.38 36.16 26.26 19.53 48.77 36.63 26.90 20.20100(25.4小时)47.83 36.05 26.17 19.42 49.09 36.91 27.20 20.50表9.预热后训练过程中合成数据与并行数据的比率比RS2G2TB-2 B-3B-4RS2tB-2 B-3B-40.0:148.38 36.16 26.26 19.53 48.77 36.63 26.90 20.200.1:146.97 35.49 25.80 19.20 49.49 37.23 27.51 20.800.5:146.30 34.77 25.19 18.82 49.15 36.88 27.23 20.641.0:145.76 34.43 24.65 18.22 49.21 36.38 26.80 20.27减轻时间结构中的不稳定激活。它在端到端的培训下实现了良好的性能,没有花里胡哨的东西。因此,我们采用BN-TIN作为我们的符号嵌入层。在表6中,我们还提供了CSL-Daily上的一些CSLR方法的结果以供参考。编码器-解码器框架在表7中,我们评估了具有不同架构的编码器-解码器网络。对于自我注意力的复杂设计[45],基于变换器的神经网络模型比以前的基于递归神经网络的方法[2,28]具有明显的优势。我们将基于transformer的网络设置为下面实验的基线模型。合成数据的参与。我们从表3中的文本生成合成对。它们是带注释的并行数据量的30倍以上。如果直接将它们混合进行训练而不进行调整,合成对中的噪声将在很大程度上干扰模型学习。因此,我们首先使用所有数据进行预热,然后训练模型,直到用较少的合成对收敛。在表8中,我们评估了CSL-Daily上不同预热时期的性能。即使只有一个预热时期,合成数据带来的性能增益在所有指标中都是显而易见的。随着预热次数的增加,最终性能逐渐提高为了验证普适性,图6显示了预热对不同数据集的影响。与《CSL日报》不同,图6. 预热对不同数据集的影响。表10.合成数据的数量与参与CSL-Daily训练过程的并行数据进行比较数量RS2G2TB-2 B-3B-4RS2tB-2 B-3B-40× 44.21 32.11 22.44 15.93 37.29 26.56 18.06 12.731× 45.62 33.84 23.98 17.30 40.66 29.97 21.03 15.245× 46.57 34.85 24.88 18.22 45.47 33.86 24.39 18.0510× 47.13 35.42 25.28 18.50 46.85 35.08 25.80 19.43>30倍 48.38 36.16 26.26 19.53 49.49 37.23 27.51 20.80表11.CSL-Daily综合数据的质量 (·)中的数字表示SignB T的T2 G网络工作的BLEU-4分数。S2G2TRB-2B-3B-4S2tRB-2B-3B-4w/o合成44.21 32.1137.29 26.56 18.06空白输入45.83 33.49 23.99 17.3641.22 30.44 15.77低(3.05)46.31 34.4143.78 31.76 22.85 16.91中等(7.02) 47.64 35.56 25.77 19.0846.15 33.96 24.66高(11.63)48.38 36.16 26.2649.49 37.23 27.51大的预热时间不会带来PHOENIX-2014 T的进一步改善,但BLEU评分略有下降。考虑到PHONIEX-2014 T的主题都是围绕天气预报,这可能会限制从合成数据中学习语言虽然我们确实收集了一些关于天气的句子,但它们只占所有数据的一小部分。考虑到训练时间 , 我 们 为 CSL-Daily 使 用 50 个 热 身 时 期 , 为PHOENIX-2014 T使用10个热身时期。在预热之后,我们使用一小部分合成数据进行训练,这些数据在每个epoch之后随机采样。在表9中,我们评估了训练数据的几个混合比率。当合成数据所占比例较小时,S2T模型的性能优于直接放弃它们训练的模型相比之下,预热后合成数据的参与始终会损害S2G2T模型。噪音主要来自合成部分。我们认为,稀疏光泽级的噪声是模型难以处理的,而密集特征级的噪声反而使模型具有更好的泛化能力。合成数据的数量和质量。 在表10中,我们用不同数量的合成数据训练神经网络。当增加合成数据量时,性能稳步提高。此外,我们使用不同质量的合成数据分析性能的变化。我们训练了三个具有不同时期的文本到注释(T2G)网络,即,BLEU-4评分分别为3.05、7.02、1325表12.与PHOENIX-2014 T上的方法进行比较(越高越好)。S2G2T胭脂BLEU-1DevBLEU-2BLEU-3BLEU-4胭脂BLEU-1测试BLEU-2BLEU-3BLEU-4[第10话]44.1442.8830.3023.0218.4043.8043.2930.3922.8218.13SL-转移[第十一届]-47.7334.8227.1122.11-48.4735.3527.5722.45BN-TIN-Transf. 2(基线)47.8347.7234.7826.9421.8647.9847.7435.2727.5922.54BN-TIN-Transf. 2+BT(我们的)49.5349.3336.4328.6623.5149.3548.5536.1328.4723.51S2t胭脂BLEU-1BLEU-2BLEU-3BLEU-4胭脂BLEU-1BLEU-2BLEU-3BLEU-4[第10话]31.8031.8719.1113.169.9431.8032.2419.0312.839.58[11]第十一话-47.2634.4027.0522.38-46.6133.7326.1921.32[25]第二十五话-----34.9636.1023.1216.8813.41BN-TIN-Transf. (基线)46.8746.9033.9826.4921.7846.9847.5734.6426.7821.68BN-TIN-Transf.+ SignBT(我们的)50.2951.1137.9029.8024.4549.5450.8037.7529.7224.32MCT [5]45.90---19.5143.57---18.51STMC-T [54]48.2447.6036.4329.1824.0946.6546.9836.0928.7023.65表13.与CSL-Daily上的方法比较(越高越好)。S2G2T胭脂BLEU-1DevBLEU-2BLEU-3BLEU-4胭脂BLEU-1测试BLEU-2BLEU-3BLEU-4[第10话]40.1841.4625.7116.5711.0640.0541.5525.7316.5411.03SL-转移[第十一届]44.1846.8232.2222.4915.9444.8147.0932.4922.6116.24BN-TIN-Transf. 2(基线)44.2146.6132.1122.4415.9344.7846.8532.3722.5716.25BN-TIN-Transf. 2+BT(我们的)48.3850.9736.1626.2619.5348.2150.6836.0026.2019.67S2t胭脂BLEU-1BLEU-2BLEU-3BLEU-4胭脂BLEU-1BLEU-2BLEU-3BLEU-4[第10话]34.2834.2219.7212.247.9634.5434.1619.5711.847.56[11]第十一话37.0637.4724.6716.8611.8836.7437.3824.3616.5511.79BN-TIN-Transf. (基线)37.2940.6626.5618.0612.7337.6740.7426.9618.4813.19BN-TIN-Transf.+ SignBT(我们的)49.4951.4637.2327.5120.8049.3151.4237.2627.7621.34分别为11.63然后,这三个T2G网络用于如表11所示,随着合成数据质量的提高,RISK模型的度量得分也会提高。我们还通过将单语文本与空白输入配对进行训练来模拟最差条件(对应于虽然实现了小的增益,但与使用合成数据训练的模型相比,它具有性能差距。它验证了来自我们的SignBT的合成对确实对seq2seq学习产生了影响,而不是简单地增强语言建模。5.4. 与现有技术方法的我们的SignBT机制专用于S2T设置,它直接从视频中翻译口语最后给出了在S2G2T上的回译结果。对PHOENIX-2014 T的评价:在表12中,我们将我们的方法与PHOENIX-2014 T上的方法进行了MCT [5]和STMC-T [54]在多提示设置下进行评价。TSPNet-J
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功