自我注意力复杂性及局部性在直接言语翻译中的作用及应用

40 浏览量更新于2023-12-01 收藏 4.78MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文论直接引语翻译中的注意局部性放大图片作者：Belen Alastruey，Javier Ferrando，Gerard I. Gállego和 Marta R.科斯塔茹萨TALP研究中心，加泰罗尼亚理工大学，巴塞罗那{贝伦.阿拉斯特鲁伊.哈维尔.费兰多.蒙索尼斯.杰拉德.扬.加列戈，玛塔.鲁伊兹}@ upc.edu摘要Transformers在多个NLP任务中取得了最先进的然而，自我注意机制的复杂性与序列长度成二次方关系，这对涉及长序列的任务（如语音域）造成了障碍。本文讨论了自我注意在直接言语翻译中的作用。首先，我们分析了逐层令牌在编码器的自注意力中的贡献，揭示了局部对角模式。为了证明某些注意力权重是可以避免的，我们建议用局部有效的注意力来代替标准的自我注意力，并根据分析结果设置所使用的上下文量。通过这种方法，我们的模型匹配基线性能，并通过跳过标准注意力丢弃的权重的计算来1介绍最近，基于转换器的模型已经流行起来，并且已经彻底改变了自然语言处理（ NLP ）（Vaswani et al. ，2017; De-vlin et al. ，2019;Brown et al. ，2020）。在语音到文本的设置中，Transformer与音频特征一起工作，如梅尔频谱图（Dong et al. ，2018; Di Gangi et al. ，2019）。这些功能提供了更长的输入序列相比，他们的原始文本对应。这可能是一个问题时，考虑复杂性，因为Transformer在语音中，用于克服该问题并减小输入序列长度的常见方法是在Transformer编码器之前采用具有步幅的卷积层。然而，即使增加了卷积层，时间和内存复杂度仍然是一个问题。平等贡献。图1：在En-De ST训练后，第11层中的频谱图和贡献矩阵1标记出现在本地，形成一个对角线模式。突出显示了我们提出的自适应局部注意力窗口。一个活跃的研究领域已经调查了使Transformer在涉及长文档的任务中更有效的方法，这些任务表现出与语音任务相同的问题（Tay et al. ，2020）。这些模型探索了不同的技术，以避免计算一些注意力权重，从而降低自注意力层的复杂性这些模型中的一些，如Reformer （ Ki-taev et al. ， 2020 ）或路由Transformer（Royet al. ，2021），仅计算根据不同聚类技术更相关的那些查询和关键字上的注意力权重。Linformer的作者（Wang et al. ，2020 b）指出注意力矩阵是低秩的，因此它们投影键和值以减小注意力矩阵的大小。合成器（Tay et al. ，2021）直接避免计算令牌到令牌交互。1主对角线占总贡献的65%，出于可视化目的而隐藏。arXiv：2204.09028v1 [cs.CL] 2022年4月+v：mala2277获取更多论文∈∈Q，K，V=AVW+b（1）OO通过学习合成注意力权重来实现。Longformer（Beltagy et al. ，2020）和大鸟（Zaheer etal. ，2020）用诸如局部或随机注意力的模式来修改注意力矩阵。在本文中，我们专注于局部注意力通过使用一个滑动窗口的注意力矩阵的对角线为中心。我们建立在Transformer的解释能力的最新进展，分析的量的上下文使用的自我注意时，处理语音特征。最近的可解释性工作已经超越了原始注意力权重作为逐层输入属性的测量，并且已经将其他模块集成到自注意力中，例如向量乘以注意力权重的范数（Kobayashi et al. ，2020），层正常化，和剩余连接（小林等人。，2021年）。在自动语音识别（ASR）领域，自我注意力的有用性已经得到了论证（Zhang et al. ，2021; Shim et al. ，2022），这表明其暴露于完整的上下文可能是不必要的，特别是在顶层。我们对直接语音翻译（ST）系统进行了分析，ST系统能够使用单个模型在语言之间进行从语音到文本的转换。这些系统的编码器需要2语音转文本Transformer最近的工作试图使trans-former适应语音任务（ Di Gangi et al. ， 2019; Gu-lati et al. ，2020）。在直接ST域中，通常的方法是在Transformer之前添加步长为2的两个卷积层（Wang et al. ，2020a）。通过这样做，序列长度减少到初始长度的四分之一。在两个卷积层之后，语音到文本转换器（ S2TTransformer）由常规的Transformer模型组成，该模型由12个编码器层和6个解码器层组成Transformer的主要组成部分是多头注意机制，特别是自我注意负责混合上下文信息。给出一个token表示序列，句子{x1，···，xN}，H个头中的每一个将这些向量投影到查询Qh∈RN×dh，键KhRN×dh和值VhRN×dh，其中头部维度dh=d/H，其中d是模型嵌入维度。自我注意力（SA）计算：H啊啊H其中Wh∈Rdh×d和bO∈Rd是可学习的联合执行声学和语义建模，而在ASR中，后者并不相关（Liu参数和H. Qh（Kh）TH等人，2020）。据我们所知，是第一个使用可解释性方法A=softmaxd（二更）来理解Transformer的自我注意力直接ST任务中的行为。在这项工作中，我们使用层的贡献提出的小林等人。（2021）分析了En-De、En-Es和En-It任务中直接ST中的自我注意模式，揭示了它们强烈的局部性。因此，使用自我注意力可能不是完全有用的，但它在计算上是昂贵的。为了验证这一假设，基于我们的分析，我们提出了一种新的架构，旨在最大限度地提高模型的效率，同时最小化信息损失，并证明在任何三个方向上的模型的性能没有障碍我们通过在贡献位于对角线周围的那些层中用局部注意力取代常规的自我注意力来实现这一点。最后，我们分析了所提出的模型的性能。训练细节。我们复制了S2 T跨-前训练与F AIRSEQ（Ott et al. ，2019; Wang etal. ，2020a）。培训程序包括两个阶段。首先，我们在ASR设置中预训练模型（Bérard etal. ，2018）。然后，我们用一个随机初始化的解码器来代替解码器，两者最终都在ST任务中训练（关于超参数的更多细节，请参见Ap-penaltyC对于培训，我们使用MUST-C英语-德语，英语-西班牙语和英语-意大利语子集（Cattoni et al. ，2021年）。3模型分析在本节中，我们介绍了S2T Transformer中编码器自关注的分析。可解释性方法。Kobayashi等人（2021）提出了一种可解释性方法，该方法测量每个层输入（即令牌表示（x，j））对层输出的影响，+v：mala2277获取更多论文H公司简介Σ∈∈2[2014 -05-23]22Hi、jJVO我图2：ST训练后的贡献对角性D（w，l），针对单个En-De示例。曲线下的面积（CCD）越大，对角线越高还考虑层归一化和剩余连接。它们为原始Transformer架构的注意力块提供了在这项工作中，我们给出了一个适应组的模型，规范化之前的多头注意力（前 LN ），如 S2TTransformer。Pre-LN注意力块中的完整计算链可以重新表述为层输入的简单表达式：图3：100个样本中各层的平均累积贡献对角性（CCD）得分。显示了在ASR（虚线）和ST（实线）中训练的模型的结果。分层分析。我们分析的贡献得分与方程。在ASR（预训练）和ST任务中，从编码器层获得5 个。从图4 中所示的结果（也参见Ap-pennieE），我们观察到大多数层为了测量每个层l的贡献矩阵中的对角性程度，我们建立在Shim等人（2022）提出的注意力对角性基础上，最初定义为注意力权重和序列长度的比例。我们用获得的贡献和token范围w重新公式化它（有关差异的更多细节，请参见附录Axx=0LnAhLN（x）WhWh+bO+x（三）1D（w，l）=Nli，j（六）ii，jJHjVOiij其中j∈[max（1，i−[1w），min（N，i+[1w]，我们现在可以将注意力块输出表示为变换后的输入向量之和（Fi（xj））：N（2）f（xj）=F（xj）J其中，Fi（xj）定义为：i[1，N]. D（w，l）计算由对角窗口范围w限制的贡献的平均值。为了测量分布密度在窗口长度上增加的速度，我们计算了累积贡献对角线（CCD），其对应于在范围2w[1，2N]内累积D（w，l）的曲线下的面积。也就是说，我们近似D（l，d）沿着距离d的积分，但是对于离散的.如果j/=i，则AhFi（xj）=如果j=i，则{\displaystyle{\displaystyle {\frac {i}{\displaystyle {\frac{i}{\displaystyle {\frac {i}Kobayashi等人（2021）利用变换向量的欧几里德范数来测量每个输入向量Xj对层输出Xji的贡献Ci，j：Ci，j=<$Fi（xj）<$（5）强对角线模式。我们可以看到，令人惊讶的是，CCD在这两个任务中非常相似这与以下观点相悖：由于翻译时需要更深层次的语义处理，2注意，大小为w的窗口在主对角线的每一侧包含1w个令牌，因此w = 1表示主对角线，w=2N表示每个可能的对角线。NHi、jVO变量w（图2）。在图3中，我们显示了跨层ASR和ST的CCD结果，其中我们可以观察到+v：mala2277获取更多论文←diagdiag←←·[|图4：En-De ST训练后样本上编码器层的贡献矩阵3。突出显示了高效架构中使用的Windows。需要比ASR更多的上下文此外，我们看到沿着编码器的不同行为，以及在第一层中均匀分布贡献的趋势此外，在图4中，我们可以看到显示局部模式的那些层第4层、第5层和第6层关注紧密的上下文。相反，在编码器末端的那些层，如11或12，需要更大的上下文，我们可以看到，算法1：窗口大小选择输入：Cl：贡献矩阵，N：令牌的数量，t：最小对角贡献阈值wl：最佳窗口大小计数器←0wl0while计数器（N/10）dofori←0，Ndo贡献创造了与单词相对应的模式在光谱图中，使我们能够看到相互作用如果平均值（C1然后[i]）> t或平均值（Cl[−i]）> t它们之间的关系（图1）。此外，我们看到，贡献矩阵揭示了语音序列中的沉默然而，我们认为需要进一步的研究来充分理解这些模式的含义.4高效的语音到文本转换器Transformer根据前面的分析，我们假设适当的局部注意模式可能会避免计算未使用的注意力分数。请注意，如果令牌对层的输出没有贡献我们的目标是最大限度地提高模型的效率，同时最大限度地减少性能下降。窗口大小选择。CCD可以作为获得最佳窗口长度的起点。然而，它需要预定义窗口内所需的总贡献量，这使得适当地检测局部模式变得脆弱。一方面，它可能对一种强烈的wl2i+1计数器0其他计数器←计数器+ 1基于每个次/超对角的平均贡献的三次多项式（Alg. ①的人。从主对角线Cdiag[0]开始，它保持将令牌添加到窗口长度，直到它找到低于t阈值4的N个10%连续的子/超对角线。我们用随机的400个句子重复这个过程为了确保考虑到最重要的贡献，我们将运算的结果定义为最佳窗口大小（wl）wl=μl+σl。在每种语言对中获得的结果相似（表1和附录D）。在图4中，我们可以看到w是如何包含En-De ST的大部分相关贡献的（更多示例见附录E）。主对角线另一方面，它可能高估了随机的远距离贡献。我们提出了一个al-3主对角线约占每层总贡献的65%，出于可视化目的而隐藏4定义要考虑的次/超对角线的最小平均值的超参数。经过实证研究，我们选择了0.015如果wl是偶数，我们设置wl=wl+1，使得它是奇数，因此窗口可以以对角线为中心+v：mala2277获取更多论文层μ±σ wCL1*3。41± 13。15 17 0.35±0.072*1。18± 3。455 0.32±0.043*0。51± 1。563 0.30±0.0442. 25± 1。3050. 23 ±0。0454. 03± 0.285017 ±0。0367. 03± 1。0390. 23 ±0。04七点十一分。37± 1。13130.18 ±0。04八点七。94± 1。16110. 18 ±0。04九点十二分。56± 1。85150.19 ±0。05101647± 2。40190. 13 ±0。05111328± 1。90 170. 13 ±0。04121628± 3。86210. 16 ±0。05表1：En-De ST中的最佳窗口大小研究。（*）对于前三层，我们使用标准的自我注意力。恩-德-恩-埃-恩-伊基线22号。53±0。1527岁49±0。2222号。98±0。15我们的22。49±0。1127岁46±0。122297±0。27表2：在语音翻译任务上获得的BLEU（用5种不同种子训练后的平均值±捐款损失。我们现在可以计算出留在窗口之外的总贡献的百分比。这使我们能够发现损失的贡献量，因为利用当地的注意力。要做到这一点，我们employ方程。6，但由于我们对每个窗口wl之外的贡献感兴趣，我们定义CL（l，wl）=1−D（l，wl）。拟议的架构。从前面的结果中，我们看到前三层是局部模式最弱的层（见图4）。在这些层中，CL（l，wl）较大，而CCD（图2）显示较小的区域。基于这些原因，我们认为在前三层中使用整个自我注意力是必要的。在下面的层中，我们使用窗口大小为wl的局部注意力。我们提出的架构是对S2T Transformer的有效改编，因此除了自注意层之外，它完全相同（第2节和附录B中详细的架构）。实验最后，我们在与基线相同的规格和数据集下训练我们的模型（有关数据集的详细信息，请参见第2节，训练超参数请参见Ap-pendixC正如我们在表2中看到的，我们的模型在每个分析的语言对中匹配S2T Transformer的性能但是，我们实现它的同时，将大多数层的复杂度从O（n2）降低到时间复杂度为O（n·wl）。这种差异可能非常显著，考虑到语音序列的通常长度和所使用的窗口的大小。特别地，在不同语言之间，w1从5个到25个标记。然而，在S2 T Transformer中使用的两个卷积层之后，MUST-C数据集的研究分裂中的输入序列的平均长度为166个令牌，甚至达到最大值1052。5结论基于变换器的模型是许多不同领域中的当前最先进的模型。然而，自注意模型的二次复杂性通常阻碍了该模型在实际应用中的有用性。这个问题在处理长序列时会出现，就像语音一样。在本文中，我们质疑了ST中计算所有注意力权重的必要我们已经分析了贡献矩阵，我们已经看到，在许多层中，相关的分数被放置在对角线模式中因此，我们假设不需要计算这些权重为了验证我们的假设，我们训练了我们已经看到，正如我们所预期的那样，结果几乎与基线模型所获得的结果相同，但复杂性已显着降低。关于可解释性，我们已经发现了Transformer如何在语音序列中的单词之间建立联系。此外，我们已经看到，与预期相反，ST和ASR任务中的对角性得分相似，这意味着它们使用相同数量的上下文。6致谢这项工作部分由项目ADAVOICE，PID 2019 -107579 RB-I 00/ AEI / 10.13039/501100011033和UPC INIREC奖学金编号3522。我们要感谢Ioan-nis Tsiamas和Carlos Escherano的支持和建议，以及匿名评论者的有用评论。7伦理考虑本文分析了直接语音翻译中一个特殊结构的内部工作原理。基于分析，我们提出了一个更有效的模型，保持基线性能。+v：mala2277获取更多论文我们提出的解决方案可以帮助减少基于Transformer架构的语音翻译系统的生态足迹。我们相信这项工作没有直接的负面社会影响。然而，我们应该强调，本文中使用的数据集由高资源语言组成，如英语，德语，西班牙语和意大利语。虽然可解释性方法不依赖于特定语言，但在使用其他语言进行实验时，可能会在效率引用放大图片作者：Matthew E.彼得斯和阿曼·科汉2020.Longformer ：长文档 Transformer 。 ArXiv ，abs/2004.05150。Tom Brown 、 Benjamin Mann 、 Nick Ryder 、Melanie Subbiah 、 Jared D Kaplan 、 PrafullaDhariwal、Arvind Neelakantan、Pranav Shyam、GirishSastry 、 AmandaAskell 、 SandhiniAgarwal 、 ArielHerbert-Voss 、 GretchenKrueger、Tom Henighan、Rewon Child、AdityaRamesh、Daniel Ziegler、Jeffrey Wu、ClemensWinter、Chris Hesse、Mark Chen、Eric Sigler、Mateusz Litwin、Scott Gray、Benjamin Chess、JackClark、ChristopherBerner、SamMcCandlish 、 Alec Radford 、 Ilya Sutskever 和Dario Amodei。2020. 语言模型是少数成功的学习者。神经信息处理系统进展，第33卷，1877-1901页。Curran Associates，Inc.亚历山大·贝拉尔，劳伦特·贝萨西耶，阿里·坎·科卡比伊科格鲁，和奥利维尔·皮耶特昆. 2018. 有声读物的端到端自动语音翻译。在2018年IEEE国际声学、语音和信号处理会议（ICASSP）上，第6224-6228页。Roldano Cattoni，Mattia Antonino Di Gangi，LuisaBentivogli ， Matteo Negri ， and Marco Turchi.2021. Must-c：用于端到端语音翻译的多语言语料库。计算机语音语言，66：101155。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Mattia Antonino Di Gangi ， Matteo Negri ， andMarco Turchi. 2019. 使Transformer适应端到端口语翻译。InProc. Interspeech 2019，pages 1133董林浩，徐爽，徐波。2018. Speech- Transformer：用于语音识别的无递归序列到序列模型。2018IEEE 国际声学、语音和信号处理会议（ICASSP），第5884Anmol Gulati ， James Qin ， Chung-Cheng Chiu ，Niki Parmar，Yu Zhang，Jiahui Yu，Wei Han，Shibo Wang，Zhengdong Zhang，Yonghui Wu，and Ruoming Pang.2020. Conformer：用于语音识别的卷积增强转换器。在Proc. Inter-speech 2020中，第5036尼基塔·基塔耶夫，卢卡斯·凯泽和安瑟姆·列夫斯卡娅。2020.重整器：高效的Transformer。在国际学习表征上。小林五郎栗林达希横井翔和犬井五郎。2020. 注意力不仅仅是重量：用向量范数分析变压器。在2020年自然语言处理经验方法会议（EMNLP）中，第7057计算语言学协会小林五郎栗林达希横井翔和犬井五郎。2021. 在掩蔽语言模型引入残差层和归一化层。在2021年自然语言处理经验方法会议论文集，第4547-4568页，在线和蓬塔卡纳，多米尼加共和国。计算机语言学协会刘宇晨，朱俊南，张嘉俊，宗承庆。2020.弥合语音到文本翻译的模态差距。 ArXiv ，abs/2010.14920。Myle Ott 、 Sergey Edmund 、 Alexei Baevski 、Angela Fan 、 Sam Gross 、 Nathan Ng 、 DavidGrangier和Michael Auli。2019. fairseq：一个快速、可扩展的序列建模工具包。在计算语言学协会北美分会2019年会议记录（演示）中，第48-53页，明尼阿波利斯，明尼苏达州。计算语言学协会。Aurko Roy、Mohammad Saffar、Ashish Vaswani和David Grangier。2021.高效的基于内容的稀疏注意与路由变换器。计算语言学协会的翻译，9：53Kyuhong Shim ， Jungwook Choi ， and WonyongSung. 2022. 理解自我注意力在有效语音识别中的作用。在学习表征上。Yi Tay ， Dara Bahri ， Donald Metzler ， Da-ChengJuan，Zhe Zhao，and Che Zheng. 2021.合成器：重新思考Transformer模型中的自我关注。国际机器学习会议。PMLR。Yi Tay ， Mostafa Dehghani ， Dara Bahri ， andDonald Metzler. 2020. 高效变压器：调查。ArXiv，abs/2009.06732。+v：mala2277获取更多论文∫NΣ−Ashish Vaswani ， Noam Shazeer ， Niki Parmar ，Jakob Uszkoreit，Llion Jones，Aidan N Gomez，Jakukasz Kaiser，and Illia Polosukhin. 2017. 注意力就是你所需要的。神经信息处理系统进展，第30卷。Curran Associates，Inc.Changhan Wang ， Yun Tang ， Xutai Ma ， AnneWu， Dmytro Okhonko ， and Juan Pino. 2020年a。FairseqS2T：使用fairseq进行快速语音到文本建模。在Proceedings of the 1st Conference of theAsia-PacificChapteroftheAssociationforComputationalLinguisticsandthe10thInternationalJointConferenceonNaturalLanguage Processing ： System Demonstrations ，pages 33-39，Suzhou，China.计算语言学协会。放大图片作者：王思农. Li，Madian卡布萨、韩方、郝玛。2020年b。Linformer：累积注意力对角性（CAD）Shim等人（2022）提出了累积的注意力对角性（CAD）作为沿着变量r的注意力对角性D（r，l）的积分，其将窗口长度定义为序列长度的比例：r=1CADl=D（r，l）drr=0其中D（r，l）在注意力权重矩阵Al上定义：min（N，Self-attention 线性复杂度。ArXiv，abs/2006.04768。Manzil Zaheer，Guru Guruganesh，Kumar AvinavaDubey，Joshua Ainslie，Chris Alberti，SantiagoOn-1D（r，l）=Ni=1 i+r（N−1））j=max（1，i−r（N−1）li，jtanon ， Philip Pham ， Anirudh Ravula ， QifanWang，Li Yang，and Amr Ahmed. 2020. 大鸟：用于较长序列的变换器. 神经信息处理系统进展，第 33 卷，第 17283-17297 页。 CurranAssociates，Inc.为了近似积分的结果，Shimet al. （2022）使用梯形规则与离散变量r。Shucong Zhang，Erfan Loweimi，Peter Bell，andSteve Renals. 2021. 自我注意力在自动语音识别中的作用。在r=1r=0D（r，l）drr=1D（r，l）+D（r+1，l）2r=02021年IEEE口语技术研讨会（IEEESpokenLanguage Technology，第89对于求和中的每一步，对角线周围的窗口范围增加2r（N1），这可能导致基于句子长度的不同增量。例如，对于具有N=11的句子，在r的0.1增加的情况下，风的大小范围增加2。然而，当N=101时，我们得到20的增量。出于这个原因，我们重新定义了对角性措施与令牌的增量。B架构细节我们的有效模型和S2T Transformer（Wang etal. ，2020a）共享相同的架构，除了自注意模块之外。该模型包括12个编码器层和6个解码器层与正弦位置编码。在编码器和解码器中，我们使用4个注意头，嵌入维数为256，FFN层中的嵌入维数为2048。我们在注意力权重和FFN激活中都使用了0.1的丢弃概率。我们使用ReLU作为激活函数。关于应用于减小序列长度的卷积层，它由1D卷积层组成，具有大小为5的核、步长为2、并且具有与输入通道相同数量的输出通道一∫Σ+v：mala2277获取更多论文··C训练超参数为了确保可靠的比较，我们在相同的条件和超参数下进行了在ASR培训中，我们固定了每批最多40000个令牌。我们使用了Adam优化器，学习率为1 10−3，使用了平方根倒数调度器。我们为前10000次更新应用了预热我们将梯度裁剪为10，以避免梯度爆炸我们使用标签平滑交叉熵作为损失函数，平滑因子为0.1。我们在单个GPU上使用的更新频率为8。我们为每次培训设置了最多50000次更新。在ST训练中，我们使用与ASR相同的超参数，但我们使用2 10−3的学习率。我们使用NVIDIA GeForceRTX 2080 Ti GPU进行了所有实验的训练DEn-Es和En-It STE贡献矩阵下面，我们展示了更多已经研究过的不同语言注意，尽管在某些情况下，在前三个层中出现对角模式，但对角性得分仍然较低。局部对角模式与高对角性并不严格相关，因为模式外部的贡献可能均匀分布，因此难以在热图中观察到。出于这个原因，贡献矩阵可能会产生误导，我们专注于使用CL分数来确定哪些层应该使用完全关注。3. 21 ±6。170.29±0.043*0。99± 3。0.28±0.0442. 58± 1。9650. 2 ±0。0254. 52± 2。3870. 24 ±0。04六点十五。88± 2。92 190. 21 ±0。06七点十一分。32± 1。91150 . 16 ±0。03八九。52± 2。5130. 22 ±0。05九点十四。96± 1。78 170. 07 ±0. 05101594± 3。0 190. 19 ±0。05111383± 3。66 190. 21 ±0。05122038± 3。42250. 1 ±0。05表3：En-Es ST中的最佳窗口大小研究。（*）对于前三层，我们使用标准的自我注意力。二、56±7。47四、08 ±0.6510. 82 ±1。31八、62±2。180。22 ±0。04九点十二分。49± 1。65150. 09 ±0. 03101606± 3。80210. 17 ±0。04111815± 3。20 230. 11 ±0。05121734± 4。83230. 15 ±0。05表4：En-It ST中的最佳窗口大小研究（*）对于前三层，我们使用标准的自我注意力。层µ±σWCL免费WiFi2 *四、68±147721110.39±0.08层µ±σWCL免费WiFi2 ** *45678第六章16±1757二、44 ±2。8414个。05±2。08251175171313110.34±0.090.29±0.050.27±0.050。19 ±0。030。15 ±0。030。18 ±0。040。23 ±0。05+v：mala2277获取更多论文图5：En-De ST训练后样本的贡献矩阵。图6：En-De ST训练后样本的贡献矩阵。+v：mala2277获取更多论文图7：En-It ST训练后样本的贡献矩阵。图8：En-It ST训练后样本的贡献矩阵。+v：mala2277获取更多论文图9：En-Es ST训练后样本的贡献矩阵。图10：En-Es ST训练后样本的贡献矩阵。

下载后可阅读完整内容，剩余1页未读，立即下载