具有线性竞争单元的随机Transformer网络:SLT应用中的端到端翻译

30 浏览量更新于2023-10-13 收藏 772KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11946具有线性竞争单元的随机Transformer网络：应用于端到端SL翻译Andreas Voskou*1，Konstantinos P.作者：DavidA.Metaxas3和SotiriosChatzis11塞浦路斯理工大学2帕特雷大学3罗格斯大学新泽西摘要自动化手语翻译（SLT）是一个具有挑战性的现实世界应用。尽管其社会重要性，但该领域的研究进展仍然相当差。至关重要的是，产生可行性能的现有方法需要费力的可用性以获得光泽序列基础事实。在本文中，我们衰减这种需要，通过引入一个端到端的SLT模型，不需要明确使用的注释;模型只需要文本地面实况。这与现有的端到端模型形成鲜明对比，现有的端到端模型使用光泽序列地面实况，要么以在中间模型阶段识别的模态的形式，要么以并行输出过程的形式我们的方法constites- tutes一个Transformer网络与一种新型的层，结合：（i）具有随机赢家采样的局部赢家通吃（LWTA）层，而不是传统的ReLU层，（ii）具有经由变分推断估计的后验分布的随机权重，以及（iii）在推断时间的权重压缩技术，其利用估计的后验方差来执行大规模的、几乎无损的压缩。我们证明了我们的方法可以达到PHOENIX 2014 T基准测试中目前最好的BLEU-4分数，但不使用模型训练的注释，并且内存占用减少了70%以上。1. 介绍手语是聋人的母语，因此是聋人社区内的主要交流手段。SL是丰富的视觉语言，通过多种形式传达信息，这些形式具有互补性。具体而言，SL利用手动（手形、运动和*ai. edu.cut.ac.cy姿势），以及非手动模式（例如，面部表情、嘴唇动作、头部动作、肩膀和躯干），以传达显著的含义[30]。利用计算机视觉和机器学习的最新进展来促进SL说话者与SL非说话者的交流是对聋人生计具有高潜在影响的努力。自动化将SL视频转换为书面语言的过程是SLT的目标（例如，[3、5、4、37、25、27]）。这已被证明是计算机视觉算法的一项艰巨任务，这是语法、复杂的隐含几何以及被组合以传达独特含义的众多并发模态的由于这些挑战，计算机视觉社区传统上专注于识别符号注释序列。这些是试图对SL符号的含义进行编码的自然语言单词，形成指示性词汇项的最小词典。因此，与一些SL视频有关的注释的组合不构成自然语言中的翻译;然而，它可以帮助非SL扬声器获得SL扬声器正在谈论的感觉。在SL视频中精确定位注释的过程通常被称为手语识别（SLR）。这种区分很重要，因为手语和口语的语法和结构是非常不同的。这些差异反映在SLR的结果中，由此不存在将所识别的注释与自然语言中的实际单词/短语相关联的简单方式。这使得SLR结果在现实世界应用中的有用性有限。为了减轻SLR的有限有用性，同时提高SLT系统的翻译质量具体地，现有方法在两个备选方案中进行选择：（i）执行SLR，然后将检测到的注释的序列翻译成自然语言（S2 G2 T）;以及11947SLT，以在中间层中学习的表示在任务之间共享（S2（G+T））的方式。在该领域的最新工作中，这是通过利用用于顺序数据建模的最先进的框架来实现的，即Transformer网络[34]。Transformer网络[34]目前构成了顺序数据建模的最新范例;这包括序列到序列建模任务和（自回归）密度建模任务。Transformer网络的主要原理将它们与所有先前的序列数据深度学习方法区分开来，包括使用基于神经注意力的机制，称为自我注意力;这捕获了建模序列内的（长）时间动态。具体来说，self-attention是一个点产品attention [21]，它从同一个序列中提取所有查询，键和值。这样，自我注意力是关键机制，它允许序列中的每个位置参与所有其他位置;这使得能够捕获数据中的长程相关性。此外，它使高规模的并行计算，以前的方法（与经常性的连接）不能负担得起。现有的Transformer网络公式广泛建立在具有ReLU激活函数的Dense层上。然而，最近的几项工作表明，通过使用激活函数在其操作中采用某种随机性，可以产生相当大的性能改善，特别是在硬机器学习任务。在这种情况下，[26]通过以下方式在不增加可训练模型参数数量的情况下产生了相当大的性能改进：（i）用随机竞争的本地赢家通吃（LWTA）线性单元块替换ReLU单元。具体地，每个层被分成线性单元的块在每一次，只有一个单元内的块传递其激活输出到下一层;这就是获胜单位。其余的都归零，从而将零值传递给下一层。获胜者选择基于随机采样过程来执行，由此单元激活值越大，其被采样为获胜者的概率越高(ii)执行层参数（连接权重）的（近似）贝叶斯处理，由此模型推断层权重的完整变分后验，而不是简单的点估计。在这项工作中，我们从这些进展中汲取灵感，寻求一种SLT方法，产生显着提高SL翻译的准确性。我们最重要的目标是设计一种端到端的SLT建模方法，完全避免了使用SLR地面实况信息（注释）作为模型管道的一部分的需要;也就是说，或者作为中间识别步骤（S2 G2 T范例），或者作为用于促进学习的中间输入表示的优化的联合任务（S2（G+T））。实现这一目标可能会大大促进该领域的进展，因为为大型训练数据语料库构造注释序列是一个极其昂贵和耗时的过程。此外，我们的目标是贡献一个SLT方法，减少在推理时的内存需求，因为这是我们的技术在现实世界中的应用很为此，我们设计了一种新的反式网络公式，由包括以下创新论点的密集层构建：（i）与常规ReLU层相反，具有随机优胜者采样的LWTA密集层;（ii）随机连接权重，跨网络，具有在变分贝叶斯原理下拟合的高斯后验;以及（iii）经训练的网络压缩方案，其利用层权重的拟合变分后验的估计方差。我们采用这种新的Transformer网络范式，公式化的端到端的SLT模型，不使用光泽序列地面实况在其整个建模管道。我们证明，所提出的方法实现了可比的，或更好的结果比国家的最先进的最突出的SLT基准，即PHOENIX2014T。与此同时，我们设计的模型施加了显着较低的内存占用相比，国家的最先进的。本文其余部分的组织结构如下：在第二节中，我们简要地介绍了最近在统计学习和激光测距领域的相关工作，重点介绍了利用Transformer网络的最新进展。在第3节中，我们提出了所提出的方法;我们首先介绍了我们的新的建模原理;随后，我们设计适当的训练和推理算法;然后，我们详细介绍了模型压缩过程，我们最终使用它来获得一个可扩展的，端到端可训练的SLT模型。在第4节中，我们对我们提出的方法进行了全面的实验评估，并结合了深度消融研究。为此，我们使用PHOENIX 2014T数据集。最后，在第5节中，我们总结了本文，总结了我们的结果。2. 相关工作SLT已被广泛视为识别问题（详细列表见[13]）。寻求的初步办法在时间序列分类框架下使用判别或生成方法来识别个体和良好分段的标志;示例包括隐马尔可夫模型（HMM），例如，[6，35，18]，动态时间规整，例如，在一个实施例中，[1，19]，和条件随机场，例如，[31，36]。这些方法涉及手工制作的特征;最近，深度学习方法提供了一些更好的表示，诸如源自CNN的表示，例如，[29，24]。然而，这种方法的实用性有限，因为它产生了一组具有相当不一致的上下文结构的单词，而不是自然语言的结果。因此，具有连续识别的SLT是一个更现实的框架，但也更具挑战性。11948ing [15，16，2].这一挑战是由于插入语（在符号中插入额外的视觉线索）、协同发音（一个符号的结束会影响下一个符号的开始）和自发的符号产生（可能包括俚语、特殊表达等）。为了解决这个问题，[14]使用了一个包含CNN-LSTM网络的模型以类似的方式，[7]使用了一个双向LSTM，从CNN中获得特征;[23]使用了与倒数第二个连接时间分类（CTC）层结合的3DCNN [9]。在[38]中，提出了一种称为SMTC的网络，其在多个尺度中组合来自姿势和图像（手、脸、整体）的多个线索，馈送到CTC倒数第二层。尽管取得了这一进展，这些作品是无法扩展到大规模的自然语言词典（i）与特定现实世界场景相关的小字典;或者(ii)一组自然语言单词，试图以简洁的方式对SL符号的含义进行编码，从而形成指示性词汇项（注释）的最小词典。事实上，注释的识别经常被利用，以便将SLT任务分解为两个独立的任务，即将符号翻译为注释，然后将注释翻译为文本。这些缺点已大大改善，利用 Transformer 网络。Transformer允许将SLT扩展到真实世界的自然语言词典，同时还大大提高了所获得的翻译性能。当将SLT与SLR过程相结合时，无论是作为中间任务，还是甚至在多任务学习方案的背景下，这一点都更加深刻。更具体地说，在[5]中，作者使用Transformer网络以端到端的方式执行翻译。本质上，他们提出了一个S2（G+T）架构：2014 T（不使用注释）。在混合方法方面也报告了例如， [37] 提出了 S2 G2 T 混合，其中时空多线索（STMC）网络[38]用于光泽识别;这些随后将所识别的光泽序列馈送到2层Transformer。该S2 G2 T网络实现了24.00的BLUE-4得分;通过使用这种网络的集合获得了25.40的分数。在这一点上，重要的是要注意，利用光泽序列地面实况的基于Transformer的网络目前产生最好的报告BLEU-4分数。gloss序列的可用性也可能对系统解释性有用，但它带来了巨大的成本：在这样的模型的情况下的训练需要注释的分割/对齐（经由维特比解码、CTC层或类似的方法）。这进而需要待比对的可能的注释序列的可用性。对准过程本身引起额外的计算，这在寻址SLR时是有意义的，但在SLT的情况下不一定。最重要的是，可能的注释序列的基础事实不是可以轻易获得的;对于可能涉及大词汇表和复杂语法的实际无约束场景，尤其是这种情况。3. 该方法3.1. 传统Transformer网络在我们介绍我们提出的方法之前，我们重新审视Transformer网络的主要原理变压器包括编码器模块和解码器模块。编码器在应用位置编码（PE）之后，根据以下规则执行S2 T的Transformer网络;同时，他们使用PE= sin（pos），PE= cos（pos）Transformer的编码器部分来预测（位置，2i）2我10000天（位置，2i+1）2我10000天（一）tive gloss sequence groundtruth.后一个SLR任务是通过倒数第二个CTC层在所有可能的光泽对齐上执行的。针对整个结构（两个任务）联合执行训练。通过这种方式，[5]成功实现了PHOENIX 2014 T上报告的最高BLEU-4分数，等于21.80。此外，作者还表明，仅使用端到端可训练的Transformer网络（不使用光泽序列地面实况），他们可以在PHOENIX 2014 T上获得20.17的这一重要突破激发了新的研究兴趣，在该领域，许多最近的作品的基础上，并扩展了这一框架。例如，[4]提出将视觉信号分成三个不同的流：手动、面部和身体姿势。在此基础上，他们设计了一种具有新颖的多通道注意机制的Trans-former网络，这在PHOENIX上产生了高达21.32的端到端SLT BLEU-4评分其中pos是序列中的位置，i是索引，d是编码的总大小。然后，它学习提取更高级别的表示，这需要在长时间范围内展开的为此，编码器模块由自注意层的堆栈构建，每个自注意层与两个紧接的密集层配对，一个具有ReLU单元，一个是线性层。另一方面，向解码器模块呈现如此获得的输入序列编码，并且解码器模块学习生成对应的输出序列。在该上下文中，解码器模块利用（可能多个）编码器-解码器注意层;这允许以连续的方式捕获输入和输出序列模式之间的显著相关性。这些注意力层由先前的解码器侧自注意力层和后续的密集层对交织，前者具有ReLU单元，后者具有线性单元。11949Ju=1Σu=1∈∈∈∈j=1∈Σ∈ΣΣ−KLq（{w}）||p（{w}）∼N--√dVWΣ·在所有情况下，注意力机制都被实现为点积注意力的多头变体。也就是说，考虑一组键K、查询Q和值V，注意力计算以下形式. KW kQWqΣv现在让我们检查潜在指示符向量ξ的统计特性。为了实现LWTA块内的单元之间的数据驱动竞争，我们假设单元被采样为获胜者的概率随着其（线性）输出的值而增加。换句话说，我们考虑从离散后验样本中选择每次都是赢家。基于这一理念，我们提出--其中d是输入的维度，W是可训练参数集。规则（2）被多次应用（如我认为，在事后，它仍然成立与磁头的数量一样多），每次设置不同的参数。结果最终被线性组合以生成最终的多头注意力层输出：q（[ξ]k）=离散。[ξ]k。softmax.Σj=1[wj，k，u]U·XjΣ（五）其中，[w，j，k，u]U 表示MultiHead= Concatenate（head1，...，标题i）Wm（3）集合u=1{wj，k，u}U.3.2. 具有线性竞争单元的随机变换让我们将馈送到Transformer网络的某个密集ReLU层的输入表示向量表示为XRJ，包括J个特征。这一层是通过一个权重矩阵WRJ×K获得的输入的线性组合来呈现的，并产生一个输出向量yRK，该向量被馈送到下一层。在我们的方法中，该机制被LWTA块的引入所取代，每个LWTA块包含一组竞争线性单元。层输入最初通过每个单元的不同权重呈现给每个块;因此，连接的权重现在被组织成三维矩阵W RJ×K×U，其中K表示块数而U是其中竞争单元的数量。在我们的方法下，在每个块中，这些线性单元计算它们的激活;对于第k个块中的第u个单元，我们获得和J（w，j，k，u）x，j。然后，该块基于竞争性随机采样过程（下面描述）选择一个获胜者单元，并将其余单元设置为零.通过这种方式，我们产生稀疏层输出，编码为馈送到下一层的向量yRK·U在下文中，我们通过离散潜在向量ξone hot（U）K表示每个块中的单元之间的局部竞争的结果，其中onehot（U）是具有U个分量的one-hot向量。这些表示当呈现一些输入时，在所提出的层的K个块中的每一个中的U个使用这种表示法，输出为J[y]k，u=[k]k，u（wj，k，u）·xj∈R（4）j=1其中，我们将向量h的第l个分量表示为[h]l。正如我们所观察到的，在每个时间，每个LWTA块中只有一个（线性）单元将其输出传递到下一层，而其余的则被清零。在此基础上，我们得到了Transformer网络的一种新变体，其主要工作原理如图所示。1.我们观察到，所提出的网络entails统计推断参数，这带来了前面的随机激活原则。从这个灵感，我们继续得到一个完整的贝叶斯处理所获得的网络，还考虑到网络参数本身是由统计原理。具体来说，我们假设在整个网络中，所有可训练的权重都是随机变量;它们的（后验）分布可以以数据驱动的方式估计。为了简单起见，我们寻求在可训练权重w的集合上导出（近似）独立的高斯后验：q（w）= N（w|μ，diag（σ2））（6）其中μ是均值，σ2是高斯方差。这就结束了拟议的Stochas的制定具有竞争线性单元的tic Transformer网络。3.3. 训练和推理算法为了训练所提出的模型，我们采取最大化的结果证据下限（ELBO）的模型。为此，我们需要引入关于每个LWTA层上的获胜者指示符潜在变量ξ的分布以及整个网络中的可训练权重w的为了方便起见，我们假设形式为p（w）=（0，I）的先验球形高斯权重，以及获胜者的对称离散先验：[n]k离散（1/U）。在层间引入平均场（后验独立性）假设，我们得到以下ELBO：L（λ）=Eq（·）logp（D|{w，ξ}）Σ−K LΣq（{ξ}）||p（{n}）（七）其中，σ=μ，σ2 是高斯权重后验的均值和方差head= softmax（二）11950的集合，通过-11951ΣΣD|Σi=1Σ∗图1.建议的方法。(a)建议的Transformer网络的端到端SLT。(b)所提出的LWTA层的图形说明。矩形描绘LWTA嵌段，而其中的圆形表示竞争线性单元。获胜单元用粗体轮廓（ξ= 1）表示。所有边对应于高斯分布权重。以端到端的方式输出网络。在该表达式中，Eq（·）logp（w，ξ）对应于用于训练常规Transformer网络的标准分类交叉熵误差上的（负）后验期望。ELBO中的所有后验预期都是通过在以下条件下绘制蒙特卡罗（MC）样本来计算的：(i)假设高斯权重w的标准重新参数化技巧;以及（ii）潜在获胜者指标变量的LWTA层，ξ.在此基础上，ELBO最大化从训练后验q（w）1中采样。3.4. 的压缩方案根据当前的标准[32]，计算机通过分成3个不同子集的一组位来表示实数：单个符号位、一组EB指数位和一组PB有效精度位。然后，存储值被表示为三个因子的乘积：PB使用标准的现成的随机梯度技术进行;具体地说，我们采用亚当[12]。本文给出了超临界流体中ELBO（7）的解析表达式。value=（−1）sign*2E−2eb−1*（1+b我pb−i2−i）（8）互补的现在让我们转向我们的网络的推理算法。在推理时，我们直接从LWTA层的获胜者选择潜变量ξ的训练后验以及整个网络的训练后验权重w中因此，不同于以前的工作在该领域中，建议的Transformer网络的特点是由一个双重的随机性质，源于两个不同的采样过程。一方面，我们实现了一个数据驱动的随机抽样过程（通过从q（ξ）采样），以确定网络中的密集层（LWTA层）的激活。此外，我们推断权重值，在整个网络中，再次基于其中E=ebb i2i−1，b i是第i位。其中，第二个因子确定最大值和最小值值，第三个决定浮点精度。典型的机器学习实现（例如， PyTorch [28] ）采用 8 个指数位和 23 个精度位（float32格式）。然而，现在公认的是，深度网络权重的变分贝叶斯处理允许在不损害准确性的情况下显著减少所使用的比特[26，20]。具体地，所获得的网络权重的后验方差〇2构成其采样值的不确定性的度量。相关的不确定性详细地，通过对q（ξ）和q（w）后验进行总共S= 4次采样，并对相应的S= 4组输出logit进行平均（贝叶斯平均）来执行推断。11952其值的波动越大。可以利用该不确定性信息来评估可用的pb中哪些精度位是重要的，并且去除在近似后验采样下波动太大的精度此外，结合后验均值、μ和方差信息可以估计置信区间，即采样权重值可能以高概率位于其中的区间。使用该信息，我们还可以减少所使用的指数位的数量eb。在我们的工作中，我们在逐层的基础上执行这两个减少。为此，我们考虑层内权重的最小后验方差σ2，以及最小和最大µ值。3.5. 拟议的可持续发展模式在我们的SLT模型中，整个Transformer网络都是从头开始训练的。输入模态是从整个视频帧获得的逐帧特征序列。这些逐帧特征源于预训练的Inception网络[33，14]，其方式类似于[5]。该输入模态最初被馈送到LWTA层;这产生了空间嵌入，我们随后将其馈送到我们提出的Transformer网络的编码器，如图2所示。1.从我们网络的解码器部分生成的输出模态在每一次，解码器呈现前一个单词，该单词最初被馈送到香草线性嵌入层。如前所述，整个结果模型以端到端的方式进行训练。我们实现我们的方法，考虑LWTA块的U=4个单位4. 实验结果在本节中，我们对我们的方法进行了比较评估。为此，我们使用PHOENIX 2014 T数据集[3];这构成了最近文献中最常用的基准。因此，这种基准选择允许我们的结果与该领域最近的相关工作的最佳和充分的可比性。所使用的数据集包含天气预报的德语SL视频，以及相应的德语口语翻译。他们从9个不同的扬声器获得。4.1. 实验装置所有经过训练的变形金刚都使用512和8个注意头的嵌入尺寸权重后验均值和方差通过Kaiming统一初始化[10]初始化传统模型，我们获得点估计（与权重后验相反），通过采用Xavier正态[8]进行初始化Gumbel-Softmax温度设置为T=1。69用于训练并且T=0。01推理在所有情况下，我们使用Adam [12]，学习率为0.001（β1=0）。9，β2=0。998），批量为32。期间训练时，我们每80次迭代对验证集上的网络进行评估，如果验证在连续5次迭代中没有改善，则当学习率下降到0.0001的最小值以下时，训练结束。网络训练期间的该评估过程经由贪婪解码来执行。在推理阶段，利用波束搜索对测试集进行评估;我们执行几次运行以确定所有情况下的最佳波束尺寸。我们评估翻译质量的主要参考指标是BLEU-4评分。我们的实现是在Pytorch [28]中开发的，并且基于[26]框架。4.2. 基准表1.最先进的BLEU-4分数，截至2020年底模型Dev测试S2T [5]S2（G+T）[5]20.6922.1220.1721.80G2T [5]25.3524.54S2G2T-STMC [37]S2 G2 T-STMC集成[37]22.4724.6824.0025.40在讨论我们的结果之前，我们首先介绍了一些最新的国家的最先进的方法论的基准，以供进一步参考。表1总结了这些模型的BLEU-4评分。我们在实验评估中考虑的第一个最先进的模型是符号到文本Transformer（S2T）[5]。我们的SLT方法在本文中提出了很大程度上扩展了这种方法，因此，我们认为这种方法作为我们的基线。此外，我们考虑三个进一步的基于Transformer的模型，即光泽到文本（G2T）[5]，符号到光泽和文本（S2（G+T））[5]和符号到光泽到文本（S2G2T）[37]模型这些方法获得了比基本S2 T更高的BLEU分数;最后一个实际上产生了迄今为止在所考虑的基准中报告的最高性能然而，如第2节所述，这些网络需要可能的光泽序列，这对于大型训练数据集来说可能很难获得。具体地，S2（G+T）将注释的优点作为促进编码器获得更好的表示的并行任务; S2 G2 T利用它们作为中间步骤，而G2 T使用注释输入来获得自然语言（这使得它与真实世界的SLT任务最不相关，因为它假设允许完美注释识别的系统的可用性）。此外，我们强调S2 G2 T采用计算负担-一些STMC 3通道识别网络[38]，而我们将整个帧作为单个通道处理。11953表2. 拟定方法：不同深度的BLEU评分。深度编解码器Dev测试BLEU-1BLEU-2BLEU-3BLEU-4BLEU-1BLEU-2BLEU-3BLEU-41 - 1页48.6735.3427.322.0347.4734.7526.821.852 - 249.1236.2928.3423.2348.6135.9728.3723.65三比三45.6832.8725.7221.6645.8433.4025.7221.29表3. 根据第3.4节进行网络压缩：对记忆要求和翻译质量的影响。深度编解码器平均所需比特存储器减少Dev测试BLEU-4变化BLEU-4变化1 - 1页9.470.6%21.66-1.6%22.05+0.9%2 - 28.872.3%23.09负百分之零点六23.52- 百分之零点五三比三8.773.0%20.82-3.8%20.77-2.4%4.3. 性能结果在表2中，我们总结了我们的模型在不同深度的网络配置中的性能在我们的设置中，深度为H的编码器（解码器）意味着包括H个连续子模块的模块，该H个连续子模块的形式在图1的左（右）侧描绘。第1（a）段。将其中报告的最佳性能与表1中的最新结果的总结进行比较，我们观察到我们的方法在测试集上比相应的S2 T基线方法高出3.48 BLEU-4分数在这种情况下，在所提出的建模方法下的最佳配置似乎是（2-2）;这在测试集上实现了这种性能也优于S2（G+T）混合网络，其在测试集上产生21.80 BLEU-4如果我们考虑到S2（G+T）施加了更高的计算负担，并且最重要的是，它需要可能的注释序列作为地面实况，则该结果随后，我们研究网络压缩。通过采用第3.4节中概述的分层压缩方案，我们设法将存储网络参数所需的平均位数从32减少到小于10。这一事实意味着[5]的基线SLT Transformer网络的存储器使用量约为30%。在表3中，我们给出了整个网络层所需的平均比特数。此外，我们展示了压缩网络如何在获得的BLEU-4分数方面进行这些分数是通过压缩网络参数，然后重新运行推理获得的。我们的研究结果表明，我们的压缩网络在翻译准确性方面的权衡可以忽略不计，因为内存需求大大降低。最后，我们转向S2 G2 T集合[37]，其仍然比我们的方法表现得更好，得到25.40的BLEU-4分数（参见，表1）。使S2G2T系综如此有效的关键因素这包括对不同网络，以提高最终的翻译质量。因此，值得研究的是，一个集成方案是否为此，我们使用（2-2）版本重复实验，用不同的随机种子训练10个不同的网络实例。我们使用如此获得的10个网络中表现最好的L=4或L=8来执行集合解码。在表4中，我们呈现了获得的BLEU-4评分。当L=8时，我们的方法产生25.59的BLEU-4分数;这是在所考虑的数据集的文献中报道的最好的BLEU-4分数。我们强调，与 [37] 相反，我们在不使用任何需要在Transformer网络管道中对齐的预定义光泽序列的情况下获得了这种性能。然后，我们使用第3.4节的技术重复我们的集成解码实验以执行参数压缩。我们得到了类似于表3第二行的内存占用减少.如表4所示，对于减少约70%的内存占用，我们的方法与[37]相比仍然具有竞争力。4.4. 消融研究4.4.1ReLU激活将如何执行？我们现在仔细研究所提出的基于随机竞争的激活函数。具体来说，我们使用ReLU和其他流行的激活函数来代替所提出的LWTA层重新实现我们的方法。我们继续，虽然，执行一个完整的变分贝叶斯处理的模型，通过推断高斯权重后验。由于所提出的网络的（2-2）版本被证明是最准确的，因此以下所有实验都集中在该配置上。表5示出了如此获得的实验结果。很明显，每个块中有4个单元的拟议LWTA激活构成了具有最佳整体性能的方法;特别是，它比常用的ReLU产生了超过1个BLEU-4单元的优势。11954表4. BLEU-4评分与Ensemble-DecodingL32位减少Dev测试Dev测试4824.0224.8824.8425.5924.2324.5224.5225.33以及其它常规激活功能。此外，我们还研究了我们的方法如何执行，如果我们使用不同数量的竞争单位（U）每块。表5表明，对于U=2和U=8，LWTA仍然比ReLU产生更好的分数，但更大的块似乎会降低性能。最后，我们按照3.4节的基本原理执行网络压缩，并重复我们的实验。如表5所示，ReLU继续产生比我们的方法（U=4）少约1.0个BLEU-4单位;这证实了所提出的激活的优越性。4.4.2变分贝叶斯处理网络权重有助于SLT的准确性？与前一节的实验相反，检查在网络权重上训练全变分后验是否确实在翻译准确性方面提供了为此，我们重新实现我们的方法，充分利用所提出的随机LWTA激活，但在网络权重上获得传统的点估计。因此，网络权重的集合w现在变成我们在训练期间优化的参数集合。具体地，网络训练现在简化为以下ELBO表达式的最大化L（w）=Eq （ξ）Σlogp（D|{ξ}）Σ−KLΣq（{ξ}）||p（{n}）在表6中，我们提供了我们的结果，再次考虑了我们的方法的（2-2）版本，其构成了其最佳性能配置。我们的研究结果表明，即使使用点估计，我们也可以在S2T基线之上获得2个BLEU-4单位。这个结果显然不如我们的成熟模型。因此，我们推断，通过提出的网络，变分贝叶斯处理的连接权重，提供了重要的SLT精度增益。这是通过遵循子节3.4的基本原理而实现的，除此之外，还可以节省大量4.5. 定性研究从质量的角度来看，我们的翻译似乎是可以接受的质量（表7）。有少量的句法和语法错误;大部分都是关于地点和日期的虽然在许多情况表5.激活功能比较（BLEU-4评分）。激活32 位减少Dev测试Dev测试ReLU22.4222.6122.1722.67Elu22.6322.5622.1922.32丝路22.7322.3322.2321.99LWTA-U=222.9922.8223.1222.37LWTA-U=423.2323.6523.0923.52LWTA-U=822.2822.9622.3522.72LWTA-U=1622.3222.5222.0022.34表6.变分高斯权重与点估计值（BLEU-4分数）的比较。权重类型32位减少Dev测试Dev测试点估值变分高斯22.5423.2322.3423.65-23.09-23.52如果预测的句子在句法上与地面实况不同，则结果的含义保持相似。C.F. 更多的例子和英文翻译的补充表7.参考（R）、单个模型（S）和系综（E）。R：ims uedenschwacherwindS：风只吹得很轻E：Derwindwehtimsu¨ denschwachbism¨ßigR：我很想知道为什么会有这么多的再生剂S：在下议院里，大家都在谈论这件事E：在飞机上有很多狼和狼R：Ganz aühnliche temperaturen wie heute zwischen sechs und elfgrad今天晚上博登湖只有两个小时E：今天晚上很潮湿R：在西方和西北方有一个小瀑布。西：我的西和西北都很漂亮，很漂亮。在西方和西北方，西方有一个很小的窗户。5. 结论我们提出了具有以下优点的SLT方法：（i）不需要用于训练的注释序列;（ii）PHOENIX 2014 T上最先进的BLEU-4评分，与需要可能的光泽序列和/或多个流的方法竞争;以及（iii）比现有技术至少少70%的存储器需求。我们通过设计一个Transformer网络来实现这一点，该网络：（i）用随机竞争线性单元替换ReLU层;以及（ii）在整个网络中对所有连接权重执行变分贝叶斯推断。（九）11955引用[1] Jonathan Alon，Vassilis Athitsos，Quan Yuan，and StanSclaroff.手势识别和时空手势分割的统一框架。IEEETransactionsonPatternAnalysisandMachineIntelligence，31（9）：1685[2] Neena Aloysius和M.吉塔理解基于视觉的连续手语识别。多媒体工具和应用程序，79（31-32）：22177[3] N. C. Camgoz，S.哈德菲尔德岛Koller，H. Ney和R.波顿。神经手语翻译。2018年IEEE/CVF计算机视觉和模式识别会议，第7784-7793页[4] NecatiCihanCamg ？ z ， OscarKoller， SimonHadfield ，andRichard Bowden.多发音手语翻译的多通道转换器。在Adrien Bartoli和Andrea Fusiello，编辑，计算机视觉-ECCV 2020研讨会-格拉斯哥，英国，2020年8月23日至28日，Proceedings，第四部分，计算机科学讲义第12538卷，第301-319页Springer，2020年。[5] NecatiCihanCamg ？ z ， OscarKoller， SimonHadfield ，andRichard Bowden.手语转换器：联合端到端手语识别和翻译。2020年IEEE/CVF计算机视觉和模式识别会议，CVPR 2020，美国华盛顿州西雅图，2020年6月13日至19日，第10020-10030页。IEEE，2020年。[6] Sotirios P Chatzis ， Dimitrios I Kosmopoulos ， andTheodora A Varvarigou.鲁棒序列数据建模使用离群容忍隐马尔可夫模型。IEEE transactions on pattern analysisand machine intelligence，31（9）：1657[7] R. Cui，H.Liu和C.张某递归卷积神经网络通过阶段优化用于连续手语识别2017年IEEE计算机视觉和模式识别会议（CVPR），第1610-1618页[8] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在第十三届人工智能和统计集，第249JMLR Work-shop and Conference Proceedings，2010.[9] Al e xGr av es，SantiagoFer na´ ndez，FaustinoGomez，andJ ür genSchmidhube r. 连接主义时间分类：用递归神经网络标记未分割的序列数据。在Proceedings of the23rd International Conference on Machine Learning ，ICML’06，第369-376页，New York，NY，USA，2006中。计算机协会。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在IEEE计算机视觉国际会议论文集，第1026-1034页[11] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax进行分类再参数化，2017年。[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[13] 奥斯卡·科勒对最新技术水平的定量调查in signlanguage recognition ， arXiv ： 2008.09918v2 [cs.cv] ，2020.[14] O. Koller，N. C.坎戈兹H. Ney和R.鲍登弱监督学习与多流cnn-lstm-hashboard发现手语视频中的顺序并行性。IEEE Transactions on Pattern Analysis and MachineInteligence，42（9）：2306[15] Oscar Koller，Jens Forster，and Hermann Ney.连续手语识别：面向大词汇量统计识别系统处理多个签名者。计算机视觉和图像理解，141：108姿势手势。[16] O. Koller，S.Zargaran和H.内伊重新标记：用深度复发cnn-hmms重新比对2017年IEEE计算机视觉和模式识别会议（CVPR），第3416-3424页[17] Julia Kreutzer Jasmijn Bastings 和 Stefan Riezler JoeyNMT：一个面向新手的极简NMT工具包。在2019年经验方法会议上第九届自然语言处理国际联合会议（EMNLP- IJCNLP）：系统演示，第109-114页，中国香港，11月15日。2019年。计算语言学协会[18] 西蒙·朗、马可·布洛克和劳尔·罗哈斯。使用kinect进行手语识别。 In Leszek Rutkowski ， Marcin Ko-rytkowski，RafałScherer，Ryszard Tadeusiewicz，LotfiA. Zadeh 和 Jacek M. Zurada ， editors ， ArtificialIntelligence and Soft Computing ， pages 394-402 ，Berlin，Heidelberg，2012.施普林格柏林海德堡。[19] Jeroen F Lichtenauer，Emile A Hendriks，and Marcel J TReinders. 统计dtw与独立分类相结合的手语识别IEEETransactionsonPatternAnalysisandMachineIntelligence，30（11）：2

下载后可阅读完整内容，剩余1页未读，立即下载