E-LANG: 动态推理优化NLP模型的能源与性能

76 浏览量更新于2024-06-19 收藏 1.88MB PDF 举报

E-LANG：基于能量的动态推理在NLP模型中的应用是一篇探讨如何有效解决大规模语言模型计算成本高昂问题的研究论文。近年来，随着BERT等高性能语言模型的兴起，开发大容量模型已成为NLP研究的主流趋势，这些模型在诸如GLUE、SuperGLUE等基准测试中展现出卓越的性能。然而，这些模型的计算需求巨大，包括庞大的参数和浮点运算量，如GShard模型所示。该研究提出了E-LANG（Efficient Large-scale LANGuage inference），这是一种创新的动态推理方法，旨在通过在大型精确的Super模型（如T5或BERT）和轻量级Swift模型之间分配推理任务来平衡性能和计算效率。E-LANG的核心在于一个决策模块，它基于潜在空间中表示的能量特性智能地决定输入应该被送入哪个模型。这种方法具有高度灵活性，适用于黑盒预训练模型，无需对模型架构进行调整，也不需要重新训练模块。 E-LANG的优势在于其广泛的应用性，不同于现有的只针对编码器骨干和分类任务的方法，它能够处理编码器-解码器结构和序列到序列任务，如机器翻译。作者通过一系列实验，包括在T5-11B和BERT上的测试，证明了E-LANG的有效性。在GLUE上，E-LANG在保持性能的同时，平均计算速度提高了3.3倍，甚至在SuperGLUE上也有显著提升，达到2.9。此外，E-LANG还实现了BERT在GLUE上的计算量减少3.2的SOTA性能。 E-LANG提供了一种实用且无侵入性的解决方案，帮助NLP研究人员和开发者在保持模型性能的同时，降低计算负担，这对于当前和未来的大规模语言模型部署具有重要意义。这篇论文的成果不仅限于理论探讨，还提供了可复现的代码和实验，为行业实践带来了实质性的推动。

+v：mala2277获取更多论

文

−

∫

−

∫

∈

→

在（

）和（

）中定义的吉布斯分布和分类分

布之间，给定输入（x

，

y）的能量函数可以

定义为

（

，

）

（

）。自由能函数

（x;

）可以通过取分类分布分母的负对数来

获得：

F（x; f）= −log e

（

）

（三）

我

3.2

基于能量的联合推理

我们的目标是检测适合

Swift

的简单样本，这

些样本确实是密度函数中具有高可能性的样

本。然后，Swift的基于能量的密度函数被定

义为：

3.2.1

编码器-解码器架构

所提出的基于能量的联合推理解决方案可以直

接应用于专为文本分类任务设计的仅编码器模

型，如BERT。为此，使用等式（3）获得与

基于BERT的Swift模型相对应的能量分数，并

且基于等式6执行联合推断。

另一方面，对于通常被认为是生成模型的编

码器

解码器编码器

解码器模型基本上被设计

用于序列到序列（例如，文本到文本）问题，

例如翻译或摘要。虽然这些模型也可以

从事分类任务，他们仍然认为，

p（x）

）

−F

（x

;

）

−F

（x

;

）

（四）

任务作为文本生成（序列到序列）的问题，其

中目标标签和输出预

其中分母是归一化密度，其可能难以计算或估

计。通过取两边的对数，我们得到：

词典被视为一个序列或一段文本。在第3.1节

中，讨论了区别类之间的内在联系

筛选器和EBM。为了从中获益

o g

。

（

）

−

（

;

）

−

（

（x

;

）

。

（

五）

编码器

解码器体系结构的特征，我们考虑添

加额外的分类头（即，一个单一的线性层）到

Swift模型。作为恩-

log

（

−

（

;

）

）项对

总能量值的分布，因为它对所有x都是常数。

因此，

（

），即，负自由能，具有与对数

似然函数的线性对齐，这使得它是

非常适合解决我们框架中的简单检测问题与困

难检测问题。为此，较低的能量值表示较高的

可能性，并表示

Swift

模型更容易（更适合）

的样本。

更准确地说，对于密度上的阈值δ

，

编码器通常被认为是训练分类器的更好的特征

提取器，而不是解码器，我们将额外的头放在

Swift

编码器之后。在冻结预训练的编码器模

型（由

表示）时，额外的能量头（由

表

示）被训练为具有

类标签的常规分类器头。

注意，解码器不需要用于训练头部。相应的自

由能函数定义如下：

函数使得

（

）

<δ

，则负自由能的阈值

可

以根据（

）计算为

−

（

;

）

log

（

−

（

;

）

）。

（

，

）

−log

我

埃

希

伊

（x

）

、

（

）

实际上，对于给定的输入，能量函数

在推理时间期间应用于Swift模型的输出以计

算能量分数。然后，如果负能量值小于阈值，

则输入被识别为

Swift

的坏样本，并被发送到

Super

模型。

给定能量阈值t，Swift分类器

（x）和定义

为g（x）的超级分类器

：

，则用于具有

C类的分类任务的联合推理函数J（x;f

，

）

，

可以表示为：

其中

（

）表示编码器的输出，

最后隐藏状态然后将这些特征馈送到额外头h

以获得计算能量分数所需的第i

在这种方法中，由于不需要Swift模型的解

码器部分来计算能量分数，因此涉及更少的

计算并且更有效地执行联合推理。

对于文本到文本（或序列到序列）问题，例

如翻译，输出是来自大小为N的词汇表/字典

的

M个词段的序列。仍然利用区分关系-

（

x;f

，

）

（x）如

果−F（x;

）≥t

（

），否则。

（

六

）

本机模型和

EBM

在设计和训练额外的能量

头，我们可以把文本到文本

、

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

E-LANG: 动态推理优化NLP模型的能源与性能

能量预测模型

smaller-transformers:加载您需要的东西

nim-ansna：自适应神经符号网络代理

Rust 原生即用型 NLP 管道和基于转换器的模型（BERT、DistilBERT、GPT2...）

java课程设计的仓库，基于大模型的AI工具的设计与使用

Sign_Lang_Ai_Py

算法在自然语言处理中的应用：揭示算法在语言理解和生成中的奥秘

递归神经网络（RNN）在自然语言处理中的应用

词向量与词嵌入技术在自然语言处理中的应用

多语言NLP系统：如何构建支持多语言的处理架构

最新资源