没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文×××E-LANG:基于能量的Super和Swift语言模型Mohammad Akbari,Amin Banitalebi-Dehkordi,Yong Zhang华为技术加拿大有限公司公司{mohammad.akbari,amin.banitalebi,yong.zhang3}@huawei.com摘要构建庞大且功能强大的语言模型在过去几年中一直是一种趋势。尽管它们的性能很好,但它们的计算成本很高。一个常见的解决方案是应用模型压缩或选择轻量级架构,这通常需要一个单独的固定大小的模型为每个理想的计算预算,并可能失去性能的情况下,沉重的压缩。本文提出了一种有效的动态推理方法E-LANG,它将推理分布在大型精确超级模型和轻量级Swift模型之间。为此,决策模块基于潜在空间中的表示的能量特性将输入路由到Super或Swift模型。这种方法易于采用,并且与体系结构无关。因此,它可以应用于黑盒预训练的模型,而不需要架构操纵,模块的重新组装或重新训练。与仅适用于仅编码器骨干和分类任务的现有方法不同,我们的方法也适用于编码器-解码器结构和序列到序列任务,例如翻译。E-LANG性能通过一组T5和BERT主链在GLUE、Su- perGLUE和WMT上的实验进行验证。特别是,我们跑赢了T5-11B,在GLUE上的平均计算速度为3.3,在SuperGLUE上为2.9。我们还在GLUE上实现了基于BERT的SOTA,计算量减少了3.2代码和演示在这里。1介绍随着有影响力的语言模型的引入,如BERT( Devlin et al. , 2019 ) , 自 然 语 言 处 理(NLP)研究的一个趋势是开发高容量模型,并将其性能提升到新的水平。因此,使用这些模型在各种基准上取得了最先进的(SOTA)结果; GPT-3( Brown et al. , 2020 ) 、 XLNet ( Yang etal. , 2019 ) , RoBERTa ( Liu et al. ,2019 ) 、 T5 ( Raffel et al. , 2020 ) 、ELECTRA(Clark et al. ,2020)和DeBERTa(Heet al. 2021年,举几个例子。然而,一个潜在的缺点是,这些模型的参数或浮点运算( FLOP ) 的 数 量 可 能 会 非 常 大 。 例 如 ,Gshard(Lep-ikhinet al. ,2021年)带有600 B参数,具有巨大的计算量。这又导致更高的推理延迟,这对于延迟敏感的应用程序是不期望的。加速大型语言模型的常见解决方案是应用模型压缩(Gupta et al. ,2020)。虽然压缩通常是成功的,但压缩确实会在准确性上有所牺牲,并且如果压缩很重,可能会失去性能。此外,这些方法通常将模型压缩到固定的较小尺寸,其中每个可能的计算预算都需要单独的模型在文献中探索的另一种方法是以这样的方式利用动态例如,时间提前退出模型(Shen etal. ,2017; Yu et al. ,2018)在已经找到足够的证据用于准确预测时终止读取输入序列实例式提前退出(Xin et al. ACL2020)是另一种技术,如果满足某些条件,则允许因此,较早的存在需要较少的计算并导致较低的延迟。通过选择自适应宽度和深度来调整推理时模型的大小也是用于动态推理的另一种方法(Kim和Cho,2021; Hou等人,2012)。,2020)。提出了各种自适应/动态推理方法,然而,这些方法中的许多方法的一般缺点是,它们通常需要仔细的架构设计、网络模块的操纵或甚至重新训练。arXiv:2203.00748v1 [cs.CL] 2022年3+v:mala2277获取更多论文在本文中,我们提出了一种简单但相当有效的方法,动态地分配原始大模型(称为超级模型)和轻量级模型(例如,被称为Swift模型。为此,我们设计了一个基于能量的决策模块,该模块根据潜在空间表示的负自由能将示例路由到适当的模型,使得Swift模型在发送给它的示例上获得高精度。剩余的样本然后被转发到超级模型,该超级模型应该在所有示例上都具有良好由于Swift模型可以对大多数样本进行高度准确的预测,因此E-LANG显著降低了整体计算成本,同时保持了Super模型的高准确性。虽然简单,但该策略在多个结构上实现了SOTA结果(例如,T5和BERT)和基准测试(例如,胶水和SuperGLUE)。该方法具有良好的本文的主要贡献如下:• 结合高精度和高延迟的Super模型和低精度和低延迟的Swift模型,实现高精度和低延迟。换句话说,通过采用我们的方法,我们可以实现超级模型提供的高精度,但计算成本较低。我们的方法很容易采用,架构不可知,和正交的许多其他现有的方法。它可以应用于黑盒预训练模型,而不需要架构操作,仔细重新组装模块或重新训练。• 一个基于能量的路由机制,用于将示例定向到Super或Swift。这提供了在精度和计算成本之间的动态权衡,其在固定大小和动态干扰两者中优于先前的工作(对于速度/精度的实时调整具有零开销因此,E-LANG就像一个旋钮,用于在模型服务期间实时调整准确性-延迟权衡。• 据我们所知,我们的方法是第一种在仅编码器和编码器-解码器架构上应用动态推理的通用方法(例如,T5),并且还可以将使用范围扩展到分类任务之外,扩展到序列到序列任务,例如翻译。2相关作品如前所述,压缩是一种广泛使用的加速大型语言模型的策略(Guptaet al. ,2020; Gupta andAgrawal,2022).这涉及结合诸如权重和激活的量化的技术(Bai et al. ,2021; Shen et al. ,2020; Kim等人,2021; Zhang et al. ,2020; Jinet al. ,2021),知识蒸馏(KD)(Hinton etal. ,2015; Jiao et al. ,2020; Sanh et al. ,2019),修剪/共享(戈登等人。,2020; Chen等人,2020)、多器械分布(Banitalebi-Dehkordiet al. ,2021),或这些技术的组合(Cheng et al. ,2017; Polino et al. ,2018)。在所有的压缩技术中,近年来随着蒸馏一起创建大模型的固定大小的小版本一直很流行。Sanh等人(2019)介绍了DistillBERT,这是BERT的一个较小版本,用于一般目的的蒸馏训 练 。 BERT 的 另 一 个 紧 凑 变 体 由 Mobile-BERT提出(Sun et al. ,2020),其中使用了倒瓶颈结构和渐进式知识转移。TinyBERT(Jiao et al. ,2020)还提出了一种新的两阶段Transformer蒸馏,用于预训练和特定于任务的微调。在(Iandola et al. ,2020),研究了分组 卷 积 的 使 用 以 设 计 SqueezeBERT 。 ELM(Jiao et al. ,2021),一个层映射搜索框架,也被提出用于改进下游BERT蒸馏.最近的一种方法,Ghost-BERT(Huang et al. ,2021),采用softmax归一化的1D卷积作为重影模块,以廉价的操作生成更多的特征。虽然压缩技术通常是有效的,但它们在准确性上有一个折衷,并且在高比率压缩的情况下可能会失去性能。此外,每个可能的计算预算都需要一个单独的固定大小模型。如引言中所述,另一种解决方案是动态推理,这可以通过早期退出或长度/深度自适应模型来实现。ReasoNet(Shenet al. ,2017),当已经找到足够的证据来回答问题时,其停止其读取过程。类似地,在(Yu et al. ,2018),提出了一 种 适 用 于 分 类 任 务 的 提 前 停 止 方 法 。DeeBERT(Xin et al. ,ACL2020)还提出了一种通过输出概率分布的熵来加速BERT推理的逐实例多出口方法。+v:mala2277获取更多论文∈. ∫Σ−∈→我埃莱图1:所提出的基于能量的联合推理策略(E-LANG)的总体框架。作 为 一 种 长 度 自 适 应 方 法 , Kim 和 Cho(2021)引入了一种动态推理框架,对序列和标记级分类进行一次性变换训练。此外,在(Hou et al. ,2020),提出了一种名为Dyn-aBERT的架构,用于通过选择不同宽度和深度的 子 网 络 来 自 适 应 地 调 整 计 算 。 Length-Adaptive和DynaBERT都利用知识蒸馏和数据增强来提高性能。尽管早期退出和自适应方法已经取得了重大进展,并且在实践中运行良好此外,它们仅适用于仅编码器的主干和分类任务。相比之下,我们的方法可以使用开箱即用的预训练模型,而无需重新训练机制需要检测输入数据是否Swift已经被训练过了)。受EBM在处理OOD检测问题方面的成功启发(Lee et al. ,2019),在我们的工作中研究了用于高效和有效路由的数据样本E-LANG的总体框架如图1所示。3.1基于能量的模型EBM的目标是建立一个能量函数E(x):RD→R,将输入数据x∈RD映射到非概率能量值yR。 为了将所有可能输出的任意能量的集合(由Y表示)转换为归一化的概率分布,吉布斯分布可以如下使用(LeCun et al. ,2006年):并且也适用于编码器-解码器结构和序列到序列任务。p(y|)=e−E(x,y)E(x,y′),y′∈Y(一)3该方法我们提出了一种新的基于能量的联合推理方法E-LANG , 其 中 一 个 大 / 准 确 的 语 言 模 型( Super ) 与 一 个 小 / 快 速 的 语 言 模 型(Swift)联合使用,以实现高效的推理,而不牺牲准确性。为此,受(Akbari et al. ,2021),引入了由基于能量的模型(EBM)授权的路由机制,以在Super和Swift模型之间动态地分配输入样本。与分发外(OOD)检测问题类似,我们的目标是识别Swift难以处理的OOD样本,并将其转发给Super模型。另一方面,我们有分销数据,Swift可以做出高度可靠和准确的预测。换句话说,其 中 分 母 的 负 对 数 表 示 亥 姆 霍 兹 自 由 能( LeCun et al. , 2006 ) 定 义 为 F ( x )=logy′Ye−E(x,y′)。在机器学习中,有一个很深的关系-EBM和判别模型之间的关系,这可以通过连接等式(1)中的吉布斯分布和针对判别模型导出的分类分布来看出判别分类器被定义为用于将输入x映射到C个实值logit(即, 对于C个类别标签):f(x):RDRC. 为了导出C个可能输出的分类分布,使用softmax函数:efy(x)p(y|x)=Cf(x),(2)我其中,fy(x)表示第y类标签。 基于内在联系−eX+v:mala2277获取更多论文Σ−∫−∫∈→.在(1)和(2)中定义的吉布斯分布和分类分布之间,给定输入(x,y)的能量函数可以定义为E(x,y)=fy(x)。自由能函数F(x;f)可以通过取分类分布分母的负对数来获得:CF(x; f)= −log e fi(x).(三)我3.2基于能量的联合推理我们的目标是检测适合Swift的简单样本,这些样本确实是密度函数中具有高可能性的样本。然后,Swift的基于能量的密度函数被定义为:3.2.1编码器-解码器架构所提出的基于能量的联合推理解决方案可以直接应用于专为文本分类任务设计的仅编码器模型,如BERT。为此,使用等式(3)获得与基于BERT的Swift模型相对应的能量分数,并且基于等式6执行联合推断。另一方面,对于通常被认为是生成模型的编码器-解码器编码器-解码器模型基本上被设计用于序列到序列(例如,文本到文本)问题,例如翻译或摘要。虽然这些模型也可以从事分类任务,他们仍然认为,p(x))=e−F(x;f)xe−F(x;f)(四)任务作为文本生成(序列到序列)的问题,其中目标标签和输出预其中分母是归一化密度,其可能难以计算或估计。通过取两边的对数,我们得到:词典被视为一个序列或一段文本。在第3.1节中,讨论了区别类之间的内在联系筛选器和EBM。为了从中获益lo g。p(x)=−F(x;f)−log(xf(x;f))。(五)编码器-解码器体系结构的特征,我们考虑添加额外的分类头(即,一个单一的线性层)到Swift模型。作为恩-log(xe−F(x;f))项对总能量值的分布,因为它对所有x都是常数。因此,F(x;f),即,负自由能,具有与对数似然函数的线性对齐,这使得它是非常适合解决我们框架中的简单检测问题与困难检测问题。为此,较低的能量值表示较高的可能性,并表示Swift模型更容易(更适合)的样本。更准确地说,对于密度上的阈值δ,编码器通常被认为是训练分类器的更好的特征提取器,而不是解码器,我们将额外的头放在Swift编码器之后。在冻结预训练的编码器模型(由 fE表示)时,额外的能量头(由h表示)被训练为具有C类标签的常规分类器头。注意,解码器不需要用于训练头部。相应的自由能函数定义如下:函数使得p(x)<δ,则负自由能的阈值t可以 根 据 ( 5 ) 计 算 为 −F ( x;f )
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功