深度学习文本分类中的权重共享与迁移学习对低资源语料库的影响

121 浏览量更新于2024-01-25 收藏 506KB PDF 举报

权重共享

迁移学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响13（2022）100317原始软件出版物Joint learn：一个python包，用于序列分类的任务特定权重共享沙鲁克·汗汗·穆罕默德·马赫努尔·沙希德德国萨尔大学自动清洁装置保留字：深度学习文本分类权重共享TransformersA B标准迁移学习使深度学习的尖端改进能够实现最先进的成果，特别是在自然语言处理领域。尽管如此，在低资源文本分类语料库上训练的神经网络仍然面临挑战，因为缺乏预先训练的模型检查点。在本文中，我们介绍了JointLearn，这是一个基于PyTorch的综合工具包，用于文本分类，利用特定于任务的权重共享来训练用于多个序列分类任务的联合神经网络，并有助于开发更通用的模型，同时可能消除低资源语料库遇到的迁移学习问题代码元数据当前代码版本v.1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-36可再生胶囊的永久链接https://codeocean.com/capsule/6910469/tree/v1法律代码许可证MIT许可证使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境依赖性Pytorch如果可用链接到开发人员文档/手册问题支持电子邮件shkh00001@stud.uni-saarland.de1. 介绍随着注意力机制的出现及其在Transformer序列中的使用，自然语言处理范式领域已经取得了某些重大突破-然而，一个潜在的问题来自缺乏低资源文本分类语料库的预训练模型检查点。由于训练最先进的神经网络在从头开始训练时需要大量的数据[3]。在本文中，我们提出了联合学习，这是一种在低资源语言上从头开始训练神经网络的替代解决方案。它使研究人员能够训练一个联合神经网络，而不是为多种语言的多个文本分类任务训练单独的模型。这具有多个副作用，因为权重共享允许减轻神经网络的复杂性[4]。它还可以实现更好的泛化，并促进训练模型的鲁棒性。开发联合学习是为了帮助研究人员处理低资源文本分类多语言语料库，同时用最少的代码引导他们的实验，从而促进最先进的自然语言处理研究和开发跨一系列不同语言的新颖和强大的文本分类应用程序2. 功能和主要特点Joint-Learn目前支持四种不同类型的深度神经网络拓扑结构。两个模型架构，如图所示。 1，利用vanilla LSTM [5]的层进行权重共享。本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址： shkh00001@stud.uni-saarland.de（美国） Khan），mash00001@stud.uni-saarland.de（M.Shahid）。https://doi.org/10.1016/j.simpa.2022.100317接收日期：2022年3月22日;接收日期：2022年4月21日;接受日期：2022年5月11日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsS. Khan和M. 沙希德软件影响13（2022）1003172Fig. 1. 使用LSTM和线性/自我注意力的联合学习架构。图二. 使用LSTM、Transformer编码器和线性/自注意力的联合学习架构。然而，对于最后一个块，我们可以有一个生成输出的线性层，也可以用Self-Attention块[6]代替，Self-Attention块引入序列级注意机制来处理文本中的长期依赖关系。此外，其他两个变体包括变压器编码器[2]，以使用如图所示的多头注意力来处理输入。二、同样，LSTM之后的最后一个块可以是线性的，或自我关注。这些模型可以在输入属于任何语言的数据集后直接进行训练。Joint Learn还允许加载自定义和预训练的嵌入，如GloVe[7]，FastText [8]和Word2Vec [9]，与源语言无关3. 影响概述研究人员和开发人员可以使用所提出的框架在新的多语言数据集上训练模型，并可能建立强大的基线，并且已经用于使用迁移学习和联合双输入学习的印地语/孟加拉语情感分析。Joint Learn还提供了加载和保存预训练检查点的功能，从而促进了在使用它时进行协作的机会。此外，它提供了一个接口来训练语言无关的模型，因此不会将用户限制在特定的语言上。此外，联合学习具有高度可配置的实现，使用户能够将其扩展到新的神经架构和其他自然语言处理任务，即多标签分类。联合学习对于文本分类任务是任务不可知的，这意味着联合网络可以同时针对不同性质的任务进行训练。例如，联合网络可以用于使用相同的模型来训练情感，仇恨言论和意图分类，从而产生不仅在训练期间而且在推理时计算效率高的模型。最后，它还提供了通用文本预处理和基于PyTorch的数据加载器管道，便于同时实例化任意数量的数据加载器和预处理器，从而与联合网络的训练很好地统一和集成。图三. 使用PyTorch训练联合自注意LSTM的示例。见图4。使用PyTorch训练联合Transformer LSTM的示例。4. 使用Joint Learn提供了一个直观的界面，用于在PyTorch中从头开始使用PyTorch训练联合自注意LSTM的示例如图所示。 3、图。图4显示了在联合学习包中联合训练基于transformer的LSTM的示例。5. 结论和今后的工作Joint Learn为研究人员和用户提供了一个灵活直观的界面，可以用最少的样板代码训练模型我们打算S. Khan和M. 沙希德软件影响13（2022）1003173扩展联合学习的功能，以包括其他最先进的神经架构，如BERT [11]。此外，我们还旨在增加一个可视化功能，用于可视化变压器的自我注意机制和最后，我们还计划通过PyPI访问Joint Learn包，以确保易于使用和安装。CRediT作者贡献声明沙鲁克汗：概念化，方法，软件，数据管理，写作-原始草案，软件，验证。Mahnoor Shahid：可视化，调查，审查和编辑。竞合利益作者声明，他们没有已知的可能影响本文所报告工作引用[1]放大图片作者：Sebastian Ruder. Peters，Swabha Swayamdipta，ThomasWolf，自然语言处理中的迁移学习，在：计算语言学协会北美分会2019年会议论文集：Tuesday，计算语言学协会，明尼阿波利斯，明尼苏达州，2019年，pp。15比18[2] 作者简介：王志华，王志华。Lukasz Kaiser，Illia Polosukhin，2017年。[3] AysuEzen-Can，比较 LSTM 和伯特为小语料库， 2018.[4] 张德娇，王浩柱，Mário A.T. Figueiredo，Laura Balzano，学习分享：深度学习中的同步参数绑定和稀疏化，ICLR，2018年。[5] Sepp Hochreiter，Jürgen Schmidhuber，长短期记忆，神经计算。9（1997）1735-1780。[6] Zhouhan Lin，Minwei Feng，Cicero Nogueira dos Santos，Mo Yu，Bing Xiang，Bowen Zhou ， YoonyBengio ， A structured self-attentive sentence embedding ，2017.[7] Jeffrey Pennington ， Richard Socher ， Christopher Manning ， GloVe ： Globalvectorsfor word representation ， in ： Proceedings of the 2014 Conference onEmpiricalMethods in Natural Language Processing ， EMNLP ， Association forComputationalLinguistics，Doha，Qatar，2014，pp. 1532-1543年。[8] Armand Joulin，Edouard Grave，Piotr Bojanowski，Matthijs Douze，Hrve Jgou，Tomas Mikolov ，FastText.zip：Compressing text classification models，2016，arXiv preprintarXiv：1612.03651.[9] Tomas Mikolov，Kai Chen，G.s Corrado，Jeffrey Dean，向量空间中单词表示的有效估计，在：ICLR研讨会论文集，Vol. 2013年2013年[10] Shahrukh Khan ， Mahnoor Shahid ， Hindi/bengali sentiment analysis usingtransferlearning and joint dual input learning with self attention ， BOHR Int. J.Res. Nat. Lang.计算。2022年（2022年）。[11]Jacob Devlin，Ming-Wei Chang，Wendon Lee，Kristina Toutanova，BERT：用于语言理解的深度双向转换器的预训练，在：NAACL，2019年。

下载后可阅读完整内容，剩余1页未读，立即下载