没有合适的资源?快使用搜索试试~ 我知道了~
软件影响14(2022)100397原始软件出版物HE-HMTC:一种基于混合嵌入的分层多标签文本表示方法Xiaofeng LiuXiaofeng,Huili Liu,Yinglong Ma华北电力大学控制与计算机工程学院,北京102206A R T I C L E I N F O保留字:混合嵌入文本表示文本分类A B标准层次多标签文本分类(HMTC)已经变得相当具有挑战性,当它需要处理大量的密切相关的类别。我们提出了一种新的软件,提供了一个混合嵌入为基础的文本表示HMTC,简称为HE-HMTC。它充分利用类别的结构和标签语义来丰富文本的表示,从而试图提高文本的分类性能。此外,HE-HMTC有助于提高HMTC任务的准确性。此外,我们的HE-HMTC可以很容易地推广到其他层次分类任务中,并实现优异的性能。代码元数据当前代码版本v1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-88可再生胶囊的永久链接https://codeocean.com/capsule/6423943/tree/v1法律代码许可证MIT许可证使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境依赖性Tensorflow-gpu、Keras、ge如果可用,链接到开发人员文档/手册https://github.com/lxf770824530/HE_HMC/blob/main/readme.md问题支持电子邮件liu_xf@ncepu.edu.cn1. 介绍当文本分类任务需要处理大量层次结构中紧密相关的类别集时,提高分类精度变得非常具有挑战性。层次结构将类别之间的关系形式化为一个类别至少有一个父类别的树或一个类别可能有多个父类别的有向无环图,这些可以进一步作为外部知识引入以提高分类性能。因此,层次结构信息对于构建高效的层次多标签分类算法以提高分类效率在处理大量类别和属性的情况下的准确性[1]。我们将我们的工作局限于HMC的文本分类,即,分层多标签文本分类(HMTC)。我们认为,范畴标签的词的语义是非常有助于使不同类别的语义可区分。遗憾的是,几乎所有现有的HMTC方法都忽略了层次结构中类别标签的单词语义。此外,一个给定的范畴在整个层次中的整体和局部结构特征都应该被考虑,以使它在结构上是可区分的。关于HMTC的一个明显的事实是,要分类的文本通常与整个层次结构的几个不同路径中的多个类别相关联。 对于整个层次中的一个范畴,其局部结构特征可以被刻画本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址:liu_xf@ncepu.edu.cn(X.Liu),huili_liu@ncepu.edu.cn(H.Liu),yinglongma@ncepu.edu.cn(Y.Ma)。https://doi.org/10.1016/j.simpa.2022.100397接收日期:2022年6月7日;接收日期:2022年7月4日;接受日期:2022年7月21日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsX. Liu,H.Liu和Y.马软件影响14(2022)1003972Fig. 1. 我们的HE-HMTC的架构。通过其直接的父类别和子类别或类别在层次级别中的位置。其整体结构特征可能表现为多个范畴、不同路径相关到整个层次结构中的类别。然而,现有的HMTC方法不能同时捕获这两种结构特征。如HDLTex [2]和HFT-CNN [3]只能捕捉局部结构特征。为了解决上述问题,我们提出了一种新的软件,它提供了混合嵌入为基础的文本表示HMTC,称为HE-HMTC,通过它,我们可以自动预测最相关的类别在一个级别的方式。具体来说,我们首先提出了一种混合嵌入方法,包括两个图形嵌入的层次结构中的类别和他们的词嵌入的类别标签。然后,我们基于双向门控递归单元(BiGRU)网络模型[4]以及用于逐层学习文本表示的混合嵌入实现了逐层HMTC方法。我们的HE-HMTC是优越的最先进的分类方法。2. 描述基于混合嵌入的文本表示方法增强了文本表示的能力,使文本分类任务获得更准确的结果。我们实现了一个层次的HMTC方法的基础上混合嵌入文本表示的分类模型是训练在每一个层次的类别层次结构或分类在一个自上而下的方式。我们的HE-HMTC框架示于图 1,总体上由四个主要部分组成。(1) 数据层。该部分用作软件接收原始文本数据的入口点。将接收到的数据分为三个子集:训练集、验证集和测试集。值得注意的是,用户数据将被视为测试数据,以便在使用时输入到软件中。了(2) 处理模块。在这一部分中,我们进一步提取了数据的父类别嵌入和文本表示。 详细地说,父类别的嵌入是在考虑类别标签的结构特征和词语语义的基础上进行的。采用基于SDNE的图嵌入[5]和word2vec [6]词嵌入分别捕获类别层次的结构特征和每个类别标签的语义特征。此外,我们使用双向GRU模型(BiGRU)编码的文本信息,以获得文本的矢量表示,这是通过连接的文本表示,通过馈送的词嵌入的前向和后向,分别构造。(3) 表示聚合层。通过查找预先得到的类别嵌入集,得到文本对应的父类别嵌入,用于辅助当前层次的分类。然后,我们将基于BiGRU的文本表示与相应的父类别嵌入连接起来,以获得文本的新表示,该表示用作分类器的输入(4) 分类器该模块采用线性变换和Softmax层对文本进行分类。记录文本的分类类别,并将其进一步用于下一个较低级别的分类,直到在叶节点级别进行分类我们评估了HE-HMTC在五个大规模的现实世界的数据集与国家的最先进的层次和平面多标签文本分类方法的比较。具体来说,数据集涉及来自Web of Science的WOS、来自Amazon产品评论的Amazon、BestBuy、来自Web Programmable的WebService和DB- pedia。最先进的分层多标签文本分类器是HDLTex [2]和HFT-CNN [3]。平面多标签文本分类器包括使用多层感知器(MLP)的最大池化[7]或均值池化[8]的双向LSTM,FastText [9]和基于BERT的文本分类器,其通常通过将其“扁平化”到多标签文本分类的叶节点级别来忽略分层结构评价结果如表1所示,其中评价指标包括准确度(A)和总体准确度(A)。A级是指在上一级中提供文本的真实父类别时,在第一级中的准确度值。���具体来说,当我们将文本分类到第二级类别中的类别时,需要考虑上一级的真实父类别嵌入因此,A2表示在引入真实父类别信息的条件下,正确分类的样本与总样本的比率。 A3和A2是一样的。 对于A1,由于第一级类别没有父类别,因此A1仅指示正确分类的样本与总样本的比率。 A是指与预测的父类别一起提供的文本的最后一级标签的总体准确性。结果表明,该软件具有良好的性能。3. 影响HE-HMTC是一种用于提高HMTC精度的新型软件。基于混合嵌入的文本表示的效率在研究中得到了证明[10]。 我们的HE-HMTC充分利用了的X. Liu,H.Liu和Y.马软件影响14(2022)1003973表1分类性能。分类器准确度(%)DBpedia亚马逊BestBuy WebServiceWOSACC1ACC2ACC3OAACC1ACC2ACC3OAACC1ACC2OAACC1ACC2OAACC1ACC2OAFastTextBiLSTM/Maxpool/MLPBiLSTM/Meanpool/MLPBERT/MLPHDLTex99.2697.1895.586.2094.2094.6888.2592.1087.982.0883.8226.6243.6033.4458.8560.4797.4496.4186.6690.8593.2991.8393.9476.7880.4123.9633.5332.4566.8161.7490.1184.6661.3077.6973.0870.8676.58HFT-CNN 95.5490.9787.4587.4580.9564.8159.1059.1096.4195.3995.3972.6666.0366.0380.8363.71六十三点七一HE-HMTC99.4297.7197.8295.8688.0880.4882.5278.0597.3897.2696.3676.9279.9276.3190.0384.42七十八点五一短信了此外,根据[10]中的分析,我们软件的关键算法在实现卓越的文本分类性能的同时保持了较低的计算成本。我们认为HE-HMTC将有助于探索HMTC如何有效地应用于特定领域的文本分类任务,如基于文本的情感分析和Web服务发现。此外,HE-HMTC是以模块化的方式设计的,可以很容易地推广到其他层次分类任务中,以增强模型的特征表示能力。在未来的工作中,我们将致力于进一步改进HE-HMTC,探索如何有效地学习语义丰富的类别标签嵌入文本分类。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢本课题得到了国家重点科技攻关项目(2005年第10号)的部分支持。2018YFC 0831404)。引用[1]Wei Huang,Enhong Chen,Qi Liu,Yuying Chen,Zai Huang,Yang Liu,ZhouZhao,Dan Zhang,Shijin Wang,Hierarchical multi-label text classification:Anattention-based recurrent network approach,in:Proceedings of the 28th ACMInternational Conference on Information and Knowledge Management,in:CIKM'19,Association for Computing Machinery,New York,NY,USA,2019,pp.1051http://dx.doi.org/10.1145/3357384.3357885[2]放大图片作者:Donald E.放大图片创作者:Michael M.作者声明:Thomas E.巴恩斯,HDLTex:用于文本分类的分层深度学习,在:2017年第16届IEEE机器学习和应用国际会议,ICMLA,2017年,pp. 364 http://dx.doi.org/10.1109/ICMLA。2017.0-134.[3]Kazuya Shimura,Jiyi Li,Fumiyo Fukumoto,HFT-CNN:学习多标签短文本分类的层次类别结构,在:2018年自然语言处理经验方法会议论文集,计算语言学协会,布鲁塞尔,比利时,2018年,pp.811-https://aclanthology.org/http://dx.doi.org/10.18653/v1/D18-1093[4]Kyunhyun Cho , B. van Merrienboer , Caglar Gulcehre , F Bougares , HSchwenk,Yoonne Bengio,使用RNN编码器-解码器进行统计机器翻译学习短语表示,在:自然语言处理经验方法会议,EMNLP 2014,2014。[5]王代新,崔鹏,朱文武,结构深度网络嵌入,在:第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,在:KDD '16,计算机械协会,纽约,纽约,美国,2016年,pp. 1225 http://dx.doi.org/10.1145/2939672。2939753。[6]Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg S Corrado,Jeff Dean,词和短语的分布式表示 和 他们的 复合性,在:C.J. Burges,L. Bottou,M. Welling,Z. Ghahramani,K. Q. Weinberger (编), Advances in Neural InformationProcessing系 统 、卷26,库 尔 兰 联 合 公 司 , 2013 年 ,URLhttps://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf。[7]Ronan Collobert , Jason Weston , A unified architecture for natural languageprocessing:Deep neural networks with multitask learning,in:Proceedings ofthe 25th International Conference on Machine Learning , in : ICML '08 ,Association for Computing Machinery,New York,NY,USA,2008,pp. 160-167,http://dx。doi.org/10.1145/1390156.1390177网站。[8] JiYoung Lee,Franck Dernoncourt,使用递归和卷积神经网络的顺序短文本分类,在:计算语言学协会北美分会2016年会议论文集:人类语言技术,计算语言 学 协 会 , 加 利 福 尼 亚 州 圣 地 亚 哥 , 2016 年 , pp.515http://dx.doi.org/10.18653/v1/N16-1062https://aclanthology.org/N16-1062。[9]阿曼德·儒林,爱德华·格雷夫,彼得·博亚诺夫斯基,托马斯·米科洛夫,《魔术袋》 有效的文本分类,在:计算语言学协会欧洲分会第15次会议的会议记录:第 2 卷 , 短 论 文 , 计 算 语 言 学 协 会 , 瓦 伦 西 亚 , 西 班 牙 , 2017年 , pp。427https://aclanthology.org/E17-2068[10] 马英龙,刘晓峰,赵丽娇, 岳 梁、 鹏 张先生, 悲鸿 Jin,基于混合嵌入的分 层 多 标 签 文 本 分 类 文 本 表 示 , 专 家 系 统 应 用 187 ( 2022 ) 115905 ,http://dx.doi.org/10。1016/j.eswa.2021.115905,URLhttps://www.sciencedirect.com/science/article/pii/S0957417421012604。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功