没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于组增强机制的双向卷积递归神经网络文本情感分类艾图·奥南伊兹密尔卡蒂普·萨莱比大学,工程与建筑学院,计算机工程系,35620伊兹密尔,土耳其阿提奇莱因福奥文章历史记录:收到2021年2022年2月26日修订2022年2月26日接受2022年3月12日在线提供保留字:递归神经网络分组增强机制A B S T R A C T情感分析是计算语言学中一个研究较多的研究方向。深度神经网络模型,包括卷积神经网络(CNN)和递归神经网络(RNN),在文本分类任务上产生了有希望的结果。基于RNN的架构,如长短期记忆(LSTM)和门控递归单元(GRU),可以处理任何长度的序列。然而,在深度神经网络架构的特征提取层中使用它们会增加特征空间的维度。此外,这些模型同样重视不同的功能。为了解决这些问题,我们提出了一种双向卷积递归神经网络架构,该架构利用两个独立的双向LSTM和GRU层,通过将两个相反方向的隐藏层连接到同一上下文来导出过去和未来的上下文在双向层提取的特征上采用了分组增强机制,将特征分为多个类别,增强每组中的重要特征,同时削弱不重要的特征。该方案采用卷积层和池化层来提取高层次特征,并降低特征空间的维数。实验结果表明,本文提出的具有分组增强机制的双向卷积递归神经网络结构在情感分析方面的性能优于现有的结果.©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍文本分类(也称为文本分类),将预定义的类别标签分配到文本文档中的过程,是自然语言处理(NLP)的许多领域中的基本任务,包括情感分析,主题标签,问题回答和对话行为分类(Li et al.,2020年)。文本分类方法已用于新闻过滤和组织、文档组织和检索、情感分析以及电子邮件分类和垃圾邮件过滤(Aggarwal和Zhai,2012)。情感分析是文本分类的一个子领域,专门用于识别文本文档中表达的关于特定主题或其特征的情绪、情感、感觉、感知或评价(Liu,2020)。个人决策者、公司和政府都可能从情绪中受益电子邮件地址:aytug. ikcu.edu.tr沙特国王大学负责同行审查制作和主办:Elsevier分析.识别公众对立法、商品、组织或服务的情绪对政府、决策支持系统和个人都非常有帮助(Onan等人, 2016; Fersini等人, 2014年)。用于情感分析的大多数早期方法基于常规方法,诸如基于词典和基于机器学习的模型(Medhat等人,2014年)。在基于词典的方法中,使用词典来测量单词和句子的语义方向,以确定文本文档的方向。另一方面,机器学习模型使用标记数据集作为训练集,使用监督学习算法(如贝叶斯分类器、人工神经网络和决策树方案)来构建分类模型(Chaturvedi等人,2018年)。传统的浅层分类模型严重依赖于文本文 档 的 特 征 工 程 方 法 , 例 如n-gram 模 型 , 术 语 加 权 方 案 , 词 性(POS)标签,潜在的Dirichlet分配和其他词汇特征。传统的机器学习文本表示模型是词袋模型,它忽略了文本的句法、词的排序和语法规则。此外,这种表示方案存在高维和数据稀疏问题(Hackeling,2017;Onan,2020)。此外,特征工程是一项耗时耗力的任务。https://doi.org/10.1016/j.jksuci.2022.02.0251319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com艾图·奥南沙特国王大学学报2099神经语言模型已经被提出并由NLP领域中的最新研究贡献采用,以解决预先提到的传统分类方案的缺点。使用神经语言模型,其中文本文档使用固定长度向量在密集空间中表示,显著增强了预测性能(Lai等人,2016年)。基于词嵌入的表示允许更密集的文本表示,具有较低的维度,从而消除了在词袋模型中遇到的稀疏和高维问题。神经语言模型,如word2vec、fastText和Glove,最近已经在各种自然语言处理任务上展示了有希望的预测结果,包括情感分析和主题提取(Mikolov等人,2013年;Onan和ToçogZurlu,202 0)。深度学习是机器学习的一个子领域,它以分层的方式采用多层信息处理阶段,用于无监督的特征学习和模式分类任务(Deng,2014)。在处理复杂的学习问题时,深度神经模型通常优于浅层模型。多个线性和非线性处理单元的逐层堆叠使得能够学习各种抽象级别的复杂表示(Khan等人,2020年)。因此,深度神经网络在几个不同的领域引起了极大的研究兴趣,包括图像分类,图像分割,视频处理,语音识别和自然语言处理。深度神经网络模型,包括卷积神经网络(CNN)、递归神经网络(RNN)、长短期记忆网络(LSTM)、具有注意力机制的递归神经网络、记忆网络、递归神经网络,在文本情感分类任务上产生了有希望的结果。在许多不同的架构中,CNN和RNN是文本处理任务中最广泛使用的深度神经网络模型(Zhang et al.,2018年)。CNN模型可以有效地学习局部模式,RNN模型是一种擅长处理时间序列和其他序列数据的神经网络。梯度的爆炸和消失问题直接影响了传统RNN结构的预测性能。在RNN中,不能正确处理任意长的输入序列。为了解决这些问题,传统的RNN架构有几种变体,包括长短期记忆网络(LSTM)和门控递归单元(GRU)。在序列分类任务中,通过从左到右读取一系列输入,同时仅考虑左上下文,生成摘要向量。一个词或一个术语的左右含义对于NLP任务的建模都是至关重要的。在这方面,已经实现了双向LSTM(Bi-LSTM)和双向GRU(Bi-GRU),使得可以考虑前面和后面的上下文,并且可以通过整合前向层和隐藏层来更好地解决顺序建模(Basiri等人,2021年)。尽管Bi-LSTM和Bi-GRU在NLP任务中得到了广泛的应用,但它们有两个显著的问题。最初,作为LSTM输入的文本处理任务中典型的高维特征空间将导致网络参数的显著增加,从而使优化过程变得困难。此外,神经网络架构无法专注于信息量最大的方面文本文档内的上下文信息的信息(Mehta等人,2020; Song等人,2019年; Kaplani和Teng,2020年)。考虑到这些问题,最近的研究成果利用卷积神经网络结合基于递归网络的模型,使得特征空间的维数可以降低。在这方面,卷积和池化操作已被用于从文本文档中提取信息丰富的上下文信息,同时降低维数。为了集中在最具信息性的方面,深度神经网络通常利用注意力机制,使得可以向上下文信息分配不同的权重值以反映重要性结合卷积递归神经网络架构使用注意力机制可以在文本分类任务上产生有希望的预测性能(Basiri等人,2021; Liu和Guo,2019;Usama等人,2020;Kamal和Abulaish,2021)。受卷积递归神经网络架构在NLP任务上获得的有希望的结果的启发,我们提出了一种双向卷积递归神经网络架构,它利用两个独立的双向LSTM和GRU层,通过将两个相反方向的隐藏层连接到同一上下文来导出过去和未来的上下文。在双向层提取的特征上采用了分组增强机制,将特征分为多个类别,增强每组中的重要特征该方案采用卷积层和池化层来提取高层特征并降低特征空间的维数。该方案的预测性能已被用于11个情感分类基准。为了验证有效性,我们将所提出的方案与最近提出的14种用于情感分析的深度神经网络架构进行了比较。实验结果表明,所提出的双向卷积递归神经网络结构与组明智的增强机制,可以优于国家的最先进的情感分析任务的结果。拟议架构的主要贡献可归纳如下:本文提出了一种新的深度神经网络架构,它以不同的方式结合了递归神经网络和卷积递归神经网络。 通过将相反方向的两个隐藏层连接到相同的上下文,所提出的双向卷积神经网络架构还使用两个不同的双向LSTM和GRU层来提取过去和未来的上下文。分组增强方法已被用来改善过去和未来的背景下,在建议的系统。分组增强机制与所有其他注意力机制的不同之处在于,它旨在改善每个组内不同子特征的学习,同时扩大它们在组内的空间分布。本文提出了一种有效的文本表示方案,通过结合提取的局部和全局特征,包含文本的全部上下文信息。本文采用分组增强机制对提取的特征,以提高其权重值的重要功能。据我们所知,这是第一个研究中,组明智的增强机制已被用于情感分析。实验结果表明,利用分组增强机制可以优于深度神经架构中常用的注意力机制。该方案的预测性能已被用于11个情感分类基准。本文提出了全面的实证结果长和短的文本文件。据我们所知,这是第一次对14种最先进的建筑进行经验评估的研究。本文的其余部分组织如下:在第2节中,介绍了情感分析的相关工作。第三部分介绍了本研究的理论基础。第4节讨论了所提出的情感分析框架。第5节简要介绍了经验程序和实验●●●●●艾图·奥南沙特国王大学学报2100结果最后,第6提出了研究的结论2. 相关工作在本节中,我们将介绍用于邮件分析任务的两种主要方法:机器学习和基于深度学习的模型。本节简要总结了前人的研究成果。2.1. 传统的情感分析传统的情感分析方法包括基于词典的方法和基于机器学习的方法(Medhat等人, 2014年)。在大多数常规情感分析方法中采用的中央分类方案是监督机器学习算法(Chauhan等人,2020年)。为了 表 示 和 识 别 用 户 生 成 的 情感 文 档 , 这些 方 法 通 常 使 用 词 袋(BOW)模型和n-gram特征。噪声,无关紧要,冗余属性的存在是一个主要的问题时,集成大集合的不同n-gram特征的情感分类。在这方面,Abbasi et al. (2010)提出了一种基于规则的多变量特征选择方法,该方法考虑了语义信息以及n 元 语法 特征 之 间的 语法 关系 。 以类 似的 方 式, Duric 和 Song(2012)引入了一种新的特征选择方案,通过将被评估的实体与根据极性定义这些实体的主观表达式分离。通过这种方式,通过只关注主观表达而忽略实体,识别了用于文档级情感分析的更多信息特征。Javed etal.(2015)提出了一种用于文本情感分类的两阶段特征选择方案。在该方案中,一个特征排序的方法,如信息增益或双常态分离度量,已初步采用。在此之后,一个特征子集选择方法,如马尔可夫毯过滤器已被利用。最后,排名聚合已被用来结合的功能排名。以类似的方式,Onan和KorukogZurlu(2017)提出了一种基于遗传秩聚合的情感分类特征选择方案在该方案中,基于过滤器的排序模型,如信息增益、卡方、增益比、对称不确定性系数、Pearson相关系数、Relief-F算法和概率显著性测度等,得到的排序列表与基于遗传算法的排序方法相结合。支持向量机、朴素贝叶斯和人工神经网络-Works是用于文本情感分类的最常用的监督学习算法,具有有希望的预测性能(Wavelet al.,2016; Chaturvedi等人,2016; Basiri和Kabiri,2018)。 除了常规的监督学习模型之外,集成学习的利用可以提高情感分类方案的预测性能(Prabowo和Thelwall,2009;Wang等人,2014; Xia等人,2011年)的报告。在这方面,Hassanet al. (2013)介绍了一种基于自举聚合的集成分类模型,用于文本情感分类。以类似的方式,Wang等人。(2014)检查了六种文本表示方案的预测性能(即,一元词项存在、一元词项频率、一元词TF-IDF加权、二元词项存在、二元词项频率和二元词TF-IDF加权)和五个监督学习模型(即,朴素贝叶斯、最大熵分类器、决策树、k-最近邻和支持向量机)结合三个集成学习模型(即,Bagging 、AdaBoost和Random Subspace)。 以类似的方式,Wang et al.(2015)在另一项研究中,提出了一种基于在内容词典和功能词典上训练的随机子空间模型。 Onan等人(2016)介绍了一种基于差分进化算法的多目标加权投票方案,用于邮件分类。在该方案中,多目标的权重调整的基础上的精度和召回分数的类标签已被用于与投票计划。在另一项研究中,Onan et al.(2017)提出了一种用于文本情感分类的混合集成剪枝方法。2.2. 情感分析最近许多基于深度神经网络的情感分析研究都集中在研究神经语言模型或使用各种类型的深度神经架构上。基于长短期记忆(LSTM)的架构由于其对长期依赖性进行建模的能力而被广泛用于NLP任务,包括情感分析(Young等人,2018;Minaee等人,2020年)。例如,Xu et al.(2016)引入了一种基于缓存的LSTM架构,通过将记忆划分为具有不同遗忘率的许多类来捕获长文本中的语义知识,从而使网络能够更长时间地保留递归单元中的语义信息。在另一项研究中,Rao等人(2018)提出了一种基于LSTM的架构,用于捕获长文本文档中句子之间的语义信息。在该方案中,初始层用于识别句子向量和句子的底层语义,第二层用于编码句子之间的关系。以类似的方式,Al-Smadi et al.(2019)采用了基于LSTM的架构来建模语义信息,用于对阿拉伯语评论进行基于方面的情感分析。在另一项研究中,Lu et al. (2017)引入了一种基于LSTM的情感分析架构,称为P-LSTM。P-LSTM中采用了三词短语嵌入,而不是使用单个单词嵌入。P-LSTM引入了短语因子机制,该机制将短语嵌入层的特征向量与LSTM隐藏层的特征向量集成在一起。以这种方式,可以从文本文档捕获更精确的信息。情感分析基准的实证结果表明,P-LSTM可以超越最先进的架构。 类似地,Ma等人(2018)引入了一种基于LSTM的架构,称为Sentic-LSTM。在该方案中,提出了一种信息丰富的方法,用于有针对性的基于方面的情感分析,特别强调在深度神经序列模型中利用常识知识。LSTM及其变体通常用于情感分析,具有很好的预测性能。Zhou et al.(2021)在最近的一项研究中引入了一种用于数据稀疏性意识的神经组情感分析模型。一种神经元群体情感分析模型在该方法中建议通过将具有相似评级习惯的用户分组并使用在组嵌入中收集的信息来改进以用户为中心的文档表示来解决数据稀疏问题。一些其他最先进的基于LSTM的架构包括TD-LSTM(Effective LSTM fortarget- dependent sentiment)(Tang et al. 2015),LSTM-CRF( LSTM with a Conditional Random Field ) ( Huang et al. ,2015)、C-LSTM(卷积LSTM架构)( Zhou et al. , 2015 )、SLSTM ( 递 归 结 构 上 的 长 短 期 记 忆 ) ( Zhu 等 人 , CBLSTM( Contextual Bidirectional Long Short-Term Memory RecurrentNeural Network ) ( Mousa and Schuller , 2017 ) 和 Tree-LSTM(Tree-based LSTM)。(Tai等人, 2015年)。除了LSTM,卷积神经网络(CNN)也被用于NLP任务,包括情感分析。例如,Dos Santos和Gatti(2014)提出了一种基于CNN的情感分析架构。在该方案中,文本文档中的每个字符都被表示为一个固定长度的字符艾图·奥南沙特国王大学学报2101vector. 为 了 提 取 词 中 的 形 态 模 式 , 使 用 基 于 相 关 字 符 的 嵌 入 。Word2vec的词嵌入方案也被用来获得功能。使用具有卷积层和最大池化的架构,数据表示用于Twitter消息的情感分析。在另一项研究中,Kim(2014)利用基于CNN的架构进行情绪级情感分析。 类似地,Zhanget al.(2015)使用卷积神经网络从文本文档中提取基本的字符级特征。与传统的浅层架构相比,引入的模型在大数据集上实现了高预测性能,而在较小数据集上实现了较低的性能。在另一项研究中,Johnson和Zhang(2017)提出了一种基于词级CNN的文本分类架构。该研究比较了深层单词级CNN和字符级CNN在文本分类中的预测性能,发现基于单词级卷积的深层神经模型具有更好的预测性能。在另一项研究中,Kristano和Morisio(2018)研究了基于CNN的架构中不同N-gram卷积滤波器在各种NLP任务中的效率,包括对歌词、产品和电影评论的情感分析,以及句子级情感分析。最近,Zhou等人(2020)提出了一种基于CNN的架构,结合双通道单词嵌入方案。在该方案中,通过word2vec和GloVe词嵌入方案提取的特征向量被赋予卷积层,并通过分段池化层和输出层进一步处理。注意力机制已被广泛应用于各种自然语言处理中任务,作为一个关键组成部分(Bahdanaou等人,2015;Sun和Lu,2020)。注意层通常在输入表示上生成分布。然后使用这样的分布构造输入的加权组合,然后由一些下游模块使用(Sun和Lu,2020)。例如,Yin et al.(2016)引入了一种基于注意力的CNN架构来对句子对进行建模。在该方案中,提出的基于注意力的架构结合语言特征集产生了有希望的结果。在另一项研究中,Zheng et al.(2017)提出了一种门控注意力神经网络架构,用于自动生成新闻评论。以类似的方式,Zhou et al.(2016)将注意力机制与Bi-LSTM结合使用,以提取信息丰富的语言特征集。在另一项研究中,Yang等人(2016)介绍了一种基于注意力机制的架构,称为用于文本分类的层次注意力网络。在该模型中采用了两种注意机制,一种是在单词水平上,另一种是在句子水平上。注意力模块堆叠在基于GRU的序列编码器的输出上。Pergola等人(2019)进行的研究引入了一种主题依赖注意力模型,用于情感分类和主题提取。在这个模型中,一个注意力框架已经被用来提取单词和句子的局部主题嵌入,假设全局主题嵌入分布在文档中。之后,这些被集成到修改后的GRU中用于情感分类。以类似的方式,Liuet al.(2016)提出了一种基于注意力的bi-LSTM架构。在这个模型中,两个阶段的计划已被用于句子编码。首先,使用单词级bi-LSTM的平均池化生成了第一阶段的句子表示。第二,注意机制被用来取代平均池,以改善表示。混合深度神经网络的发展,片段分析是一个很有前途的研究方向。最近对情感分析的研究贡献表明,结合LSTM和CNN的混合深度神经网络架构可以产生有前途的预测性能(Basiri et al.,2021;Liu和Guo,2019; Usama等人,2020;Kamal和Abulaish,2021)。Chen等人(2017)提出了一种混合深度神经网络-该工作集成了CNN和LSTM用于多标签文本分类。在另一项研究中,Liu和Guo(2019)介绍了一种基于双LSTM的架构,具有用于文本情感分类的注意力机制和卷积层。在这个方案中,卷积层被用来从向量中捕获更高级别的特征,bi-LSTM被用来对之前和之后的语义信息进行建模。Usama et al.(2020)在一个模型中利用两种架构的优点,提出了一种基于RNN和CNN的新模型。最初,CNN从其输入表示中捕获句子的高级特征。其次,使用注意力机制确定了有助于预测任务的特征的重要性。在另一项研究中,已经提出了基于注意力的双向CNN-RNN模型(Basiri等人,2021年)。在这项研究中,通过使用两个单独的双向LSTM和GRU层考虑两个方向上的时间信息流,对过去和未来的上下文进行了建模。此外,ABCDM的双向层的输出上使用的注意力功能,把重点放在各种条款。最近,Kamal和Abulaish(2021)介绍了一种基于卷积和注意力与双GRU的混合深度神经架构,用于SAR识别任务。在这项研究中,我们将所提出的方案与最近提出的14种用于情感分析的深度神经网络架构进行考虑的深度神经架构包括CRNN(区域CNN-LSTM 模型)(Wang等人,2016 )、改进的词向量架构(IWV)(Rezaeinia等人, 2019),SS-BED(基于情感和语义的情感检测器)(Chatterjee等人,2019),HAN(分层注意力网络)(Yang et al.,2016),ARC模型(具有注意力的递归卷积神经网络)(Wen和Li,2018),AC-BiLSTM(具有注意力机制和卷积层的双向LSTM)(Liu和Guo,2019),ABCDM(基于注意力的双向CNN-RNN深度模型)(Basiri等人,2021)、CAT-BiGRU(具有双向门控递归单元的卷积和注意力)(Kamal和Abulaish,2021)、ATTPooling(使用卷积和递归神经网络的基于注意力的情感分析)(Usama等人,2020)、WCNNLSTM(加权词嵌入和深度神经网络)(Onan,2020)、AGCNN架构(注意力门控卷积神经网络)(Liu等人, 2019),CNN-GRU架构(卷积和递归神经网络的组合)(Wang等人, 2016),Tree bi-LSTM 架构(Li etal.,2015)和树LSTM架构(Zhu et al., 2015年)。表1总结了经验分析中使用的深度神经网络架构。受ABCDM(Basiri)预测性能的启发,等人),所提出的双向卷积神经网络体系结构还利用两个单独的双向LSTM和GRU层,通过将两个相反方向的隐藏层连接到同一上下文来导出过去和未来上下文在所提出的方案中,过去和未来的上下文已经增强了与组明智的增强机制。分组增强机制与所有其他注意力机制的不同之处在于,它寻求改善每个组的不同子特征的学习据我们所知,这是情感分析中的第一项研究,其中对双向层提取的特征采用了分组增强机制,该机制将特征分为多个类别,增强每组中的重要特征,同时削弱不太重要的特征。该方案采用卷积和池层提取高层次的功能,并减少特征空间的维数。艾图·奥南沙特国王大学学报2102···.ΣhTH塔吉不XX.Σ表1在实证分析中使用的深度神经网络架构的总结架构任务体系结构的详细信息嵌入层RNNCNN注意机制ABCDMAC-BiLSTMAGCNN情感分析文本分类语句嵌入+双向层+注意力层+ CNN +全连接层嵌入+ CNN + BiLSTM + Attention layer +Softmax嵌入+ CNN +关注GloVe词嵌入word2vec(skip- gram)word2vec(skip-双向LSTM +双向GRU双向LSTM不落实卷积和池化层卷积层卷积层,Attention层注意图层注意分类层+池化+全连接层克)最大持续时间门控层电弧情感分析嵌入+双向GloVe词双向GRU池化卷积层,关注ATT池化情感分析层+注意力层+ CNN +全连接层嵌入+ CNN +关注嵌入word2vec(skip-LSTM最大时间池卷积层,层基于cnnCAT-BiGRU讽刺检测层+ RNN +全连接层嵌入+ CNN +双向克)GloVe词双向GRU最大池化卷积层attention层关注CNN-GRU短文本层+注意力层+全连接层嵌入+ CNN + RNN +完全嵌入word2vec(skip-LSTM卷积层层不CRNN分类、情绪分析情感分析连接层嵌入+ CNN + RNN克)基于区域LSTM卷积层,实施不韩文本分类嵌入+注意层+RNN嵌入word2vec(skip-双向GRU最大池化不落实实施基于词IWV情感分析嵌入+ CNN +全连接克)word2vec,手套,不落实卷积层,关注机制不SS-BED情感层嵌入+ RNN +全连接POS 2 Vec,单词-位置2 VecGloVe词LSTM最大池化不落实实施不树双LSTM识别文本分类层嵌入+RNN嵌入word2vec(skip-基于树不落实实施不树LSTMWCNNLSTM文本分类情感分析嵌入+RNN嵌入+ CNN + RNN +完全gram)word2vec(skip- gram)加权字双向LSTM基于树的LSTMLSTM未实现卷积层,未执行不提出情感分析连接层嵌入+双向嵌入word2vec(skip-双向最大池化卷积和实施逐群组模型层+分组克)LSTM +双向池化层增强增强+ CNN +全连接层GRU3. 预赛本节简要概述了拟议计划的基本组成部分。在第3.1节中,我们简要介绍了神经语言模型,然后是第3.2节,分别介绍了卷积神经网络、递归神经网络、长短期记忆、门控递归单元和注意力机制。3.1. 神经语言模型神经语言模型通过对具有语义和句法特征的文本进行较少的人工预处理来提供鲁棒的表示。稠密向量表示给自然语言任务带来了有希望的结果。在本研究中考虑了三种已知的词嵌入系统(即,word2vec、fastText和GloVe)。在剩下的部分中,简要介绍了实证分析中使用的神经语言模型。3.1.1. word2vecword2vec模型由输入层、输出层和隐藏层组成,作为基于人工神经网络的单词嵌入方案(Mikolov等人,2013年)。它试图通过确定某个单词植根于其他单词的可能性来学习嵌入单词。该模型由两个基本结构组成:跳跃文法和连续词袋(CBOW)。 通过将每个词的内容作为输入,CBOW定义目标词;另一方面,SG架构通过使用目标词作为输入来对目标词周围的词进行预编码(Onan,2020)。用少量的数据,CBOW架构可以很好地工作。在大型数据集上,SG架构可以有效地执行。让我们表示长度为T的训练词序列 w1;w2; ;wT,基于等式(1)确定跳跃语法模型的目标。(1)(Mikolov等人,2013年):1Targmax logPW jw1t1/2-C≤j≤C;j其中C表示训练上下文的大小,表示具有由h表示的一组参数的神经网络。3.1.2. fastTextfastText模型是另一种将词嵌入到文本文档中的有效方法每个单词的字符在该模式中被分成n个对于训练集中的每个n-gram,设计词向量。fastText模型为形态丰富的语言和稀有词提供了更好的词集成方案(Bohanowski等人,2016年)。3.1.3. 手套全局向量方案(GloVe)是一种基于word2vec的表示,用于有效学习文本文档中的单词嵌入(Pennington等人, 2014年)。该模型是一个全局对数双线性模型艾图·奥南沙特国王大学学报2103--我◦◦不t-1不--; ¼不不 不不不-ð Þ14回归模型,并且模型的目标函数已经被公式化为由等式(Eq.(二):VotrWoxtUoht1bo6ut<$tanhWuxtUuht1bu7J¼XfXiji j1.wTxjbibj-logXij22C 2015年12月28日ð8Þ其中V表示词汇量,w 2 R d表示词向量,x2R d表示上下文词向量,X表示同现矩阵,X ij表示词j在词i的上下文中出现的次数。 f <$Xij<$表示加权函数,并且b i; b j是偏置参数(Pennington等人, 2014年)。3.2. 深度神经网络架构本节简要概述了深度学习架构,即卷积神经网络、递归神经网络、长短期记忆、门控递归单元和注意力机制。3.2.1. 卷积神经网络卷积神经网络(CNN)是使用基于网格的拓扑来处理数据的深度神经网络架构,并且具有被称为卷积的特殊形式的数学过程。CNN是多层的,用于NLP应用中的局部特征提取。这些网络中的卷积操作经由输入特征上的线性滤波器进行(Gutierrez等人, 2018年)。3.2.2. 递归神经网络递归神经网络(RNN)是一种用于序列建模的深度神经网络(Li和Wu,2014)。在RNN中,神经元之间的连接生成有向图。RNN可以根据其内部状态对输入序列进行处理,htotanhct9其中xt表示LSTM单元的输入向量,ft表示遗忘门的激活向量,it表示输入门的激活向量,ot对应于输出门的激活向量,ht表示隐藏状态向量,ct表示单元状态向量。在该模型中,W对应于权重矩阵,b对应于偏置向量参数(Rojas-Barahona,2016)。Bi-LSTM结合了前向和后向隐藏层,以捕获除了先前上下文之外的未来上下文。因此,在两个方向上都有更大的时间信息流,网络可以更有效地学习。3.2.4. Gated recurrent unit基于RNN的另一种深度神经网络架构是门控递归单元(GRU)(Chung等人,2014年)。如前所述,LSTM架构有效地解决了RNN的梯度消失问题,并且可以很好地保持长期记忆权重。然而,LSTM确实有一个复杂的架构,涉及许多计算。典型的GRU架构用更新门取代了LSTM架构。在GRU架构中,已经基于下面给出的等式进行了转换(Cho等人, 2014年):zt¼rUz xtWzht-110rt¼rUr xtWr ht-111适合NLP任务。每个RNN输出都是通过在每个RNN上重复执行相同的函数来计算的。st¼tanhUsxtWs:hrt12instance. 这是基于所有先前的计算。时间步长的长度根据以下公式计算:ht1-ztstzht113RNN架构中的输入长度。令时间步t处的xt表示体系结构的输入,并且令st表示时间步t处的隐藏状态。当前隐藏状态(st)可以如等式(1)所给出的那样计算。(19),通过获取当前输入和前一个时间戳的隐藏状态(Hochreiter和Schmidhuber,1997):st¼fUxtWst-13其中f表示激活函数,通常被视为tanh函数或ReLU函数。U和W对应于跨时间共享的权重。3.2.3.长短期记忆长短期记忆网络(LSTM)是一种基于RNN的深度神经网络架构,其中遗忘门用于消除爆炸或消失梯度问题。与跨周期递归神经网络架构不同,LSTM允许通过有限数量的时间步长进行误差反向传播(Li etal.,2017年)。一个典型的LSTM单元由一个单元和三种不同类型的门组成:输入门、输出门和遗忘门。单元根据门的打开和关闭操作确定应存储哪些信息以及各单元应在何时访问信息。LSTM过渡是基于下面给出的方程进行的(Rojas-Barahona,2016):itrWixtUiht1bi4ftrWfxtUfht1bf5其中xt表示输入向量,ht表示输出向量,rt对应于复位门向量,zt对应于更新门向量,W、U和b对应于参数矩阵和向量。3.2.5.注意机制注意力机制可以集成到各种NLP任务中的深度神经网络架构中,以生成输入表示的分布。注意力机制可以用于以不同的方式为有助于文本情感的词分配不同的权重值。根据下面的等式,注意力机制通常会根据所有隐藏状态的加权组合为句子中的单词分配不同的权重(Sardelich和Manandhar,2018):expvT:sPtexpÞSAw ¼Xatht 1 5不其中,st和ht由等式2给出定义。(12)和(13),并且v是可训练参数。4. 建议的体系结构在本文中,我们提出了一种新的深度神经网络架构(RCNNGWE)用于文本情感分类,它可以从文本文档中提取全局和局部特征 图 1t-1的t艾图·奥南沙特国王大学学报2104不不不不不不图1.一、建议的体系结构(RCNNGWE)的一般结构概述了建议的体系结构的一般结构。该方案由六个主要模块组成:嵌入层,双向层,分组增强机制,卷积层,池化层和全连接层。最初,在嵌入层中使用深度神经语言模型来从文本文档中获得密集向量表示。所提出的方案利用两种双向架构,即双向GRU和双向LSTM,从文本中提取高质量的特征,以便可以考虑前面和后面的上下文,并且可以通过集成前向层和隐藏层来更好地解决情报局该模块的组件旨在处理传统RNN中的爆炸和消失梯度问题此外,bi-LSTM和bi-GRU设计可以通过向前和向后两个方向的处理来帮助捕获高质量的上下文特征。在bi-LSTM中,每个单元的输出特征由前向和后向LSTM获得的上下文信息组成。第 一名(LST M!)从 前到 后处理文本文档,而另一个(LSTM←)从后到前处理文本文档。以这种方式,上下文包含由下面给出的等式给出的过去和未来上下文两者:分组增强机制已被用于GRU和LSTM层提取的全局特征,以通过提供更高的重要性系数来增强重要特征,同时减少无信息特征。在这种机制下,GRU和ct!;htct←;htLSTMLSTM!1/4米!别这样!;ht-1LSTM←1LSTM←1LSTM!;xt!Þð16Þ←;xt←17LSTM特征被分成多个组,以增强每组中的重要特征,并削弱不重要的特征。htLSTM 半小时tLSTM !;htLSTM←] 2018年10月功能. RCNNGWE采用卷积层来提取高-其中htLSTM 表示bi-LSTM的隐藏状态向量,质量局部特征和池化层(最大池化方案)被用来降低特征空间的维数。最后,利用全连接层,基于连接增强特征集识别文本的情感倾向该架构的模块的详细信息已在本节的其余部分中介绍。表示单元状态向量。以类似的方式,双GRU中的每个单元的输出特征包含由前向和后向GRU捕获的上下文信息。1.前进(GR U!)从前到后处理文本文档,而另一个(GRU←)从后到前处理文本文档。通过这种方式,上下文包含由下面给出的等式给出的过去和未来上下文4.1. 包埋层为了表示文本文档,我们考虑了三个神经网络。语言建模方案(即,word2vec、fastText和Glove)。c!;hc←;h!你真厉害!快!;h← <$$>GRU<$c<$;h!;x!Þð19Þ←;x←20分钟在嵌入层模块中,我们利用预训练的word2vec嵌入矩阵从文本中生成单词嵌入。对于一个n维文本文档,我们首先将每个htGRU 半小时tGRU!;htGRU←] 2019年10月21日将词嵌入到其对应的V维词向量中,并获得词嵌入矩阵xX1/2x1;x2;:::xn]2Rn×V。.4.2. 双向层在双向层模块中,我们采用了两种同步双向架构,即bi-LSTM和4.3. 分组增强机制逐组增强机制是混合深度神经网络模块,其可以通过为每个语义组中的每个空间位置创建关注因子来改变每个子特征的重要性,从而允许每个组独立地增强其学习的表达并抑制可能的噪声。通过缩放tGRUt-1GRUtGRUt-1GRU艾图·奥南沙特国王大学学报2105我-I Cn四分之二]2R我我我1我2n我我k21Xkk2J所有位置上的特征向量都带有注意力掩码,cik<$gk:xkð23Þ我们在每个特征组内部构建了一个空间增强机制。这个注意力掩模旨在屏蔽任何背景噪音,同时突出显示适当的语义特征区域。它利用全局统计特征之间的相似性为了避免不同样本之间的特征的偏置系数值,我们基于以下等式在空间cik上对c进行并且在每个地方的局部的作为注意力掩模的生成源,这与其他突出的注意力机制不同(Li等人,2019年)。在分组增强模块中,ciωkcklkrck24Þ加权方案已被用于HTLSTM 而htGRU 提取lk1Xck25Jð信息功能。此模块是空间为图像分类引入的分组增强(Li例如,2019年)。该机制旨在增强与信息特征相关的权重值,而削弱与非信息特征相关由于无信息特征的可用性,通常难以获得适当分布的特征集以在深度神经架构上构建学习模型分组增强机制旨在利用关键区域中整个语义的一般信息。该模型的目的是近似的语义向量表示的组。矩阵X x1;x2;:;xn Rn×V有V维。最初,代表方案被分成M组,即,我们得到[Mk= 1/2 xk;xk;::;xk],其中xi2Rn=M且n=V且k表示nnðcncj -信用证26元其中e表示恒定参数(通常设置为1 e-5)以提供数值稳定性。此外,还为每一个项目列入了两个参数c;b系数ciωk:akccωkb27其中参数值c;b是基于(Li等人,2019年)。最后,增强的上下文向量xωk 通过缩放原始上下文向量xk组号。全局统计特征通过空
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功