基于深度学习的孟加拉语情感分析及准确性评估

130 浏览量更新于2023-12-05 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列13（2022）100123使用扩展词典和深度学习算法NitishRanjan Bhowmik a，Mohammad Auszzaman b，M. Rubaiyat HossainMondal a，孟加拉国达卡工程技术大学信息和通信技术研究所（IICT）孟加拉国达卡东西方大学A R T I C L E I N F O关键词：情绪分析孟加拉语NLP深度学习BTSCWord2Vec微调 CNNRNNLSTMGRU混合神经网络注意力机制胶囊层伯特A B S T R A C T情感分析（SA）是自然语言处理（NLP）研究的一个子集。在基于分类加权的字典和基于规则的情感得分生成的情况下，还没有使用深度学习（DL）方法在孟加拉语中进行SA的工作。本文提出了DL模型SA孟加拉语文本使用扩展的词典数据字典（LDD）。我们实现了基于规则的方法孟加拉语文本情感得分（BTSC）算法从大文本中提取极性。然后，这些极性与预处理后的文本一起作为训练样本输入神经网络。预处理后的文本被格式化为具有唯一数量的预训练词嵌入模型的词的向量化。将具有最高概率单词的Word2Vec矩阵作为加权矩阵应用于嵌入层以拟合DL模型。这本文还提出了一个非常详细的分析选择DL模型与一些微调。微调包括使用丢弃、优化器正则化、学习率、多个层、过滤器、注意力机制、胶囊层、具有渐进式训练的Transformer以及验证和测试准确度、精确度、召回率和F1分数。实验结果表明，所提出的新的长短期记忆（LSTM）模型在执行SA任务时具有高度的准确性。对于我们提出的基于分层注意力的LSTM（HAN-LSTM），基于动态路由的胶囊神经网络与Bi-LSTM（D-CAPSNET-Bi-LSTM）和双向编码器表示从变压器（BERT）与LSTM（BERT-LSTM）模型，我们分别实现了78.52%，80.82%和84.18%的准确率值1. 介绍社交媒体以用户生成的文本的形式具有丰富的信息，即使是人类也无法实时提取这些信息或对其进行分类。在现代网络，特别是社交网络大数据挖掘的延伸中，随着数据分类和可扩展性的呼唤，一个庞大的固执己见的语料库标签不断涌现。自然语言处理（NLP）可以用来净化嘈杂的单词，并从这些快速增长的数据中发现相关的见解。近年来，许多自然语言处理的研究者致力于从文本中发现文本的属性，包括情感、极性或主观性检测以及文本或上下文分类。情感分析（SA）满足了研究人员预测积极，消极或中性背景的需求。SA 或意见提取被描述为从公共内容中收集信息以产生人们政治板球经济、环境等）[1]的文件。例如，可以通过来自社交媒体站点的人们的意见来分析实时交通监控系统（诸如基于位置的交通堵塞、道路事故）和最佳路线策略（诸如关于每种情况的反馈）。再次在国家军事防御或执法组织层面（即，警方网络犯罪股[2]）观察和关注公众舆论（即，自杀活动[3]）他们在电子媒体网络上做什么或说什么。的方向和主动性基于从文本分类中孟加拉语句子的分类是一项复杂的任务，随着现代硬件的便携性和功能的增强，深度学习（DL）在包括SA在内的NLP操作中具有重要的性能。DL是多个图层的子集神经元感知矩阵表示的非线性神经网络，并将一个级别的输出转换为一个强烈而抽象的峰值。一些机器学习技术是在*通讯作者。电子邮件地址：gmail.com（N.R. Bhowmik），mazaman@ewubd.edu（M. Abuzzaman），rubaiyat97@iict.buet.ac.bd（M.R.H.Mondal）。网址：https://fse.ewubd.edu/electronics-communications-engineering/faculty-view/mazaman（M.Aubrizzaman），https://rubaiyat97.buet.ac.bd/（M.R.H.Mondal）。https://doi.org/10.1016/j.array.2021.100123接收日期：2021年8月13日;接收日期：2021年11月3日;接受日期：2021年12月11日2022年1月1日上线2590-00562022的自行发表通过Elsevier Inc.这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表阵列期刊主页：www.elsevier.com/locate/arrayN.R. Bhowmik等人阵列13（2022）1001232Fig. 1. 建议的系统架构的可视化。孟加拉语文本来预测观点。在本文中，我们结合基于规则和词典的方法和几个混合DL模型来预测孟加拉语文本的文本情感。我们文章的主要贡献包括：（i）实现了基于规则的算法BTSC[5]，用于在分类加权词典数据字典（LDD）的帮助下自动从文本中生成分数;（ii）将我们提出的BTSC极性与我们的输入文本语料库聚合，并在三维空间[128 d，200 d，300 d]中构建单词嵌入模型（Word 2 Vec）用于学习表示，以便在DL模型上进行拟合和训练;以及（iii）开发了长短期记忆网络（LSTM）的混合新型DL模型的几种组合，称为基于层次注意力的LSTM（HAN-LSTM），基于Bi LSTM的动态路由胶囊神经网络（D-CAPSNET-BiLSTM）和来自变压器（BERT）LSTM的双向编码器表示，并进行了定制的适当训练和设置超参数调整因子。我们的论文结构如下：第2节提供了一个调查SA使用DL。第3节讨论了我们的研究工作，其中包括文本预处理机制，以适应数据的神经网络模型的方法。在第4节中，描述了所提出的模型的详细实验第五节给出了模型的性能测试结果，并与现有研究结果进行了比较最后，第6节提供了结论性意见。2. 相关工作在本节中，我们将概述可用的分类方法，探讨对几种DL架构的影响，并讨论如何增强这些方法以在SA中操作。在NLP的跨学科领域中，情感分类在[6]中描述，描述了主观性检测和极性分类之间的联系。在[7]中，作者展示了一种神经概率模型，用于同时学习单词的连续表示，一个概率函数的单词序列。[7]中给出了一种简单的基于一层的卷积神经网络（CNN）方法，用于对文本进行敏感性分析。人工神经网络（ANN）在大规模输入中不起作用;然而，CNN或基于混合的CNN，即，动态CNN（DCNN）[8]，非常深度CNN（VDCNN）[9]，可变尺寸卷积滤波器即，（MVCNN）[10]模型可以做得更好。DCNN在文本序列上使用动态K-max轮询和全局池化操作，而VDCNN和MVCNN分别在字符和文本级别的多个过滤器大小上使用不同维度的词嵌入递归神经网络（RNN）通过在时间步长上传播权重矩阵，有效地将单词或句子作为网络上的不可见输入[11]。由于RNN存在梯度下降消失、梯度爆炸和缺乏反向传播的问题，这些问题在RNN的修改版本中得到了缓解，例如Long短期记忆网络（LSTM）[12]，双向LSTM [13]，非对称卷积双向LSTM（AC_Bi-LSTM）[14]，回流卷积神经网络（RCNN）[15]，门控递归单元（GRU）[16]。基于Bi-GRU [18]和LSTM [19]的分层注意力网络（HAN）机制[17]也适用于文档文本分类，因为它在隐藏（编码器和解码器）层之间工作，以提供作为输入的所有特征的加权和。最近的NLP任务，转移神经网络BERT由Google研究人员发布[20]，它从单词或文本中学习上下文关系也适用于SA [21]。基于DL的SA的更大部分在许多高资源语言域上进行（即，英语、汉语）;然而，对孟加拉语的一些研究还处于初级阶段。在[22]中，作者对4000个正面和负面的电影评论进行了SA，这些评论被手动翻译成孟加拉语，并在LSTM上获得了82.42%的准确率。另一种基于LSTM的方法是对9337篇评论进行分类，对极性积极和消极情绪进行分类，准确率达到78% [23]。在[24]中，作者通过基于CNN和LSTM的方法从不同类型的孟加拉YouTube视频评论中提取了六种类型的情感，准确率分别为65.97%和54.24%。分别在三个和五个标签上。另一种基于CNN的单通道方法[25]在孟加拉数据集的不同域上实现，但是它们无法在层中保持适当的调整。一种RNN类型的网络Bi-LSTM方法应用于Facebook的10000条评论的手动标签数据集，准确率为85.67%;然而，它在数据预处理方面有许多显着的缺点[26]。在[27]中，作者通过调整词向量相似度中的词共现得分，在word2vec模型上获得了75.5%的准确率。在[28]中，作者在孟加拉语罗马化数据集上进行了实验，并在深度递归模型LSTM上进行了测试，三个类别的准确率达到了55%。在[29]中，作者检查了基于方面的情感分析数据，其准确率达到95%;然而，他们的孟加拉语单词的普通名词和专有名词被全球通用单词重新措辞，这阻碍了在基于词典的方法中提取情感。在[30]中，作者从Foodpanda网站收集了1000条在线餐厅评论用于执行SA，并部署了结合CNN和LSTM架构的300维Word2Vec预训练模型，其验证准确率为75.01%。在[31]中，作者使用BERT预训练模型对1002篇新闻评论进行了SA，并取得了准确性对GRU的支持率为71%最近的一篇论文，作者[32]实现了一个基于注意力的CNN模型来分析孟加拉语文本的情感。然而，在基于词典的方法中，一个词在不同的领域可能具有不同的含义;因此，词典情感词典是进行SA所需的资源。但是，它将N.R. Bhowmik等人表3阵列13（2022）1001233基于神经网络的数据预处理演示。（maxlen =40）206，4161，788，0，0，0，0，0，0，0，0，0，. . . . . . . . . . . . ]的一种40长度后面跟着额外的0核心词作为带有句子或短语情感强度的注释极性。在[33，34]中，作者通过使用情感词典并根据基于语言规则的方法[35]从推文中构建了一种情感检测机制。据我们所知，SA使用分类加权LDD和基于规则的算法BTSC在孟加拉语文本与全面的DL方法尚未使用。3. 方法图图1显示了我们完整方法的图示。LDD和BTSC算法的构造来自于研究[5]。虽然我们不会深入研究神经网络架构的数学描述和构造等核心细节，但我们将总结我们在实验中使用的神经网络模型的方法。3.1. 数据增强在文本或图像分类中，数据增强技术用于改善DL模型的性能。在我们的实验中，我们使用了我们以前的工作[5]中的词典数据字典（LDD）。在从数据集建立LDD的过程中，我们做了必要的预处理部分。它包括降噪，词典中的替代词，主要用于短文本的单词洗牌，主要与数据采样分析有关[36]。BTSC用于从大文本中检测分数，这就是为什么我们不需要任何混合数据增强方法来概括我们的文本。通过在句子中进行单词移位，增加训练样本中的数据。我们已经使用了基于方面的分类数据集（板球）[37]，这意味着评论在第二类中具有积极性，在第三类中具有消极性，或者在具有特定极性的z类中具有中性。然而，根据论文[5]，在表12中，BTSC算法检测极性，并且仅根据我们的全局扩展词典而不使用分类情感词典来提取情感。3.2. 数据预处理根据这篇论文[5]，我们通过去除停用词、不必要的字符、执行标记化、词干化、词性（pos）标记操作来预处理我们的数据。我们从Github存储库[38]收集数据，并使用板球数据集进行实验。然而，为了将文本表示为神经网络，我们使用了基于张量的主体（评论）的矩阵表示及其极性。与其他文本表示机制相比，这种稀疏稠密矩阵在神经网络中的拟合所需的计算量较小。我们同时使用Tensorflow神经网络库和Keras [39]来预处理数据。我们使用Keras工具tokenizer，text_to_sequences [40]和pad_sequences [41]。3.2.1. 神经网络数据预处理我们对训练数据中的单词进行标记，以保持最大的单词数量，text_to_sequences方法将词汇表中标记的单词映射为数字表示。然后我们找到编码序列上文本的最大长度（maxlen）。最后，通过遵循pad_sequences方法，得到的编码序列需要具有相同的长度（maxlen值）。如果序列比编码序列长，则会填充额外的0。最后，张量数据形状的输出是[iconpusLength，jmaxlen]，其中索引i和j分别表示行和列。例如，表1显示了神经网络训练的数据预处理3.2.2. 基于注意机制的数据预处理我们基于注意力的神经网络数据预处理[39]的不同之处在于将每个句子划分为序列，然后进行句子片段标记化。该序列被编码为数字矢量表示。我们找到每个原始文本句子块标记化的最大长度（maxSentLen）[40]，用于指定我们的张量数据数组长度以用于训练目的。我们计算每个序列中的最大序列长度（maxSeqLen），以填充数据。如果序列比编码序列更长，我们将序列填充到额外的0最后，张量数据形状的输出是三维[iconpusLength，jmaxSentLen，kmaxSeqLen]，其中索引i、j、k分别表示行、列、高度。表2显示了神经网络方法训练中3.2.3. 基于BERT机制的Transformer神经网络数据预处理在Transformer神经网络BERT的预处理中，预训练的语言模型中存在一些特殊的标记。在我们的实验中，我们使用Bangla Bert base formhuggingface库[42，43]，这是一个PyTorch版本，用于预处理我们的文本，以便在Transformer编码器网络中学习。特殊令牌如表3所示。 [CLS]标记位于句子的开头，[SEP]标记位于句子的结尾，[PAD]标记用于填充并截断语料库中句子的最大长度。首先，我们使用Transformer包BertTokenizer [44]对句子文本进行标记。我们使用encode_plus [45]函数生成token_ids，然后使用convert_ids_to_token和attention mask。注意力掩码用于识别哪些标记被使用（表示为1）或不被使用（表示为0最后，输入矩阵被编码为整个演示如表4所示。3.3. 单词嵌入在神经网络中，词嵌入是一种语言建模和特征学习的方法，它将文本词映射到低维稠密向量中。作为一个词嵌入系统，谷歌的Word2Vec[46]研究，计算效率高，方法数据评论文本原始文本分词器句子标记化产生词干词文本到序列[16，170，504，81，105，450，188，64，206、4161、788]将每个单词编码为数字表示衬垫序列[16，170，504，81，105，450，188，64，将序列填充为N.R. Bhowmik等人阵列13（2022）1001234句子片段标记器、、3句子标记化表2基于注意力的神经网络数据预处理演示方法数据备注文本原始文本标记化+词干、标记化，每个句子中的词干[16，170，504]，将每个句子编码为数字文本到序列[81，105，450]，[188、64、206、788]]数表象衬垫序列[[16，170，504，0，0，0，0，.. . ] ，将每个序列填充为25长度表3（maxSeqLen= 25maxSentenceLen =3）[81，105，450，0，0，0，0，.. .]，[188，64，206，788，0，0，0，0，.. .]]后面跟着额外的04.1. 卷积神经网络（CNN）Transformer神经网络中标记的分类令牌名称标识ID表示结束句标记[SEP] 102分类令牌[CLS] 101填充令牌[PAD] 0在深度神经网络模型中是可行的，该模型通过计算给定语料库中单词的共现来捕获单词之间的语义关系。它包含两个模型：连续词袋（CBoW）[46]和Skip-Gram（SG）[47]。CBoW模型的过程是从相邻的同现词中预测当前词或目标词，而SG模型从目标词中预测整个上下文词。这两个模型的基本区别在于，在每个目标-上下文对中，在SG模型中考虑新的注释，而在CBoW模型中将整个上下文视为一个注释。由于我们的训练数据相对较小，我们使用SG算法来表示n维向量空间中的单词。我们构建了三维（d）向量空间[128d，200d，300d]，窗口大小为5（window= 5），表示句子中当前单词和预测单词之间的距离，最小长度为1（min_count=1）对于我们的神经网络模型。4. 实验我们基于规则的深度学习情感提取实验的主要目的是分析知名深度学习模型的有效性。我们使用Tensorflow == 2.4.1、Keras == 2.4.3和Transformer == 3.0来开发我们的深度学习模型。我们分头训练、测试、验证数据集分别占总评论数的80.96%（2412篇评论）、10.03%（298篇评论）和9.02%（269篇评论）。这里，训练数据集用于训练模型，而验证集检查以调整模型的超参数（即学习率，批量大小，内核正则化）。最后，将使用测试集对训练好的模型进行评估。我们在不同的超参数设置上训练了一个模型，比如嵌入维数、辍学率、内核和过滤器大小、批量大小、学习率（lr）和epoch数量。我们在这个超参数上训练我们的模型，直到我们找到它的最佳训练值，这避免了在数据集上的过度拟合。在我们的实验中，我们将epoch的数量设置为50，批次大小设置为256。除了Transformer学习训练机制之外，我们使用的批量大小为16。CNN是计算机视觉领域中的一种前馈神经网络，由卷积层、池化层和全连接层组成对于文本分类，原始文本必须在输入层中表示为矢量（后面是表1）。经过一系列卷积叠加多个过滤器和池化操作，该模型具有神经网络中的激活函数。我们的实验使用一个简单的CNN用于分类文本，因为它可以在卷积层的帮助下从全局信息中提取特征。我们添加了一个嵌入层，其中包含词汇量大小，文本的最大输入长度，嵌入大小和嵌入矩阵的权重，权重为128d。然后，我们通过使用具有300个过滤器的卷积1D层，将学习序列应用于我们的词汇表，内核（k）大小为5（k=5）值和ReLU激活单元。卷积层可以将窗口覆盖句子和权重矩阵，并让CNN学习权重，以应用于张量输入数据中的相邻单词。为了有效地在学习率中操作，我们使用SpatialDropout1D参数为0.5，这会从嵌入层中删除1D特征。为了消除过度拟合问题，我们使用a Dropout正则化技术，0.5。由于我们的CNN模型是顺序的，我们添加了批量归一化层，以便从以前的输出层中有效地学习。最后，我们添加了一个带有Sigmoid激活函数的密集层，因为我们正在进行基于三进制的分类。4.2. 动态卷积神经网络（DCNN）DCNN使用具有动态k-max池化层的卷积层来提取句子上的特征图。K-max池化层用于识别词嵌入文本中的短上下文关系和长上下文关系。卷积大小和语料库文本大小的高度动态地确定k值，这就是为什么它在网络中被称为动态k最大池化层。在我们的实验中，我们使用了五个 k（k= 5）最大池化层两次，然后对具有49滤波器大小的1D和具有（64*50）大小的卷积1D进行零填充。一个扁平的全连接层添加了一个隐藏层。在独立权重之前使用Dropout层，其中50个神经元具有ReLU激活层。最后，来自全连接稠密层的每个神经元作为输出馈送到具有三个神经元的S形层4.3. 多通道变尺度卷积神经网络（MVCNN）MVCNN是一个类似于CNN和DCNN的概念，除了它具有可变大小的过滤器机制，具有不同大小的单词嵌入层。在我们的实验中，我们使用了两个嵌入矩阵[128D，200D]维。两个嵌入层在3、4、5个滤波器大小上迭代，然后是零填充1D（2，3，4）卷积层N.R. Bhowmik等人阵列13（2022）1001235表4基于Transformer的神经网络数据预处理演示产生0，0，0，0，0，0，0，0，0，0，0，0，0]）100过滤器和k-max池化层10。根据第一层机制再次迭代输出层。最后，这三个层（layer_1和layer_2，layer_3）被级联，并在DCNN和CNN之前进行平坦化输出。4.4. 超深度卷积神经网络（VDCNN）与DCNN不同的是，我们使用了一个三维单词嵌入层[128 D，200D，300 D]，该层具有ZeroPadding 1D（filter_ size-1，filter_size-1），添加了三个卷积1D层，过滤器迭代为3，4，5大小，以及除k-max池化层之外的 GlobalMaxPool 1D 。经过三次迭代，我们得到三个层（Layer_1，Layer_2，Layer_3）连接。这使合并层变平，l2（0.01）正则化，dropout为0.5，最后附加三个密集的神经元，其具有S形激活的完全连接的输出4.5. 递归神经网络RNN是一种前馈神经网络，用于序列建模和数据，其中输出取决于先前的状态。它在元素序列的迭代过程中维护新的状态信息，并反馈到前一层，以捕获当前和前一个时间步之间的相关性。在我们的实验中，我们使用了一个简单的32层RNN。在某个时间戳，从先前隐藏层获取先前输入并反馈到当前隐藏层的当前输入。一个SpatialDropout为0.4，插在前一个RNN层上。在RNN层之后，我们依次添加BatchNormalization，Dropout（0.4）最后，在Dense层中添加一个具有sigmoid激活函数的三连接层4.6. 长短期神经网络（LSTM）LSTM旨在减少消失梯度下降问题的问题，并将数据作为一个长期周期记忆在一个从左到右的上下文方式。与RNN不同，LSTM还有一个交互层的递归结构，称为输入门、遗忘门和输出门。在某个时间戳，具有tanh层的输入门生成一个向量所有可能的值，由sigmoid激活函数触发（1）并产生新的细胞状态。输入门决定了需要更新或忽略的信息量。遗忘门决定需要从先前隐藏层的先前单元状态中删除哪部分信息。输出门将输入与sigmoid层连接起来，并通过tanh函数决定当前细胞状态的哪一部分并将其相乘。我们的LSTM模型由32个单位隐藏层组成，与RNN不同，在某个时间戳，前一个输入层与前一个单元状态一起从前一个隐藏层，并反馈到当前隐藏层的当前输入，并产生新的单元状态。在LSTM层之后，我们添加了一个BatchNormalization层，这个架构的其余部分是我们的RNN层。4.7. 双向长短期神经网络（Bi-LSTM）Bi-LSTM遵循LSTM架构，除了它以两种方式处理输入，一种是从左到右（捕获前向上下文），另一种是从右到左（捕获后向上下文）。它在顺序建模中从过去和未来的上下文中检测特征。与我们之前的LSTM网络一样，我们以双向方式使用32个单元的LSTM，dropout为0.2，recurrent_dropout为0.1。在Bi-LSTM网络中，有两种状态来解决从左到右（向前）和从右到左（向后）的上下文关系。在每次tamp时，每个隐藏层输出都与存储单元状态一起产生，并将其传递给内核大小为4的64个过滤器的卷积1D层，网络的其余部分随后是先前的LSTM网络。4.8. 非对称卷积双向LSTM（AC_Bi-LSTM）AC_Bi-LSTM层是CNN和LSTM方法的混合模型组合。在我们的情感分类中，我们应用了这种混合模型。在我们的实验中，我们使用了一个128维的单词嵌入层，它使用100个过滤器大小的卷积1D层，使用ReLU激活层的kernel_size为2，以及另一个100个过滤器的卷积1D层和使用ReLU激活层的30，40，50，60个大小的内核进行迭代这被称为不对称，因为在同一个过滤器和激活层单元上有不同的内核然后，conv1d的这两个不同层被合并，并且输入（xt，xt+1，xt+2. . .，xt+n）被传递到32个单元的LSTM层，其余的则是之前的LSTM网络。4.9. 递归卷积神经网络（RCNN）我们用于情感分类的另一个混合模型由四个块组成，其中32个LSTM层单元具有多个递归卷积单元（conv1D）。我们应用了四个conv1D，过滤器大小为100，内核大小为2，并使用tanh层激活，每个conv1D层与每个LSTM层连接。此图层块依次与另一阻挡层连接。具有50个神经元的扁平化，ReLU激活层从Bi-LSTM块转发。然后，它最终与具有S形激活函数的全连接输出的三个密集神经元相连。方法数据评论文本原始文本预处理文本+预处理文本以及词干处理令牌句子标记化token_ids张量（[101，7360，9294，2492，2991，2132，24484，3274，2416，6723、7464、3755、6162、9709、7724、3091、7724、40654、102、0、将每个单词编码为数字表示将id转换为tokens将隐蔽ID转换为令牌编码张量（[1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0]）将序列填充为40的长度，后面跟着额外的0N.R. Bhowmik等人阵列13（2022）1001236图二、用于情感分类的基于层次注意力的神经网络（HAN）架构。4.10. 门控经常性单元（GRU）类似于LSTM的架构，其中GRU仅由两个门组成从一系列顺序输入中，更新门有助于学习长期依赖关系，并确定需要转发来自先前隐藏状态的信息量。而重置门则被监督以学习短期依赖性并生成需要忘记多少信息。与LSTM网络相同，我们使用32个单元的GRU层。在GRU内存之后，我们添加了一个卷积1D层，过滤器大小为65，kernel_size为5，并具有kernel_initializer的golort_uniform正则化。然后依次添加Global-AveragePooling 1D和GlobalMaxPooling 1D层。最后，这些与密集S形层激活函数的三个神经元连接。4.11. 双向门控递归单元（Bi-GRU）类似于Bi-LSTM的神经网络和GRU的更新版本，Bi-GRU可以在前向层和后向层上工作，而无需使用细胞记忆单元。就LSTM的更简单架构而言，两者都致力于解决消失梯度下降问题;然而，GRU捕获和记住更长范围的相关性，并且比LSTM更快更有效地训练[48]。与LSTM网络相同，我们以双向方式使用32个单元的GRU，具有dropout0.2，recurrent_dropout为0.1。与Bi-LSTM类似，Bi-GRU网络有两种状态来解决从左到右（Forward）和从右到左（Backward）的上下文关系，但不保持单元状态机制。在时间戳处，生成每个隐藏层输出，并将其传递到kernel_size为4的64个过滤器的卷积1D层而网络的其余部分由先前的GRU网络跟随。4.12. 基于注意力的神经网络注意力机制被设计成增加RNN模型的能力，以产生语料库的更好表示并以低计算成本捕获长期依赖性。这种机制被应用于部署模型来关注或关注文本的重要部分，而不是对整个句子长度进行编码。注意机制的主要目标是识别每个隐藏状态的重要性，并提供所有特征矩阵的加权和作为输入。我们的实验使用层次注意力神经网络（HAN）进行我们的SA在孟加拉语文本。4.12.1. 层次注意神经网络该方法中的先前模型仅对句子级编码起作用;然而，HAN对两级编码器网络起作用，即，单词和句子编码器。它将文本制定为单词和句子级别注意力的层次结构，以捕获组成特征，来自输入序列的层次依赖关系以及它有助于文本的极性文档N.R. Bhowmik等人阵列13（2022）1001237该方法首先将多个句子拆分成若干个句子，然后将每个句子的单词标记化，转化为一个向量，再将这些向量作为神经网络的输入矩阵。作者[12]提出了一种用于单词和句子编码器的基于注意力的分层结构。单词编码器在单词级注意力上传播来自隐藏层的信息，并将其转发到句子编码器。然后，这些信息被句子编码器隐藏层处理，并通过句子注意层在最后一层预测输出概率。在这里，句子结构是由单词注意力层通过在帮助下添加适当的权重来制定的。句子注意层通过提取相关上下文来总结句子的对齐对文档进行分类的每一个句子。的预处理我们的文本编码序列之后是表2。上下文可以通过双向RNN模型来实现。我们在HAN机制中使用Bi-LSTM，如图所示。二、图2.我们在双向LSTM网络上演示了我们的HAN机制。根据输入矩阵，来自每个句子（j）的每个单词标记（i）被放置在128维（128D）矩阵层中标记为（Wij）的单词嵌入层上。然后，它为标记为（Xij）的每个句子（j）生成向量化标记（i），该向量化标记（i）投影在具有128个单元的Bi-LSTM上作为单词编码器层。在时间步t，输入X t-1ij 从先前的隐藏状态（ht-1）存储单元（Ct-1）被顺序地转发到当前隐藏状态（ht），输出（Ot）到HAN字级注意层。类似地，反向通道解析具有当前存储器单元（Ct）的当前隐藏层（ht）与先前隐藏层（ht-1）之间的上下文关系。单词级注意力层将来自Bi-LSTM单词编码层的输出投影到其注释单词矩阵（Awij）中，作为连续的向量空间，其为注意力奠定基础。机制这一个隐藏层作为一个多层感知操作为了进行模型学习，通过随机初始化的权重（Wm）和添加偏差（W m），并将其通过一个附加的附加激活函数来创建一个更改进的注释作为单词的上下文向量（uw）。然后，该上下文词向量（uw）通过softmax函数通过添加归一化权重（n）来归一化。然后，最后，将具有权重的规范化上下文向量（Rk）与先前计算的上下文注释矩阵（Awij），其产生句子向量（si）。在得到句子向量（si）之后，基于句子的注意力层遵循类似的机制，除了不使用嵌入层之外。上下文注释句子向量（Asij），其从另一个具有128维（128 D）单元的Bi-LSTM投影，被标记为句子编码层，并将其转发用于计算改进的上下文注释文档向量（vi）。最后，这些与三个密集S形层激活函数的神经元连接在一起。4.13. 胶囊神经网络（CapsNet）胶囊神经网络是一组求解通过提供向量输出胶囊，特别是在动态路由算法中，解决了CNN池化或最大池化操作的局部特征不变性问题。计算复杂度，即，通过池化操作来捕获减少矩阵维数、截取各种特征，同时基于空间关系丢失大量数据;然而，不改变每个特征。同样，CNN没有捕捉到局部和全局特征之间的层次关系。在动态路由的帮助下，通过映射非线性向量建立实体间空间关系的连接。该映射通过基于权重耦合系数迭代多个路由循环来将胶囊从较低级别传输到较高级别。权重耦合系数确定哪个较低级别的胶囊将被转发到较高级别的胶囊层的学习表示。它还检测向量之间的相似性，这些向量也预测较低和较高级别的层胶囊。在我们在情感分类中，我们使用胶囊神经网络的动态路由，决定从每个单词到编码文本序列的文本或信息的变化。我们的文本编码序列的预处理之后是图。1.一、LSTM将其输出转发到每个主层胶囊（Capsulei）中，在我们的实验中，我们在神经网络中使用了16个胶囊。这是一个较低级别的胶囊（LC），它从文本中识别更多的特征，并将标量输出（从Bi-LSTM层接收）转换为向量输出（u1，u2，u3，.. . ui）作为下一个胶囊层的输入。这个向量有两个核心元素：长度和方向。较低级别的胶囊通过使用该长度来识别对应的特征文本概率，并且向量的方向参数确定要确认的较高级别胶囊的下一条路径。然后，通过仿射变换（favinetransform，favine transform）构造胶囊上的较高特征和较低特征之间的空间关系|i），即对应的权重矩阵（w ij）与这些向量（u 1，u 2，u 3，. . . ui）。我们在胶囊网络中使用三次迭代来计算这种线性或仿射变换。仿射变换（仿射变换）|i）值表示每个句子单词的特征矩阵的预测位置，是更高层次的特征。给你，吉吉|i表示第i个特征应该预测第j个句子的正确位置的预测向量。这意味着如果所有16个胶囊检测到相同的特征，则较低级别的封装体将是该特定句子的目标特征值。仿射变换输出值（Xij |i）在加权和中乘以（点积）耦合系数值，该耦合系数值记为（c（i，j）），并形成为下一个（更高）封装体级别（s，j），该封装体级别由路由迭代过程的次数确定。点积区分了较低级别的capsule i和较高级别的capsule j，尽管i capsule在j capsule中看到其输出。在我们的D-CapsNet- Bi-LSTM网络中，我们将路由迭代次数设置为3。该耦合系数通过路由softmax函数计算，其中指数系数exp（zij）指示哪个胶囊层i将耦合到胶囊层j的一些先验概率。然后将下一级胶囊（sj）转发到squash（.）- 非线性激活函数，其用于对输出向量（vj）进行缩放（具有附加的以及单位缩放）。通过使用该激活函数，如果该向量长度大于1，则输出向量（vj）方向将不会波动。然后激活这个更高级别的胶囊向量（vj）通过LeakyReLU函数，最后通过三个神经元输出分类进行致密化。整个过程如图所示。34.14. 来自Transformer的双向编码器表示（Bert）Transformer属于具有注意力机制的RNN，LSTM，GRU等。在迁移学习中，模型是利用自监督学习在巨大的未标记内容语料库上训练的，并且这个预训练的模型在对特定NLP任务进行微调时的平衡可以忽略不计[50]。它在通过去除过去标记的顺序依赖性来训练模型方面也更有潜力。BERT最近由Google [20]开发，这是一种基于编码器的Transformer架构，用于语言建模，用于NLP任务中的动态嵌入，该任务以双向方式在左侧和右侧考虑当前和先前的令牌。作为上下文模型，Bert生成基于每隔一个句子的每个单词的表示; 然而，在静态嵌入中，即，Word2Vec模型为词汇表中的每个单词N.R. Bhowmik等人阵列13（2022）1001238图3. 基于动态路由的胶囊神经网络（D-CapsNet-Bi-LSTM）架构用于情感分类。图四、基于Transformer和LSTM神经网络（BERT-LSTM）架构的双向编码器表示用于情感分类。4.14.1. 用于情感分类的在我们的情感分类中，我们使用BERT-BASE模型，该模型具有12个Transformer块，768个隐藏层和12个注意力头来生成上下文化嵌入。BERT的输入层是一个序列标记向量，以及表3中所示的特殊标记。LSTM按顺序读取文本输入，而BERT一次获取单词的整个标记。在我们的实验中，作为情感分类器，使用huggingface库在LSTM的上层使用预训练的BERT模型[ 42 ]进行微调，如图所示。四、从这个库中，我们安装Transformer版本3.0，并加载BERT分类器和标记器进行输入处理。输入序列是由BERT分词器分割的原始句子，并且该分词被转换为token_id并具有表4中所示的atten_mask。BERT在输入序列上使用自注意机制，如图4所示，该机制预定义了用于与输入中的相关单词保持同步的变换器。在BERT Transformer的注意力模块中，从输入序列（x1，x2，x3，.）. . ，xi）。这个序列（xi）乘以三个权重矩阵（WiQ，WiK，WiV）以标量点矩阵的方式生成三个向量，分别称为查询（Qi）、键（Ki）和值（Vi）。这些权重矩阵（WiQ，WiK，WiV）在BERT的训练过程中产生自我注意的主要机制是它从输入序列中计算每个单词的分数，这个分数表明一个单词如何集中在其他单词上放置在正确的位置。例如，通过查询（Q1）与关键字（K1，K2，K3，... .，Ki）矩阵。然后将得分值（Vi）除以关键向量的维度，然后传递到softmax函数，最后将所有值（V1，V2，V3，.... . ，Vi）以产生另一矩阵（Zi）。在ADD和归一化层步骤[51]中，其然后与附加权重矩阵

下载后可阅读完整内容，剩余1页未读，立即下载