没有合适的资源?快使用搜索试试~ 我知道了~
0Array 14 (2022) 1001570://creativecommons.org/licenses/by/4.0/)。0目录列表可在ScienceDirect上找到0Array0期刊主页: www.elsevier.com/locate/array0基于Transformer的深度学习模型用于社交媒体数据的情感分析0巴基斯坦伊斯兰堡COMSATS大学计算机科学系0文章信息0关键词: 情感分析社交媒体 深度学习BERT CNN LSTM0摘要0情感分析(SA)是一种广泛使用的上下文挖掘技术,用于从基于文本的数据中提取有用和主观信息。它应用于自然语言处理(NLP)、文本分析、生物识别和计算语言学,以识别、分析和提取数据中的响应、状态或情感。特征分析技术在SA模型的开发和改进中起着重要作用。最近,GloVe和Word2vec嵌入模型已被广泛用于特征提取。然而,它们忽略了文本的情感和上下文信息,并且需要大量的文本数据进行训练和生成精确的向量。这些技术仅为其词汇表中包含的单词生成向量,并忽略了词汇外的单词(OOV),这可能导致信息丢失。情感分类的另一个挑战是缺乏可用的标注数据。有时,评论与其标签之间存在矛盾,可能导致错误分类。本文旨在提出一个通用的SA模型,可以处理嘈杂的数据、OOV词、评论数据的情感和上下文丢失。在这项研究中,提出了一种有效的基于双向编码器表示的变压器(BERT)的卷积双向递归神经网络(CBRNN)模型,用于探索数据的句法和语义信息以及情感和上下文分析。最初,使用零-shot分类来通过计算其极性分数对评论进行标记。之后,使用预训练的BERT模型从数据中获取句级语义和上下文特征,并生成嵌入。然后,将获得的上下文嵌入向量传递给由扩张卷积和Bi-LSTM组成的神经网络。所提出的模型使用扩张卷积而不是传统卷积来从嵌入数据中提取局部和全局上下文语义特征。双向长短期记忆(Bi-LSTM)用于对句子的整个序列进行处理。CBRNN模型根据准确性、精确度、召回率、F1分数和AUC值在四个不同领域的文本数据集上进行评估。因此,CBRNN可以有效地用于在社交媒体评论上执行SA任务,而不会丢失任何信息。01. 简介0随着数字化和在线技术的出现,通过互联网分享和表达情感、反馈或观点的发展变得令人难以置信[1]。Facebook、Twitter、Instagram、YouTube等社交媒体平台在人们中间变得越来越受欢迎。企业、消费者和政府利用这些平台进行交易、广告产品和服务、讨论重要话题、发起活动和传播意识[2]。社交媒体技术的可访问性和进步为公司开辟了新的途径。他们使用不同的模型来了解人们的反馈和态度[3]。已经使用了几种技术来检查社交媒体材料以供公司0� 通讯作者。电子邮件地址:tabi.syed19@gmail.com(S.T. Kokab),sohail.asg@gmail.com(S. Asghar),shahneela.cs@gmail.com(S.Naz)。0分析,智能,监视不道德活动,以及客户意见的情感分析[4]。情感分析,通常被称为情感挖掘,是自然语言处理的一个关键组成部分,旨在帮助用户分析和识别主观文本中包含的情感[5]。它被广泛用于分析在线社区(博客、Twitter评论和评论等)中的社交媒体数据,并用于识别文本数据的情感极性[6]。给定项目的情感极性表示用户与文本相关的情感,即文本是否代表用户对指定项目的积极、消极或中立态度。消费者可以通过检测广泛的在线产品评论的情感取向做出适当的购买决策[7]。0https://doi.org/10.1016/j.array.2022.1001572021年10月29日收到;2022年2月7日修订后收到;2022年4月1日接受20Array 14 (2022) 1001570S.T. Kokab等人0SA是一种特殊类型的文本分类,根据需求,可以分为句子级[8],文档级和单词或方面级SA[9]。对于文档级分类,整个文档被视为一个单一实体,而对于句子级分类,句子可以被视为一个迷你文档[10]。基于方面的SA直接集中在一个方面或单词及其相关的极性[11]。句子级SA是文本挖掘中的新兴领域,因为它包含了句子的主观性和客观性。同样,SA的任务主要包括四个步骤:预处理、特征提取、分类和结果解释,在电影评论[12]、选举意见预测[13]、航空公司评论[14]、亚马逊评论[15]等各个领域中。在上述所有步骤中,特征提取对于提高分类效率起着重要作用[16]。有两种特征提取方法,即基于词典的方法和基于机器学习或深度学习的方法[17]。在基于机器学习的方法中,模型试图从提供的数据中找到模式,而在基于词典的方法中,提供了积极和消极词汇的列表。这些词汇在每个句子中都被计算[18]。情感是由积极取向和消极取向词汇的频率决定的。因此,在这些基于词典的方法中[19],领域依赖性使它们不太适用于没有专门词典的领域。然而,由于缺乏强大的语言资源,这些技术通常具有较低的精度率[3]。0机器学习技术进一步扩展为两部分,0例如,监督技术和无监督技术[20]。监督技术要求模型在评估之前经过标记数据的训练,以确定模型的性能。另一方面,无监督技术使用未经标记或分类的数据来训练模型,使模型能够在无需监督的情况下运行[21]。用于特征提取的最常用的机器学习技术是词袋(BoW)、N-gram[22,23]。在这些特征提取技术中,特征是使用计数向量化器(CV)[24]或词频-逆文档频率(TF-IDF)[25]检索的。这些技术使用一种独热词表示方法,其中词汇量取决于文档中显示的单词总数[26]。这使得特征空间具有高维度,也带来了可扩展性挑战[27]。由于TF-IDF基于词袋模型,它无法捕获单词序列、句子的句法和语义细节[28]。然而,选择相关特征和方法对于提取特征表示至关重要。0为了解决上述特征提取的限制0技术,提出了词嵌入模型。词嵌入模型通过提取词表示中的语义和句法细节来解决问题[29]。词嵌入的广泛使用重新聚焦了许多神经网络研究项目的注意力[30]。大量研究集中在句子级分类挑战上,作为SA的更广泛问题[31]。Word2vec[32]和Glove[33]是文本转换中最常用的两种词嵌入模型。Word2Vec建立在两种模型(连续词袋(CBoW)和Skip-gram模型)的基础上[34]。CBoW根据其上下文预测一个词,而Skip-gram根据中心词或目标词预测一个词。另一方面,GloVe嵌入方法是一种全局对数双线性回归模型,用于基于词的共现和矩阵分解方法生成向量。0传统的嵌入模型侧重于语义和句法特征0特征,这对SA应用来说是不够的[35]。尽管这些高效的方法有一些限制必须解决。Word2vec和GloVe模型需要大量语料库进行训练,并为每个词生成嵌入[36]。这些嵌入方法仅为单词生成特征向量0发现它们的词汇表中并且无法处理词汇外(OOV)的词[37]。这些模型的另一个局限性是来自不同句子的相似词可能具有相似的向量表示。在[38]中,作者发现来自不同句子的相似词可能具有不同的上下文。此外,在这种类型的技术中,相反的情感词如“bad”和“good”可能具有最接近的向量[39]。这可能导致情感和上下文的丢失。Twitter是最常用的社交媒体网站之一,每天处理近2亿条推文。由于推文非常简短,人们在发推文时经常犯错误。有时,很难应对社交媒体中使用的语言中发现的拼写错误和其他不一致性。此外,缺乏现成的带标注数据,使得分类任务具有挑战性。因此,有必要提出一种高效且可扩展的模型,没有任何领域依赖性约束,可以专注于句法和语义特征,并提取情感和上下文特征。0为了解决上述问题,提出了增强的基于BERT的0建议使用CBRNN模型以增强句子级SA的性能。其重要贡献包括:0• 首先使用零-shot算法对数据进行注释,和0使用BERT模型生成语义和上下文嵌入。0• 使用扩张的CNN模型提取局部和全局情感0使用不同的扩张率从嵌入特征中提取心理特征。0• 使用Bi-LSTM模型以利用学习长期0在长文本中的单词序列之间存在双向依赖关系。0• 为了修改所提出模型的参数,进行网格搜索0CV算法被利用。0• 进行比较分析以检查0提出的基于BERT的CBRNN模型。0本文的其余部分安排如下:第2节描述相关工作,第3节包含背景的细节,第4节讨论了SA的提出方法,第5节包括实现细节,第6节包含了本文的结论和未来方向。02. 文献综述0本节回顾了以前在0文本分类。文献综述可分为两部分。第一部分将讨论词嵌入和最先进的transformers。第二部分将讨论SA的分类模型。02.1. 词嵌入和transformers0特征提取是文本挖掘或SA中的重要阶段0以及用于提取特征的方法显著地影响结果。深度学习模型最近已被采用在SA领域用于学习词嵌入。词嵌入旨在捕捉单词之间的相似性及其语言联系[4]。广泛使用的无监督词嵌入是word2vec[40]和glove嵌入[41,42]。这些方法建立在这样一个假设的基础上,即包含相似上下文的单词具有相同的含义,它们应相应地创建相似的特征或向量[43]。然而,这一假设的根本问题是,某些语义上不相似的单词的获得的向量,通常在有限的范围内共同出现,是相似的。通常,这些方法将相反的单词投影到最近的向量中,但实际上它们具有完全相反的含义,例如两个不相似单词“like”和“dislike”的向量。30数组14(2022)1001570S.T. Kokab等人0提出了一种新颖的基于神经词嵌入的方法0由[44]用于跨多个领域的SA。他们解决了现有方法的主要局限性,即在非训练领域中的使用效果不佳。他们的新技术通过实现更高的性能而胜过了旧技术。然而,这些方法需要大量的训练语料库来生成准确的向量。2019年,另一种词嵌入向量由[30]提出。他们称之为改进的词向量(IWV)模型,它是词性标注方法、word2vec/glove模型、基于词典的方法和词本地化算法的组合。这个模型在准确性上有一些改进,但需要高计算能力,因为训练这个嵌入模型使用了四个GPU。同样,[39]提出了一种word2sent情感嵌入模型。该模型结合了CBoW和senti-wordnet-lexicon模型,用于从其周围上下文单词中发现每个单词的嵌入。它在隐式捕捉情感的同时保留了句法和语义特征。因此,使用CNN分类器进行句级分类时使用了四个数据集。然而,所有这些方法的主要缺点是在内置词汇表中找到所有单词的意见/情感倾向的成本。此外,可能会因领域的不同而导致情感/意见倾向术语的变化。0传统的嵌入模型用于情感分析无法0处理OOV单词并可能丢失情感信息。这些技术还有一个缺点,即它们将来自不同句子的相似单词视为相同的上下文。然而,很明显来自不同句子的单词会有不同的上下文[45]。在过去的两年里,基于transformer的词嵌入模型已经为许多文本分类任务生成了向量。同样,一个在中文维基百科语料库上训练的BERT模型被用于通过全连接层[45]和BiGRU[46]提高中国股票评论的性能。在[47]中,作者们开发了一种基于BERT嵌入的人格识别技术。他们发现,使用BERT模型从文本中识别人格可能显著提高准确性。[38]中的作者们使用不同的嵌入比较了各种深度模型用于药物评论的SA。他们应用了预训练的临床BERT与LSTM的嵌入,并得到了妥协的结果。在突尼斯SA上进行了word2vec和BERT的比较研究,因此得出结论,BERT与CNN在准确性方面取得了最高的结果[48]。0总之,先前的研究表明传统词嵌入模型存在一定的缺陷,可以通过基于transformer的方法0嵌入模型存在一定缺陷,可以通过基于transformer的方法来解决。表1呈现了传统嵌入模型和基于transformer的模型之间的差距。02.2. 情感分类0深度学习模型已经在句子级情感分析中被广泛使用0在过去几年中,深度学习模型在各个领域中被广泛使用,以克服传统机器学习模型的限制。CNN和LSTM模型已经与分布式词表示word2vec[34]、GloVe[49]和FasText[33]一起用于社交媒体数据的SA。然而,CNN对于短文本数据很有用,但可能不适合长篇评论[2,50]。另一方面,LSTM能够处理长篇文本数据。然而,对于具有非常长期依赖的数据,可能会变得具有挑战性[51]。为了处理句子的非常长期依赖,已经使用了Bi-LSTM[52,53]。0几项研究建议采用混合模型进行SA0由于深度学习模型组合效果比单独使用要好[54]。CNN和LSTM已经结合在一起,以从两者中获益,用于对药物评论的两类(积极和消极)极性进行检测[55]。每条评论都包含了1-5的评分,显示了药物使用者的满意程度。在[56]中,使用了CNN和LSTM模型与Word2vec嵌入方案,用于检测IMDB的更细粒度的极性。0表1 词嵌入模型的关键分析0模型句法语义上下文词汇外01-热编码 � × � � × � � × � � × � BOW � × � � × � � × � � × � TF–IDF � × � � × � � × � � × � Word2vec � � � � � � �× � � × � GloVe � � � � � � � × � � × � FastText � � � � × � � × � � � � BERT � � � � � � � � � � � �0和亚马逊评论。混合模型CNN-LSTM在两个数据集上均达到了91%的准确率。在另一项研究中,[57]提出了一个混合的卷积双向RNN模型。其中,两层CNN与双向门控循环单元(Bi-GRU)连接,用于IMDB数据集的SA。CNN提取了大量的句子级特征,而Bi-GRU利用长期依赖获取了时间特征。这些模型是特定领域的,并且在指定领域表现良好。因此,[58]提出了一种基于Convolution-LSTM(CO-LSTM)的混合模型,可以在不同领域以可扩展的方式运行。深度卷积网络用于使用池化层提取重要特征,而LSTM用于对长文本进行顺序分析。尽管这些模型可以处理任意长度的序列,但将它们用于深度神经网络的特征提取层会增加特征空间的维度。这些模型的另一个局限性是它们同等重视不同的特征。表2是相关工作的表格表示。0为了弥补先前研究的差距,[59]提出了一个0Bi-LSTM和自注意力方法的组合模型。该模型应用了多个通道来获取文档级文本分类的重要特征。Bi-LSTM从多特征通道接收输入,然后学习所有句子的表示,之后应用自注意力方法来聚焦表示的情感极性信息。[19]中的作者提出了一个基于注意力的模型,结合了卷积和RNN,用于处理长短句。两个独立的Bi-LSTM和Bi-GRU层被用于提取特征的过去和未来的上下文信息。之后,注意力被用于确定不同单词的重要性。尽管先前的工作表明基于CNN的模型被广泛用于目标情感分类,但仍然存在一些局限性。[60]中的作者指出,广泛使用的经典CNN在卷积核的大小方面存在局限,这导致社交媒体SA中出现了两个主要问题。第一个问题是,就语义而言,CNN只能捕捉短期依赖模式。由于卷积核的扩展,参数数量大幅增加。另一种称为扩张CNN(D-CNN)的CNN变体已被提出[61]来处理经典CNN的问题。0因此,可以得出结论,传统技术简单0理解,需要最少的硬件需求,并且在小型数据集上表现良好,但在处理复杂的分类问题时会遇到困难,并且需要专业知识来构建情感词典。基于深度学习的技术可以减少对手动特征的依赖,从而解决传统方法的局限性。然而,情感分析类似于序列建模,基于CNN的方法需要多个CNN层来处理长期上下文依赖性。同样,基于RNN的方法非常复杂,它们很难准确提取长距离上下文中它们之间的依赖关系。因此,基于CNN的方法在短文本评论中表现良好,基于RNN的方法在长文本评论中表现良好。CNN和RNN架构的组合可能克服每种方法的一些限制,但是存在40数组14(2022)1001570S.T. Kokab等人0表2 文献综述摘要0参考文献方法准确性限制0[62]随机抽样,CNN 77.6%需要大语料库。[30]IWV,CNN 86.5%序列和上下文丢失。[63]TF-IDF,投票分类器79.1%需要更好的特征工程。[56]Word2vec,CNN,LSTM 91.2%多极性词的归一化。[64]Glove,GRU 84.8%需要强大的循环模型。[46]中文BERT,Bi-GRUNA特定领域。[59]CBOW,CNN 87.2%提取重要特征。[57]Word2vec,CNN,Bi-GRU 86.2%需要增强的相似性度量。[65]Glove,Bi-GRU71.1%缺乏棘手的隐含知识。[38]临床BERT,LSTM 90.4%语料库的注释。[39]SentiWordNet,CNN 86.5%寻找观点词的成本。[58]Word2vec,CNN,LSTM94.9%丢失重要特征。[66]Word2vec,LSTM 85.0%高影响力词的特定权重。[67]BOW,TF-IDF,ETC 93.1%语义和综合信息的丢失。[68]中文BERT-FC92.6%需要在大型数据集上进行验证。0失去上下文和情感信息的机会。此外,如果模型想要学习高级上下文特征,它需要利用多个卷积核,这可能会增加模型的复杂性。因此,在本研究中,引入了一种基于扩张卷积神经网络和双向LSTM的长文本和短文本评论文本情感分析分类模型。03. 背景细节03.1. 词嵌入0词嵌入是一种将文本转换为数字的技术0从[36]中可以看出,它也被称为词表示技术。词嵌入在文本挖掘中起着至关重要的作用,因为机器学习技术无法处理文本数据。从技术上讲,词嵌入技术将一个单词转换为数字表示,使用词汇表。它可以通过应用神经网络在大语料库上进行训练。有各种类型的嵌入技术。这些技术分为两类,即基于频率和基于预测的嵌入。基于频率的嵌入方法通过计算频繁出现的单词的频率来生成文本向量[69],例如TF-IDF、共现矩阵和CV[70]。而基于预测的嵌入方法则使用先前的知识和神经网络来对单词进行矢量化[71]。Skip-gram和CBOW是这种方法的广泛使用模型[72]。03.2. WordPiece分词器0分词是一种将句子、短语、段落分割成最小单元的技术0或任何其他文本材料分割成称为标记的最小单元[73]。有各种类型的标记器,WordPiece标记器是其中之一,在[74]中概述,最初创建包含训练数据中找到的所有字符、子词和单词的词汇表。词汇表包括四个内容:0• 完整的单词。•出现在单词开头或独立的子词(例如,“searchability”中的“se”与“go getse0示例,'‘se’’在‘‘searchability’’中被赋予与‘‘go getse’’中独立字母序列‘‘se’’相同的向量。0• 不是单词开头的子词,并且前面有0‘##’表示这种情况。0• 单个字符。0在这种方法中,分词器首先验证单词是否0在词汇表中或不在词汇表中。如果不在词汇表中,那么它会尝试将单词分解为词汇表中可用的最大数量的子词,作为最后的选择,它将单词分解为单个字符。因此,一旦词汇表建立,我们就将其应用于标记化。0BERT分词器是使用WordPiece算法构建的0如上所述。因此,在执行这些步骤后,BERT分词器返回标记ID和注意力掩码。然后,分词器的输出将用作BERT模型的输入,以生成上下文嵌入。03.3. BERT0迁移学习是机器学习中的一种新范式0专注于利用从一个任务中获得的信息来解决其他类似的任务。2018年,谷歌提出了一种新型的转换器[75],即预训练的BERT模型。由于BERT是一个顺序语言模型。BERT以语言格式� =(�0,…,��)的序列作为输入,并输出上下文化的向量表示�=(�0,…,��)用于输入序列的元素。作为一个高度通用的语言表示框架,它通过编码器完成任务。编码器是从变压器中采用的神经网络架构,用于创建文本的编码表示。预训练的BERT-Mini有四个编码器层。每个编码器块有两个子层,即多头注意力和前馈。0每个编码器层由两个子过程组成,可以0如图1所示。第一个是多头自注意力层,它采用了一系列度量操作。编码器的输入首先通过多头自注意力层,以提取最重要的语言特征。提取后,特征将使用残差连接进行归一化,并输入到前馈层。现在,前馈层的输出将输入到编码器的第二层,然后相同的过程将重复用于下一个编码器层。0多头注意力由多个并行运行的头组成0并行,并且每个头都由自注意力表示。自注意力识别给定短语中所有单词之间的关系。为了更好地理解,重要的是解释自注意力过程[76]。图2显示了自注意力机制的图示表示。0� = ������0(���√0� �0�(1)0因此,方程(1)显示:Q = 查询向量,K = 关键向量,V = 值0向量,��表示k的维度。0• 为了计算相似度分数,需要计算0• 然后,将关键矩阵(���)除以√0��。0• 然后使用softmax函数进行归一化和0获得得分矩阵。0• 最后,通过将注意力矩阵Z与V相乘获得0得分矩阵与V。50数组14(2022)1001570S.T. Kokab等0图1. 编码器模块的示意图。0图2.自注意力机制的示意图。0同样,多头注意力使模型能够关注不同位置的各种表示和子空间,而单头注意力平均则阻止了这一点。公式(2)描述了多头注意力,用��表示。0��(�,�,�)=������(�0,�1,�2,……��)(2)0前馈由两个线性变换组成,中间由ReLU激活分隔。它在每个位置上都是独立且相同地使用。从数学上讲,它可以描述为:0��=���(0,��1+�1)�2+�2,(3)03.4.卷积神经网络0CNN通常建立在可以在不同层上运行的卷积和子采样技术之上[71]。CNN在NLP中用于提取局部特征。CNN的组成层包括卷积、池化和全连接层。卷积层通常应用于输入数据的特征。如果应用于文本数据,它有助于从句子或短语级表示中提取特征。池化层的作用是缩小从卷积层获得的特征图的大小。这是一种有效的技术,可以减少高维输入数据的可训练参数的数量。池化操作可以以不同的方式进行:最大池化、平均池化或总和池化等。在特征图池化中,通过称为最大池化的池化过程选择滤波器特征图区域中的最大值。这意味着在最大池化层之后,结果将是具有前一个特征图的最重要特征的特征图。平均池化考虑滤波器特征图区域中特征的平均值。最大池化提供了补丁中最重要的方面,而平均池化提供了补丁中所有方面的平均值。池化层完成其工作后,结果被组合成一个池化特征向量。获得的向量然后被转发到一个全连接层。池化可以为卷积核提供更广泛的感受野0在传统CNN中,尽管它不是CNN的必需组件。另一种改进的CNN版本称为扩张CNN,已经提出[61]来处理传统CNN的限制。它具有各种扩张率,已经在音频处理、计算机视觉和自然语言处理等多个领域中使用。扩张卷积具有扩展感受野的优势,而无需池化,使得每个卷积结果都包含广泛的信息。它已被用于需要更长的序列信息依赖性的问题,如图像和文本。图3显示了使用3×3卷积核大小的扩张卷积在不同扩张率1、2和3下的情况。从本质上讲,这是一种更传统的卷积,但它可以用于从输入特征中收集越来越全局的上下文,而无需增加参数的数量。这也可能有助于通过增加输出的数量来扩展输出的空间大小。然而,这里最重要的是注意到,随着层数的增加,感受野的大小也会增加。03.5.长短期记忆0LSTM是RNN的一种高级形式,专门用于序列建模。它最常用于文本数据。当两个相关单词之间的距离增加时,RNN的有效性经常下降,并且梯度值大大降低。LSTM解决了这个问题,并在长期依赖情况下有效地工作。在LSTM中,只有数据的重要部分被发送到下一层,而不是整个数据。LSTM有两个变体,即单向LSTM和双向LSTM,两者都用于机器学习。其信息保存仅限于它从先前输入中学到的知识,这是因为单向LSTM只看到先前的输入。另一方面,双向LSTM以两种方式处理输入,即向前和向后。研究人员发现,Bi-LSTM模型在预测准确性方面击败了LSTM模型[77]。LSTM单元由Array 14 (2022) 1001576𝑝𝑛 = 𝜎(𝑊𝑛[ℎ𝑛−1, 𝑥𝑛] + 𝑏𝑛),(4)𝑒𝑛 = 𝜎(𝑊𝑒[ℎ𝑛−1, 𝑥𝑛] + 𝑏𝑒),(5)̃𝑡𝑛 = 𝑡𝑎𝑛ℎ(𝑊𝑡[ℎ𝑛−1, 𝑥𝑛] + 𝑏𝑡),(6)𝑡𝑛 = 𝑝𝑛 ∗ 𝑡𝑛−1 + 𝑒𝑛 ∗ ̃𝑡𝑛,(7)𝑢𝑛 = 𝑡𝑎𝑛ℎ(𝑊𝑢[ℎ𝑛−1, 𝑥𝑛] + 𝑏𝑢),(8)ℎ𝑛 = 𝑢𝑛 ∗ 𝑡𝑎𝑛ℎ(𝑡𝑛),(9)0S.T. Kokab 等0图3. 系统化的1-D扩张卷积。0图4. 社交媒体数据情感分析的提出模型0一个记忆块 � � ,它在无限时间段内保持其状态。它包括三个门,如输入 � � ,遗忘 �� 和输出 � � 门。这三个门旨在控制信息流。0其中 � 用于Sigmoid函数,W和b表示权重及其偏差, � ��单元的输入由 � �表示,前一个LSTM单元的输出由 � � −1 表示。在方程(4)中, � � 可能通过使用 � 和 � � −1 参数来决定要忽略哪些信息。0� � 确定要更新哪些信息,� � �表示候选单元的信息。根据方程(7),输入门通过计算 � � 并将其与 � � �合并来确定要存储哪些信息。0� � 通过 � � 和 � � −1 决定输出的状态,然后LSTM单元的结果 � � 通过将 � � 相乘来确定。0最后,Bi-LSTM结合了前向(从右到左) � � � 和后向(从左到右) � � �隐藏层。这导致网络中时间的双向流动,以及网络之间的改进学习。04. 社交媒体情感分析的提出方法0所提出的工作包括数据预处理、标记化和填充、数据转换以及使用BERT模型提取上下文嵌入。在这项研究中,BERT模型已被用于完成两项主要任务:数据的注释和从输入数据中提取嵌入。图4显示了社交大数据情感分析提出模型的示意图。在完成清洁数据的必要步骤后,使用zero-shot分类方法来识别注释的强度。一旦提取了嵌入,BERT模型用于生成特征向量,然后传递给三个扩张卷积层以生成特征映射。之后,所有层被串联,对它们进行全局最大池化操作,以从中提取最相关的特征Array 14 (2022) 1001577nepredefined conditions. If the negative score of the review is more thanneutral and positive scores, then the review is labelled as negative. Ifpositive class contains the highest score than other two classes, thenit is labelled as positive. Thus, at the end, this method produced fullypre-processed data that is used for generating numerical form of thesetexinpreceptive field grows exponentially in size. The high-level characteris-tics of each sentence vector are extracted using a convolution operationwith dilation rate, and an activation function [78] based on a RectifiedLinear Unit (ReLU) is used. ReLU is used for preventing the gradientvanishing issue [79], and as it has been discovered to be six-timefaster than 𝑡𝑎𝑛ℎ and 𝜎 [80] activation function. All three convolutionlayers have dilation rates of 1, 2, and 3 correspondingly, as well as 64filters with a 3 × 3 kernel size on each of their respective convolutionlayers. In order to identify long-term semantic characteristics, a lowdilation method has been adopted, that focuses on individual words0S.T. Kokab 等0新创建的特征映射。Bi-LSTM用于捕获池化特征之间的顺序依赖关系。在这一层中,包括0.2的丢失率以防止出现过拟合情况。Bi-LSTM的结果被送入隐藏层,然后传送到全连接或Sigmoid层进行预测。最常用的二元交叉熵在Sigmoid层中用作损失函数来评估结果。算法1显示了所提出的技术所遵循的所有必要步骤。0步骤1:预处理 在大多数情况下,社交平台的评论包含非结构化的0在这一步中,使用特征表示技术将非结构化数据转换为结构化形式。在执行任何文本分类任务之前,有必要清洁数据,因为原始数据包含许多不规则之处,可能会导致嵌入模型在标记化过程中混淆。由于社交媒体中使用非正式语言,社交媒体数据容易受到噪音干扰。这可能包含拼写错误、特殊字符、超链接、符号等。我们使用正则表达式和文本处理库来清洁数据并保留相关信息。之后,所有评论都转换为小写,因为文本挖掘方法是大小写敏感的方法。进行探索性数据分析(EDA)以找到单词之间的关系并可视化数据。使用NLTK库执行词形还原等文本规范化步骤。词形还原是使用单词的基本形式或词元来简化单词的过程,以减少常规使用的单词数量。例如,尽管“go”、“going”和“gone”是完全不同的单词,但在这种情况下,“go”将作为它们所有的词元形式。完成所有必要的数据清洁步骤后,使用给定的评论来创建标签,使用zero-shot-BERT。Zero-shotBERT是一种常用的评分系统,通常用于将评论划分为积极或消极。Zero-shot不仅限于计算积极和消极分数,还提供有关情感强度的信息,即包含多少积极分数或消极分数。它非常快速,可以用于通过互联网传输数据,而不会出现显著的速度与性能之间的折衷,这是罕见的。图4描述了我们在提出的工作中使用的所有预处理过程。0步骤2:标记和填充单词必须被向量化并提交进行分类0在数据清理和标记之后,根据预定义条件对每条评论进行标记。如果评论的负分数高于中性和积极分数,则将评论标记为负面。如果积极类包含最高分数,则将其标记为积极。因此,最终,该方法生成了完全预处理的数据,用于生成这些文本评论的数值形式。0步骤3:BERT模型0算法1 BERT-based CBRNN模型的伪代码。输入:评论数据集��输出:情感类别(积极,消极)01:对于��中的每条评论�,计算极性分数(����,����,����),使用零-shot BERT分类。03:如果����>����&&����>����则04:分配标签=积极05:否则06:如果����>����&&����>����则07:分配标签=消极08:否则09:分配标签=中性010:结束如果011:结束如果012:结束对13:对于预处理的��中的每个�进行操作。生成标记id和注意力掩码。015:使用BERT模型提取词嵌入向量���016:结束对17:将数据分割成������18:对于�∈������进行膨胀卷积操作,��=1,��=2和��=3。020:连接上一步的输出021:从最大池化层获取重要特征022:使用Bi-LSTM执行序列操作023:dropout层,dropout=0.2024:Flatten层025:密集层026:Sigmoid用于计算标签的概率027:结束对28:对于�∈�����进行分类,使用训练好的模型。030:显示输出(积极或消极)031:结束对0BERT模型从tok-获取标记id和注意力掩码0如图4所示的分词器。BERT相对于Word2Vec模型的主要优势是能够生成上下文化的词嵌入。Bert创建的单词表示受其周围单词的动态影响,而word2vec对于每个单词都有固定的表示,独立于其出现的上下文。另一个观点是,从参数的角度来看,为特定任务训练BERT是低效的。然而,由于计算成本的问题,我们采用了预训练的BERT模型。在这个实验中,我们使用了Bert-Mini模型,它包含四个编码器层,四个注意力头,并且具有256的维度。每个编码器的输出都发送到上面的编码器,最终编码器为特定源句子生成上下文嵌入/向量。0Array 14 (2022) 1001578S.T. Kokab et al.ℎ𝑛𝐵𝑖−𝐿𝑆𝑇 𝑀 = [ℎ𝑓𝑛 , ℎ𝑏𝑛](10)𝑝𝜎(𝑐𝑗) =𝑒𝑜𝑗𝑜𝑗 ,(11)𝑙𝑜𝑠𝑠 = −𝑟𝑗=1𝐴(𝑐𝑖) × 𝑙𝑜𝑔𝑃 𝜎(𝑐𝑖),(12)16320.0001321632640.000016432641280.00002128641282560.000055121281. Airline reviews: Us-airline datasets are originally collected fromKaggle. It was scrapped in February 2015 [81]. This dataset has11,517 tweets for six different United States (US) airlines andcontains their positive, negative, and neutral sentiments.2. Self-driving car reviews: Self-driving car dataset [82] has 7156tweets with three attributes twitter id, reviews, and sentimentsassociated with each review.3. US presidential election reviews: US presidential election dataset[83], was the first GOP for the first 2016 GOP presidentialdebate, which contains 10,729 reviews and 21 attributes.4. IMDB: IMDB is a large movie review dataset that was col-lected from Kaggle. This is a balanced dataset and contains50,000 reviews. It contains 25,000 positive and 25,000 negativereviews.0图5. 膨胀卷积块。0和句子。从这三个层获得特征图后,将所有这些特征图的串联用于获得单个特征图。当这三个层的特征图被串联在一起以创建单个特征图时,输出将为:� = � 1 , � 2 , … ..., � � ,其中 � � 是第 ��个词向量。步骤5:池化层串联层生成了一个 � × � 维度的特征矩阵,然后使用2 ×2维度滤波器执行最大池化操作。当滤波器以最大池化模式遍历时,每个滤波器的每个补丁中的最高或最大值被选为选择的结果。因此,最大池化层的输出将是一个包含前一个特征图的最显著/重要特征的池化特征图。结果特征矩阵的维度为 �02 .步骤6:双向LSTM将最大池化层的输出馈送到双向LSTM层,该层以前向和后向的方式顺序分析生成的特征向量。该层使用128个LSTM单元和0.2%的丢失率。双向LSTM可以用以
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功