胶囊情感分析的研究与应用

69 浏览量更新于2023-10-16 收藏 13.02MB PDF 举报

情感分析

循环神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11650胶囊情感分析 �0Yequan Wang 1 Aixin Sun 2 Jialong Han 3 Ying Liu 4 Xiaoyan Zhu 101 国家智能技术与系统重点实验室 1 清华大学信息科学与技术国家实验室 1 清华大学计算机科学与技术系，中国 2新加坡南洋理工大学计算机科学与工程学院 3 腾讯AI实验室，中国深圳 4 英国卡迪夫大学工程学院tshwangyequan@gmail.com;axsun@ntu.edu.sg;jialonghan@gmail.com;liuy81@cardiff.ac.uk;zxy-dcs@tsinghua.edu.cn0摘要0在本文中，我们提出了基于循环神经网络（RNN）的胶囊模型RNN-Capsule用于情感分析。对于给定的问题，为每个情感类别（例如“积极”和“消极”）构建一个胶囊。每个胶囊都有一个属性、一个状态和三个模块：表示模块、概率模块和重构模块。胶囊的属性是分配的情感类别。通过典型RNN对隐藏向量编码的实例，表示模块通过注意机制构建胶囊表示。基于胶囊表示，概率模块计算胶囊的状态概率。如果胶囊的状态概率在给定实例的所有胶囊中最大，则该胶囊的状态是活跃的，否则是非活跃的。在两个基准数据集（即电影评论和斯坦福情感树库）和一个专有数据集（即医院反馈）上，我们展示了RNN-Capsule在情感分类上达到了最先进的性能。更重要的是，RNN-Capsule无需使用任何语言知识，就能够输出具有反映胶囊属性的情感倾向的词。这些词很好地反映了数据集的领域特异性。0ACM参考格式：Yequan Wang 1 Aixin Sun 2 Jialong Han 3 Ying Liu 4Xiaoyan Zhu 1。2018年。胶囊情感分析。在WWW2018：2018年网络会议上，2018年4月23日至27日，法国里昂。ACM，纽约，美国，10页。https://doi.org/10.1145/3178876.318601501 引言0情感分析，也被称为意见挖掘，是研究从书面语言中分析人们的情感、意见、评价、态度和情绪的领域[20,26]。许多神经网络模型取得了良好的性能，例如递归自动编码器[33,34]，循环神经网络（RNN）[21, 35]和卷积神经网络（CNN）[13,14, 18]。0� 这项工作是在新加坡南洋理工大学计算机科学与工程学院访问博士生时完成的。0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂。© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860150尽管最近的神经网络模型取得了巨大的成功，但仍存在一些缺陷。首先，现有模型关注并且严重依赖于实例表示的质量。这里的实例可以是一个句子、段落或文档。使用向量来表示情感非常有限，因为意见是微妙而复杂的。我们的胶囊结构使得模型具有更多建模情感的能力。其次，语言知识，如情感词典、否定词（例如no, not,never）和强度词（例如very,extremely），需要被仔细地纳入这些模型中以实现最佳的预测准确性。然而，语言知识需要大量的努力来开发。此外，开发的情感词典可能不适用于某些特定领域的数据集。例如，当患者对医院服务提供反馈时，像“快速”和“关心”这样的词都被认为是强烈的正面词。这些词在电影评论中不太可能被认为是强烈的正面词。我们的胶囊模型不需要任何语言知识，并且能够输出具有情感倾向的词来解释情感。在本文中，我们首次尝试通过胶囊来进行情感分析。胶囊是一组具有丰富意义的神经元[30]。我们设计每个单独的胶囊1来包含一个属性、一个状态和三个模块（即表示模块、概率模块和重构模块）。0•胶囊的属性反映了其专属情感类别，在构建胶囊时预先分配。根据给定问题中情感类别的数量，构建相同数量的胶囊。例如，对于一个有两个情感类别的问题，构建了积极胶囊和消极胶囊。•胶囊的状态，即“活跃”或“非活跃”，由模型中所有胶囊的概率模块决定。如果一个胶囊的概率模块的输出在所有胶囊中最大，则该胶囊的状态为“活跃”。•关于三个模块，表示模块使用注意机制来构建胶囊表示；概率模块使用胶囊表示来预测胶囊的状态概率；重构模块用于重建输入实例的表示。胶囊模型的输入实例是一个序列（例如，一个句子或一个段落）。在本文中，通过RNN计算胶囊的输入实例表示。01 这项工作是在[30]发表之前完成的。本文中的胶囊与[30]中的胶囊设计不同。0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France11660在提出的RNN-Capsule模型中，每个胶囊不仅能够预测其分配情感的概率，还能够重构输入实例的表示。我们的训练目标考虑了这两个特性。具体而言，对于每个情感类别，我们构建一个属性与情感类别相同的胶囊。给定一个输入实例，我们通过使用RNN的隐藏向量来获取其实例表示。将隐藏向量作为输入，每个胶囊输出：（i）通过其概率模块的状态概率，以及（ii）通过其重构模块的重构表示。在训练过程中，一个目标是最大化与地面真实情感对应的胶囊的状态概率，并最小化其他胶囊的状态概率。另一个目标是最小化输入实例表示与与地面真实情感对应的胶囊的重构表示之间的距离，并最大化其他胶囊的这种距离。在测试中，如果一个胶囊的状态概率在给定的测试实例中是所有胶囊中最大的，则该胶囊的状态变为“活跃”。所有其他胶囊的状态将为“非活跃”。选择活跃胶囊的属性作为测试实例的预测情感类别。与大多数现有的情感分析神经网络模型相比，RNN-Capsule模型不过分依赖输入实例表示的质量。特别是，我们模型中的RNN层可以通过广泛使用的长短期记忆（LSTM）模型、门控循环单元（GRU）模型或其变体来实现。RNN-Capsule不需要任何语言知识。相反，每个胶囊能够输出具有反映其分配情感类别的情感倾向的词语。回顾一下，胶囊的表示模块使用注意机制来构建胶囊的表示。我们通过实验证明，每个胶囊所关注的词语很好地反映了胶囊的情感类别。这些词语反映了数据集的领域特异性，尽管情感词典中没有包含。例如，我们的模型能够将“专业”、“快速”和“关心”识别为患者对医院的积极评价。我们还观察到，所关注的词语不仅包括高频词，还包括中低频词，甚至包括社交媒体中常见的拼写错误。这些领域相关的情感词对于决策者识别其服务或产品的积极和消极方面非常有用。主要贡献如下：0•据我们所知，RNN-Capsule是首次尝试使用胶囊模型进行情感分析。胶囊模型可以很容易地使用来自RNN的输入实例表示构建。每个胶囊包含一个属性、一个状态和三个简单的模块（表示、概率和重构）。•我们证明了RNN-Capsule不需要任何语言知识就能达到最先进的性能。此外，胶囊模型能够关注反映数据集领域知识的观点词。•我们在两个基准数据集和一个专有数据集上进行了实验，将我们的胶囊模型与强基线进行了比较。我们的实验结果表明，胶囊模型具有竞争力和鲁棒性。02 相关工作0早期的情感分析方法大多基于手动定义的规则。随着深度学习技术的发展，基于神经网络的方法成为主流。在此基础上，许多研究人员应用语言知识以获得更好的情感分析性能。0传统情感分析。许多情感分析方法都侧重于特征工程。精心设计的特征然后被输入到监督学习设置中的机器学习方法中。情感分类的性能因此严重依赖于文本特征表示的选择。[24]中的系统实现了一些手工设计的特征，并且是SemEval 2013Twitter情感分类赛道中的最佳表现者。除了监督学习，Turney[38]通过使用从句法模式中提取的情感词/短语来确定文档极性，引入了一种无监督方法。Goldberg和Zhu[6]提出了一种半监督方法，其中未标记的评论在基于图的方法中被利用。在特征方面，情感分析中使用了不同种类的表示，包括词袋表示、词共现和句法上下文[26]。尽管特征工程非常有效，但它需要大量的人力，并且无法从数据中提取和组织有区别的信息[7]。0神经网络情感分析。自从提出了一种学习词和短语分布表示的简单有效方法[23]以来，基于神经网络的模型在许多自然语言处理（NLP）任务中取得了巨大成功。许多模型已经应用于情感分析，包括递归自动编码器[4, 29, 33]，递归神经张量网络[34]，循环神经网络[22,36]，LSTM[9]，树形LSTM[35]和GRU[3]。递归自动编码器神经网络从子短语中递归地构建句子的表示[4, 29,33]。这种递归模型通常依赖于输入文本的树结构。为了获得有竞争力的结果，所有子短语都需要进行注释。通过利用句子的句法结构，基于树的LSTM在许多NLP任务中，包括情感分析[35]中被证明是有效的。然而，这种模型可能会受到常见于资源匮乏语言中的句法解析错误的影响。像CNN这样的序列模型不需要树结构化的数据，因此被广泛应用于情感分类[13,14]。LSTM也常用于学习句子级表示，因为它能够建模前缀或后缀上下文以及树结构化的数据[9,35]。尽管这些方法的有效性，细粒度级别上区分不同情感极性仍然具有挑战性。在[8]中，所提出的神经模型通过利用词共现的分布来提高一致性，通过使用神经词嵌入。每个推断出的方面的前几个代表性词汇列表都反映了该方面，从而获得更有意义的结果。[19]中的方法结合了两个模块化组件，生成器和编码器，以提取输入文本的片段作为证明。仅仅使用提取的短小连贯的文本片段就足以进行预测，并且可以用于解释预测。0跟踪：Web内容分析，语义和知识WWW 2018年4月23日至27日，法国里昂��,��,��,��Track: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France11670语言知识。语言知识已经被精心整合到模型中，以实现最佳的预测准确性。经典的语言知识或情感资源包括情感词典、否定词和强调词。情感词典对于基于规则或基于词典的模型非常有价值[10]。还有研究从社交数据[39]或多种语言[2]中自动构建情感词典。最近，提出了一种基于上下文敏感的基于词典的方法，该方法基于简单的加权和模型[37]。它使用RNN来学习词典情感的情感强度、强调和否定，以组成句子的情感值。将方面信息、否定词、短语的情感强度、解析树和它们的组合应用于模型，以提高其性能。[40]提出了基于注意力的LSTM用于方面级情感分类。关键思想是将方面信息添加到注意机制中。[41]提出了一种线性回归模型，用于预测内容词的价值度。由于强度词的影响，文本的价值程度可能会发生变化。在[28]中，情感词典、否定词和强度词都被考虑到一个模型中，用于句子级情感分析。然而，语言知识需要大量的人力开发。开发的情感词典可能不适用于某些特定领域的数据集。所有这些都限制了基于语言知识的模型的应用。03个RNN胶囊模型0所提出的基于RNN的胶囊模型的架构如图1所示。胶囊的数量N与要建模的情感类别数量相同，每个胶囊对应一个情感类别。例如，使用五个胶囊来建模五个细粒度情感类别：“非常积极”，“积极”，“中性”，“消极”和“非常消极”。每个情感类别也被称为胶囊的属性。所有胶囊都采用相同的实例表示作为它们的输入，该实例表示由RNN网络计算得出，如图所示。RNN可以通过长短期记忆（LSTM）模型、门控循环单元（GRU）或它们的变体（例如双向和双层LSTM）来实现。给定一个实例（例如一个句子或一个段落），用密集向量表示，RNN对实例进行编码并输出隐藏向量。然后，实例由隐藏向量表示。也就是说，所有胶囊的输入都是RNN编码的隐藏向量。在图1的顶部行中，每个胶囊通过其概率模块和重构模块分别输出状态概率和重构表示。在所有胶囊中，状态概率最高的胶囊将变为“活动”，其余胶囊将变为“非活动”。在训练过程中，一个目标是最大化与地面真实情感相对应的胶囊的状态概率，并最小化其余胶囊的状态概率。另一个目标是最小化由地面真实情感选择的胶囊的重构表示与实例表示之间的距离，并最大化其他胶囊的这种距离。在测试过程中，如果一个胶囊的状态概率在所有胶囊中最大，则该胶囊的状态将为“活动”。所有其他胶囊将变为“非活动”，因为只有0输入：实例0注意0注意力0注意力0注意力0胶囊1 胶囊N 胶囊20图1：RNN-Capsule的架构。胶囊的数量等于情感类别的数量。H =[ h 1 , h 2 , . . . , h N s ] 是由RNN编码的输入实例的隐藏向量，其中N s 是单词的数量。实例表示 v s = 1 N s � N s i = 1 h i是隐藏向量的平均值。所有胶囊都将隐藏向量作为输入，每个胶囊输出一个状态概率 p i 和一个重构表示 r s , i 。0一个胶囊可以处于激活状态。激活的胶囊属性被选为测试实例的情感类别。因为胶囊模型是基于RNN的，所以在详细介绍胶囊结构和训练目标之前，我们先介绍RNN的基础知识。03.1 循环神经网络0循环神经网络（RNN）是一类人工神经网络，其中单元之间的连接形成一个有向循环。这使得网络能够展示动态的时间行为。与前馈神经网络不同，RNN可以使用其内部记忆来处理任意序列的输入。然而，众所周知，标准RNN存在梯度消失或梯度爆炸的问题。为了克服这些问题，发展了长短期记忆网络（LSTM），在许多任务中显示出优越的性能[9]。简单来说，在LSTM中，隐藏状态 h t 和记忆单元 c t是前一个隐藏状态 h t − 1 和记忆单元 c t − 1 ，以及输入向量 x t的函数，或者形式上表示为：c t , h t = LSTM ( c t − 1 , h t − 1 , xt ) (1)0隐藏状态 h t 表示位置 t的表示，同时编码位置的前面上下文。关于LSTM的更多细节，请参考[9]。LSTM的一种变体是门控循环单元（GRU），在[3]中引入。它将遗忘门和输入门合并为一个单一的更新门。它还合并了细胞状态和隐藏状态，以及其他变化。由此产生的模型比标准LSTM模型更简单，并且已经成为许多任务中的流行模型。类似地，GRU中的隐藏状态h t 表示位置 t 的表示。vs = 1Nsshi,(3)et,i = htwa,i(4)αt,i =exp(et,i)�Nsj=1 exp(ej,i)(5)vc,i =Ns�j=1at,iht(6)��,��,�pi = σ(Wp,ivc,i + bp,i),(7)rs,i = pivc,i,(8)11680在编码位置的前面上下文时（更多细节请参见[3]），使用RNN公式h t = GRU ( h t − 1 , x t ) (2)。RNN可以是双向的，通过使用有限序列来预测或标记序列的每个元素，基于元素的过去和未来上下文。这是通过将两个RNN的输出连接起来实现的，一个从左到右处理序列，另一个从右到左处理序列。0实例表示。如图1所示，实例表示通过RNN编码传递给所有胶囊。形式上，实例表示 v s 是从RNN获得的隐藏向量的平均值。0其中 N s是实例的长度，例如给定句子中的单词数。在这里，每个单词通过word2vec或类似技术获得的稠密向量来表示。03.2 胶囊结构0单个胶囊的结构如图2所示。一个胶囊包含三个模块：表示模块、概率模块和重构模块。表示模块使用注意机制构建胶囊表示 v c , i。概率模块使用sigmoid函数预测胶囊的激活状态概率 p i。重构模块通过将 p i 和 v c , i 相乘计算实例的重构表示。0表示模块。给定由RNN编码的隐藏向量，我们使用注意机制在胶囊内构建胶囊表示。注意机制使表示模块能够根据预测任务决定单词的重要性。例如，单词“clean”在患者对医院的反馈中可能是信息丰富且重要的。然而，如果这个单词出现在电影评论中，它就不那么重要。我们使用的注意机制受到[1, 5, 40,44]的启发，胶囊中有一个单一的参数：0在上述公式中，h t 是位置 t 处的单词表示（即来自 RNN的隐藏向量），w a , i 是注意力层胶囊 i的参数。每个位置的注意力重要性得分 α t , i是通过将表示向量与权重矩阵相乘，然后归一化为单词上的概率分布得到的。α i = [ α 1 , i , α 2 , i , . . . , α N s , i ]。最后，胶囊表示向量 v c , i是使用注意力重要性得分作为权重对所有位置进行加权求和。请注意，从注意力层获得的这个胶囊表示向量是整个输入文本的高级编码。这个胶囊表示向量将用于重构输入实例的表示。我们观察到，添加注意力机制可以提高模型的能力和鲁棒性。0注意力0H 输入0胶囊0输出0图2：单个胶囊的架构。胶囊的输入是来自 RNN 的隐藏向量 H = [ h1 , h 2 , . . . , h N s ] 。0概率模块。在获得胶囊表示向量 v c , i后，我们通过以下方式计算活动状态概率 p i0其中 W p , i 和 b p , i 是当前胶囊 i的活动概率的参数。这些参数是基于前面提到的目标学习的，即最大化由地面真实情感选择的胶囊的状态概率，并最小化其他胶囊的状态概率。在测试中，如果 p i是所有胶囊中最大的，则胶囊的状态将是活动的。0重构模块。输入实例的重构表示是通过将 v c , i 和概率 p i 相乘得到的。0其中 p i 是当前胶囊的活动状态概率，v c , i是胶囊向量表示。这三个模块相互补充。胶囊表示与其属性相匹配，一个胶囊的状态与输入实例相对应。因此，基于胶囊表示的概率模块，如果胶囊的情感与输入实例匹配，将是最大的。重构模块是从胶囊表示和其状态概率发展而来的，因此如果其状态是“活动”的话，重构表示能够代表输入实例的表示。03.3 训练目标0所提出的胶囊模型的训练目标考虑了两个方面。一方面是最小化重构误差并最大化与地面真实情感匹配的胶囊的活动状态概率。另一方面是最大化重构误差并最小化其他胶囊的活动状态概率。为了实现这个目标，我们采用了对比最大间隔目标函数，这在许多研究中已经被使用过[8, 11, 32, 42]。0概率目标。因为每个给定的训练实例只有一个胶囊是活动的，所以我们既有正样本（即活动的胶囊），也有负样本（即其余的非活动胶囊）。回想一下，我们的目标是最大化活动胶囊的活动状态概率，并最小化非活动胶囊的概率。未正则化的目标函数 J可以被表述为一个0跟踪：Web内容分析，语义和知识WWW 2018年4月23日至27日，法国里昂4http://nlp.stanford.edu/projects/glove/5https://github.com/pytorchTrack: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France11690合页损失：0J(θ) = � max(0, 1 +0N �0i = 1 yi pi) (9)0对于给定的训练实例，yi =-1表示活动胶囊（即与训练实例的真实情感匹配的胶囊）。所有其他y都设置为1。我们使用一个掩码向量来指示每个训练实例的活动胶囊。0重构目标。另一个目标是确保活动胶囊的重构表示rs,i与实例表示vs相似，同时vs与非活动胶囊的重构表示不同。类似地，未正则化的目标U可以被形式化为另一个合页损失，它最大化rs,i与vs之间的内积，并同时最小化非活动胶囊的重构表示rs,i与vs之间的内积：0U(θ) = � max(0, 1 +0N �0i = 1 yi vs rs, i) (10)0同样，如果胶囊是活动的，则yi = -1，如果胶囊是非活动的，则yi =1。考虑到两个目标，我们的最终目标函数L通过添加J和U得到：0L(θ) = J(θ) + U(θ) (11)04实验4.1数据集0我们在两个基准数据集上进行实验，分别是电影评论（MR）[25]和斯坦福情感树库（SST）[31]，以及一个专有数据集。MR和SST都被广泛用于情感分类评估，这使我们能够将我们的结果与已发表的结果进行对比。0电影评论。电影评论（MR）2是一组英文电影评论[25]，收集自www.rottentomatoes.com。每个实例通常是一个句子，带有其源评论的情感类别，可以是“积极”或“消极”。有5331个积极和5331个消极的处理过的句子。0斯坦福情感树库。 SST3是第一个具有完全标记的解析树的语料库，可以对语言中情感的组合效应进行全面分析[31]。该语料库基于Pang和Lee[25]引入的数据集。它包括由斯坦福解析器[16]解析的215,154个短语的细粒度情感标签，这些短语位于11,855个句子的解析树中。情感标签集为{0,1,2,3,4}，其中数字分别对应于“非常消极”，“消极”，“中性”，“积极”和“非常积极”。请注意，由于SST在解析树上提供了短语级别的注释，因此一些报告的结果是基于短语级别的注释获得的。在我们的实验中，我们只使用句子级别的注释，因为我们的胶囊模型不需要昂贵的短语级别注释。02句子极性数据集v1.0。http://www.cs.cornell.edu/people/pabo/movie-review-data/ 3https://nlp.stanford.edu/sentiment/index.html0表1：医院反馈数据集中的实例数量0问题情感回答数量0我喜欢什么？积极 25,042 有什么可以改进的？消极21,2400医院反馈。我们使用一家英国非营利反馈平台生成的专有患者意见数据集。我们使用患者填写的反馈表中的文本内容。具体而言，我们对两个问题的答案进行情感分析：“我喜欢什么？”和“有什么可以改进的？”反馈表中还有另一个问题：“还有其他什么？”其答案在我们的实验中没有使用，因为情感不确定。两个问题的答案（或实例）的数量在表1中报告。鉴于实例数量众多，手动注释医院反馈中的所有句子非常耗时。在这项研究中，我们简单地将回答“我喜欢什么？”的标记为“积极”情感，将回答“有什么可以改进的？”的标记为“消极”情感。答案的平均长度约为120个单词，我们将每个答案视为一个实例，而不进一步将答案分割成句子。我们注意到，简单的标记方案（即将答案分配给“我喜欢什么？”积极和将答案分配给“有什么可以改进的？”消极）会在数据集中引入一些噪声。患者可能会写“完美，没有改进的地方”来回答“有什么可以改进的？”，并被标记为“消极”。这种噪声在没有手动注释的情况下无法避免。然而，通过观察，它们的数量是可以忽略的。04.2 实现细节0在我们的实验中，所有词向量都是由Glove4初始化的。词嵌入向量是在一个大小约为8400亿的无标注语料库上进行预训练的，我们使用的词向量维度是300[27]。由RNN编码的隐藏向量的维度是256，如果RNN是单向的，则为512。更具体地说，在MR和SST数据集上，我们使用双向和两层LSTM，在医院反馈数据集上，我们使用两层GRU。模型在SST上使用32个示例的批量大小，在MR和医院反馈数据集上使用64个示例的批量大小。在SST上每32个小批量保存一个检查点，在MR和医院反馈数据集上每64个小批量保存一个检查点。MR和医院反馈数据集上的嵌入丢失率为0.3，SST上的嵌入丢失率为0.5。所有三个数据集上应用相同的RNN单元丢失率0.5。在胶囊表示的概率模块中，所有数据集上的胶囊表示的丢失率也设置为0.5。注意力权重的长度与句子的长度相同。我们使用Adam[15]作为优化方法。除了词向量之外，模型参数的学习率为1e-3，词向量的学习率为1e-4。Adam中的两个参数β1和β2分别为0.9和0.999。胶囊模型是在Pytorch5（版本0.2.0_3）上实现的，模型参数是随机初始化的。11700表2：方法在电影评论（MR）和斯坦福情感树库（SST）数据集上的准确性。请注意，模型仅使用句子级别的注释，而不使用SST中的短语级别的注释。标有*的准确性在[12, 14, 18,33]中报告；标有#的准确性在[28]中报告。0模型电影评论（MR） SST（句子级别）0RAE 77.7* 43.2* RNTN 75.9# 43.4# LSTM 77.4#45.6# Bi-LSTM 79.3# 46.5# LR-LSTM 81.5# 48.2#LR-Bi-LSTM 82.1# 48.6# Tree-LSTM 80.7# 48.1#CNN 81.5* 46.9# CNN-Tensor - 50.6 * DAN -47.7* NCSL 82.9# 47.1#0RNN-Capsule 83.8 49.304.3 基准数据集上的评估0MR和SST数据集在情感分类评估中被广泛使用。这使我们能够直接将我们提出的胶囊模型的结果与使用相同实验设置的报告结果进行比较。表2列出了最近一篇ACL2017论文中报告的基准方法在这两个数据集上的情感分类准确性。我们的胶囊模型名为RNN-Capsule，列在最后一行。0基准方法。我们简要介绍基于神经网络的基准方法。递归自动编码器（RAE，也称为递归NN）[33]和递归张量神经网络（RNTN）[31]基于解析树。RNTN使用张量来建模子节点向量的不同维度之间的相关性。双向LSTM（Bi-LSTM）是LSTM的一种变体，介绍在第3.1节中。LSTM和Bi-LSTM都基于句子的序列结构。LR-LSTM和LR-Bi-LSTM分别是LSTM和Bi-LSTM的语言规范化变体。树状LSTM（Tree-LSTM）[35]是LSTM在树状网络拓扑结构上的推广。卷积神经网络（CNN）[14]使用卷积和池化操作，在图像字幕中很受欢迎。CNN-Tensor[18]与CNN不同，其中卷积操作被张量乘积替代。CNN-Tensor中应用动态规划来枚举句子中所有可跳过的三元组。深度平均网络（DAN）[12]有三层：一层用于平均句子中的所有词向量，一个MLP层，最后一层是输出层。神经上下文敏感词典（NCSL）[37]使用递归神经网络学习情感值，基于简单的加权和模型，但需要语言知识。0观察结果。在电影评论数据集上，我们提出的RNN-Capsule模型实现了83.8的最佳准确性。在基准方法中，LR-Bi-LSTM和NCSL优于其他基准方法。然而，LR-Bi-LSTM和NCSL都需要语言知识。0表3：医院反馈数据集上的准确性0方法准确性0Navie Bayes 84.7 Navie Bayes (+Bigram)81.9 Linear SVM 87.6 Linear SVM (+Bigram)88.9 Word2vec-SVM (CBOW) 85.5Doc2vec-SVM (PV-DM) 77.7 Doc2vec-SVM(PV-DBOW) 81.8 Doc2vec-SVM(PV-DM+PV-DBOW) 83.2 LSTM 89.8Attention-LSTM 90.20RNN-Capsule 91.60知识，如情感词典和强度正则化器。值得注意的是，构建此类语言知识需要大量人力。在SST数据集上，我们的模型在CNN-Tensor之后是第二好的表现者。然而，由于张量乘积运算，CNN-Tensor的计算复杂度要高得多。我们的模型只需要在RNN获得的隐藏向量之上进行简单的线性操作。我们的模型还优于其他强基准模型，如需要专门的语言知识的LR-Bi-LSTM。04.4 对医院反馈的评估0基准方法。我们现在对医院反馈数据集上的RNN-Capsule进行评估。尽管神经网络模型在许多其他数据集上显示出了它们的有效性，但为新数据集提供完整的性能概述更好。为此，我们评估了表3中列出的三种基准方法：（i）基于朴素贝叶斯和支持向量机（SVM）的传统机器学习模型，使用一元组和二元组表示；（ii）通过Word2vec和Doc2vec获得的密集向量表示的SVM；以及（iii）基于LSTM的基准模型，由于LSTM基于模型在先前的神经网络模型中取得了有希望的准确性。具体而言，对于名为Word2vec-SVM的模型，通过CBOW学习的词向量用于在患者反馈上学习SVM分类器。每个反馈由其单词的平均向量表示。对于Doc2vec-SVM，使用Doc2vec为所有反馈学习向量，其中使用了PV-DBOW，PV-DM或它们的连接（即PV-DBOW +PV-DM）[17]。因为我们的RNN-Capsule模型使用了注意机制，我们还评估了Attention-LSTM。该模型与LSTM相同，只是额外训练了一个注意力权重向量。权重向量应用于每个位置的LSTM输出，以产生不同时间戳的权重。使用LSTM输出的加权平均值用于情感分类。朴素贝叶斯、线性SVM、word2vec/doc2vec和LSTM/Attention-LSTM分别使用NLTK、Scikit-learn、Gensim和Keras实现。06 对于每个实例，LSTM模型仅使用前300个词以提高计算效率。超过90%的实例长度都小于300个词。0Track: 网页内容分析、语义和知识 WWW 2018年4月23日至27日，法国里昂wc,i = piαi,(12)11710观察结果。在基于朴素贝叶斯和支持向量机的传统机器学习模型中，使用一元组和二元组（即Linear SVM(+Bigram)）学习的线性SVM是明显的优胜者，准确性达到88.9。这个准确性远高于所有基于Word2vec或Doc2vec的密集表示学习的SVM模型。基于LSTM的方法优于具有二元组的线性SVM。当加入注意机制时，Attention-LSTM略优于普通LSTM，准确性达到90.2。我们提出的模型RNN-Capsule作为最佳表现者，将准确性进一步提高到91.6。05 解释性分析0在第4节中，我们展示了RNN-Capsule在不使用任何语言知识的情况下实现了与最先进模型相当或更好的准确性。现在，我们展示了RNN-Capsule能够输出反映领域知识的情感倾向的词语。换句话说，我们试图解释给定数据集时，基于哪些词语，我们的RNN-Capsule模型预测情感类别。这些依赖于领域的情感词语对于决策者来识别其服务或产品的积极和消极方面非常有用。0胶囊关注的词。由于我们的胶囊模型中存在注意机制，每个词都被分配一个注意力权重。词的注意力权重计算如下：0其中 p i 是胶囊 i 的激活状态概率， α i 是胶囊 i表示模块中的注意力权重。由于每个胶囊对应一个情感类别，我们通过各个胶囊收集关注的词。具体来说，对于每个胶囊，我们构建一个字典，其中键是一个词，值是该词在胶囊中的注意力权重之和，因为该词可能出现在多个测试实例中。只有当胶囊对输入实例处于“活动”状态时，才会更新该词的注意力权重之和。在评估所有测试实例之后，我们得到了每个胶囊关注的词及其注意力权重的列表。对于排名关注词的直接方法是计算每个词的平均注意力权重（注意一个词可能出现多次）。我们观察到，许多排名靠前的词的词频较低。也就是说，这些词具有非常高的注意力权重（或强烈的情感倾向），但出现的频率不高。为了得到每个胶囊关注的中等和高频词的排名，我们将词的平均注意力权重与词频的对数相乘。接下来，我们将讨论两种排名方式：关注的中高频词和低频词。05.1 中高词频的关注词0表4a、4b和4c列出了三个数据集上不同胶囊关注的前20个排名词。这些词按照平均注意力权重和词频的对数的乘积进行排名。大多数词的词频属于中等到高水平。0对应数据集中的词频。所有的词都可以根据所分配的情感类别进行解释。为了进一步验证这些词的情感倾向，我们将这些词与情感词典进行匹配[43]。在这个情感词典中，有六种情感倾向，分别是{‘强正面’，‘弱正面’，‘弱中性’，‘强中性’，‘弱负面’，‘强负面’}。我们在表中使用{++，+，0−，0+，–，––}表示匹配的词对应的六种情感倾向。未包含在情感词典中的词标记为‘N’。还有一些词，它们虽然与情感词典中的词不匹配，但可能与形态变化匹配。我们用‘fails’和‘lacks’这样的下划线标记这些词。注意标点符号被处理为标记，因此许多标点符号被中性胶囊关注也是不奇怪的。从这三个表中可以看出，关注的词不仅很好地反映了情感倾向，还反映了领域差异。我们以医院反馈为例（见表4c）。在大多数情况下，‘leave’或‘leaving’这个词被认为没有任何情感倾向。这个词如预期的那样没有包含在情感词典中。然而，在医院反馈的正面胶囊中，它在排名中位居第二。仔细观察数据集，我们可以看到许多患者对能够‘离开’医院或比预期‘提前离开’感到高兴。像‘quickly’、‘attentative’、‘professional’、‘cared’和‘caring’这样的词在数据集的上下文中明显具有强烈的正面情感。对于负面胶囊，因为句子是为了回答‘有什么可以改进’这个问题，其中许多句子包含了‘improve’的各种形式。从像‘perfect, nothing toimprove’这样的回答中，我们关注到了‘perfect’和‘nothing’这两个词。还有一些患者要求改进‘everything’，特别是‘parking’。05.2 低词频的关注词0表5a，5b和5c列出了平均注意权重前20个单词。它们大多是低频词，出现次数不超过三次。同样，这些单词对应的情感类别是可以自解释的。在电影评论数据集上，我们的负面胶囊将“愚蠢的”，“可憎的”，“自满的”和“甜蜜的”等词语识别为强烈的负面词汇，这对于电影评论非常有意义。有趣的是，胶囊模型对社交媒体中常见的拼写错误不敏感。单词“noneconsideratedoctors”被认为是负面的，而正确拼写是“none consideratedoctors”。通过这些表格，我们展示了我们的胶囊模型能够输出具有反映领域知识的情感倾向的单词，即使这些单词只出现一两次。06结论0RNN-Capsule模型的关键思想是设计一个简单的胶囊结构，并使用每个胶囊专注于一个情感类别。每个胶囊输出其活跃概率和重构表示。学习的目标是最大化与基准真实情感匹配的胶囊的活跃概率，并在给定实例表示的情况下最小化其重构表示。同时，其他胶囊的活跃概率0跟踪：Web内容分析，语义和知识WWW 2018年4月23日至27日，法国里昂11720表4：不同数据集上不同胶囊关注的中高频词。{++，+，0−，0+，–，––}分别表示{“强正面”，“弱正面”，“弱中性”，“强中性”，“弱负面”，“强负面”}，基于情感词典[43]。“N”表示该词不包含在情感词典中。如果一个词不匹配情感词典中的任何词，但匹配情感词典中一个词的形态变体，则该词被下划线标记。0(a)斯坦福情感树库0No.非常正面胶囊属性正面胶囊属性中性胶囊属性负面胶囊属性非常负面胶囊属性01最好++享受+？N不N糟糕–– 2搞笑++好+.N没有N最差–– 3优秀++值得++！N太–丑陋–– 4惊人++值得++但N失败N混乱––5美妙++有趣++，N没有N不连贯–– 6杰出++清新++不N不N不好笑N 7惊人++提供N霍普金斯N缺乏N浪费– 8罕见0−有趣++有N问题–不愉快––9壮观++聪明++点0−从不N垃圾– 10完美++和N喜欢++无聊––不连贯N 11表演N令人愉快++再次N糟糕–次标准–12最好N引人入胜++比N既不N过度制作N 13最0−有效+虽然0+缺乏––愚蠢–– 14精美++好+N次N感觉0+愚蠢––15巧妙++提供N下降–失去N差劲– 16美丽++工作N’N而不是N借口– 17伟大++吸引人++它N得到N完全0−018最伟大++聪明++有点––荒谬––电影N 19表演N令人困扰––到N消失N. N20无可挑剔++令人惊讶0+线N更少–没有N0(b)电影评论0No.正面胶囊属性负面胶囊属性01有趣++糟糕–– 2吸引人N沉闷N 3了不起++下降N4愉快++最差–– 5迷人++可怕–– 6有效+可怕––7有趣

下载后可阅读完整内容，剩余1页未读，立即下载