无监督情感聚类：基于维度判别的文本情感分析方法

下载需积分: 0 | PDF格式 | 622KB | 更新于2024-09-06 | 168 浏览量 | 举报

“面向文本情感聚类的维度判别方法”这篇论文主要探讨了在文本情感分析领域中，如何通过无监督的学习方式解决有监督方法所需大量标注数据的问题，以及改善文本情感聚类的不确定性。作者提出了情感维度的形式化描述，并结合观点词识别技术来判断情感维度，以此提高情感聚类的准确性。在大数据时代，网络平台上产生了海量的用户评论，如微博、博客和电子商务网站的产品评论。这些评论包含了大量的情感信息，对企业和消费者的决策具有重要价值。然而，面对这些数据，如何有效地进行分析和分类是一项挑战。传统的有监督机器学习方法在处理文本情感分析时需要大量标注的数据，这在实际应用中往往难以获取。因此，研究无监督的文本聚类方法显得尤为重要。论文中提出的方法着重于情感聚类，特别是针对其结果的不确定性。作者首先定义了情感维度的概念，这是一种量化情感特征的方式，用于捕捉文本中的情感倾向。接着，他们运用观点词识别技术，这是一种能够识别评论中关键情感词汇的手段，有助于确定评论的情感极性。通过这种方式，他们能够在没有预先标注的情况下，识别出文本中的情感维度。在实际操作中，这种方法首先对评论文本进行预处理，包括分词、去除停用词等步骤，然后使用观点词识别技术提取情感词汇。接下来，通过对情感词汇的分析，构建情感向量，以此作为聚类的基础。最后，利用聚类算法（例如K-means或层次聚类）对评论进行分类，以形成具有相似情感倾向的群组。在四个不同领域的英文产品评论数据集上进行实验，结果显示该方法能有效识别情感聚类维度，提高了聚类结果的准确性，得到了满意的情感聚类效果。这表明，这种基于情感维度判别的无监督聚类方法在处理大规模、未标注的评论数据时，既能节省标注成本，又能提供有价值的分析结果。总结来说，这篇论文研究了一种新的面向文本情感聚类的维度判别方法，该方法结合了情感维度的描述和观点词识别技术，旨在改善无监督情感聚类的不确定性和效率。实验验证了这种方法的有效性，对于处理大量网络评论数据的情感分析具有实际应用价值，为文本情感分析领域提供了新的思路和工具。

C omputer Engineering and Applications 计算机工程与应用

2015，51（7）

1 引言

随着信息时代的蓬勃发展，以微博、博客、电子商务

为代表的新一代网络平台迅速兴起，网络进入了一个新

的发展阶段

—

—大数据时代，如何利用丰富的资源，寻

找一套更有效的数据挖掘方法，既是一次机遇又是一种

挑战

[1-2]

。产品评论是消费者购买使用某种产品或服务

后，对产品做出的正面或负面的评价，这些用户评价可

为产品的生产商、销售商和服务商等企业在进行决策时

提供重要的信息资源，以发扬产品的优点或者改进产品

的不足，消费者也可以根据这些评价来指导自己的消费

行为。面对海量的评论数据，如何更有效地分析与归

类，为商家和消费者提供有价值的产品评价信息，已经

成为自然处理领域的研究者关注的热点

[3-4]

。

目前，聚类方法在文本数据挖掘中发挥了重要作用

[5]

，

其中，文本主题聚类已取得较好的效果，而情感聚类的

结果却不尽如人意

[6]

。一方面，因为聚类算法的无指导

面向文本情感聚类的维度判别方法

李欣

，王素格

1，2

，李德玉

1，2

LI Xin

, WANG Sug e

1，2

, LI Deyu

1，2

1.山西大学计算机与信息技术学院，太原 030006

2.山西大学计算智能与中文信息处理教育部重点实验室，太原 03000 6

1.School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China

2.Key Laboratory of Computationa l Intelligence and Chinese Information Processing of Ministry of Education, Sh anxi

University, Taiyuan 030006, China

LI Xin, WANG Suge, LI Deyu. Dimension identification method for text sentiment clustering. Computer Engineerin g

and Applications, 2015, 51（7）：124-130.

Abstract：In text sentimen t analysis, the shortcoming of supervised machine learning meth ods is the large demand of labeled

text dataset, while text clustering without supervision can overcome th is p roblem. While saving data resource, sentiment

clustering lea ds to another problem, which is the ambig uity sentiment result. This paper presents the fo rm al description o f

the sentiment dimension, and uses the technology of opinion recognition for the discrimination of sentiment dimen sion.

On this basis, by using acquired sentiment dimension, the sentim ent of produ ct review is clustered to effectively solve the

uncertain problem of ambiguity sentiment result. The experimental results on 4 domains from Amazon online shopping

reviews corpora show that proposed method is effective in the automatic id entification of emotional dimension clustering,

and g ets satisfi ed results in the text emotional clustering.

Key words：opinion wor d identif icatio n; dimension identification; sentiment -based text clustering

摘要：在文本情感分析时，使用有监督的机器学习方法的不足是需要大量的带标签的文本数据，而无监督的文本

聚类方法可以克服这一问题。对于文本情感聚类，在节省数据资源的同时，也存在聚类结果的不确定性问题。给出

了情感维度的形式化描述，并将观点词识别技术应用于情感维度的判别中。在此基础上，利用获得的情感维度，对

评论文本进行情感聚类，有效地解决情感聚类结果的不确定性问题。在 4 个领域的英文产品评论数据上进行实验，

结果表明该方法在自动识别情感聚类维度中是有效的，并得到了满意的情感聚类结果。

关键词：观点词识别；维度判别；文本情感聚类

文献标志码：A 中图分类号：TP391 doi：10.3778/j.iss n.1002-8331.1405-0265

基金项目：国家自然科学基金（No.61175067，No.61272095）；山西省科技攻关项目（No.20110321027-02）；山西省回国留学人员科

研项目（No.2013-014）。

作者简介：李欣（1990—），女，硕士研究生，研究领域为文本倾向分析；王素格，教授，博士；李德玉，教授，博士。E-mail：wsg@sxu.edu.cn

收稿日期：2014-05-21 修回日期：2014-07-11 文章编号：1002-8331（2015）07-01 24-07

CNKI 网络优先出版：2014-09-15, http://www.cnki. net /kcms/do i/10.3778/j.issn.1002-8331.1405-0265.html

124

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38744207

粉丝: 344

无监督情感聚类：基于维度判别的文本情感分析方法

论文研究-基于k-means聚类算法的研究 .pdf

论文研究-基于闭包的聚类判别方法研究.pdf

论文研究-网格资源模糊聚类查找的研究.pdf

论文研究-面向隐私保护聚类的平面反射数据扰动方法.pdf

论文研究-频繁模式聚类算法改进研究.pdf

论文研究-基于量子遗传聚类的入侵检测方法.pdf

论文研究-改进的蚂蚁聚类算法.pdf

论文研究-一种基于语义相似度的群智能文本聚类的新方法.pdf

最新资源