基于依存关系与最大熵的中文产品评论情感分类提升

需积分: 9 81 浏览量更新于2024-08-11 收藏 328KB PDF 举报

本文主要探讨了"基于依存关系和最大熵的特征-情感对分类"这一主题，针对中文产品评论中的特征词与关联的情感词进行深入研究。近年来，随着Web数据挖掘技术的发展，中文产品评论的观点挖掘已成为一个重要的研究领域。研究者们意识到，有效地识别和分析评论中的特征-情感对对于理解消费者意见、提升推荐系统性能具有重要意义。首先，作者改进了传统的英文依存关系语法，针对中文产品评论的特点，总结出了五种常用的中文产品评论依存关系类型。这些关系包括主谓关系、动宾关系、定状关系、修饰关系以及并列关系，这些关系有助于捕捉句子结构和语义信息，为特征-情感对的提取提供了更精确的基础。接着，文章采用最大熵模型进行特征模板的设计和训练。最大熵模型是一种统计学习方法，它在处理分类问题时，通过最大化预测不确定性下的熵来寻找最优决策边界，能够较好地处理复杂的特征组合和稀疏性问题。在本研究中，作者设计了一套基于依存关系的复合特征模板，这个模板综合考虑了词汇、语法和上下文信息，旨在增强特征表达的准确性。实验部分是论文的核心部分，结果显示，应用这种复合模板进行特征-情感对的提取，相较于传统的分类方法，显著提升了系统的查全率（Precision）和F-score（F1-Score），分别达到了78.68%和75.36%。这表明，结合中文依存关系和最大熵模型的方法在特征-情感对的识别上取得了显著的进步，对于提高中文文本情感分析的性能具有实际价值。这篇2014年的论文在中文产品评论观点挖掘领域做出了贡献，通过创新的依存关系分析和最大熵模型的应用，为特征-情感对的自动识别提供了一种有效的策略，对于文本挖掘、情感分析和智能推荐等领域有着广泛的实际应用前景。

第 43 卷第 3 期电子科技大学学报 Vol.43 No.3

2014年5月 Journal of University of Electronic Science and Technology of China May 2014

基于依存关系和最大熵的特征-情感对分类

张磊

，李珊

，彭舰

，陈黎

，黎红友



(1. 四川大学计算机学院成都 610065； 2. 四川大学商学院成都 610065)

【摘要】中文产品评论特征词与关联的情感词的分类是观点挖掘的重要研究内容之一。该文改进了英文依存关系语法，

总结出5种常用的中文产品评论依存关系；利用最大熵模型进行训练，设计了基于依存关系的复合特征模板。实验证明，应用

该复合模板进行特征-情感对的提取，系统的查全率和F-score相比于传统方法，分别提高到78.68% 和75.36%。

关键词依存关系; 特征-情感对; 特征模板; 最大熵; Web数据挖掘

中图分类号 TP391 文献标志码 A doi:10.3969/j.issn.1001-0548.2014.03.018

Feature-Opinion Pairs Classification Based on Dependency

Relations and Maximum Entropy Model

ZHANG Lei

, LI Shan

, PENG Jian

, CHEN Li

, and LI Hong-you

(1. School of Computer Science, Sichuan University Chengdu 610065; 2. School of Business, Sichuan University Chengdu 610065)

Abstract In recent years, feature-opinion pairs classification of Chinese product review is one of the most

important research field in Web data mining technology. In this paper, five types of Chinese dependency

relationships for product review have been concluded based on the traditional English dependency grammar. The

maximum entropy model is used to predict the opinion-relevant product feature relations. To train the model, a set

of feature symbol combinations have been designed by means of Chinese dependency. The experiment result shows

that the recall and F-score of our approach could reach 78.68% and 75.36% respectively, which is clearly superior

to Hu’s adjacent based method and Popesecu’s pattern based method.

Key words dependency relations; feature-opinion pairs; feature template; maximum entropy model;

Web data mining

收稿日期：



2012  12  03; 修回日期：2013  10  09

基金项目：国家自然科学基金面上项目(71372189); 国家自然科学基金(61363019)

作者简介：张磊(1978  )，男，博士，主要从事Web数据挖掘、计算机网络、移动计算方面的研究.

在当今飞速发展的互联网时代，“情感分析”

(sentiment analysis)

[1-2]

或“观点挖掘”(opinion

mining)

[3]

已经逐步成为Web数据挖掘领域的重点。

为了更好地分析特征词所包含的情感，许多研究关

注的是提取产品特征词(feature)及其相关联的情感

词(opinion)，形成特征-情感对，从而可以判断基于

特征级的情感。

文献[4]提出了一个基于统计的方法，利用关联

规则识别高词频的特征词。文献[5]开发了一个无监

督的信息提取系统 OPINE，使用松散标注方法识别

词汇之间的语义倾向性。这两类方法均依赖于词的

固定位置来发现词间的关联性，但针对语法结构较

为灵活的中文表示则效果不佳。文献[6]对电影评论

进行分类和归纳，主要利用候选关键词列表和依存

关系模板识别特征-情感对，但由于使用的关键词列

表固定不变，因而系统的识别能力有限。文献[7]对

文献[4]的方法进行了扩展，增加了一些规则来处理

不同的句子结构。至此还没有一个系统性的和完整

的针对中文语法的依存关系模板。

针对上述已有研究的不足，本文重点针对数码

相机评论中的特征-情感对的分类进行研究，主要贡

献包括：1) 改进了文献[8-9]的常用英文依存关系语

法，总结出 5 种中文产品评论依存关系，可以有效

地应用于产品评论特征-情感对的提取；2) 设计了

基于中文依存关系的复合特征模板，利用最大熵模

型进行训练。

1 概述

依存关系是一种非对称的二分关系(首词, 依存

词)

[10]

，如图 1 所示。

本文使用的依存标记包括定中关系

ATT(attribute)和主谓关系 SBV(subject-verb)等。图 1

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38516706

粉丝: 9
资源: 888

基于依存关系与最大熵的中文产品评论情感分类提升

最大熵方法-PSD分析法：时间序列研究的创新工具

OpenNLP中的最大熵模型-自然语言处理利器

BBS情感分类：基于情感词识别与最大熵支持向量机的方法

熵-基于Python实现的隐马尔可夫最大熵模型-附项目源码-优质项目实战.zip

人工智能-项目实践-情感分析-情感极性分析repository1：基于情感词典、k-NN、Bayes、最大熵、SVM的情感极性分

最大熵方法-功率谱密度分析法在时间序列资料研究中的应用

萤火虫算法优化最大熵的图像分割方法 (2014年)

基于主题层最大熵模型的短文本社交情感分类

基于情感词典、k-NN、Bayes、最大熵、SVM的情感极性分析

论文研究-基于最大熵分类器的Deep Web查询接口自动判定.pdf

最新资源