中文文本倾向性分析方法及其应用

需积分: 0 68 浏览量更新于2024-08-05 收藏 353KB PDF 举报

中文倾向性分析的研究是自然语言处理领域的重要课题，随着大数据和人工智能技术的发展，对文本的情感倾向进行准确识别和理解变得越来越关键。本文主要探讨了一套针对中文文本的倾向性分析方法，该方法分为词法分析和倾向性判别两个核心步骤。首先，词法分析是基础，它利用条件随机场模型进行一体化处理。这种方法在处理中文文本时，不仅进行分词，还同时执行命名实体识别任务，这样的设计极大地提升了分析效率和准确性。分词是将连续的汉字序列切割成有意义的词语单元，而命名实体识别则是识别文本中的特定人物、地点、组织等实体，两者结合有助于捕捉文本的语义结构，为后续的倾向性分析提供坚实的基础。在倾向性判别阶段，作者从词汇、句子和篇章三个不同的层面展开分析。在词汇层面上，采用了最大熵模型，该模型根据上下文信息来识别情感词并进行极性判别。情感词是表达主观态度或情绪的词汇，如正面评价中的"好"，负面评价中的"差"，这些词对于确定文本的整体倾向至关重要。通过识别这些情感词及其极性，可以初步判断文本的情感倾向。句子层次的分析则更进一步，通过构建属性列表，系统能够抽取出评价的对象，例如商品、服务或事件，并结合修饰词来推断评价的具体倾向。这一步骤有助于细化文本的倾向性，因为一个句子可能包含多个评价对象，且它们的情感倾向可能不完全一致。最后，篇章层次的分析是基于词汇判别结果，采用支持向量机（SVM）模型，将多源信息综合起来，对文本的主客观性和极性进行最终判定。SVM作为一种强大的机器学习算法，能够有效地处理高维数据和非线性关系，确保了倾向性分析的准确性。值得一提的是，本文的应用实践表明了这些方法的有效性，通过将文本倾向性分析功能集成到搜索引擎中，用户在搜索相关文档的同时，可以直接获取到文档的褒贬倾向，提升了用户体验，也为企业和研究者提供了更精准的信息分析工具。总结来说，这篇论文提出了一种创新的中文倾向性分析框架，通过词法分析与倾向性判别的结合，以及多层次的分析策略，有效地解决了中文文本倾向性识别的难题，为自然语言处理领域的实际应用提供了新的解决方案。

中文倾向性分析的研究

张猛，彭一凡，樊扬，李丹，林小俊，吴玺宏

北京大学言语听觉研究中心，北京，100871

E-mail: {zhangm, pengyf, fanyang, lidan, linxj, wxh}@cis.pku.edu.cn

摘要：文本倾向性分析是自然语言处理中的一个热点问题。本文介绍了一套中文文本倾向性分析的方法，

它包括词法分析和倾向性判别两个步骤。在词法分析中，基于条件随机场模型，对输入的文本进行分词和

命名实体识别的一体化处理，从而有效地提高了分析性能。在倾向性判别中，从词汇、句子和篇章三个不

同层次进行分析。其中在词汇层次上采用最大熵模型，根据上下文信息进行情感词识别和极性判别。在句

子层次上根据构建的属性列表抽取评价对象，并通过修饰词判断其倾向性。在篇章层次上，以词汇判别结

果为基础，采用支持向量机模型，融合多种信息对文本的主客观和极性进行判别。最后，本文在搜索引擎

中加入文本倾向性分析功能，在检索到相关文档的同时，得到其褒贬倾向。

关键词：词法分析一体化，情感词，倾向性分析

Research on Chinese Orientation Analysis

Zhang Meng, Peng Yifan, Fan Yang, Li Dan, Lin Xiaojun, Wu Xihong

Speech and Hearing Research Center, Peking University, Beijing, 100871

E-mail: {zhangm, pengyf, fanyang, lidan, linxj, wxh}@cis.pku.edu.cn

Abstract: Orientation analysis is a hotspot in natural language processing. This paper mainly proposed some

Chinese orientation analysis approaches, which included lexical analysis and orientation distinction. The lexical

analysis integrated word segmentation and entity identification methods to improve analysis performance.

Orientation distinction could be utilized on word, sentence and article levels. On the word level, it considered the

context information to recognize the sentiment word and its polarity based on Maximum Entropy model. On the

sentence level, it extracted evaluating objects according to pre-constructed property list, and predicted their

orientation through modifying words. On the article level, it took the word level model as its fundamental,

combined with multi-information to distinct articles’ orientation by means of Support Vector Machine. Finally, it

plugged orientation analysis function in the search engine to get corresponding documents with their orientation

as well.

Keywords: integrated lexical analysis, sentiment word, orientation analysis

1 引言

随着计算机的普及和网络的发展，大量信息以电子文本的形式出现。面对信息爆炸带

来的挑战，人们迫切需要更快更便捷的方法获取所需信息。倾向性分析就是在这样的背景

下应运而生的。例如，在购买一款手机之前，我们往往会去一些网站或论坛，浏览其他用

户的评价，这需要花费很多时间。然而在倾向性分析技术的帮助下，我们就可以快速地获

得这款手机的综合评价。由此可以看出，倾向性分析有着广泛的应用前景。因此近几年，

它已经成为自然语言处理中的一个热点问题。

本文提出了一套中文文本倾向性分析的方法，它包括词法分析和情感倾向性判别两部

分。

在词法分析部分，该方法对输入文本进行分词、命名实体识别和词性标注。由于这三

下载后可阅读完整内容，剩余7页未读，立即下载

大禹倒杯茶

粉丝: 24
资源: 331

中文文本倾向性分析方法及其应用

第八届中文倾向性分析评测（COA E2016）评测大纲-最新1

第三届中文倾向性分析评测论文集

论文研究-结合神经网络和词序特征的中文情感倾向性分析 .pdf

基于规则的web评论倾向性分析(1).zip

Web文本褒贬倾向性分类研究

基于情感词典方法的情感倾向性分析_杨奎1

学生评教留言的倾向性分析

基于情感词典的中文微博情感倾向分析研究

基于规则的web评论倾向性分析.zip

COAE2014微博文本倾向性分析评测数据集

最新资源