中文微博情感分析:基于分层特征的方法

0 下载量 127 浏览量 更新于2024-08-28 收藏 234KB PDF 举报
"基于分层特征的中文微博情感分析"是一篇收录于2014年ICONIP(International Conference on Intelligent Computer Communication and Processing)会议第二部分的论文,由Springer International Publishing出版,编号为LNCS 8835,第361-368页。作者是Dongfang Wang和Fang Li,他们来自上海教育委员会智能交互与认知工程实验室,上海交通大学计算机科学与工程系,邮箱地址为{mickey, fli}@sjtu.edu.cn。 本文研究的焦点是随着微博在中国的普及,如何更有效地进行情感分析,即识别和理解用户在微博上的情绪倾向。作者提出了一种新颖的方法,旨在利用多层次的特征来提升中文微博情感识别的准确性。这种方法的核心在于将词汇处理分解为三个层次: 1. 第一层:对极其接近的同义词和高度相关的词语进行聚合,形成一个集合。这一层次的目的是捕捉那些在语义上非常相似的词,这些词可能具有强烈的情感暗示。 2. 第二层和第三层:进一步将“非常接近”和“接近”的同义词以及高度相关的词分别进行分类,每个层级的词汇集合都有其特定的表达精确度。这样做有助于捕捉不同强度的情感表达。 3. 在每一层,作者构建了一个二进制向量作为特征,每个维度代表一个词汇或词组的存在与否。这种表示方法简洁且有效,便于机器学习算法理解和处理。 通过这种分层特征提取,论文作者旨在提高情感分析模型对中文语境的敏感性和鲁棒性,因为中文语言的多义性和丰富的表达方式使得简单的单词分析往往无法准确反映情感。该研究不仅为中文社交媒体情感分析提供了一种创新策略,还可能对文本挖掘、自然语言处理等领域产生深远影响。这篇论文强调了深度特征工程在解决中文微博情感分析中的重要性,并展示了实际应用的可能性。"