复杂网络理论在情感分类特征选择中的应用

需积分: 9 0 下载量 73 浏览量 更新于2024-09-07 收藏 1.6MB PDF 举报
"这篇论文研究了基于复杂网络的情感分类特征选择方法,主要关注如何改进情感词典的构建和特征选择算法。论文指出公共情感词典在专业领域的适用性不足,并提出一种新方法,以公共情感词典为起点,结合特定领域评论中的形容词,运用点互信息理论构建专业领域情感词典。接着,针对在线评论的情感分类问题,论文引入复杂网络理论,设计了一种新的特征选择算法NTFS,该算法通过构建候选特征词的关系网络,利用节点的度中心性、介数中心性和接近中心性等复杂网络特性来评估特征的重要性,从而提高情感分类的性能。实验结果表明,NTFS在与SVM、NNET、NB分类器配合时,其分类性能优于传统的GI和CHI特征选择方法。" 本文探讨了情感分析中的关键问题,即情感词典的构建和特征选择。作者指出,现有的公共情感词典可能不适用于特定专业领域,因此他们提出了一种创新方法。这种方法以公共情感词典为种子,结合特定领域评论中的形容词,通过点互信息理论来确定新领域的情感词汇,从而创建更符合实际需求的情感词典。这种方法有助于提升情感分析的准确性,特别是在处理专业领域文本时。 接下来,论文聚焦于特征选择,尤其是在情感分类中的应用。传统特征选择方法往往忽视了特征的语义信息和评论中的情感资源。为解决这一问题,作者利用复杂网络理论,提出了一种名为NTFS的新型特征选择算法。在构建的候选特征词关系网络中,NTFS不仅考虑了节点的局部重要性(度中心性),还考虑了全局重要性(介数中心性和接近中心性),以此全面评价特征的重要性。通过这种方式,NTFS能够更好地捕捉到评论中的情感特征,提高分类效果。 实验部分,论文以iPhone手机在线评论为数据集,采用SVM、NNET和NB三种分类器,对比了NTFS与传统特征选择方法GI和CHI的性能。实验结果显示,NTFS在分类性能上优于GI和CHI,这证明了复杂网络理论在情感分类特征选择上的优势。 该研究通过改进情感词典构建和特征选择策略,提高了情感分析的效率和准确性,尤其对于专业领域的情感分类具有重要意义。这种方法为复杂文本环境下的情感计算和文本挖掘提供了新的研究方向。