中文文本分类新方法:特征项扩展与权值优化

需积分: 5 0 下载量 96 浏览量 更新于2024-08-13 收藏 217KB PDF 举报
"基于特征项扩展的中文文本分类方法 (2010年),陈立伟,井志强,葛秘蕾,哈尔滨工程大学信息与通信工程学院" 本文介绍了一种创新的中文文本分类方法,该方法主要针对提升文本分类的准确性和稳定性。在传统文本分类的基础上,该方法引入了特征项扩展的策略,通过分析文档的特征词,结合HowNet词典进行深入的语义挖掘。 首先,文本分类的关键在于特征的选择。文中提到,对于每种类型的文本,会先进行特征词的分析,挑选出能够代表文档主题的关键词。这一步骤通常包括词频统计、TF-IDF等方法,旨在筛选出对文本内容最具区分度的词汇。 其次,利用HowNet(汉语知识资源库)抽取特征义原。HowNet是汉语的语义网络,包含了丰富的词汇义原信息,可以将单一的词汇映射到更深层次的语义概念上。通过HowNet,文章能够获取到词汇的语义关系,找到与主题紧密关联的义原,从而增强特征词的表达能力。 接下来,根据抽取出的义原对特征项进行扩展。扩展的目的是为了增加特征的多样性,捕捉文本的多维度信息。例如,一个特征词可能有多个相关的义原,每个义原都可能代表不同的含义或上下文,扩展后的特征项可以涵盖这些含义,提高分类的精确性。 在扩展特征项后,需要为每个扩展项赋予合适的权值。权值的设定直接影响分类的效果。文章中指出,权值的确定是研究的重点之一,它反映了特征项描述主题的能力。可能的权值计算方法包括基于统计的方法(如词频)、基于信息增益的方法,或者结合语义距离的计算。 最后,使用扩展后的特征项集进行特征提取,进而应用到分类模型中。这种方法的实验结果显示,通过特征项扩展,能够有效增加有效特征的数量,从而提高分类的正确率和系统的稳定性。 这篇论文提出的基于特征项扩展的中文文本分类方法,结合了词汇的语义信息,提高了文本分类的质量。它对于处理中文文本的复杂性和多义性提供了新的视角,对于后续的文本处理和自然语言理解研究具有一定的指导意义。