中文文本分类新方法：特征项扩展与权值优化

需积分: 5 96 浏览量更新于2024-08-13 收藏 217KB PDF 举报

"基于特征项扩展的中文文本分类方法 (2010年)，陈立伟，井志强，葛秘蕾，哈尔滨工程大学信息与通信工程学院" 本文介绍了一种创新的中文文本分类方法，该方法主要针对提升文本分类的准确性和稳定性。在传统文本分类的基础上，该方法引入了特征项扩展的策略，通过分析文档的特征词，结合HowNet词典进行深入的语义挖掘。首先，文本分类的关键在于特征的选择。文中提到，对于每种类型的文本，会先进行特征词的分析，挑选出能够代表文档主题的关键词。这一步骤通常包括词频统计、TF-IDF等方法，旨在筛选出对文本内容最具区分度的词汇。其次，利用HowNet（汉语知识资源库）抽取特征义原。HowNet是汉语的语义网络，包含了丰富的词汇义原信息，可以将单一的词汇映射到更深层次的语义概念上。通过HowNet，文章能够获取到词汇的语义关系，找到与主题紧密关联的义原，从而增强特征词的表达能力。接下来，根据抽取出的义原对特征项进行扩展。扩展的目的是为了增加特征的多样性，捕捉文本的多维度信息。例如，一个特征词可能有多个相关的义原，每个义原都可能代表不同的含义或上下文，扩展后的特征项可以涵盖这些含义，提高分类的精确性。在扩展特征项后，需要为每个扩展项赋予合适的权值。权值的设定直接影响分类的效果。文章中指出，权值的确定是研究的重点之一，它反映了特征项描述主题的能力。可能的权值计算方法包括基于统计的方法（如词频）、基于信息增益的方法，或者结合语义距离的计算。最后，使用扩展后的特征项集进行特征提取，进而应用到分类模型中。这种方法的实验结果显示，通过特征项扩展，能够有效增加有效特征的数量，从而提高分类的正确率和系统的稳定性。这篇论文提出的基于特征项扩展的中文文本分类方法，结合了词汇的语义信息，提高了文本分类的质量。它对于处理中文文本的复杂性和多义性提供了新的视角，对于后续的文本处理和自然语言理解研究具有一定的指导意义。

第  卷第 期

应用科技

Ｖｏｌ 

 年  月ＡｐｐｌｉｅｄＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙＭａｒ

ｄｏｉ ｊｉｓｓｎ Ｘ

基于特征项扩展的中文文本分类方法

陈立伟 井志强 葛秘蕾

哈尔滨工程大学信息与通信工程学院黑龙江哈尔滨 

摘 要 提出了一种基于特征项扩展的中文文本分类方法该方法首先对文档的特征词进行分析然后利用

ＨｏｗＮｅｔ抽取最能代表主题的特征义原接着根据这些义原对特征项进行扩展并赋予扩展的特征项适当权值

来说明其描述能力最后利用扩展的特征项集提取特征进行分类该文重点研究了如何抽取特征义原如何给

扩展项设定一个合适的权值实验证明该文方法能增加有效的特征项的数目使分类正确率和稳定性均得到

提高

关键词文本分类特征选择特征项扩展特征义原

中图分类号ＴＮ文献标识码Ａ文章编号Ｘ

ＡＣｈｉｎｅｓｅｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｆｅａｔｕｒｅｅｘｐａｎｓｉｏｎ

ＣＨＥＮＬｉＷｅｉ ＪＩＮＧＺｈｉｑｉａｎｇ ＧＥＭｉｌｅｉ

ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇＨａｒｂｉｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙ Ｈａｒｂｉｎ Ｃｈｉｎａ

Ａｂｓｔｒａｃｔ ＡＣｈｉｎｅｓｅｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｆｅａｔｕｒｅｅｘｐａｎｓｉｏｎｉｓｐｒｏｐｏｓｅｄＦｉｒｓｔｔｈｅｆｅａｔｕｒｅｋｅｙｓｏｆ

ｅａｃｈｔｙｐｅｏｆｔｅｘｔｓａｒｅａｎａｌｙｚｅｄＢｙｔｈｅｈｅｌｐｏｆＨｏｗＮｅｔ ｔｈｅｓｅｍｅｍｅｓｗｈｉｃｈａｒｅｍｏｓｔｃｌｏｓｅｌｙｒｅｌａｔｅｄｔｏｔｈｅｔｈｅｍｅ

ａｒｅａｂｓｔｒａｃｔｅｄＴｈｅｓｅｓｅｍｅｍｅｓａｒｅｕｓｅｄｔｏｅｘｐａｎｄｆｅａｔｕｒｅｓＡｎｄｔｈｅｎｔｈｅｆｅａｔｕｒｅｅｘｐａｎｓｉｏｎｓｅｔｉｓｇｅｎｅｒａｔｅｄａｎｄ

ｅａｃｈｅｘｐａｎｓｉｏｎｔｅｒｍｉｓｇｉｖｅｎｗｉｔｈｐｒｏｐｅｒｗｅｉｇｈｔｔｏｐｒｅｓｅｎｔｉｔｓｄｅｓｃｒｉｐｔｉｏｎｐｏｗｅｒＦｉｎａｌｌｙ ｗｅｕｓｅｔｈｅｅｘｐａｎｓｉｏｎｓｅｔ

ｔｏｃｌａｓｓｉｆｙｔｅｘｔｓＴｈｉｓａｒｔｉｃｌｅｆｏｃｕｓｅｓｏｎｈｏｗｔｏｅｘｔｒａｃｔｃｈａｒａｃｔｅｒｉｓｔｉｃｓ ａｎｄｈｏｗｔｏｓｅｔａｎａｐｐｒｏｐｒｉａｔｅｗｅｉｇｈｔｔｏｅｘ

ｐａｎｓｉｏｎｔｅｒｍｓＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈｉｓｍｅｔｈｏｄｃａｎｉｎｃｒｅａｓｅｔｈｅｅｆｆｅｃｔｉｖｅｎｕｍｂｅｒｏｆｆｅａｔｕｒｅｓ ｓｏｔｈａｔｂｏｔｈｏｆ

ｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙａｎｄｓｔａｂｉｌｉｔｙａｒｅｉｍｐｒｏｖｅｄ

Ｋｅｙｗｏｒｄｓ ｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ ｆｅａｔｕｒｅｅｘｐａｎｓｉｏｎ ｆｅａｔｕｒｅｓｅｍｅｍｅ

收稿日期

基金项目国家自然科学基金资助项目  

作者简介陈立伟 女副教授博士主要研究方向智能信息与语音信号处理Ｅｍａｉｌｃｈｅｎｌｉｗｅｉｈｒｂｅｕｅｄｕｃｎ

互联网在迅猛发展而网络中的大部分数据是

以文本形式出现的如何对这些海量的数据进行有

效的管理已经成为广泛关注的问题基于机器学习

的文本分类ｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ系统能依据文本的内

容把未知类别的文本分到预先定义好的类别从而

更好地帮助人们组织文本信息文本分类在滤除垃

圾邮件网页内容管理等有着广泛的应用价值

以往的研究表明分类特征的提取对文本分类

的准确率有着重要的影响



目前国内在中文文本

分类中对特征的提取主要是词频和语义方面文献

根据类别提取了训练集的特征进行分类文献

 选择合适的概念特征进行分类文献 用到了

特征词的语义特征进行分类文献 利用特征项

的频率特征进行分类以上方法都没有对特征项扩

展由于训练语料是不完备的所以提取的特征词集

也是不完备的因此对特征词扩展十分必要例如

在训练语料时出现 足球篮球等词汇时机器

通过自学习系统会把这些词归纳到体育类特征词集

中但是如果训练集没有出现 橄榄球机器就不

会把橄榄球归纳到体育类的特征词集中文中的

特征项扩展方法能有效解决上述问题目前对特征

词扩展的研究还很少文献  在扩展时仅仅考虑

了特征项的权值并没有考虑义原和特征项的多对

多关系扩展时引入较多的噪声文中是在特征项扩

展时遵循噪声最小化特征词数目最大化的原则取

得了良好的实验效果

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38623272

粉丝: 5
资源: 853

中文文本分类新方法：特征项扩展与权值优化

基于Cross-Validation模型的可扩展标记语言文本分类算法对比研究 (2010年)

基于ORB的快速图像垃圾邮件过滤器

基于二元字母表的文本分类方法的研究

基于对比对抗训练的文本分类任务微调方法

基于约束特征值优化的特征选择方法

基于文本和表情的情感分析算法和方法

改进卡方特征选择提高阿拉伯语文本分类性能的研究：ImpCHI方法与SVM分类器的优势

基于文本分类的方法相比基于情感词典的情感分类方法的优点

基于深度学习的文本分类方法研究

基于python的中文文本分类系统的课程设计中系统的详细设计

最新资源