基于聚类改进的KNN文本分类算法提升效率

需积分: 29 162 浏览量更新于2024-09-08 2 收藏 1.16MB PDF 举报

"基于聚类改进的ＫＮＮ文本分类算法" 本文主要探讨了一种针对传统KNN（K-Nearest Neighbor，K最近邻）文本分类算法的优化策略，旨在解决KNN算法在大规模文本数据处理时效率低下的问题。传统KNN算法是一种无监督学习方法，无需预先设定参数，其简单易实现的特性使其在文本分类中得到广泛应用。然而，随着文本数量的增加，计算待测文本与所有样本的相似度会变得极其耗时，从而影响算法的效率。为了改善这一情况，作者提出了一种基于聚类的改进KNN算法。首先，他们采用了改进的χ²统计量方法来提取文本特征，这种方法能够更好地捕捉文本的关键信息并降低数据的维度。接下来，利用聚类算法（如K-means，层次聚类等）对文本集合进行分簇，将大量文本划分为若干个具有相似性质的子集，这一步骤显著减少了需要计算相似度的样本数量。最后，在每个簇内应用改进的KNN方法进行分类，只在每个簇内部寻找最近邻，而不是在整个样本空间中，从而提高了算法的运行速度。实验结果证明，这种基于聚类的改进KNN算法在保持良好分类性能的同时，显著提升了处理效率。关键词包括文本分类、KNN、聚类以及训练集，表明该研究关注的是如何在文本分类任务中有效地利用聚类技术优化KNN算法。中图分类号和文献标志码表明，这篇研究论文属于计算机科学与技术领域的专业文献，具体在信息处理技术的子类别TP391.1。doi标识则提供了文章的在线可查性，方便读者检索原文。通过这种方式，作者周庆平等不仅解决了KNN算法的效率问题，还为文本分类提供了一种新的思路，即通过预处理步骤减少计算复杂性，这对于大数据时代的文本分类任务具有重要的实践意义。这种方法可以广泛应用于信息检索、情感分析、垃圾邮件过滤等领域，为提升文本处理系统的性能提供了有价值的参考。

收稿日期：２０１５０７１０；修回日期：２０１５０９１０　　基金项目：国家自然科学基金资助项目（６１３７９０５７，６１３０９００１，６１３７９１１０，６１１０３２０２，

６１３０１１３６）；国家教育部博士点基金优先发展领域课题（２０１２０１６２１３０００８）

作者简介：周庆平（１９８９），男，安徽合肥人，硕士，主要研究方向为模式识别、机器学习；谭长庚（１９６３），男（通信作者），湖南南县人，副教授，

主要研究方向为移动自组网、无线传感器网络、模式识别、软件工程（ｃｇｔａｎ＠ｃｓｕ．ｅｄｕ．ｃｎ）；王宏君（１９８９），男，硕士，主要研究方向为模式识别、机

器学习；湛淼湘（１９９１），男，硕士，主要研究方向为机器学习．

基于聚类改进的ＫＮＮ文本分类算法



周庆平，谭长庚



，王宏君，湛淼湘

（中南大学软件学院，长沙４１００７５）

摘　要：传统的ＫＮＮ文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但

是

ＫＮＮ算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度，当文本数量更大时，算法的效

率就会更差。为了提高传统ＫＮＮ算法在文本分类中的效率，提出一种基于聚类的改进ＫＮＮ算法。算法开始之

前采用改进

２

统计量方法进行文本特征提取，再依据聚类方法将文本集聚类成几个簇，最后利用改进的ＫＮＮ方

法对簇类进行文本分类。实验对比与分析结果表明，该方法可以较好地进行文本分类。

关键词：文本分类；ＫＮＮ；聚类化；训练集

中图分类号：ＴＰ３９１１　　文献标志码：Ａ　　文章编号：１００１３６９５（２０１６）１１３３７４０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．１１．０３８

ＩｍｐｒｏｖｅｄＫＮＮｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｃｌｕｓｔｅｒｉｎｇ

ＺｈｏｕＱｉｎｇｐｉｎｇ，ＴａｎＣｈａｎｇｇｅｎｇ



，ＷａｎｇＨｏｎｇｊｕｎ，ＺｈａｎＭｉａｏｘｉａｎｇ

（ＳｃｈｏｏｌｏｆＳｏｆｔｗａｒｅ，ＣｅｎｔｒａｌＳｏｕｔｈＵｎｉｖｅｒｓｉｔｙ，Ｃｈａｎｇｓｈａ４１００７５，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｅｔｒａｄｉｔｉｏｎａｌＫＮＮｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｉｓａｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｗｈｉｃｈｉｓａｎｕｎｓｕｐｅｒｖｉｓｅｄ，ｎｏｐａｒａｍｅ

ｔｅｒｓ

，ｓｉｍｐｌｙ，ｍｏｒｅｐｏｐｕｌａｒａｎｄｉｔ’ｓｅａｓｉｌｙｔｏａｃｈｉｅｖｅ．Ｂｕｔｉｔｎｅｅｄｔｏｃｏｎｓｔａｎｔｌｙｃａｌｃｕｌａｔｅｔｈｅｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｔｈｅｔｅｓｔａｎｄ

ｓａｍｐｌｅｔｅｘｔｓｅｔｓ，ｗｈｅｎｌａｒｇｅｒａｍｏｕｎｔｓｏｆｔｈｅｔｅｘｔ，ｔｈｅｅｆｆｉｃｉｅｎｃｙｗｉｌｌｂｅｍｕｃｈｍｏｒｅｗｏｒｓｅ．Ｔｏｉｍｐｒｏｖｅｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｅｆｆｉ

ｃｉｅｎｃｙｏｆｔｈｅｔｒａｄｉｔｉｏｎａｌＫＮＮａｌｇｏｒｉｔｈｍ

，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｎｉｍｐｒｏｖｅｄＫＮＮａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｈｅｃｌｕｓｔｅｒｉｎｇ．Ｂｅｆｏｒｅｔｈｉｓ

ａｌｇｏｒｉｔｈｍ，ｉｔｕｓｅｄａｎｉｍｐｒｏｖｅｄ

２

ｓｔａｔｉｓｔｉｃｓｗａｙｔｏｅｘｔｒａｃｔｔｈｅｆｅａｔｕｒｅｏｆｔｅｘｔｓ，ｔｈｅｎｍａｋｉｎｇｔｈｅｔｅｘｔｓｅｔｓｉｎｔｏｓｅｖｅｒａｌｃｌｕｓｔｅｒｓ

ｂａｓｅｄｏｎｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄ，ａｔｌａｓｔｉｔｕｓｅｄｔｈｅｉｍｐｒｏｖｅｄＫＮＮｗａｙｔｏｃｌａｓｓｉｆｙｔｈｅｔｅｘｔｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｎｄａｎａｌｙｓｉｓｒｅｓｕｌｔｓ

ｓｈｏｗｔｈａｔｔｈｉｓａｌｇｏｒｉｔｈｍｃａｎｂｅｔｔｅｒｄｅａｌｗｉｔｈｔｈｅｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．

Ｋｅｙｗｏｒｄｓ：ｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ；ＫＮＮ；ｃｌｕｓｔｅｒｉｎｇ；ｔｒａｉｎｉｎｇｓｅｔ

０　引言

互联网的飞速发展，每天来自商业、社会、科学界和工程

界、医疗以及日常生活的方方面面的大量数据注入到计算机网

络、互联网和各种数据存储设备中。要从大量的数据中获取人

们需要的知识，就迫切要求采用某种数据挖掘的方法将海量

的、无序的、离散的数据进行分类。数据分类是一个两阶段的

过程，包括训练阶段和分类阶段。在训练阶段建立描述预先定

义的数据类或概念集的分类器，在分类阶段主要是利用训练阶

段的分类器进行数据分类。目前传统的数据分类方法主要有

决策树

［１］

、ＮａｔｉｖｅＢａｙｅｓ

［２］

、ＫＮＮ

［３］

、ＳＶＭ

［４］

、Ｂｏｏｓｔｉｎｇ

［５］

、神经网

络

［６］

等。

针对文本分类的应用研究，有不少学者提出了自己的算

法，例如文献［７］提出了加权组合算法，利用文本向量之间距

离的倒数计算权重，将人工蚁群算法与ＫＮＮ算法结合起来，在

一定程度上提高了文本分类的效果。文献［８］提出一种组合

模型，采用Ｋｍｅａｎｓ聚类消除噪声数据达到聚类效果，以此来

提高

ＫＮＮ分类的准确度和效率。该模型运用到糖尿病数据分

类上，相比简单的ＫＮＮ分类效果有所提高，但处理大量数据

时，分类效率可能会有所下降。文献［

９］提出一种基于聚类的

ＫＮＮ文本分类模型，在第一阶段通过将训练集聚类化，再使用

改进的动态调整ｋ值的ＫＮＮ进行文本分类，算法时间复杂度

有所降低。文献［１０］提出一个组合特征选择函数，将常用的

特征选择函数通过准确度系数连接起来构成一个新的特征选

择函数，最后在ＳＶＭ分类器上实验，但对每个特征函数的准确

度系数不是很好把握。文献［１１］提出一种基于语义模型的特

征选择模型，再通过扩大化的

ｋ值的ＳＶＭＫＮＮ分类器实现病

理报告的文本分类，相对于传统

ＳＶＭ以及ＳＶＭＫＮＮ有一定

的分类效果及有一定的提高。

从目前学者们的研究来看，常用的解决办法是对文本进行

预处理，再通过一种组合的文本分类算法进行文本分类。本文

在前面文献的基础上，提出一种基于聚类的改进ＫＮＮ文本分

类算法ＣＬＫＮＮ，对比实验数据表明可以较好地提高文本分类

的效率。

１　相关工作

１．１　ＫＮＮ算法

ＫＮＮ（Ｋｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ）分类算法作为一种简单、高效和

第３３卷第１１期

２０１６年１１月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３３Ｎｏ１１

Ｎｏｖ．２０１６

下载后可阅读完整内容，剩余4页未读，立即下载

qq_15768401

粉丝: 0
资源: 1

基于聚类改进的KNN文本分类算法提升效率

knn文本聚类小型数据集

上海 垃圾分类识别模型

模式识别文本分类算法研究比较

kNN.rar_KNN 分类_knn_knn分类_分类

KNN中文WEB分类技术研究

KNN与FISHER准则分类.zip_fisher分类_knn_knn分类

KNN多类分类

KNN.zip_KNN 分类_knn分类_knn方法是什么_图形分类

kNN分类算法库

knn.zip_knn 文本分类_knn文本分类_文本分类 matlab_文本分类MATLAB

最新资源

上海垃圾分类识别模型