改进的孤立点消除网络文本聚类算法

需积分: 11 109 浏览量更新于2024-08-12 收藏 583KB PDF 举报

"一种改进的孤立点消除及网络文本聚类算法 (2012年)" 在文本挖掘和信息处理领域，聚类算法是至关重要的工具，尤其在网络话题文本的分析中。本文研究了一种针对网络话题文本的聚类算法，该算法基于CURE（Clustering Using Representatives）并进行了优化，特别关注了孤立点的处理。CURE是一种层次聚类算法，其基本思想是通过创建代表点来代表每个簇，并逐渐合并距离相近的簇。网络话题文本的特性在于其内容广泛且孤立点较多，这给聚类带来了挑战。孤立点是指与其他数据点显著不同的数据点，在聚类过程中可能会干扰算法的性能。传统的聚类算法对孤立点敏感，可能导致聚类质量下降或计算效率低。为了解决这个问题，作者提出了一个预处理步骤，旨在识别和处理孤立点，以降低算法的敏感度，同时提高聚类效率。改进后的算法首先对文本进行预处理，去除孤立点，然后应用层次聚类策略。这一过程可能包括特征提取、相似度计算以及基于代表点的簇构建。通过这种方式，算法能够更好地处理非球形分布的数据，并且减少对初始条件的依赖。实验证明，这种方法对于网络话题文本的快速聚类更为有效。在互联网时代，网络话题文本的处理面临着大数据量和多样性的挑战。传统的信息检索方法，如TF-IDF和基于关键词的匹配，往往无法应对这种复杂性。文本聚类则提供了一种自动化的方法，可以无监督地将文本分组，揭示隐藏的主题和模式。这种方法在热点话题分析、舆情监测、用户行为分析等领域有着广泛应用。文章指出，现有的聚类算法，如k-means和DBSCAN，都有各自的局限性。k-means对初始聚类中心的选择很敏感，而DBSCAN则依赖于密度定义，可能不适合非均匀分布的数据。因此，对这些算法进行改进以适应网络话题文本的特性显得尤为必要。这项研究为网络话题文本聚类提供了一个新的视角，通过消除孤立点和优化层次聚类流程，提高了算法的稳定性和效率。这一改进的算法有助于从海量的网络文本中提取有价值的信息，对于理解和分析网络趋势具有实际意义。未来的研究可能会进一步探索如何结合其他机器学习技术，如深度学习，以提升聚类的准确性和鲁棒性。

第

３２

卷第

１

期

２０１２

年

１

月

云南师范大学学报

ＪｏｕｒｎａｌｏｆＹｕｎｎａｎＮｏｒｍａｌＵｎｉｖｅｒｓｉｔ

ｙ

Ｖｏｌ３２Ｎｏ１

Ｊａｎ２０１２

一种改进的孤立点消除及网络文本聚类算法



罗姗姗，

杜庆治，

杨秋萍，

龙华

１

（昆明理工大学信息工程与自动化学院，云南昆明

６５００５１

）

摘

要：

通过对

ＣＵＲＥ

（

Ｃｌｕｓｔｅｒｉｎ

ｇ

Ｕｓｉｎ

ｇ

Ｒｅ

ｐ

ｒｅｓｅｎｔａｔｉｖｅｓ

）的研究，在此基础上，针对网络话题文本

内容广泛

、孤立点较多的特点，增加对孤立点的预处理过程，提出一种适用于网络话题文本聚类的层次

聚类算法。该算法能降低算法对孤立点的敏感度，同时提高聚类效率，通过实验证明改进后的算法更适

合运用在网络话题文本的快速聚类中。

关键词：

层次聚类；

ＣＵＲＥ

；孤立点

中图分类号：

ＴＰ３０１．６

文献标识码：

Ａ

文章编号：

１００７－９７９３

（

２０１２

）

０１－００４８－０４

互联网的广泛普及，使得信息化程度快速增

长。网络中海量数据让人难以消化，更无法从表

面上看出他们所蕴含的有用信息

。网络话题文本

是基于互联网传播的新闻文本，其来源包括各种

门户网站、微博、博客等等

．

多以文本形式出现且

长度较短

。显然，传统的信息检索技术已不能适

应日益增加的大量网络文本数据处理需要。文本

聚类（

ＴｅｘｔＣｌｕｓｔｅｒｉｎ

ｇ

）是一种假设同类文档相似

度较大

，非同类文档相似度较小的聚类技术。作

为一种无监督的机器学习方法，文本聚类不需要

训练过程

，也不需要预先对文档手工标注类别，因

此具有较高的灵活性和自动化处理能力。将文本

聚类运用到网络话题文本处理即是要在热点话题

未知的情况下

，根据文本内容的相关性来组织集

合，将文本分成不同的簇

［

１

，

７

］

。

现有聚类算法运用于网络话题文本会存在各

种局限

：（

１

）如

ｋ



ｍｅａｎｓ

算法，不擅长处理非球形

聚类；（

２

）聚类结果受初始聚类中心选择的影响，

如

ＤＢＳＣＡＮ

算法；（

３

）聚类结果受数据输入顺序

影响

；（

４

）或对孤立点比较脆弱，且无法处理大型

数据集等缺点。相比之下，

ＣＵＲＥ

算法在上述方

面具有较好的性能。聚类和孤立点的研究并不是

相互独立的，通常在聚类的过程中要决定如何处

理孤立点的问题

。所以，本文在

ＣＵＲＥ

算法的基

础上从孤立点的处理方式上进行改进，将其运用

于网络话题文本聚类。

１

ＣＵＲＥ

算法简述

凝聚层次聚类算法是文本聚类处理中应用较

多的一种方法。由

Ｓｕｄｉ

ｐ

ｔｏＧｕｈａ

［

２

］

等提出的

ＣＵＲＥ

算法是一种适用于大型数据集的自底向

上的凝聚层次聚类算法

。其基本思想是每个数据

在聚类开始时被看做一个单独的簇，不停地合并

相邻最近的两个簇，每个簇用一定数量的代表点

来代表

，直到簇的数目等于某个特定的阈值

ｋ

［

３

］

。该算法的特点如下：

（

１

）随机抽样和数据划分对大型数据库有良

好的伸缩性

。为了处理大型数据，

ＣＵＲＥ

从对数

据的随机抽样开始，而不是对所有数据进行聚类。

将随机抽样和划分结合起来，数据首先被随机抽

样，然后样本再被划分，每一个划分被分别聚类。



收稿日期：

２０１１－１１－１２

基金项目：云南省科技厅社会发展专项资助项目（

２００７ＣＡ０２７

）

．

作者简介：罗姗姗（

１９８４－

），女，重庆市人，硕士研究生，主要从事无线网络及信息处理方面研究

．

通信作者：龙华（

１９６３－

），女，教授

．

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38571759

粉丝: 6
资源: 897

改进的孤立点消除网络文本聚类算法

聚类分析--孤立点分析

python的练习题2

行人重识别-用于行人重识别的稀疏标签平滑正则化优化-附项目源码+流程教程-优质项目实战.zip

php语言基础（精编版65页ppt）.pdf

9217968970910743X8.5CM模板 横.psd

Datawhale精彩SQL项目复制和学习笔记.zip

毕业设计论文SpringBoot+Vue川剧科普平台.docx

毕业设计论文Django+Vue学生成绩管理系统.docx

基于Java + MySQL + Swing + Factory + Layered实现的汽车租赁系统课程设计

ECI2ECEF 和 ECEF2ECI 转换 matlab代码.rar

最新资源

9217968970910743X8.5CM模板横.psd