优化Squeezer算法：解决文本流聚类中的链式问题与效率提升

115 浏览量更新于2024-08-29 收藏 204KB PDF 举报

本文主要探讨了"基于Squeezer算法的文本数据流聚类"这一主题，针对数据流聚类中的特定挑战，如"链式数据"问题以及文本数据流的特性——高维、稀疏和多主题。传统的Squeezer算法在处理这些复杂性方面可能存在局限性。因此，研究人员对Squeezer算法进行了改进，重新定义了聚类过程中的关键概念，包括类的质心（centroid）、半径（radius）和判别距离（discriminative distance）。新提出的算法首先考虑了数据预处理环节，旨在增强聚类的准确性。预处理步骤可能涉及数据清洗、特征选择或降维，以减少噪声和冗余信息，使得算法更能专注于核心主题。其次，引入了投影聚类技术，这有助于提高聚类效率，通过将高维数据映射到低维空间，简化了计算复杂性，同时保持了关键信息。此外，该改进算法还赋予了聚类簇更丰富的语义含义，使得结果更加直观和易于理解。这可能是通过在聚类过程中引入主题模型或者利用词向量等技术实现的，增强了聚类结果的解释性和应用价值。通过在大规模互联网新闻语料库上的实际聚类实验，研究者展示了改进后的算法在保持相对较低的时间成本下，显著提高了聚类效果，其性能远超原始的Squeezer算法。这表明该算法对于实时处理文本数据流具有显著的优势，对于大数据环境下的文本挖掘和分析具有重要的实践意义。本文的主要贡献在于提出了一种结合了数据预处理、投影聚类和语义化的Squeezer算法改进版本，有效地解决了文本数据流聚类中的难题，提升了聚类质量和效率，为文本数据分析提供了新的解决方案。

第 27 卷第 4 期

Vol. 27 No. 4

控制与决策

Control and Decision

2012 年 4 月

Apr. 2012

基于 Squeezer 算法的文本数据流聚类

文章编号: 1001-0920 (2012) 04-0542-05

尤薇佳

, 刘鲁

, 刘丹

, 李明

(1. 北京航空航天大学经济管理学院，北京 100191；2. 中国石油大学工商管理学院，北京 102249)

摘要: 为解决数据流聚类中的“链式数据”问题以及文本数据流存在的高维、稀疏、多主题问题, 以 Squeezer 聚类

算法为基础, 重新定义了聚类过程中类的质心、半径和判别距离. 提出了一种改进算法, 通过加入数据预处理环节来

提高聚类精度, 通过投影聚类提高聚类效率并为簇赋予语义. 最后通过在互联网新闻语料的聚类实验, 表明了所提出

的算法能够以较小的速度代价换来聚类效果的大幅提升, 性能显著优于 Squeezer 算法.

关键词: 文本数据流；Squeezer 算法；投影聚类

中图分类号: TP311 文献标识码: A

Text stream clustering based on Squeezer algorithm

YOU Wei-jia

, LIU Lu

, LIU Dan

, LI Ming

(1. School of Economics and Management，Beihang University，Beijing 100191，China；2. School of Business

Administration，China University of Petroleum，Beijing 102249，China．Correspondent：YOU Wei-jia，E-mail:

weijiawx@gmail.com)

Abstract：：：To solve the problems of“chain data”and“high-dimension, multi-topic, large-scale text stream”in data

stream clustering, a modiﬁed Squeezer clustering algorithm is proposed, which combines the idea of projected clustering

and redeﬁnes the class centroid, radius, and judging distance. The preprocessing stage and the projected clustering stage

are introduced to improve the performance signiﬁcantly and attach the semantic to the clusters for better understanding

respectively. The experiment on the Internet corpus shows that the cluster result is signiﬁcantly improved at a small cost of

speed decrease and the performance of the proposed algorithm is better than that of Squeezer algorithm.

Key words：：：text stream；Squeezer algorithm；projected clustering

1 引引引言言言

随着 Web 2.0 的飞速发展, 互联网上的信息飞速

膨胀, 每天新生成的页面数以千万计. 对网页内容聚

类, 发现网民关注的热点并了解热点发展趋势, 对于

整合网络信息和了解网络民意具有十分重要的意义.

但是, 以网页为表现形式的文档数量急剧增长, 内容

随时间不断变化且趋近无限, 是一种典型的数据流场

景, 传统的聚类算法并不适用

[1]

文献 [2] 提出的 Squeezer 算法是一种主要应用

于大规模数据集的聚类算法, 也常用于数据流问题.

Squeezer 算法不需要先验知识, 基于分类属性数据和

数值属性数据的最大相似度或最小距离 (差异) 原则,

只扫描数据集一遍便可将数据集分割成几个不同的

超球体实现聚类, 且具有良好的稳定性. 之后有学者

在此基础上进行改进, 提出了 ID-Squeezer 算法

[3]

, 引

入半径的概念以消除链式效应, 基于用区间数据来保

存聚类结果的思想对一定时间窗口的数据流进行聚

类, 当新的数据流到达时, 在一定的阈值范围内动态

调整先前聚类后所得区间数据的上下限, 并存储数据

所属类的标示. 但是, Squeezer 算法和 ID-Squeezer 在

文本数据流聚类领域仍存在优化的空间: 首先, 这两

种算法直接从第 1 个点开始聚类, 如果前几个点是数

据集的奇异点, 则会对最后的聚类结果产生较大的影

响; 其次, 文本向量的维度通常都非常高, 而这两种算

法均未对高维空间聚类进行优化, 性能尚有提升的空

间; 再次, 这两种算法虽然不需确定聚类结果的类别

数, 但需要设定距离阈值和半径阈值, 这些阈值的设

置通常依赖于经验, 尚有待改进.

收稿日期: 2010-10-26；修回日期: 2011-01-17.

基金项目: 国家自然科学基金项目(90924020)；教育部博士点基金项目(200800060005)；阿里巴巴青年学者支持计划

项目(活水计划Ali-2010-B-6).

作者简介: 尤薇佳(1981−), 女, 博士生, 从事数据挖掘、电子商务的研究；刘鲁(1947−), 女, 教授, 博士生导师, 从事电

子商务、知识管理等研究.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38670501

粉丝: 8
资源: 975

优化Squeezer算法：解决文本流聚类中的链式问题与效率提升

PDF压缩工具mac

5020-微信小程序基于JAVA微信点餐小程序设计+ssm（源码+数据库+lun文）.zip

基于 Flask 的数字猜谜系统.zip

5206-微信小程序投票评选系统的设计与实现ssm（源码+数据库+lun文）.zip

PeaZip 64 bit 9.9.1 free 解压缩工具 杜绝360垃圾

vit_keras-0.0.12-py3-none-any.whl

5272-微信小程序微信智能招聘小程序设计+ssm（源码+数据库+lun文）.zip

1.Ansible 自动化运维实战笔记.xmind分享给需要的同学

bacpypes-0.15.0-py3-none-any.whl

人工智能大作业-无人机图像目标检测基于python源代码+文档说明+数据集.zip

最新资源

PeaZip 64 bit 9.9.1 free 解压缩工具杜绝360垃圾