证据累积的文本聚类谱算法：解决相似度设置难题

需积分: 10 95 浏览量更新于2024-08-07 收藏 208KB PDF 举报

"使用证据累积的文本聚类谱算法 (2010年)" 本文主要介绍了一种创新的文本聚类方法——使用证据累积的文本聚类谱算法，旨在解决谱聚类算法中相似度函数设置的难题。在传统的谱聚类中，选择合适的相似度函数对聚类效果至关重要，但这一过程往往具有挑战性。该算法通过引入证据累积的思想，为这个问题提供了一个新的解决方案。首先，该算法采用了超球K均值算法对文本集合进行多次聚类。超球K均值算法是一种扩展的K均值算法，它不是在欧氏空间中寻找聚类中心，而是在高维超球面上进行聚类，这有助于处理高维文本数据并克服维度灾难的问题。每次聚类得到的划分结果被视为判断两个文本是否应归入同一簇的证据。然后，算法将这些证据累积起来，构建文本的相似度矩阵。这个矩阵反映了文本之间的关联程度，是进行谱聚类的基础。接着，利用这些相似度信息，算法构造了正则化拉普拉斯矩阵。正则化拉普拉斯矩阵能够捕捉数据的局部结构，并在聚类过程中起到平滑作用，防止过拟合。在实验部分，研究者在TREC（Text REtrieval Conference）和ReuterS文本集上应用了该算法，并将其性能与层次聚类算法以及CLUTO库提供的K均值算法进行了比较。实验结果显示，提出的证据累积的文本聚类谱算法在聚类效果上优于这两种传统方法，证明了其在文本聚类领域的优越性和有效性。关键词涉及的领域包括聚类分析、文本聚类、聚类谱、证据累积以及超球K均值。这些关键词揭示了文章的核心内容和技术手段，其中聚类分析是数据挖掘的关键技术，文本聚类是处理大量文本数据的有效工具，而聚类谱则是谱聚类算法的一种表现形式。证据累积和超球K均值算法则是本文提出的新方法和技术。这篇论文提出了一种新颖的文本聚类策略，通过证据累积优化了相似度矩阵的构建，提高了谱聚类的效果，为文本数据的组织和理解提供了更优的解决方案。这种方法对于文本挖掘、信息检索以及自然语言处理等领域具有重要的实践意义。

书书书

第猿员卷第愿期摇摇摇摇摇摇摇摇摇摇

哈摇尔摇滨摇工摇程摇大摇学摇学摇报

摇摇摇摇摇摇摇摇摇摇灾燥造援猿员翼援愿

圆园员园年愿月摇摇摇摇摇摇摇摇摇摇

允燥怎则灶葬造燥枣匀葬则遭蚤灶耘灶早蚤灶藻藻则蚤灶早哉灶蚤增藻则泽蚤贼赠

摇摇摇摇摇摇摇摇摇摇摇摇粤怎早援圆园员园

凿燥蚤：员园援猿怨远怨辕躁援蚤泽泽灶援员园园远鄄苑园源猿援圆园员园援园愿援园员园

使用证据累积的文本聚类谱算法

徐摇森

员，圆

，卢志茂

员

，张春祥

猿

，顾国昌

员

，张摇琦

员

（员援盐城工学院信息工程学院，江苏盐城圆圆源园园园；圆援哈尔滨工程大学计算机科学与技术学院，黑龙江哈尔滨员缘园园园员；

猿援哈尔滨理工大学计算机科学与技术学院，黑龙江哈尔滨员缘园园园员）

摘摇要：针对谱聚类算法相似度函数设置困难问题，提出了一种使用证据累积的文本聚类谱算法援该算法使用超球运均

值算法对文本集进行多次聚类，并将每次得到的划分结果作为判断圆个文本是否应该放在一个簇中的证据，由此构建文

本的相似度矩阵和正则化拉普拉斯矩阵

援在栽砸耘悦和砸藻怎贼藻则泽文本集上进行了实验，验证了本文算法的有效性，它比层次

聚类算法和悦蕴哉栽韵提供的运均值算法更加优越援

关键词：聚类分析；文本聚类；聚类谱；证据累积；超球运均值

中图分类号：栽孕猿怨员摇文献标志码：粤摇文章编号：员园园远鄄苑园源猿（圆园员园）园愿鄄员园源猿鄄园缘

粤凿燥糟怎皂藻灶贼糟造怎泽贼藻则蚤灶早泽责藻糟贼则葬造葬造早燥则蚤贼澡皂贼澡葬贼

怎泽藻泽藻增蚤凿藻灶糟藻葬糟糟怎皂怎造葬贼蚤燥灶

载哉杂藻灶

员，圆

，蕴哉在澡蚤鄄皂葬燥

员

，在匀粤晕郧悦澡怎灶鄄曾蚤葬灶早

猿

，郧哉郧怎燥鄄糟澡葬灶早

员

，在匀粤晕郧匝蚤

员

（员援杂糟澡燥燥造燥枣陨灶枣燥则皂葬贼蚤燥灶耘灶早蚤灶藻藻则蚤灶早，再葬灶糟澡藻灶早陨灶泽贼蚤贼怎贼藻燥枣栽藻糟澡灶燥造燥早赠，再葬灶糟澡藻灶早圆圆源园园园，悦澡蚤灶葬；圆援悦燥造造藻早藻燥枣悦燥皂责怎贼藻则杂糟蚤藻灶糟藻

葬灶凿栽藻糟澡灶燥造燥早赠，匀葬则遭蚤灶耘灶早蚤灶藻藻则蚤灶早哉灶蚤增藻则泽蚤贼赠，匀葬则遭蚤灶员缘园园园员，悦澡蚤灶葬；猿援杂糟澡燥燥造燥枣悦燥皂责怎贼藻则杂糟蚤藻灶糟藻葬灶凿栽藻糟澡灶燥造燥早赠，匀葬则遭蚤灶哉灶蚤鄄

增藻则泽蚤贼赠燥枣杂糟蚤藻灶糟藻葬灶凿栽藻糟澡灶燥造燥早赠，匀葬则遭蚤灶员缘园园园员，悦澡蚤灶葬）

粤遭泽贼则葬糟贼：杂责藻糟贼则葬造糟造怎泽贼藻则蚤灶早鸳泽憎藻葬噪灶藻泽泽蚤泽葬灶蚤灶葬遭蚤造蚤贼赠贼燥糟澡燥燥泽藻葬泽蚤皂蚤造葬则蚤贼赠皂藻葬泽怎则藻援栽燥则藻泽燥造增藻贼澡蚤泽，葬凿燥糟怎皂藻灶贼

糟造怎泽贼藻则蚤灶早泽责藻糟贼则葬造葬造早燥则蚤贼澡皂怎泽蚤灶早藻增蚤凿藻灶糟藻葬糟糟怎皂怎造葬贼蚤燥灶憎葬泽责则燥责燥泽藻凿援陨灶贼澡蚤泽葬造早燥则蚤贼澡皂，泽责澡藻则蚤糟葬造运鄄皂藻葬灶泽憎葬泽

枣蚤则泽贼责藻则枣燥则皂藻凿燥增藻则凿燥糟怎皂藻灶贼泽藻贼泽皂怎造贼蚤责造藻贼蚤皂藻泽援耘葬糟澡贼蚤皂藻贼澡藻责葬则贼蚤贼蚤燥灶蚤灶早则藻泽怎造贼泽憎藻则藻则藻早葬则凿藻凿葬泽藻增蚤凿藻灶糟藻

憎澡藻灶躁怎凿早蚤灶早憎澡藻贼澡藻则贼憎燥凿燥糟怎皂藻灶贼泽泽澡燥怎造凿遭藻责怎贼蚤灶贼澡藻泽葬皂藻糟造怎泽贼藻则燥则灶燥贼援韵灶贼澡蚤泽遭葬泽蚤泽，贼澡藻泽蚤皂蚤造葬则蚤贼赠皂葬贼则蚤曾

葬灶凿灶燥则皂葬造蚤扎藻凿蕴葬责造葬糟蚤葬灶皂葬贼则蚤曾燥枣贼澡藻凿燥糟怎皂藻灶贼泽憎藻则藻糟燥灶泽贼则怎糟贼藻凿援耘曾责藻则蚤皂藻灶贼泽燥灶贼澡藻栽藻曾贼砸耘贼则蚤藻增葬造悦燥灶枣藻则藻灶糟藻

（栽砸耘悦）葬灶凿砸藻怎贼藻则泽凿燥糟怎皂藻灶贼泽藻贼泽凿藻皂燥灶泽贼则葬贼藻凿贼澡藻藻枣枣藻糟贼蚤增藻灶藻泽泽燥枣贼澡藻责则燥责燥泽藻凿葬造早燥则蚤贼澡皂援陨贼燥怎贼责藻则枣燥则皂藻凿澡蚤藻则葬则糟澡蚤鄄

糟葬造糟造怎泽贼藻则蚤灶早葬造早燥则蚤贼澡皂泽葬泽憎藻造造葬泽贼澡藻运鄄皂藻葬灶泽葬造早燥则蚤贼澡皂责则燥增蚤凿藻凿蚤灶贼澡藻悦蕴哉栽韵早藻灶藻则葬造责怎则责燥泽藻糟造怎泽贼藻则蚤灶早贼燥燥造噪蚤贼援

运藻赠憎燥则凿泽：糟造怎泽贼藻则蚤灶早葬灶葬造赠泽蚤泽；凿燥糟怎皂藻灶贼糟造怎泽贼藻则蚤灶早；泽责藻糟贼则葬造糟造怎泽贼藻则蚤灶早；藻增蚤凿藻灶糟藻葬糟糟怎皂怎造葬贼蚤燥灶；泽责澡藻则蚤糟葬造运鄄

皂藻葬灶泽

收稿日期：圆园园怨鄄园源鄄员源援

基金项目：国家自然科学基金资助项目（远园远园猿园怨圆，远园怨园猿园愿圆，

远园怨苑缘园源圆）；高等学校博士学科点专项科研基金资助项目

（圆园园苑园圆员苑园源猿）援

作者简介：徐摇森（员怨愿猿鄄），男，博士研究生，耘鄄皂葬蚤造：曾怎泽藻灶岳澡则遭藻怎援

藻凿怎援糟灶；

卢志茂（员怨苑圆鄄），男，教授，博士生导师援

通信作者：徐摇森援

摇摇聚类分析是将数据、样本、对象、点、模式集划分

为若干个分组或簇（

糟造怎泽贼藻则）的过程，使得簇内对象

相似度较高，而不同簇中的对象相似度较低

［员鄄圆］

援近

年来，谱聚类算法受到众多研究者的关注，成为最流

行的聚类算法之一，其备受青睐的原因在于它具备

以下几个优点

［猿］

：对簇的形状不做强的假设；实现

简单，只需解决特征值分解问题；不存在局部最优

解

援另外，谱聚类算法可以从不同的角度来解释其有

效性，例如谱图理论

［猿鄄缘］

、图上的随机游走（则葬灶凿燥皂

憎葬造噪）

［猿，远鄄愿］

、矩阵扰动理论

［猿，远］

等援然而，谱聚类算法

对相似度图的参数非常敏感，这使得参数的正确选

择成为算法成功的关键援对于低维数据，研究者也许

可以根据经验来确定较为合理的参数，而对于高维

复杂数据，参数设置问题是极其困难的援例如，

鄄近

邻图中的

，噪鄄近邻图中的噪，使用核函数的全连通

图中的参数，如使用最广泛的高斯核函数的核半径

，这使得相似度矩阵构造困难

［猿］

援本文设计了一种

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38514805

粉丝: 9
资源: 932

证据累积的文本聚类谱算法：解决相似度设置难题

Matlab文本聚类遗传算法实现与应用

近邻传播聚类集成谱算法提高文本聚类稳定性

中文文本聚类算法创新研究与应用

文本聚类 DBScan算法实现

文本谱聚类算法研究

文本聚类算法TextColuster

基于机器学习的文本聚类描述算法研究.pdf

matlab.rar_text genetic_文本聚类_文本聚类 matlab_文本聚类matlab_遗传算法 聚类

论文研究-一种基于密度的文本聚类挖掘算法.pdf

基于STC的中文文本聚类算法 (2006年)

最新资源

matlab.rar_text genetic_文本聚类_文本聚类 matlab_文本聚类matlab_遗传算法聚类