PLSI模型与TEM算法在标签聚类中的应用研究

下载需积分: 5 | PDF格式 | 819KB | 更新于2024-08-12 | 198 浏览量 | 举报

"基于PLSI的标签聚类研究 (2013年) - 工程技术论文" 本文探讨了一种解决大众分类中标签模糊问题的方法，通过使用概率潜在语义索引(PLSI)模型对标签进行潜在语义分析，以提高用户的搜索效率。PLSI是一种经典的文本分析方法，它将文档和词汇之间的关系建模为隐藏主题的分布，以此揭示文档和标签之间的潜在语义联系。在该研究中，研究人员应用了回火期望最大化(TEM)算法来训练PLSI模型，以获取在潜在语义空间中的条件概率。TEM是一种优化方法，通常用于处理高维或复杂模型的参数估计，它能在避免陷入局部最优的情况下找到全局最优解。通过TEM算法，可以得到每个标签在潜在语义下的概率向量，这些向量能够更好地表示标签的语义含义。在此基础上，作者提出了凝聚式层次K中心点(HAK-mediods)聚类算法，这是一种改进的层次聚类方法。传统的层次聚类包括凝聚和分裂两种方式，而凝聚式HAK-mediods算法特别关注于寻找代表性的中心点（mediods），以减少由于标签模糊带来的聚类误差。与K-means等传统聚类算法相比，HAK-mediods更适合处理不规则形状的簇和噪声数据，因为它考虑了簇内所有对象到聚类中心的距离总和，而不仅仅是平均距离。实验部分对比了HAK-mediods算法与其他传统聚类算法的性能，结果显示HAK-mediods在处理标签聚类时具有更好的效果，这验证了其在处理模糊标签时的可行性和有效性。文章的关键词包括大众分类、概率潜在语义索引、语义标签、回火期望最大化算法以及凝聚式层次k中心点聚类，表明了研究的核心内容和技术手段。这项研究为改善由用户生成的标签系统（如大众分类）提供了新的解决方案，通过PLSI和HAK-mediods算法，能够更准确地理解标签的语义并提高搜索效率。这种方法对于社交媒体、知识管理系统和信息检索等领域具有实际应用价值。

收稿日期：２０１２０８２７；修回日期：２０１２１０１９　　基金项目：国家自然科学基金资助项目（６１１０３１２９）；江苏省科技支撑计划资助项目

（ＢＥ２００９００９）

作者简介：吴志媛（１９８９），女，江苏淮安人，硕士研究生，主要研究方向为数据挖掘（ｗｕｚｈｉｙｕａｎ０６１３＠１６３．ｃｏｍ）；钱雪忠（１９６７），男，江苏无锡

人，副教授，硕导，主要研究方向为数据库技术、数据挖掘、网络安全等．

基于ＰＬＳＩ的标签聚类研究



吴志媛，钱雪忠

（江南大学物联网工程学院，江苏无锡２１４１２２）

摘　要：针对现有的大众分类中标签模糊导致影响用户搜索效率的问题，使用概率潜在语义索引（ｐｒｏｂａｂｉｌｉｓｔｉｃ

ｌａｔｅｎｔｓｅｍａｎｔｉｃｉｎｄｅｘｉｎｇ，ＰＬＳＩ）模型对标签进行潜在语义分析，经回火期望最大化（ｔｅｍｐｅｒｅｄｅｘｃｅｐｔｉｏｎｍａｘｉｍｉｚａ

ｔｉｏｎ，ＴＥＭ）算法训练得到在潜在语义下的条件概率，生成概率向量；在此基础上，提出凝聚式层次ｋ中心点

（

ｈｉｅｒａｒｃｈｉｃａｌａｇｇｌｏｍｅｒａｔｉｖｅＫｍｅｄｉｏｄｓ，ＨＡＫｍｅｄｉｏｄｓ）聚类算法对概率向量进行聚类，并进行了相关对比实验。实

验结果表明，ＨＡＫｍｅｄｉｏｄｓ算法的聚类效果要好于传统的聚类算法，从而验证了该算法的可行性和有效性。

关键词：大众分类；概率潜在语义索引；语义标签；回火期望最大化算法；凝聚式层次ｋ中心点聚类

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１３）０５１３１６０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１３．０５．００９

ＴａｇｃｌｕｓｔｅｒｉｎｇｒｅｓｅａｒｃｈｂａｓｅｄｏｎＰＬＳＩ

ＷＵＺｈｉｙｕａｎ，ＱＩＡＮＸｕｅｚｈｏｎｇ

（ＳｃｈｏｏｌｏｆＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓＥｎｇｉｎｅｅｒｉｎｇ，ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，ＷｕｘｉＪｉａｎｇｓｕ２１４１２２，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ａｍｂｉｇｕｉｔｙｏｆｔａｇｍａｙｉｎｆｌｕｅｎｃｅｕｓｅｒｓ’ｅｆｆｉｃｉｅｎｃｙｉｎＦｏｌｋｓｏｎｏｍｙｓｙｓｔｅｍｓ．ＰＬＳＩｍｏｄｅｌｗａｓｕｓｅｄｔｏａｎａｌｙｚｅｓｅｍａｎｔｉｃ

ｔａｇｓ

，ｔｈｒｏｕｇｈｔｈｅｔｒａｉｎｉｎｇｏｆＴＥＭａｌｇｏｒｉｔｈｍｔｏｇｅｔｔｈｅｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙｏｆｌａｔｅｎｔｖａｒｉａｂｌｅｓ，ａｎｄｔｏｇｅｎｅｒａｔｅｐｒｏｂａｂｉｌｉｔｙ

ｖｅｃｔｏｒｓ．Ｏｎｔｈａｔｂａｓｉｓ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄＨＡＫｍｅｄｉｏｄｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｔｏｃｌｕｓｔｅｒｐｒｏｂａｂｉｌｉｔｙｖｅｃｔｏｒ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅ

ｓｕｌｔｓｔｕｒｎｏｕｔｔｈａｔＨＡＫｍｅｄｉｏｄｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｅｎｈａｎｃｅｓｔｈｅｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｔｈａｎｔｒａｄｉｔｉｏｎａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ．

Ｋｅｙｗｏｒｄｓ：Ｆｏｌｋｓｏｎｏｍｙ；ＰＬＳＩ；ｓｅｍａｎｔｉｃｔａｇｓ；ＴＥＭａｌｇｏｒｉｔｈｍ；ＨＡＫｍｅｄｉｏｄｓｃｌｕｓｔｅｒｉｎｇ

　引言

随着Ｉｎｔｅｒｎｅｔ技术的不断发展，互联网经历了以信息提供

商为中心的Ｗｅｂ１．０向以用户为中心的Ｗｅｂ２．０转变。在

Ｗｅｂ２．０时代，信息技术的发展使得网络用户广泛参与到信息

资源描述和组织中成为可能。大众分类（

Ｆｏｌｋｓｏｎｏｍｙ）

［１］

是典

型的Ｗｅｂ２．０系统，允许所有互联网用户为网络资源添加标

签。Ｆｏｌｋｓｏｎｏｍｙ是ＶａｎｄｅｒＷａｌ和Ｓｍｉｔｈ于２００４年首先提出，其

含义是由大众的一致意见而产生的基于用户的分类体系。此

分类法根据用户个人的使用习惯，以自定义的词对网络资源进

行标注和分类。这些自定义的词称为标签（ｔａｇ），也就是指描

述信息资源的字、词或者短语。但是，由于用户的文化程度和

兴趣爱好存在很大差异，所添加的标签也不受系统的控制，所

以不同的用户会使用不同的标签进行标注，导致对描述信息资

源的标签在一定程度上存在着描述精确度不高和组织混乱等

问题，从而影响大众标注系统中对网络信息资源的分类、组织

和检索。

目前，国外对于大众分类中的标签聚类问题的研究已从理

论研究向实际应用过渡，且更加注重在潜在语义层面上的聚类

研究。

Ａｂｂａｓｉ等人

［２］

建立了一个ＴＯＲＧ（ｔａｇｏｒｇａｎｉｚｅｒ）系统，

用来在语义层面上将标签按层次结构进行组织。Ｂｅｇｅｍａｎ等

人

［３］

提出了自动标签聚类的方法来改善自由分类法的检索和

浏览。国内也有专家提出了一些有关标签聚类的算法。武汉

大学的曹高辉等人

［４］

利用凝聚式层次聚类算法对标签聚类进

行研究，利用相关标签的权重计算标签之间的相关度，从而实

现标签的聚类。大众标注与生俱有的不足是自由、不受控制，

非专业路线的结果就是标准、规范缺乏，这将引发共享、查找以

及浏览上的问题。因此，人们提出基于语义标注的大众标注，

但是，由于标签过于个性化而产生的歧义，平面化的、没有等级

层次的划分，相对传统分类法不够严谨、缺乏准确度，都可能制

约Ｆｏｌｋｓｏｎｏｍｙ的发展。

本文在上述研究的基础上，引入

ＰＬＳＩ模型来挖掘页面资

源与标签间的潜在语义关系，并结合提出的

ＨＡＫｍｅｄｉｏｄｓ聚类

算法对潜在语义下的标签进行相似度聚类，最后得到潜在语义

下的聚合标签集，在一定程度上使得形式不同、意义相同的标

签根据用户的需要被其中的一个典型标签所替代，从而实现对

用户标签的重新组织，为用户提供更好的标签导航、浏览机制。

　相关概念



　大众分类与标签

大众分类是一个创造词，是由Ｆｏｌｋ（或Ｆｏｌｋｓ）与Ｔａｘｏｎｏｍｙ

组合而成。与传统结构严谨的登记体系分类法、庞大的文献分

类法以及网站预设的信息分类法不同，大众分类法让用户参与

第３０卷第５期

２０１３年５月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３０Ｎｏ．５

Ｍａｙ２０１３

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38748721

粉丝: 2

PLSI模型与TEM算法在标签聚类中的应用研究

基于PLSI的标签聚类提升搜索效率：HAK-mediods算法的实验验证

基于混合属性的产品优化聚类算法研究

社会性标签聚类算法：改善信息浏览与检索

基于层次分析法的加权聚类融合 (2013年)

论文研究-基于群算法的过程参量聚类研究.pdf

标签共现的标签聚类算法研究

计算机研究 -基于标签传播的半监督聚类算法研究.pdf

基于模拟随机流的Markov图聚类方法研究 (2013年)

基于机器学习算法的负荷曲线聚类研究：包括K-means、ISODATA与改进型K-L-ISODATA的比较分析（附参考文献）,基于机器学习的负荷曲线聚类 包括kmeans isodata和改进的L-i

基于仿射传播的有向网络聚类算法 (2013年)

最新资源

基于机器学习算法的负荷曲线聚类研究：包括K-means、ISODATA与改进型K-L-ISODATA的比较分析（附参考文献）,基于机器学习的负荷曲线聚类包括kmeans isodata和改进的L-i