PLSI模型与TEM算法在标签聚类中的应用研究
需积分: 5 40 浏览量
更新于2024-08-12
收藏 819KB PDF 举报
"基于PLSI的标签聚类研究 (2013年) - 工程技术 论文"
本文探讨了一种解决大众分类中标签模糊问题的方法,通过使用概率潜在语义索引(PLSI)模型对标签进行潜在语义分析,以提高用户的搜索效率。PLSI是一种经典的文本分析方法,它将文档和词汇之间的关系建模为隐藏主题的分布,以此揭示文档和标签之间的潜在语义联系。
在该研究中,研究人员应用了回火期望最大化(TEM)算法来训练PLSI模型,以获取在潜在语义空间中的条件概率。TEM是一种优化方法,通常用于处理高维或复杂模型的参数估计,它能在避免陷入局部最优的情况下找到全局最优解。通过TEM算法,可以得到每个标签在潜在语义下的概率向量,这些向量能够更好地表示标签的语义含义。
在此基础上,作者提出了凝聚式层次K中心点(HAK-mediods)聚类算法,这是一种改进的层次聚类方法。传统的层次聚类包括凝聚和分裂两种方式,而凝聚式HAK-mediods算法特别关注于寻找代表性的中心点(mediods),以减少由于标签模糊带来的聚类误差。与K-means等传统聚类算法相比,HAK-mediods更适合处理不规则形状的簇和噪声数据,因为它考虑了簇内所有对象到聚类中心的距离总和,而不仅仅是平均距离。
实验部分对比了HAK-mediods算法与其他传统聚类算法的性能,结果显示HAK-mediods在处理标签聚类时具有更好的效果,这验证了其在处理模糊标签时的可行性和有效性。文章的关键词包括大众分类、概率潜在语义索引、语义标签、回火期望最大化算法以及凝聚式层次k中心点聚类,表明了研究的核心内容和技术手段。
这项研究为改善由用户生成的标签系统(如大众分类)提供了新的解决方案,通过PLSI和HAK-mediods算法,能够更准确地理解标签的语义并提高搜索效率。这种方法对于社交媒体、知识管理系统和信息检索等领域具有实际应用价值。
151 浏览量
102 浏览量
277 浏览量
180 浏览量
221 浏览量
270 浏览量
2023-05-12 上传
202 浏览量
240 浏览量
weixin_38748721
- 粉丝: 2
- 资源: 900
最新资源
- 浙江大学C++教材 非常详细
- windows组策略应用攻略
- JavaServer Faces in Action
- IBatis开发指南
- Eclipse中文教程
- 宋劲杉Linux C编程一站式学习_PDF版本——非常好的C,linux编程入门教程_2009.3.6最新版,不断更新到最新版
- verilog 入门
- 考研 自做简易倒计时器
- 往oracle数据库中,插入excel文件中的数据
- WEB标准与网站重构(PDF)
- Hibernate开发指南.pdf
- 加速度传感器 MMA7260Q
- 教你认识电子元件(有图)
- 汽车修理管理课程设计
- Grails 入门指南
- 融合粒子群优化算法与蚁群算法的随机搜索算法