PLSI模型与TEM算法在标签聚类中的应用研究

需积分: 5 0 下载量 40 浏览量 更新于2024-08-12 收藏 819KB PDF 举报
"基于PLSI的标签聚类研究 (2013年) - 工程技术 论文" 本文探讨了一种解决大众分类中标签模糊问题的方法,通过使用概率潜在语义索引(PLSI)模型对标签进行潜在语义分析,以提高用户的搜索效率。PLSI是一种经典的文本分析方法,它将文档和词汇之间的关系建模为隐藏主题的分布,以此揭示文档和标签之间的潜在语义联系。 在该研究中,研究人员应用了回火期望最大化(TEM)算法来训练PLSI模型,以获取在潜在语义空间中的条件概率。TEM是一种优化方法,通常用于处理高维或复杂模型的参数估计,它能在避免陷入局部最优的情况下找到全局最优解。通过TEM算法,可以得到每个标签在潜在语义下的概率向量,这些向量能够更好地表示标签的语义含义。 在此基础上,作者提出了凝聚式层次K中心点(HAK-mediods)聚类算法,这是一种改进的层次聚类方法。传统的层次聚类包括凝聚和分裂两种方式,而凝聚式HAK-mediods算法特别关注于寻找代表性的中心点(mediods),以减少由于标签模糊带来的聚类误差。与K-means等传统聚类算法相比,HAK-mediods更适合处理不规则形状的簇和噪声数据,因为它考虑了簇内所有对象到聚类中心的距离总和,而不仅仅是平均距离。 实验部分对比了HAK-mediods算法与其他传统聚类算法的性能,结果显示HAK-mediods在处理标签聚类时具有更好的效果,这验证了其在处理模糊标签时的可行性和有效性。文章的关键词包括大众分类、概率潜在语义索引、语义标签、回火期望最大化算法以及凝聚式层次k中心点聚类,表明了研究的核心内容和技术手段。 这项研究为改善由用户生成的标签系统(如大众分类)提供了新的解决方案,通过PLSI和HAK-mediods算法,能够更准确地理解标签的语义并提高搜索效率。这种方法对于社交媒体、知识管理系统和信息检索等领域具有实际应用价值。