PLSI模型与TEM算法在标签聚类中的应用研究
需积分: 5 52 浏览量
更新于2024-08-12
收藏 819KB PDF 举报
"基于PLSI的标签聚类研究 (2013年) - 工程技术 论文"
本文探讨了一种解决大众分类中标签模糊问题的方法,通过使用概率潜在语义索引(PLSI)模型对标签进行潜在语义分析,以提高用户的搜索效率。PLSI是一种经典的文本分析方法,它将文档和词汇之间的关系建模为隐藏主题的分布,以此揭示文档和标签之间的潜在语义联系。
在该研究中,研究人员应用了回火期望最大化(TEM)算法来训练PLSI模型,以获取在潜在语义空间中的条件概率。TEM是一种优化方法,通常用于处理高维或复杂模型的参数估计,它能在避免陷入局部最优的情况下找到全局最优解。通过TEM算法,可以得到每个标签在潜在语义下的概率向量,这些向量能够更好地表示标签的语义含义。
在此基础上,作者提出了凝聚式层次K中心点(HAK-mediods)聚类算法,这是一种改进的层次聚类方法。传统的层次聚类包括凝聚和分裂两种方式,而凝聚式HAK-mediods算法特别关注于寻找代表性的中心点(mediods),以减少由于标签模糊带来的聚类误差。与K-means等传统聚类算法相比,HAK-mediods更适合处理不规则形状的簇和噪声数据,因为它考虑了簇内所有对象到聚类中心的距离总和,而不仅仅是平均距离。
实验部分对比了HAK-mediods算法与其他传统聚类算法的性能,结果显示HAK-mediods在处理标签聚类时具有更好的效果,这验证了其在处理模糊标签时的可行性和有效性。文章的关键词包括大众分类、概率潜在语义索引、语义标签、回火期望最大化算法以及凝聚式层次k中心点聚类,表明了研究的核心内容和技术手段。
这项研究为改善由用户生成的标签系统(如大众分类)提供了新的解决方案,通过PLSI和HAK-mediods算法,能够更准确地理解标签的语义并提高搜索效率。这种方法对于社交媒体、知识管理系统和信息检索等领域具有实际应用价值。
2015-04-15 上传
点击了解资源详情
2021-05-21 上传
2019-09-12 上传
2019-07-22 上传
2022-06-26 上传
2021-05-22 上传
2021-05-14 上传
2021-05-14 上传
weixin_38748721
- 粉丝: 2
- 资源: 900
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载