基于PLSI的标签聚类提升搜索效率:HAK-mediods算法的实验验证
需积分: 0 143 浏览量
更新于2024-09-07
收藏 819KB PDF 举报
本文研究主要围绕"基于PLSI的标签聚类研究"展开,针对大众分类系统中存在的标签模糊问题,这些问题降低了用户的搜索效率。在当前的大众分类中,由于标签的模糊性,用户很难准确找到所需信息,因此研究者采用概率潜在语义索引(PLSI)模型来解决这个问题。PLSI是一种用于文本数据分析的统计建模方法,它通过对文本的潜在语义特征进行分析,可以揭示出词语之间的深层次关联。
作者们首先利用PLSI模型对标签进行潜在语义分析,通过回火期望最大化(TEM)算法训练,获得了在潜在语义空间中的条件概率分布,这一步骤生成了概率向量,为后续的聚类提供了基础。TEM算法是一种迭代优化方法,通过调整模型参数以最小化预测误差,提高了模型在处理模糊标签时的准确性。
接下来,研究者提出了凝聚式层次k中心点(HAK-mediods)聚类算法。这是一种基于层次聚类的方法,结合了k-means的优点,并通过寻找最优的聚类中心(medoids)而非质心,使得算法对于噪声和异常值更加鲁棒。HAK-mediods算法在概率向量上执行聚类,旨在将相似的标签归并到一起,形成更清晰、更具代表性的类别。
实验部分是研究的关键环节,通过与传统聚类算法如k-means进行对比,结果显示HAK-mediods算法的聚类效果更为出色。这验证了该算法在处理标签模糊问题上的优势,证明了其在提高搜索效率和用户满意度方面的可行性与有效性。
此外,本文还包含了作者的背景信息,吴志媛作为硕士研究生专注于数据挖掘领域,而钱雪忠教授则在数据库技术、数据挖掘和网络安全等领域有深厚的学术造诣。研究得到了国家自然科学基金和江苏省科技支撑计划的支持,表明了研究的学术价值和实际应用前景。
本文的主要贡献在于提出了一种利用PLSI和HAK-mediods算法改进大众分类系统中标签模糊问题的方法,这将有助于提升搜索引擎的用户体验,推动信息检索技术的发展。
点击了解资源详情
368 浏览量
130 浏览量
123 浏览量
216 浏览量
134 浏览量
198 浏览量
344 浏览量
265 浏览量
weixin_39841882
- 粉丝: 445
- 资源: 1万+
最新资源
- bash脚本编写教程
- WSC/ADL:Web Services组合系统体系结构描述语言
- 常用开源软件说明手册
- 高质量c++编程指南
- map reduce by google inc
- bigtable by google inc
- U-BOOT 在S3C2410的移植
- 《计算机组成原理》第一章课件
- Practical Apache Struts 2 Web 2.0 Projects.pdf
- ACM+算法集--常用ACM算法
- 华为电路设计规范,得到很多人的认可
- sq安装步骤,安装问题
- linux下建立DNS
- Arcgis开发宝典
- 是个IC资料 PDF型的
- 办公自动化EXECL(提高操作EXECL的能力)