查询-文档异构信息网络的半监督聚类学习

需积分: 6 0 下载量 16 浏览量 更新于2024-08-31 收藏 1.13MB PDF 举报
"基于查询—文档异构信息网络的半监督学习" 本文主要探讨了一种针对异构信息网络的半监督学习方法,该方法特别适用于信息检索领域的查询和文档分类。传统半监督学习算法通常局限于同构网络,即网络中的节点具有相同类型和属性。然而,实际的网络数据如查询日志往往包含多种类型的信息源,例如查询和文档,它们具有不同的特征和相互关系,构成了异构信息网络。 作者刘钰峰和李仁发首先指出,利用查询及文档的内容特征和用户点击行为,可以构建一个查询-文档异构信息网络。在这个网络中,查询节点和文档节点代表不同的实体,它们之间的边则表示了某种关联,可能是基于内容的相似性或是用户的点击行为。通过这种方式,网络结构不仅包含了丰富的信息,还能够反映出用户对信息的需求和偏好。 为了进行半监督学习,他们提出了一种新的正则化框架,该框架针对异构信息网络设计了一个代价函数。这个函数基于流形假设,即数据点在高维空间中可能遵循某种低维流形结构。通过优化这个代价函数,可以找到网络中节点的最佳分类,即使对于未标记的查询和文档,也能预测其类别标签。他们还设计了一种迭代算法来求解该函数的封闭解,从而实现网络中节点的半监督聚类。 实验结果证明,这种方法在处理大规模商业搜索引擎查询日志时,相比于传统的半监督学习算法,表现出更优的性能。这意味着它能更准确地理解用户查询的意图,提供更相关的结果,这对于提升搜索引擎的用户体验和性能具有重要意义。 这项工作为异构信息网络的半监督学习提供了一种新思路,它不仅扩展了半监督学习的应用范围,也对信息检索领域的研究有着积极的推动作用。通过利用异构网络的特性,该方法可以更好地挖掘隐藏在大量未标记数据中的有用信息,为未来的数据挖掘和机器学习任务提供了新的工具和技术。