基于时态特征与混合搜索的大数据博客筛选挖掘提升策略

0 下载量 80 浏览量 更新于2024-08-30 收藏 1.25MB PDF 举报
本文主要探讨了大数据背景下博客筛选挖掘的一种新颖策略,即"大数据中基于时态特征和混合式搜索的博客筛选挖掘"。当前,许多博客筛选挖掘方法存在相关性度不够紧密的问题,以及信息检索技术的局限。为了改进这些问题,作者张丽娜、匡泰和姜迪清提出了一个创新方法,该方法着重考虑了时间因素和用户评论的重要性。 首先,他们构建了时态特征集,其中包括博客文章的平均评论数量,这是衡量用户兴趣和互动的一个重要指标。此外,他们利用了BM25算法来计算消息来源的相关性,这是一种常用的文本检索模型,它考虑了文档长度和词语频率。作者还纳入了最久和最新的博客文章的BM25得分,反映了内容的时效性和动态变化。时间范围也被作为特征,通过对比相关博文的发布日期,来捕捉内容的新旧交替和趋势。 在搜索策略上,作者结合了线性搜索和差分进化搜索的优势。线性搜索因其对局部信息的高效处理而具有优势,而差分进化则能提供全局优化的能力。这种混合搜索方式旨在提高搜索效率,同时保持结果的全面性和准确性。 实验部分,研究者选择了BlogS06数据集,这是一个包含博客主页、XML源文件和博客入口页面的数据集,主要用于TREC 2007和TREC 2008的博客筛选挖掘任务。实验结果显示,提出的基于时态特征和混合搜索的方法在运行时间和有效性上都表现出良好的性能,证明了这种方法的有效性和实用性。 这篇文章深入探讨了如何利用大数据中的时态特征和混合搜索策略来提升博客筛选挖掘的效率和精确度,这对于理解和利用社交媒体数据、挖掘有价值的信息具有重要的理论和实际价值。关键词包括博客筛选挖掘、时态特征、线性搜索、差分进化、大数据和BM25,这些都构成了文章的核心研究内容和技术支撑。