增量同生主题维吾尔文爬虫:提高网页相关度与稳定性

需积分: 0 0 下载量 163 浏览量 更新于2024-09-07 收藏 851KB PDF 举报
该论文深入探讨了传统主题爬虫在处理维吾尔文网页信息时存在的问题,即在知识层面的理解和处理能力不足。针对这一挑战,研究人员提出了一个创新的"面向增量同生主题的维吾尔文爬虫"。该爬虫的核心在于建立一个增量主题词库,这个词库能够动态地优化传统的主题模型,从而更好地理解和描述维吾尔文关键词的应用语境和场景。这种改进使得计算网页相关度的准确性得以提升,因为词库的增量更新能够适应内容的实时变化。 在技术实现上,论文采用了改进的IC(Incremental Context)主题敏感算法,用于预测子页面的优先级。这种方法有助于过滤掉那些与主题无关的网页链接,进一步提高爬虫的效率和精度。通过对相关算法的优化,作者们不仅关注了爬取的速度,更注重了结果的质量,力求减少噪声并确保获取的信息具有较高的价值。 论文的作者团队包括赵永霄、哈力旦·阿布都热依木和张振东,他们分别在文本分类、搜索引擎技术和智能信息处理等领域有深入研究。他们的研究工作得到了国家自然科学基金项目的资助(项目编号61163026和60865001)。实验部分,他们利用构建的维吾尔文语料库进行了实际操作,结果显示,基于增量同生主题的维吾尔文爬虫在稳定性和准确性方面表现出显著的优势。 关键词涵盖了研究的核心内容,如网络爬虫、网页分类、IC主题模型、锚文本以及维吾尔文语言特性。论文的分类号为TP393,文献标志码为A,文章编号为1001-3695(2014)11-3269-04,doi为10.3969/j.issn.1001-3695.2014.11.017。该研究对于推进维吾尔文互联网信息抓取和处理技术的发展具有重要的理论和实践意义。