改进的朴素贝叶斯分类:TF-IDF-RTC权重在RSS信息自动发布系统中的应用

5星 · 超过95%的资源 需积分: 10 10 下载量 114 浏览量 更新于2024-07-27 收藏 2.02MB PDF 举报
"中山大学硕士学位论文,作者刘林,导师王若梅教授,专业计算机软件与理论,主题基于词语权重改进的朴素贝叶斯分类算法的研究与应用。" 在信息技术飞速发展的今天,尤其是在互联网技术的推动下,我们已经步入了一个信息爆炸的时代。这使得如何快速准确地筛选和获取感兴趣的信息成为了亟待解决的问题。RSS阅读器为此提供了一种解决方案,而Web文档的自动分类技术则进一步优化了信息的组织和检索效率,成为Web挖掘的重要研究方向。 朴素贝叶斯分类器因其坚实的数学基础和强大的概率推理能力,特别是其能够有效利用先验信息的特点,而在数据挖掘领域备受关注。尽管朴素贝叶斯模型的核心假设——条件独立性在实际应用中可能存在局限,但学者们依然在不断探索如何改进这一假设以及提升其性能。 本文中,作者针对朴素贝叶斯分类算法进行了改进,采用了加权朴素贝叶斯方法以提升分类效果。注意到传统的TF-IDF权重计算方法的不足,作者提出了一种新的权重公式TF-IDF-RTC(Term Frequency - Inverse Document Frequency - Relative Category Coefficient)。此公式引入了特征项与类别的关联性,旨在强调那些在特定类别中起关键作用的特征项,实验结果验证了这种方法的有效性。 此外,论文将RSS技术与朴素贝叶斯分类算法相结合,开发了一个自动发布系统。该系统通过RSS技术收集信息源,利用朴素贝叶斯分类算法对RSS摘要内容进行分类,特别适用于功能性纺织业信息的收集与发布。 关键词涵盖了RSS技术、朴素贝叶斯分类算法、特征权重计算、TF-IDF-RTC权重公式以及自动发布系统,突显了研究的主要内容和技术应用。 这篇论文不仅对朴素贝叶斯分类算法进行了深入研究,提出了新的权重计算方法,还成功将其应用到实际的信息处理系统中,体现了理论与实践的紧密结合,对于信息检索和分类领域具有一定的理论价值和实践意义。