规则与统计驱动的Web突发事件新闻高效多层分类法

需积分: 9 0 下载量 193 浏览量 更新于2024-08-12 收藏 323KB PDF 举报
本文主要探讨了"基于规则与统计的Web突发事件新闻多层次分类"这一主题,发表于2012年的《计算机应用》期刊,作者是夏华林和张仰森,来自北京信息科技大学计算机学院。面对互联网上Web新闻的指数增长速度以及突发事件新闻的快速传播特性,传统的文本分类方法在准确性与效率方面存在局限,难以高效定位特定主题的突发事件新闻。 作者们针对这些问题,提出了一个创新的方法,即结合规则和统计的两层分类模型。首先,他们通过提取类别关键词来构建规则库,这是一种结构化的处理方式,可以根据预先设定的规则对新闻进行初步分类。这种方法有助于捕捉突发事件新闻的典型特征,提高分类的针对性。 接着,他们采用朴素贝叶斯分类算法对四大类突发事件新闻进行进一步细化。朴素贝叶斯分类是一种基于概率统计的机器学习方法,它假设特征之间相互独立,从而简化了分类过程。这种方法能够根据大量已知数据的学习,提高分类的精确度。 实验结果显示,基于规则与统计的多层次分类方法在准确率和召回率上均达到了90%以上,这表明其在处理大规模Web突发事件新闻时表现出色,分类效率显著优于传统方法。这种分类模型对于实时监控和管理网络上的突发事件新闻具有重要意义,尤其是在新闻传播速度极快、信息量巨大的今天。 关键词包括"规则"、"统计"、"突发事件新闻"和"多层次分类",这些词汇突出了论文的核心技术路线和研究重点。论文的中图分类号为TP181,文献标志码为A,表明这是一篇具有实用价值的工程技术研究论文。 这篇文章不仅介绍了新的分类技术,还提供了实际应用中的有效性证据,对于理解和改进Web突发事件新闻的自动化处理有着重要的理论和实践价值。