突发事件Web新闻的多层次自动分类提升策略
需积分: 5 8 浏览量
更新于2024-08-11
收藏 443KB PDF 举报
突发事件Web新闻多层次自动分类方法(2011年)是一篇针对突发事件Web新闻处理的学术论文,作者们关注到了Web上突发事件信息增长迅速、信息繁杂且无序的特点。传统的文本分类技术,如KNN、朴素贝叶斯、贝叶斯网络等,主要适用于结构化文本,但在处理HTML格式的Web文本时,会面临噪音数据和冗余信息的影响,导致分类精度下降。
该研究提出了一种多层次自动分类方法,旨在提高突发事件Web新闻的分类准确性。首先,方法分析了突发事件新闻的基本分类需求,构建了三层分类器架构。第一级和第二级分类器通过定制规则进行设计,这有助于针对突发事件的特定模式进行初步筛选。第三级分类器则采用统计学习方法进行训练,通过这种方法,可以更好地处理非结构化和包含大量HTML标签的复杂信息。
研究还探讨了HTML文本向量空间模型和特征项抽取,这是关键的技术手段,通过将HTML文档转化为可处理的向量表示,提取出与事件类别相关的实质性特征,以便于分类器的训练和应用。这种方法减少了噪声数据的影响,同时保留了HTML标签中的潜在信息,提高了分类的精度。
论文针对甲型HlN1、法国空难和汶川大地震等具体突发事件的Web新闻进行了实际应用,结果显示,这种多层次自动分类方法相较于现有方法有显著的性能提升,能够更有效地组织和定位Web上的突发事件信息,帮助网络用户和应急决策机构快速准确地获取和理解事件动态。
这篇论文不仅提升了突发事件Web新闻的处理能力,还为处理类似问题的文本分类提供了新的思路和实用技术,对于信息检索和事件监测等领域具有重要意义。
2019-08-16 上传
2022-07-02 上传
2021-05-13 上传
2021-03-04 上传
2021-05-07 上传
2021-09-20 上传
2021-05-23 上传
点击了解资源详情
点击了解资源详情
weixin_38688956
- 粉丝: 4
- 资源: 967
最新资源
- OnlineBookstore:这是一个简单的在线书店项目
- 记录自己的Python ML and DPL学习经历.zip
- react_base:Projeto基本em react
- resume:我的履历库
- ACP:我在萨尔大学的一个名为“高级Coq编程”课程的项目。 我的工作仅限于Reflection.v和GeneralReflection.v文件,对PA.v和ZF.v进行了一些细微修改
- laravel-mbt_transfer
- publicfile:容器 >
- kazoo-braintree:Braintree簿记员
- 记录python学习用.zip
- plc与气压控制讲了气阀,气路原理以及用PLC的控制(基础,WORD文档).zip三菱PLC编程案例源码资料编程控制器应用通讯通
- 外部窗口菜单内码转换-易语言
- flexbox-course
- CAD Scripts-开源
- JSP 学生排课选课系统-毕业设计(源码+论文).rar
- SistAlCec-Eof
- idcard-iranian:诊断您的身份证是真还是假(对于伊朗人)===诊断身份证号码的正确性