时空高效多类别文本分类算法:基于幂律优化与实验验证
需积分: 9 10 浏览量
更新于2024-08-13
收藏 433KB PDF 举报
本文档探讨了一种时空高效的多类别文本分类算法,发表于2013年的《上海交通大学学报》(Natural Science 版)第48卷第II期。研究背景中提到,低时空复杂度一直是多类别文本分类算法追求的理想性能,尤其是在处理大量新闻文档时,效率至关重要。作者刘千五颖、易绵竹和张兴基于对新闻文档中Token(词语)频率分布的深入研究发现,Token频率普遍遵循幂律分布这一特性。
他们利用这一发现,设计了一种创新的多类别Token频率索引数据结构,这种数据结构巧妙地利用了幂律分布的特点,旨在减少存储和计算的复杂度。通过优化数据结构的设计,他们的算法能够在保证准确性的同时,显著降低空间和时间复杂度。在TanCorp数据集上进行的实验结果显示,这种新型算法在实际的多类别新闻文档分类任务中表现出色,不仅分类速度快,而且内存占用少,证明了其在实际应用中的高效性和实用性。
关键词包括:多类别文本分类、算法复杂度、多类别Token频率索引、幂律分布、新闻文档。文章的分类号为T91,文献标志码为A,表明这是一篇具有科学价值和技术导向的研究论文。这篇论文对于提升多类别文本分类算法的效率,特别是在大规模数据处理场景下,提供了重要的理论支持和实践参考。
2011-09-07 上传
2024-01-04 上传
2023-06-08 上传
2023-06-08 上传
2023-06-10 上传
2023-06-09 上传
2023-06-10 上传
2023-09-09 上传
2023-06-08 上传
x_jiali
- 粉丝: 5
- 资源: 897
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦