时空高效多类别文本分类算法:基于幂律优化与实验验证

需积分: 9 0 下载量 10 浏览量 更新于2024-08-13 收藏 433KB PDF 举报
本文档探讨了一种时空高效的多类别文本分类算法,发表于2013年的《上海交通大学学报》(Natural Science 版)第48卷第II期。研究背景中提到,低时空复杂度一直是多类别文本分类算法追求的理想性能,尤其是在处理大量新闻文档时,效率至关重要。作者刘千五颖、易绵竹和张兴基于对新闻文档中Token(词语)频率分布的深入研究发现,Token频率普遍遵循幂律分布这一特性。 他们利用这一发现,设计了一种创新的多类别Token频率索引数据结构,这种数据结构巧妙地利用了幂律分布的特点,旨在减少存储和计算的复杂度。通过优化数据结构的设计,他们的算法能够在保证准确性的同时,显著降低空间和时间复杂度。在TanCorp数据集上进行的实验结果显示,这种新型算法在实际的多类别新闻文档分类任务中表现出色,不仅分类速度快,而且内存占用少,证明了其在实际应用中的高效性和实用性。 关键词包括:多类别文本分类、算法复杂度、多类别Token频率索引、幂律分布、新闻文档。文章的分类号为T91,文献标志码为A,表明这是一篇具有科学价值和技术导向的研究论文。这篇论文对于提升多类别文本分类算法的效率,特别是在大规模数据处理场景下,提供了重要的理论支持和实践参考。