HRWiTD算法:自动阿拉伯文文档分类新方法

0 下载量 62 浏览量 更新于2024-09-03 收藏 981KB PDF 举报
"这篇论文研究了一种名为最高单词重复率(HRWiTD)算法的阿拉伯文文档自动分类方法。在互联网上,大量的文档从不同来源获取,因此需要自动化、快速且精确的分类来减少人为干预。HRWiTD算法通过分析训练集学习,将每个单词的最高重复类别作为其类别,并存储在学习数据集中。测试集中的文本根据学习数据集分配类别,最终以重复次数最多的类别作为文本的预测类别。为了评估算法的准确性,采用了混淆矩阵方法。HRWiTD在六类阿拉伯新闻的SPA样本上达到86.84%的准确率,相比之下,C5.0、KNN、SVM、NB和C4.5等流行机器学习算法的准确率分别为52.86%、52.38%、51.90%和51%。" 这篇论文详细探讨了基于HRWiTD算法的阿拉伯文文档自动分类问题,旨在解决日益增长的网络文档分类需求。HRWiTD算法的核心思想是利用文本中单词的最高重复率来决定其所属类别。首先,将语料库划分为训练集和测试集。训练集用于算法的学习,其中每个单词的最高重复类别被记录并存储到"学习数据集"文件中。这个文件只包含非重复单词及其对应类别,这些信息来源于训练集的所有文本。当处理测试集时,每个文本的单词会根据学习数据集中的信息被分配到特定类别。若一个文本中某个类别的单词出现次数最多,则该类别被视为该文本的预测类别。 为了验证HRWiTD算法的有效性,研究人员采用了混淆矩阵这一统计工具进行性能评估。混淆矩阵可以展示分类器的真阳性、真阴性、假阳性和假阴性,从而全面分析分类结果的准确性。在六类阿拉伯新闻的SPA样本上应用HRWiTD后,算法的分类准确率达到了86.84%,显著优于传统机器学习算法如C5.0、KNN、SVM、NB和C4.5,这些算法的准确率均在52%左右,表明HRWiTD在阿拉伯文本分类上具有更高的效能。 HRWiTD算法为阿拉伯文文档的自动分类提供了一种有效的新方法,尤其在处理大量文本数据时,能够显著减少人工干预,提高分类效率和精度。这一研究对于文本挖掘、信息检索和自然语言处理等领域具有重要的理论和实践价值。