提升文本分类性能:新质心向量构建方法

需积分: 10 1 下载量 197 浏览量 更新于2024-09-06 收藏 192KB PDF 举报
本文探讨了一种新颖的构建类别质心向量的方法,针对自动文本分类这一关键应用领域中的挑战进行深入研究。自动文本分类作为监督机器学习的一个重要分支,已经吸引了众多研究者关注,特别是基于质心的分类算法。这类方法虽然简单易实现,但由于缺乏对特征的有效选择和利用,往往导致分类性能欠佳。 论文的创新之处在于提出了一种新的策略来优化质心向量的构建过程。首先,作者引入了特征选择技术,通过计算每个特征与类别之间的特征选择值,以衡量其对类别区分的重要性。这种方法有助于筛选出最具代表性和区分力的特征,从而提升质心向量的表达能力。 接着,作者提出了一个全新的质心特征权重计算公式,它综合考虑了特征选择值,使得质心向量更能反映各个类别内部的特性。这个公式确保了质心向量的构建更加精确,有助于提高文本分类的准确性。 为了评估新方法的效果,作者选择了通用语料库20-newsgroup和生物医学领域的特定语料BC2-IAS进行实验。实验结果显示,与传统的基于质心的方法和支持向量机(SVM)分类法相比,该新方法在文本分类任务上表现出显著的优势,无论是精度还是效率上都有所提升。 总结来说,这篇论文通过改进质心向量构建策略,强调了特征选择在自动文本分类中的核心作用,并通过实验证明了新方法在实际应用场景中的有效性。这对于提升文本分类算法的整体性能,特别是在处理大规模文本数据时,具有重要的理论和实践价值。在未来的研究中,这种基于特征选择和优化质心的方法有望进一步推动自动文本分类技术的发展。