改进关联规则提升文本分类精度:WCCPF算法实证

1星 需积分: 33 18 下载量 6 浏览量 更新于2024-07-29 2 收藏 3.64MB PDF 举报
基于关联规则的文本分类研究是当前数据管理领域的一个关键议题,特别是在舆情监控等应用场景中,其高效性和可解释性使其备受关注。本文由河北大学研究生赵耀撰写,硕士学位论文聚焦于解决传统关联规则文本分类方法中的两个主要问题。 首先,作者指出直接使用关联规则进行分类可能导致分类决策时对训练文本的支持度过度依赖,造成资源浪费。这可能导致某些训练文本的分类作用被过分强调,影响整体分类效果的均衡性。为了克服这一问题,论文提出了一种改进的关联规则文本分类算法,即WCCPF(Weighted Category-aware Conditional Probability Forest)。 WCCPF在规则权重设计上更为合理,它不仅考虑了训练文本的支持度,还引入了待分类文本的相似度信息,使得规则的权重更具动态性和针对性。这种加权方法降低了对单个训练样本的过度依赖,增加了分类的灵活性和准确性。 其次,论文改进了传统的CR-tree分类器,提出了CPF-tree(Conditional Probability Forest),这是一种能快速响应待分类文本的新分类器。CPF-tree通过动态生成分类规则,避免了在分类过程中对训练文本的支持度进行不必要的重复计算,显著提高了分类效率。 最后,新的剪枝方法在保持算法性能的同时,利用最大频繁项集对分类器进行优化,进一步提升了算法的精度。这种方法有效地减少了冗余规则,增强了模型的简洁性和泛化能力。 通过实验证明,WCCPF算法在文本分类任务中实现了更高的精度,证明了其在关联规则文本分类领域的有效性。关键词包括关联规则、加权规则、文本分类、CP-tree和CPF-tree,这些都是论文的核心技术和方法论,对于理解和应用该领域的研究者来说,这些内容具有很高的参考价值。这项研究为提高文本分类的准确性和效率提供了创新的思路和技术支持。