高质量特征扩展模式提升中文短文本分类效果

0 下载量 62 浏览量 更新于2024-08-27 收藏 436KB PDF 举报
"这篇论文提出了一种针对中文短文本分类的新方法,主要关注高质量特征扩展模式的提取和应用。在该方法中,特征扩展模式被视为训练数据中具有共现关系的术语集合,通过评估其置信度、类别同质性和相关强度来确定其质量。论文介绍了一种算法用于从训练数据中抽取这些高质量特征扩展模式,并进一步展示了如何将这些模式应用于短文本分类,通过添加新特征或调整初始特征权重来增强文本表示。实验结果表明,这种方法能有效提升中文短文本分类的性能,且优于传统文本分类技术。" 在中文短文本分类问题上,由于文本信息往往较为简洁,概念表达不够明确,这给分类带来了挑战。本文提出的解决方案是利用高质量特征扩展模式。特征扩展模式是一种基于训练数据中术语共现关系的结构,它可以揭示文本中的潜在语义信息。作者提出了三个关键指标来衡量特征扩展模式的质量: 1. **置信度 (Confidence)**:度量一个特征扩展模式在训练数据中的稳定性和可靠性,即该模式出现的频率与其随机出现概率之间的差异。 2. **类别同质性 (Category Homoplasy)**:评估模式是否倾向于出现在同一类别文本中,这有助于确保提取的模式能够区分不同的文本类别。 3. **相关强度 (Relevance Strength)**:衡量特征扩展模式与目标分类任务的相关性,确保模式能够有效地影响分类决策。 为了从大量数据中提取这些高质量的特征扩展模式,论文设计了一种算法。该算法可能包括查找频繁项集、计算上述度量值以及设置阈值以过滤低质量模式等步骤。 接下来,论文提出了一个利用特征扩展模式的中文短文本分类算法。在这个过程中,原始的短文本特征通过两种方式被扩展:一是增加新的特征,这些新特征基于特征扩展模式生成;二是调整初始特征的权重,根据与特征扩展模式的关系进行优化。这种方法考虑了非特征术语之间的相互作用,从而更全面地捕捉文本的语义信息。 实验结果证明,这种利用高质量特征扩展模式的方法在中文短文本分类任务上表现优越,提高了分类准确性,同时与传统的文本分类方法相比,展现出更好的性能。这表明在处理信息稀疏的短文本时,考虑词汇共现关系和模式质量是至关重要的,为中文文本处理领域提供了一种有效的工具和思路。