类别相关词频特征权重算法提升文本分类性能
需积分: 13 60 浏览量
更新于2024-09-09
收藏 1015KB PDF 举报
"这篇论文介绍了一种名为CDF-AICF的新颖特征权重算法,该算法针对文本分类中的问题,即传统基于文档频率的特征权重算法忽视词频信息以及特征与类别的关系表达不准确的问题。CDF-AICF算法考虑了特征在不同词频下的文档频率,同时引入了类别相关文档频率(CDF)和平均逆类频率(AICF)这两个新概念,以更准确地反映特征对类别的影响力和区分能力。通过与五种其他特征权重度量方法的对比实验,CDF-AICF在三个数据集上的分类表现优越。该研究由张羚、陆余良和杨国正完成,他们在数据挖掘理论及其应用方面有着深入研究。"
在文本分类任务中,特征选择和权重计算是关键步骤,因为它直接影响到分类器的性能。传统的特征权重算法,如TF-IDF(词频-逆文档频率),主要依赖于文档频率来衡量一个词的重要性,但忽略了词在文档内的出现次数(词频)。这种做法可能导致某些频繁出现但对分类至关重要的词被低估。为了解决这个问题,论文提出的CDF-AICF算法引入了词频维度,使得特征的权重能够反映它在不同词频下的文档分布情况。
类别相关文档频率(CDF)是一个创新的概念,它量化了特征在特定类别中出现的频率,从而反映了特征对类别的表现力。而平均逆类频率(AICF)则是用来衡量特征区分不同类别能力的指标,它考虑了特征在整个数据集中出现的逆类频率的平均值。这两个指标结合使用,可以更全面地评估特征的分类价值。
实验部分,研究人员将CDF-AICF与TF-IDF、IDF、BF-IDF、TF以及词频平方根(TF square root)这五种常见的特征权重度量方法进行了对比,实验结果表明CDF-AICF在三个不同的文本分类数据集上都取得了最优的分类效果。这证明了新算法在处理文本分类问题时的有效性和优势。
这篇论文提供了一个改进的特征权重计算框架,它不仅考虑了词频信息,还通过引入新的度量标准,提升了特征与类别关系的表达精度。这一贡献对于文本分类领域的研究和发展具有重要意义,可能为未来的文本挖掘和信息检索应用带来更好的性能。
259 浏览量
108 浏览量
156 浏览量
2023-10-19 上传
112 浏览量
2023-03-28 上传
2023-06-04 上传
2025-01-27 上传
122 浏览量

weixin_39841856
- 粉丝: 492
最新资源
- Web远程教学系统需求分析指南
- 禅道6.2版本发布,优化测试流程,提高安全性
- Netty传输层API中文文档及资源包免费下载
- 超凡搜索:引领搜索领域的创新神器
- JavaWeb租房系统实现与代码参考指南
- 老冀文章编辑工具v1.8:文章编辑的自动化解决方案
- MovieLens 1m数据集深度解析:数据库设计与电影属性
- TypeScript实现tca-flip-coins模拟硬币翻转算法
- Directshow实现多路视频采集与传输技术
- 百度editor实现无限制附件上传功能
- C语言二级上机模拟题与VC6.0完整版
- A*算法解决八数码问题:AI领域的经典案例
- Android版SeetaFace JNI程序实现人脸检测与对齐
- 热交换器效率提升技术手册
- WinCE平台CPU占用率精确测试工具介绍
- JavaScript实现的压缩包子算法解读