信息熵理论驱动的特征权重算法：提升文本分类性能

需积分: 25 103 浏览量更新于2024-09-08 收藏 623KB PDF 举报

本文主要探讨了"基于信息熵理论的特征权重算法研究"，针对文本分类任务中的特征选择问题，特别是在经典TF-IDF方法存在的局限性上进行了深入研究。TF-IDF是一种常见的文本表示方法，它通过计算词频（Term Frequency, TF）和逆文档频率（Inverse Document Frequency, IDF）来衡量一个特征在文档中的重要性。然而，这种简单的方法没有充分考虑特征在不同类别中的分散度，以及其在整个训练集中的表现。论文作者郭红钰提出了Entropy-based TF-IDF (ETFIDF)算法，它不仅保留了TF-IDF的词频部分，还引入了信息熵的概念来衡量特征在各个类别中的离散程度。信息熵能够反映特征的不确定性，从而更全面地评估其对分类的贡献。ETFIDF算法在权重计算中考虑了特征的重要性不仅取决于其在文档内的频率，还与其在类别间的差异性有关。通过实验对比，研究结果显示，ETFIDF算法在文本分类性能上优于传统TF-IDF，因为它能更准确地表示文本特征，并且在精度和效率之间取得了良好的平衡。此外，论文还深入探讨了特征权重与特征选择之间的关系，即考虑特征与类别关系的权重分配有助于提高文本分类的准确性。这篇论文不仅提出了一种新的特征权重计算方法ETFIDF，还通过对该算法的理论分析和实验验证，证明了在文本表示阶段考虑特征的类别相关性对于提升文本分类效果具有显著作用。这对于改进现有的文本挖掘和机器学习模型，特别是那些依赖于文本特征权重的分类任务，具有实际的应用价值。

weixin_38743481

粉丝: 698
资源: 4万+

信息熵理论驱动的特征权重算法：提升文本分类性能

MATLAB环境下河南省公共服务均等化研究--基于泰尔熵指数.pdf

论文研究-信息熵方法及在中文问题分类中的应用.pdf

论文研究-一种基于反向文本频率互信息的文本挖掘算法研究.pdf

论文研究-平面点集凸壳的快速算法.pdf

论文研究-基于拓扑势节点加权的节点重要性评估方法 .pdf

计算机研究 -基于Global K-means的多维数据聚类算法研究及其GPU加速.pdf

最新资源