特征权重计算：结合类别信息与熵的文本分类改进方法

需积分: 44 90 浏览量更新于2024-08-13 收藏 1.16MB PDF 举报

"基于类别信息和特征熵的文本特征权重计算" 本文主要探讨的是在文本分类任务中如何更准确地计算特征权重，特别是针对那些类别频率相同但可能具有不同区分能力的特征。传统的基于类别信息的特征权重计算方法往往无法有效地评估这类特征的重要性。为了弥补这一不足，作者提出了一种新的计算方法，它结合了特征的反类别频率（Inverse Category Frequency, ICF）和类内熵（Entropy）。特征的反类别频率（ICF）是一种衡量特征在不同类别中出现频率的指标，与传统的TF-IDF（词频-逆文档频率）类似，但更注重类别间的差异。ICF考虑了一个特征在所有类别中的稀有性，而不仅仅是全局的稀有性。然而，仅依赖ICF可能无法完全反映出特征在特定类别内部的分布情况。类内熵则是衡量一个特征在同一类别内分布的混乱程度，高熵表示特征在该类别内部的分布均匀，低熵则表示集中。通过结合ICF和类内熵，可以更好地理解特征在类别内部的区分度，从而提供更全面的特征权重。文章构建了两种有监督的特征权重计算方案，这些方案旨在同时考虑特征的类别分布和类内信息，以更精确地评估特征对分类的影响。实验是在维吾尔文文本分类语料库上进行的，结果表明，采用这种新方法可以显著改善样本的空间分布状态，进而提高文本分类的微平均F1值。这意味着模型的分类性能得到提升，特别是在处理类别分布不均衡或者类别内特征多样性较大的问题时。此外，文章还提到了研究背景，指出这项工作得到了新疆维吾尔自治区自然科学基金的资助，以及作者团队的研究方向，包括自然语言处理、信息安全、文本挖掘和计算机应用技术。这表明研究不仅关注理论创新，还与实际应用紧密相连。关键词的选取反映了研究的核心内容，包括文本分类、文本特征、权重计算和类别频率，这些都是文本挖掘和机器学习领域的重要概念。通过这篇论文，读者可以了解到如何结合类别信息和特征熵来优化特征权重，从而提升文本分类算法的性能。这种方法提供了一种改进的特征选择策略，对于处理大规模文本数据集和多类别文本分类问题具有潜在的应用价值，尤其是在处理多语言和少数族裔语言的文本数据时，可以为未来的文本分析任务提供有益的参考。

　　收稿日期：２０１８０５０７；修回日期：２０１８０６２７　　基金项目：新疆维吾尔自治区自然科学基金资助项目（２０１６Ｄ０１Ｃ０６８）

　　作者简介：阿力木江·艾沙（１９７３），男（维吾尔族），教授，硕导，博士，主要研究方向为自然语言处理、信息安全（ａｌｉｍ＠ｘｊｕ．ｅｄｕ．ｃｎ）；殷晓雨

（１９９２），男（回族），硕士研究生，主要研究方向为文本挖掘；库尔班·吾布力（１９７４），男（维吾尔族），教授，硕导，主要研究方向为文本图像处理；

李?（１９７８），女，讲师，主要研究方向为计算机应用技术．

基于类别信息和特征熵的文本特征权重计算



阿力木江·艾沙

ａ，ｂ

，殷晓雨

ｂ

，库尔班·吾布力

ｂ

，李　?

ａ

（新疆大学ａ．网络与信息技术中心；ｂ．信息科学与工程学院，乌鲁木齐８３００４６）

摘　要：基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确，即对于类别频率相同的特征无

法比较其对类别的区分能力，因此要考虑特征在类内的分布情况。将特征的反类别频率（ｉｎｖｅｒｓｅｃａｔｅｇｏｒｙｆｒｅ

ｑｕｅｎｃｙ

，ＩＣＦ）和类内熵（ｅｎｔｒｏｐｙ）相结合引入到特征权重计算方案中，构造了两种有监督特征权重计算方案。在

维吾尔文文本分类语料上进行的实验结果表明，该方法能够明显改善样本的空间分布状态并提高维吾尔文文本

分类的微平均

Ｆ

１

值。

关键词：文本分类；文本特征；权重计算；类别频率

中图分类号：ＴＰ３９１．１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１９）１１００７３２３７０３

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．０５．０２９４

Ｆｅａｔｕｒｅｗｅｉｇｈｔｉｎｇｓｃｈｅｍｅｂａｓｅｄｏｎｃａｔｅｇｏｒｙｉｎｆｏｒｍａｔｉｏｎａｎｄｔｅｒｍｅｎｔｒｏｐｙ

ＡｌｉｍｊａｎＡｙｓａ

ａ，ｂ

，ＹｉｎＸｉａｏｙｕ

ｂ

，ＫｕｒｂａｎＵｂｕｌ

ｂ

，ＬｉＺｈｅ

ａ

（ａ．Ｎｅｔｗｏｒｋ＆ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＣｅｎｔｅｒ，ｂ．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ，ＸｉｎｊｉａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｕｒｕｍｑｉ８３００４６，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｆｅａｔｕｒｅｗｅｉｇｈｔｉｎｇｓｃｈｅｍｅｓｂａｓｅｄｏｎｃａｔｅｇｏｒｙｉｎｆｏｒｍａｔｉｏｎｉｓｎｏｔａｃｃｕｒａｔｅｅｎｏｕｇｈｔｏｅｘｐｒｅｓｓｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎ

ｆｅａｔｕｒｅｓａｎｄｃａｔｅｇｏｒｉｅｓ．Ｔｈａｔｉｓｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｂｉｌｉｔｙｏｆｔｈｅｆｅａｔｕｒｅｓｗｉｔｈｔｈｅｓａｍｅｃａｔｅｇｏｒｙｆｒｅｑｕｅｎｃｙｃａｎ

’ｔｂｅｃｏｍｐａｒｅｄ，

ｓｏｔｈｅｄｉｓｔｒｉｂｕｔｉｏｎｏｆｔｈｅｆｅａｔｕｒｅｓｉｎｔｈｅｃａｔｅｇｏｒｙｓｈｏｕｌｄｂｅｃｏｎｓｉｄｅｒｅｄ．Ｔｈｉｓｐａｐｅｒｃｏｍｂｉｎｅｄｔｈｅｉｎｖｅｒｓｅｃａｔｅｇｏｒｙｆｒｅｑｕｅｎｃｙ

（ＩＣＦ）ａｎｄｉｎｎｅｒｃａｔｅｇｏｒｙｅｎｔｒｏｐｙｏｆｔｈｅｆｅａｔｕｒｅｓｉｎｔｏｔｈｅｔｅｒｍｗｅｉｇｈｔｃａｌｃｕｌａｔｉｏｎ，ａｎｄｃｏｎｓｔｒｕｃｔｅｄｔｗｏｓｕｐｅｒｖｉｓｅｄｆｅａｔｕｒｅ

ｗｅｉｇｈｔｉｎｇｓｃｈｅｍｅｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎｔｈｅＵｙｇｕｒｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎｄａｔａｓｅｔｓｈｏｗｔｈａｔｔｈｉｓｍｅｔｈｏｄｃａｎｏｂｖｉｏｕｓｌｙｉｍ

ｐｒｏｖｅｔｈｅｓｐａｔｉａｌｄｉｓｔｒｉｂｕｔｉｏｎｏｆｔｈｅｓａｍｐｌｅｓａｎｄｉｍｐｒｏｖｅｔｈｅｍｉｃｒｏａｖｅｒａｇｅＦ

１

ｖａｌｕｅｏｆｔｈｅＵｙｇｕｒｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．

Ｋｅｙｗｏｒｄｓ：ｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｔｅｘｔｆｅａｔｕｒｅ；ｔｅｒｍｗｅｉｇｈｔｉｎｇ；ｃａｔｅｇｏｒｙｆｒｅｑｕｅｎｃｙ

　　在文本分类中，首先将自然语言文本转换成一种计算机能

够处理的内部表示形式，分类器才能理解文本内容并进行分类

操作。这个过程叫做文本向量化或文本表示。目前，向量空间

模型（

ｖｅｃｔｏｒｓｐａｓｅｍｏｄｅｌ，ＶＳＭ）仍然是主流的文本表示方法。

在ＶＳＭ中，文本被表示为在特征空间ｄ＝｛ｗ

１

，ｗ

２

，…，ｗ

ｎ

｝中的

一个向量，其中ｎ为特征集的大小。特征权重ｗ

ｉ

表示特征ｔ

ｉ

在文本ｄ中的重要程度。特征权重计算方法经常影响分类器

的效率。文献［

１］指出特征权重方案的选择很大程度上影响

分类器分类精度。因为，一个好的特征权重方案会给每一个被

选的特征项指定一个合理的权重。文本特征的权重综合反映

了该特征对标志文本内容的贡献度和区分文本类别的能

力

［２］

。合理的特征权重计算方法能使特征对分类的作用变得

更加显著

［３］

。因此，特征权重计算对文本分类起着至关重要

的作用。特征权重计算是文本分类领域的研究热点之一

［４，５］

。

１　相关研究工作

文本分类中的权重计算方案来自于信息检索（ｉｎｆｏｒｍａｔｉｏｎ

ｒｅｔｒｉｅｖａｌ，ＩＲ）领域。其中最有名的ｔｆ．ｉｄｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙａｎｄｉｎ

ｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）算法在ＩＲ中获得了很大的成功。正

因为

ｔｆ．ｉｄｆ在ＩＲ中的成功，研究人员将ｔｆ．ｉｄｆ原封不动地在文

本分类任务中使用。而且在很多文本分类任务中，把ｔｆ．ｉｄｆ作

为默认的权重方案在使用。也有一些新的改进方案被提出。

最早，Ｄｅｂｏｌｅ等人

［６］

针对文本分类任务提出了一种构造有监

督特征权重计算方案的方法，就是用特征选择函数

２

、信息增

益（

ｉｎｆｏｒｍａｔｉｏｎｇａｉｎ，ＩＧ）和增益率（ｇａｉｎｒａｔｉｏ，ＧＲ）来替换ｔｆ．ｉｄｆ

算法中的ｉｄｆ项。文献［７］将ｔｆ．ｉｄｆ和ＩＧ相结合，改进了ｔｆ．ｉｄｆ

方案。Ｌａｎ等人

［８］

提出了ｔｆ．ｒｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙａｎｄｒｅｌｅｖａｎｃｅｆｒｅ

ｑｕｅｎｃｙ

）并改进了英文文本分类的表现。该方案只考虑了相关

文本，而忽略特征在非相关文本中的分布情况。不过，它们在

英文标准语料库上的实验结果显示，ｔｆ．ｒｆ方法表现出比其他有

监督特征权重方案（如ｔｆ．ｌｏｇＯＲ、ｔｆ．

２

、ｔｆ．ｉｇ）和传统方案（如ｔｆ．

ｉｄｆ、ｔｆ）更好的性能。除此之外，文献［９］提出了一种基于概率

的有监督特征权重方案叫做ｐｒｏｂ方案，并改进了针对非平衡

数据集的文本分类性能。文献［１０］针对问题分类提出了三种

新的有监督权重方案并在方案中用到了

ｉｃｆ因子。文献［１１］

提出了基于逆类空间密度频率（ｉｎｖｅｒｓｅｃｌａｓｓｓｐａｃｅｄｅｎｓｉｔｙｆｒｅ

ｑｕｅｎｃｙ，ＩＣＳＤＦ）的两个新的特征权重计算方法ｔｆ



ＩＣＳＤＦ和

ＩＣＳＤＦｂａｓｅｄ。该方法相比传统的特征加权方法（ｐｒｏｂｂａｓｅｄ、

ｔｆ．ｉｃｆ和ｉｃｆｂａｓｅｄ）能够有效地提升文本分类性能。文献［１２］

提出了平均反类别频率的概念，考虑了特征在不同词频下的局

部类别频率。但反类别频率算法只关注特征是否在类别内出

现过，并不考虑特征在该类别内出现的文本中的分布情况，夸

大了类内低频文档对分类的作用，这是大部分引入

ｉｃｆ因子算

法的局限性。本文对维吾尔文文本分类中的特征权重计算问

题进行了研究。针对已有的基于ｉｃｆ的特征权重计算方法的局

限性，本文将特征的反类别频率（ｉｎｖｅｒｓｅｃａｔｅｇｏｒｙｆｒｅｑｕｅｎｃｙ，

ＩＣＦ）和类内熵引入到已有的特征权重计算方案中，构造了两

种有监督特征权重计算方案。

第３６卷第１１期

２０１９年１１月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３６Ｎｏ．１１

Ｎｏｖ．２０１９

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38717843

粉丝: 1
资源: 923

特征权重计算：结合类别信息与熵的文本分类改进方法

电信设备-基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统.zip

电信设备-一种基于信息增益率的属性加权方法及文本分类方法.zip

基于权值调整的文本分类改进方法 (2003年)

中文文本分类中的特征选择算法研究

信息检索中的特征提取过程

信息熵理论驱动的特征权重算法：提升文本分类性能

信息增益与特征选择：文本分类的高效策略

粗糙集与逆TF-IDF：文本分类中的权重对比分析

熵与最大熵模型：从信息理论到机器学习

文本分析中的特征选择：TF、DF、IG与MI解析

最新资源