收稿日期:20180507;修回日期:20180627 基金项目:新疆维吾尔自治区自然科学基金资助项目(2016D01C068)
作者简介:阿力木江·艾沙(1973),男(维吾尔族),教授,硕导,博士,主要研究方向为自然语言处理、信息安全(alim@xju.edu.cn);殷晓雨
(1992),男(回族),硕士研究生,主要研究方向为文本挖掘;库尔班·吾布力(1974),男(维吾尔族),教授,硕导,主要研究方向为文本图像处理;
李?(1978),女,讲师,主要研究方向为计算机应用技术.
基于类别信息和特征熵的文本特征权重计算
阿力木江·艾沙
a,b
,殷晓雨
b
,库尔班·吾布力
b
,李 ?
a
(新疆大学 a.网络与信息技术中心;b.信息科学与工程学院,乌鲁木齐 830046)
摘 要:基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无
法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inversecategoryfre
quency
,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在
维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本
分类的微平均
F
1
值。
关键词:文本分类;文本特征;权重计算;类别频率
中图分类号:TP391.1 文献标志码:A 文章编号:10013695(2019)11007323703
doi:10.19734/j.issn.10013695.2018.05.0294
Featureweightingschemebasedoncategoryinformationandtermentropy
AlimjanAysa
a,b
,YinXiaoyu
b
,KurbanUbul
b
,LiZhe
a
(a.Network&InformationTechnologyCenter,b.SchoolofInformationScience&Engineering,XinjiangUniversity,Urumqi830046,China)
Abstract:Featureweightingschemesbasedoncategoryinformationisnotaccurateenoughtoexpresstherelationshipbetween
featuresandcategories.Thatistheclassificationabilityofthefeatureswiththesamecategoryfrequencycan
’tbecompared,
sothedistributionofthefeaturesinthecategoryshouldbeconsidered.Thispapercombinedtheinversecategoryfrequency
(ICF)andinnercategoryentropyofthefeaturesintotheterm weightcalculation,andconstructedtwosupervisedfeature
weightingschemes.TheexperimentalresultsontheUygurtextcategorizationdatasetshowthatthismethodcanobviouslyim
provethespatialdistributionofthesamplesandimprovethemicroaverageF
1
valueoftheUygurtextclassification.
Keywords:textclassification;textfeature;termweighting;categoryfrequency
在文本分类中,首先将自然语言文本转换成一种计算机能
够处理的内部表示形式,分类器才能理解文本内容并进行分类
操作。这个过程叫做文本向量化或文本表示。目前,向量空间
模型(
vectorspasemodel,VSM)仍然是主流的文本表示方法。
在 VSM中,文本被表示为在特征空间 d={w
1
,w
2
,…,w
n
}中的
一个向量,其中 n为特征集的大小。特征权重 w
i
表示特征 t
i
在文本 d中的重要程度。特征权重计算方法经常影响分类器
的效率。文献[
1]指出特征权重方案的选择很大程度上影响
分类器分类精度。因为,一个好的特征权重方案会给每一个被
选的特征项指定一个合理的权重。文本特征的权重综合反映
了该特 征 对 标 志 文 本 内 容 的 贡 献 度 和 区 分 文 本 类 别 的 能
力
[2]
。合理的特征权重计算方法能使特征对分类的作用变得
更加显著
[3]
。因此,特征权重计算对文本分类起着至关重要
的作用。特征权重计算是文本分类领域的研究热点之一
[4,5]
。
1 相关研究工作
文本分类中的权重计算方案来自于信息检索(information
retrieval,IR)领域。其中最有名的 tf.idf(termfrequencyandin
versedocumentfrequency)算法在 IR中获得了很大的成功。正
因为
tf.idf在 IR中的成功,研究人员将 tf.idf原封不动地在文
本分类任务中使用。而且在很多文本分类任务中,把 tf.idf作
为默认的权重方案在使用。也有一些新的改进方案被提出。
最早,Debole等人
[6]
针对文本分类任务提出了一种构造有监
督特征权重计算方案的方法,就是用特征选择函数
χ
2
、信息增
益(
informationgain,IG)和增益率(gainratio,GR)来替换 tf.idf
算法中的 idf项。文献[7]将 tf.idf和 IG相结合,改进了 tf.idf
方案。Lan等人
[8]
提出了 tf.rf(termfrequencyandrelevancefre
quency
)并改进了英文文本分类的表现。该方案只考虑了相关
文本,而忽略特征在非相关文本中的分布情况。不过,它们在
英文标准语料库上的实验结果显示,tf.rf方法表现出比其他有
监督特征权重方案(如 tf.logOR、tf.
χ
2
、tf.ig)和传统方案(如 tf.
idf、tf)更好的性能。除此之外,文献[9]提出了一种基于概率
的有监督特征权重方案叫做 prob方案,并改进了针对非平衡
数据集的文本分类性能。文献[10]针对问题分类提出了三种
新的有监督权重方案并在方案中用到了
icf因子。文献[11]
提出了基于逆类空间密度频率(inverseclassspacedensityfre
quency,ICSDF)的两个新的特征权 重计算 方 法 tf
ICSDF和
ICSDFbased。该方法相比传统的特征加权方法(probbased、
tf.icf和 icfbased)能够有效地提升文本分类性能。文献[12]
提出了平均反类别频率的概念,考虑了特征在不同词频下的局
部类别频率。但反类别频率算法只关注特征是否在类别内出
现过,并不考虑特征在该类别内出现的文本中的分布情况,夸
大了类内低频文档对分类的作用,这是大部分引入
icf因子算
法的局限性。本文对维吾尔文文本分类中的特征权重计算问
题进行了研究。针对已有的基于 icf的特征权重计算方法的局
限性,本文 将 特 征 的 反 类 别 频 率 (inversecategoryfrequency,
ICF)和类内熵引入到已有的特征权重计算方案中,构造了两
种有监督特征权重计算方案。
第 36卷第 11期
2019年 11月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.36No.11
Nov.2019