第
28
卷第
12
期
2008
年
12
月
QU
n
o
&·ι
用
-m
应,制
机句
算白
计川
m
o
ru
Vo
l.
28
No.
12
Dec.
2008
文章编号
:1001
-9081(2008)12
-308
。一
04
特征权对贝叶斯分类器文本分类性能的影晌
高秀梅陈芳宋枫溪
2
全忠
3
(1.淮阴师范学院计算机科学系,江苏淮安
223001;
2.
炮兵学院
1
系,合肥
230031;
3.
南京理工大学计算机科学与技术学院,南京
210094
)
(gao_xiumei@
hytc.
edu.
cn)
摘
要:在文本分类研究中,人们希望用特征权来改善文本分类效采。以最优分类器一一贝叶斯分类器为基准
分类器,研究了特征权对文本分类性能的可能影响。理论推导表明,就最优分类器而言,特征权不能有效提高文本分
类效采。
关键词:文本分类;文本表示;特征权;贝叶斯分类器;分类器性能
中图分类号
:T
凹
91
文献标志码
:A
Influence of feature weight on text categorization
performance of Bayesian classifier
GAO
Xiu-mei
1
,
CHEN
Fang
1
,
SONG
Feng-xe
,
JIN
Zhong
3
(1.
Depart
阳时
of
Computer Science, Huaiyin
Te
α
chers
College,
Hi
阳
ian
Ji
α
ngsu
223001,
Ch
肌肉
2.
Dep
α
rtment
0
时"
Artillery Academy, Hefei
Anhui
230031,
Chin
α;
3. School
of
Comput
冶
r
Scie
时
e
and
Technology,
N
,
α
耶
ng
University
of
Science
α
nd
Technology, Nanjing
Ji
α
ngsu
210094,
Chin
α)
Abstract:
In the field of text categorization, researchers tend
to
use feature weights to promote the performance of text
classifiers. Taking the optimal classifier - Bayesian classifier
, as the benchmark, theoretical analysis was performed about
the possible i
nf1
uence of feature weight on text categorization performance.
Th
eoretical deduction proves that feature weight can
not effectively improve the performance of text categorization if the text classifier is a Bayesian one.
Key
words:
text categorization; text representation; feature weight; Bayesian classifier; classifiefs performance
0
引言
文本分类是根据给定文本文档的内容将其自动归结到事
先确定的若干个类别中的某一类或某几类的过程
[1]
。文本
分类技术是信息检索技术和机器学习技术相互交融的产物。
文本文档通常为一字符串,在对其进行训练或分类之前,
必须首先用向量空间模型
[2]
将其表示为学习算法易于处理
的形式。将文本文档表示为特征向量通常要经过以下三个阶
段:1)确定文本文档对应的索引向量(一般为频数向量)
;
2)
确定特征权向量
;3
)综合索引向量和特征权向量并进行规
范化处理。
设文本表征词典包含有
d
个特征项
t
1
,
t
2
,...,
t
d
(t
ι
通常为
训练文档中出现的单词或词根)
,则文本文档的索引向量通
常表示为
tf
=
(叭,的,…,的)
,其中
tJ.
为第
i
个特征项
t
i
在
该文档中出现的频数。
特征权向量
w
的取值有很多种,但常见的为均权和
idf
(inverse document
frequency)
权两种。均权将所有特征置于
同等重要的地位,没有主次、强弱之分,此时
,
w =
(叫,叫,
叫)
=
(1,
1
,…,1)。而
i
征权定义为
w
=
(I
og
(N/d
J;),
log
(N/dh)
,
…,
log
(N/
矶)
)
,其中
d/;
为第
z
个特征项
t
i
的
文档频数
(~p
t
i
出现的训练文档个数
),
N
为总训练文档个
数。
idf
权起到了突出具有较低文档频数的特征项,抑制具有
较高文档频数的特征项的作用。
综合索引向量和特征权向量得到特征向量:
x =
(即鼠,即的,…,叫·的)
为了消除文档长度对分类器分类性能的影响,通常将上
述向量的规范化向量:
N(x)
=x/llxll
(w
1 •
(月,即叭,…,叫
.
tfd)/
I
(w
1
'
tf1
) 2 +
(町
2
• tf2)2
+...
+
(w
d
.
tfj2
作为机器学习算法的输入向量。
人们在文本表示中引入特征权向量的目的在于,通过调
整各个特征的权重来提高分类器的分类性能。虽然这种设想
很吸引人,但它缺乏一定的理论基础,而且基于这一设想的各
种实验结果也很不一致。文献
[3J
的实验结果表明,通过选
择恰当的特征权向量可以显著提高质心分类器的分类效果。
文献
[4J
指出,
idf
权未能利用训练样本所包含的类别信息,建
议用基于各种特征选择准则的特征权(充分利用了训练样本
中包含的类别信息)来代替,但他们的实验结果表明,不同特
征权下的分类效果与
idf
权下的分类效果并无显著差异。另
外,我们在前期的大量文本分类实验中也发现,就线性支持向
量机而言,
1
征权与均权下的文本分类性能并不存在显著差
异
[5]
。
本文以最优分类器一一贝叶斯分类器为基准分类器,研
究了特征权对文本分类性能的可能影响。理论推导表明,就
收稿日期
:2008
一
07
-03;
修回日期
:2008
-09 -16
0
基金项目:国家自然科学基金资助项目
(60473039)
;江苏省高校自然科学研究指导性项目
(04
町
D520037)
。
作者简介:高秀梅(1
968
- )
,女,江苏淮安人,副教授,博士,主要研究方向:人脸识别、自动文本分类;
陈芳(1
970
-
),女,江苏淮安人,副
教授,硕士,主要研究方向:模式识别、图像处理;
宋枫溪(1
964
一)
,男,安徽合肥人,教授,博士,主要研究方向:入脸识别、自动文本分类;
金
忠(1
962
-),男,江苏南通人,教授,博士生导师,主要研究方向:模式识别、图像检索。