贝叶斯分类器下特征权对文本分类的无益影响

需积分: 10 27 浏览量更新于2024-08-12 收藏 319KB PDF 举报

本文档深入探讨了"特征权对贝叶斯分类器文本分类性能的影响"这一主题，发表于2008年第28卷第12期，由高秀梅、陈芳、宋枫溪和金忠四位作者共同完成。他们选择贝叶斯分类器作为研究的基础，这是一种在文本分类领域广泛应用且被认为是最优分类器的模型。贝叶斯分类器以其简单高效的特点，基于概率论原理进行预测，尤其适用于处理文本数据。文本分类是自然语言处理中的一个重要任务，通过赋予文本的不同特征（如词频、TF-IDF值等）不同的权重，理论上可以增强分类的准确性。然而，论文的核心发现是针对贝叶斯分类器而言，即使引入特征权，也可能无法显著提升其分类性能。这一结论是通过对理论模型的深入分析得出的，它挑战了传统观点，即认为特征权总是能优化模型的表现。该研究的重要意义在于它提供了对文本分类算法的一个全新视角，提示我们在设计和优化文本分类系统时，可能需要重新评估特征权的利用策略，特别是在面对贝叶斯分类器这类基础但强大的模型时。此外，这项工作也为后续的研究者提供了启示，即在特定条件下，寻找更有效的特征提取方法或者改进分类算法本身的性能可能比单纯依赖特征权更为关键。关键词集中在"文本分类"、"文本表示"、"特征权"、"贝叶斯分类器"以及"分类器性能"上，这些关键词揭示了论文的核心关注点，即在文本处理领域如何平衡特征选择、权重分配与分类器效率的关系。这篇文章对理解特征权在特定算法中的实际作用具有较高的学术价值。

第

卷第

期

2008

年

月

&·ι

用

-m

应，制

机句

算白

计川

No.

Dec.

2008

文章编号

:1001

-9081(2008)12

-308

。一

特征权对贝叶斯分类器文本分类性能的影晌

高秀梅陈芳宋枫溪

全忠

(1.淮阴师范学院计算机科学系，江苏淮安

223001;

炮兵学院

系，合肥

230031;

南京理工大学计算机科学与技术学院，南京

210094

)

(gao_xiumei@

hytc.

edu.

cn)

摘

要:在文本分类研究中，人们希望用特征权来改善文本分类效采。以最优分类器一一贝叶斯分类器为基准

分类器，研究了特征权对文本分类性能的可能影响。理论推导表明，就最优分类器而言，特征权不能有效提高文本分

类效采。

关键词:文本分类;文本表示;特征权;贝叶斯分类器;分类器性能

中图分类号

凹

文献标志码

Influence of feature weight on text categorization

performance of Bayesian classifier

GAO

Xiu-mei

CHEN

Fang

SONG

Feng-xe

JIN

Zhong

(1.

Depart

阳时

Computer Science, Huaiyin

chers

College,

阳

ian

ngsu

223001,

肌肉

Dep

rtment

时"

Artillery Academy, Hefei

Anhui

230031,

Chin

α;

3. School

Comput

冶

Scie

时

and

Technology,

，

耶

University

Science

Technology, Nanjing

ngsu

210094,

Chin

α)

Abstract:

In the field of text categorization, researchers tend

use feature weights to promote the performance of text

classifiers. Taking the optimal classifier - Bayesian classifier

, as the benchmark, theoretical analysis was performed about

the possible i

nf1

uence of feature weight on text categorization performance.

eoretical deduction proves that feature weight can

not effectively improve the performance of text categorization if the text classifier is a Bayesian one.

Key

words:

text categorization; text representation; feature weight; Bayesian classifier; classifiefs performance

引言

文本分类是根据给定文本文档的内容将其自动归结到事

先确定的若干个类别中的某一类或某几类的过程

[1]

。文本

分类技术是信息检索技术和机器学习技术相互交融的产物。

文本文档通常为一字符串，在对其进行训练或分类之前，

必须首先用向量空间模型

[2]

将其表示为学习算法易于处理

的形式。将文本文档表示为特征向量通常要经过以下三个阶

段:1)确定文本文档对应的索引向量(一般为频数向量)

;

确定特征权向量

)综合索引向量和特征权向量并进行规

范化处理。

设文本表征词典包含有

个特征项

，

，...，

通常为

训练文档中出现的单词或词根)

，则文本文档的索引向量通

常表示为

(叭，的，…，的)

，其中

tJ.

为第

个特征项

在

该文档中出现的频数。

特征权向量

的取值有很多种，但常见的为均权和

idf

(inverse document

frequency)

权两种。均权将所有特征置于

同等重要的地位，没有主次、强弱之分，此时

，

w =

(叫，叫，

叫)

(1，

，…，1)。而

征权定义为

(N/d

J;),

log

(N/dh)

…,

log

(N/

矶)

)

，其中

d/;

为第

个特征项

的

文档频数

(~p

出现的训练文档个数

)，

为总训练文档个

数。

idf

权起到了突出具有较低文档频数的特征项，抑制具有

较高文档频数的特征项的作用。

综合索引向量和特征权向量得到特征向量:

x =

(即鼠，即的，…，叫·的)

为了消除文档长度对分类器分类性能的影响，通常将上

述向量的规范化向量:

N(x)

=x/llxll

1 •

(月，即叭，…，叫

tfd)/

tf1

) 2 +

(町

• tf2)2

+...

tfj2

作为机器学习算法的输入向量。

人们在文本表示中引入特征权向量的目的在于，通过调

整各个特征的权重来提高分类器的分类性能。虽然这种设想

很吸引人，但它缺乏一定的理论基础，而且基于这一设想的各

种实验结果也很不一致。文献

[3J

的实验结果表明，通过选

择恰当的特征权向量可以显著提高质心分类器的分类效果。

文献

[4J

指出，

idf

权未能利用训练样本所包含的类别信息，建

议用基于各种特征选择准则的特征权(充分利用了训练样本

中包含的类别信息)来代替，但他们的实验结果表明，不同特

征权下的分类效果与

idf

权下的分类效果并无显著差异。另

外，我们在前期的大量文本分类实验中也发现，就线性支持向

量机而言，

征权与均权下的文本分类性能并不存在显著差

异

[5]

。

本文以最优分类器一一贝叶斯分类器为基准分类器，研

究了特征权对文本分类性能的可能影响。理论推导表明，就

收稿日期

:2008

一

-03;

修回日期

:2008

-09 -16

基金项目:国家自然科学基金资助项目

(60473039)

;江苏省高校自然科学研究指导性项目

(04

町

D520037)

。

作者简介:高秀梅(1

968

- )

，女，江苏淮安人，副教授，博士，主要研究方向:人脸识别、自动文本分类;

陈芳(1

970

)，女，江苏淮安人，副

教授，硕士，主要研究方向:模式识别、图像处理;

宋枫溪(1

964

一)

，男，安徽合肥人，教授，博士，主要研究方向:入脸识别、自动文本分类;

金

忠(1

962

-)，男，江苏南通人，教授，博士生导师，主要研究方向:模式识别、图像检索。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38560039

粉丝: 3
资源: 888

贝叶斯分类器下特征权对文本分类的无益影响

基于多重假设检验市长公开电话文本的自动分类 (2008年)

专题资料（2021-2022年）MicrosoftSQLServer2008R2数据挖掘算法挖掘模型内容.docx

主动贝叶斯分类在垃圾邮件过滤中的应用与优势

实时文本分类系统的优化与性能提升

文本分类：方法、应用与进展概述

随机子空间驱动的高效多分类器集成算法RFSEn

实时垃圾短信过滤系统：结合行为识别与文本分类

分类算法详解与应用对比

中文短文本分类研究：两步策略结合NB与KNN

吴信东教授详解数据挖掘十大经典算法及其影响

最新资源