ISSN 1000-0054
CN
11-2223/N
清华大学学报 (自然科学版)
J T singhua U niv (Sci& T ech),
2005 年 第 45 卷 第
S
1期
2005, V ol.45, N o.S1
21/39
1823-1827
基于投影寻踪回归文本自动分类的模型
廖海波
1
, 万中英
2
, 王明文
1
(1. 江西师范大学 计算机信息工程学院, 南昌 330027; 2. 江西师范大学 物理与通信电子学院, 南昌 330027)
收稿日期: 2005-05-20
基金项目: 教育部重点科技资助项目 (03070);
江西省自然科学基金资助项目 (0311041);
江西师范大学校管课题青年成长基金 (1090)
作者简介: 廖海波 (1977-), 男( 汉), 江 西, 硕士研 究生。
通讯联系人:王明文,教授,
E
-
mail
:
mwwang
@
jxnu
.
edu
.
cn
摘 要: 文本被表示为向量空间模型后,是维数非常高的数
据,对其进行维数约简是必要的。投影寻踪正是一种稳健的、
非参数化的维数约简方法。提出了一种基于投影寻踪回归的
文本自动分类模型。应用该模型,可以真实地描述高维数据
的客观内在规律,从而达到提高文本分类精度的目的,岭函
数拟合函数的合理选择是提高分类精度的关键,故对拟合函
数的选取做了初步的研究。采用标准文档集
Reuters
-21578
进行了分类实验,同时在相同的预处理条件下,与目前常用
的方法进行了对比实验。实验结果表明,该模型对文本自动
分类具有较高的召回率和准确率。
关键词: 文本分类; 维数约简; 投影寻踪回归
中图分类号:TP391 文献标识码:A
文章编号: 1000-0054(2005)S1-1823-05
Automated text classification model
b as ed o n proje ction pursu it reg ress ion
LIAO Haibo
1
,
WAN Zhong ying
2
,
WANG Mingwe n
1
(
1
.
School of Com pute r Information Engine ering
,
Jiangxi Normal Unive rsity
,
Nanc hang 330027
,
China
;
2
.
Sc h ool of Physics and Com munication Ele c tron
,
Jiangxi Normal Unive rsity
,
Nanc hang 330027
,
China
)
Abstract
: W hen a text is expressed as a v ector space m od el, it
becom es high-dim ensional data. D im ensional reduction is a feasible
and effective m ethod of analyzing high-dim ensional data, and
projection pursuit technique is a statistical and nonparam etric
dim ensional reduction m ethod in w hich data do es not need to satisfy
norm al distribution hypoth esis. T his paper presen ts an auto m ated
text classification m odel based on p rojection pursu it regression. T h e
m odel can describe the external disciplinarian of high-dim ensional
data, and increase the precision of tex t classific a tio n . T h e
experim ental results sho w that the m odel h as high recall and
precision.
Key words
: text classification; dim ension reductio n; projection
pursuit regression
现有的应用于文本分类特征提取的算法有很
多,例如,主成分分析、
F isher
线性判别分析、潜在
语义索引(latent sem antie index, L SI)
[1]
等。这些算
法不仅可以降低计算复杂度,减少噪音数据对分类
效果的影响,还可以缩短计算时间。但是这些方法有
着其自身的缺陷,即它们都是建立在数据总体服从
正态分布这个假定基础之上的,而实际问题中有许
多数据是不满足正态分布假定的,因此需要用稳健
的或非参数的方法来解决这一问题。由于投影寻踪
方法本身不对观测数据作正态分布等假定,所以该
方法能充分地利用高维观测数据中的所有信息,特
别是可以利用常规方法无法利用的非正态和复杂的
非线性信息
[2 4]
。本文提出了基于投影寻踪回归的文
本自动分类模型。通过投影寻踪回归模型,可以真实
地描述高维数据的客观内在规律,从而达到提高文
本分类精度的目的。
1
投影寻踪回归模型
1989 年,
Peter H all
[5 ]
提出的投影寻踪回归思
想如下。
{
x
k
,
Y
k
}
n
k
=1
,
x
k
是
p
元函数,
Y
k
是一元函数。非
参数回归模型是
Y
k
=
G
(
x
k
)+ ε
k
, 1 ≤
k
≤
n
.(1)
研究的任务是估计
p
元函数
G
,
G
(
x
)=
E
{
Y
k
│
x
k
=
x
}。
G
是将
p
元变量映射成一元变量,那么可先将
p
元变量投影成一元变量,即取
u
=
θ
′
x
k
,再将这个
一元实数
u
送进一元函数
G
作映射。由于要选择投
影方向
θ
=(
θ
1
,…,
θ
p
), 使估计误差平方和最小,就
要寻踪,所以取名为投影寻踪回归。
目前最常用的回归模型是线性模型。在线性模
型中假设
f
(
x
)是
x
的线性函数,而在实际中
f
(
x
)