第
40
卷第
5
期
2010
年
9
月
河南大学学报(自然科学版)
lournal
of
Henan
University
(Natural
Science)
基于
KNC
算法的中文网页分类方法研究
李灵杜海
)11
9f
1
,王琪
2
(1.河南大学计算机与信息工程学院,河南开封
475004;
2.
武汉大学计算机学院,武汉
430072)
Vo
l.
40
No.5
Sep. 2010
摘
要:针对中文网页分类问题,提出一种基于
KM
和
CV
的
KNN
改进算法-一
-KNC
算法.基于该方法的网页分
类实验结果表明
.KNC
算法在保持分类质量的情况下,较大地提高了分类的速度.
关键词:网页分类
;KNC;KNN
中图分类号
:TP391
文献标志码
:A
文章编号:
1003-4978(2010)05
一
0529
一
04
Research
00
Chioese
矶
T
ebpage Classificatioo
ßased
00
KNC
Algorithm
LI
Min
l
,
DU
Hai-shun
l
, W
ANG
Qi
2
(1.
College
of
Com
户
uter
and
lnformation
Engineering
,
Henan
University
,
Kaifeng
Henan
475004 ,
China;
2.
Shool
of
Com
户
uter
Science
,
Wuhan
University
,
Wuhan
430072 ,
China)
Abstract:
In this
paper
,
an
improved
KNN
algorithm
called K
Neighbor
in
Nearest
Cluster
Based
Centroid
(KNC)
which is based
on
KM
and
CV
algorithm
is proposed for Chinese webpage classification.
Through
the
experiment
with
Chinese webpage classifier based on this
algorithm
,
the
results
show
that
KNC
algorithm
substantially
improves
the
speed of classification, meanwhile
almost
completely preserves
the
quality.
Key words: webpage classification;
KNC;
KNN
目前,文本分类的研究己比较成熟,已有很多有效的分类算法
[1-3J
然而,网页分类要比普通文本分类复
杂的多.
Furnkranz
等人提出一种基于指向链接相关文本的网页分类方法川,该方法需要处理所有包含指向
链接的网页,所以计算量较大.同时,由于指向网页的主题有很大的游离性,故易引人噪音.另外,该方法不适
合链接稀疏的网页.范森等人将网页的文本和网页的一些结构信息进行了组合,提出一种基于朴素贝叶斯分
类器的综合网页分类方法
[5J
该方法的分类性能有所提高,但由于分类器性能不好估计,所以难以确定分类
器的协调和组合策略.
Slattery
等人提出一种基于
FOIL
归纳算法的网页分类方法
[6-
7]该方法学习到的分
类规则易于理解,但分类速度较慢,且查全率偏低.
Joachims
通过组合核函数的方法把
VSM
用于网页分
类[町,虽然准确率较高,但其训练时间太长,且核函数的构造通常只能依据经验.
在众多分类算法中,
KNN
作为一种简单、高效的分类算法,在文本分类中应用的十分广泛.很多研究都
表明,在
VSM
模型下
KNN
算法是性能最好的分类算法[口,将其作为网页分类器是很好的选择.然而
KNN
算法也存在着一些明显缺陷,人们对此提出过多种改进方法
[9-12J
本文针对
KNN
算法在中文网页分类上的
不足,提出一种基于
KM
和
CV
的
KNN
改进算法.
1
KNC
算法
针对传统
KNN
算法的主要缺点以及已有改进的不足,我们提出了一种基于
KM
和
CV
算法的
KNN
改
进算法一
-KNC(K
Neighbor
in
the
Nearest
Cluster
Based
Centroid)
算法,该算法既能最大程度地克服传
统
KNN
算法的缺点,又能较好地继承传统算法的优点.
收稿日期:
2010-02-25
作者简介:李曼
0976
一)
.男,河南开封人,讲师,硕士.研究方向:
Internet
信息处理和网络资源开发利用.