第 4卷第 2期
2009年 4月
智 能 系
CAAI Transactions on
Vol_4 № .2
Apr.2009
基 于支持 向量 数 据 描 述 的无 标 签数 据 多类 分 类
朱帮助 ,林 健
(1.五 邑大学 系统科 学与技 术研 究所 ,广 东 江 门 529020;2.北京航空航天 大学 经济管理 学院 ,北京 100083)
摘 要 :为 解决 支 持 向 量机 (SVM)在处 理 无标 签 数 据 多类 分 类上 的难题 ,提 出 了一 种 基 于支 持 向量 数据 描 述
(SVDD)的无标签数据 多类 分类算法.该方法 只需要建立一个 分类模 型就可 以实现 多类聚类分类.首先采用 主成分
分 析作数据 预处 理 ,提取输入数据 的统计特征值 ,得到主成分特征指标输入 到 SVDD分类器进行多类 聚类分类 .以珠
三角地区物流中心城市分类评价为研究对象 ,实证结果表明,采用 主成分 分析降低 了数据维度 ,有效浓缩了评估 信
息 ,SVDD分类器很好地 区分 了各 中心城市 ,实现 了多类分类 的 目的.
关键词 :多类分类 ;无标签 数据 ;支持 向量数据描述 ;主成分分析
中图分 类号 :TP18 文献标 识码 :A 文章编 号 :1673-4785(2009)02-0131-06
M ulti·class classification algorithm for unlabeled data using SVDD
ZHU Bang—zhu ,LIN Jian
(1.Institute of System Science and Technology,Wuyi University,Jiangmen 529020,China;2.School of Economics and Manage—
ment,Beijing University of Aeronautics and Astronautics,Beijing 100083,China)
Abstract:Support vector machines(SVM)may encounter problems in dealing with multi-class classification of an—
labeled data.So we suggested a new multi-class classification algorithm based on suppo ̄ vector data description
(SVDD)in this paper.Compared with other multi—class classification algorithms,the proposed algorithm only nee—
ded one classifier to complete the multi—class clustering classification.W ith this method,principal component anal-
ysis(PCA)was used to preprocess original data to extract statistically characteristic values;inputting these values
into an SVDD classifier completed multi—class clustering classification. Taking nine cities in the Pearl River delta
area as an example,an evaluation was made of the developmental levels of the logistics of these cities.The test re—
sults showed that data dimensions were reduced by using principal component analysis,and the evaluated informa—
tion was effectively concentrated by adopting feature extraction with PCA.Moreover,the SVDD classifier could dis-
tinguish the central cities very well,SO it can be used as an effective approach for multi-class classification of unla-
beled data.
Keywords:multi—class classification;unlabeled data;support vector data description;principle component analysis
多类分类 问题是 目前模式识别领域中的一个热
点与难点课题.基于统计学习理论 _1 的支持 向量机
(SVM)从新的角度有效地解决 了两类分类 问题.在
此基础上,一些学者开展了多类分类问题研究 ,提出
了一些具体的实现方 法 ,代表 性的有一 对多法 、一对
收稿 日期 :2008-07-12.
基金项 目:国家 自然科学基金资助项 目(70471074)
通信作者 :朱帮助.E—mail:wpzbz@126.tom.
一
法 、决策 树 法、Weston法 等 引.但 这些方法 通常
需要构造多个两类分类器 ,算法计算复杂度较高 ;此
外 ,这些方法无一例外都是有监督学习方法 ,需要为
每个样本附上类别 标签.但在 实际应用 (如 区域物
流 中心城 市分类评价 )中广泛存在着 大量 的无标 签
数据 ,上述要求常常很难得 以满足 J,因此在一定
程度上降低了这些方法的实用价值.
S
旺
报
学
统