2009年 4月
第 32卷 增刊
北 京 邮 电 大 学 学 报
Journal of Beijing University of Posts and Telecommunications
Vo1.32 Sup.
文章 编号 :1007—5321(2009)增 一0049—04
数据挖掘 网格 中决策树并行算法设计及 性能分析
陈 平
(1.北 京 师 范 大学 信 息网络 中心,
, 乔秀全 , 刘
北京 100875;2.北京邮 电大 学
臻 ’ 田小萍
网络与交换技术国家重点 实验室 ,北京 100876)
摘要 :提 出了 C4.5决 策树算法 的一种并行算 法 ,使传统 的串行分类算法能在多 台 PC机和服务器组成的数据 挖掘
网格上并行数据挖掘 .采用数据纵横剖分 ,结合 递归过程 的并 行化 ,实现 了可 扩展的高性 能并 行计算 ,解决 了处理
海量数据时没有较好并行分类算法 的问题.并给出了指导该并行算法高效计算的方法.数据运行试验 和算法分析
表 明,该并行 算 法 的 性 能 受 多个 因素影响 ,并具 有 高效 的并行效率计算加 速比.
关 键 词 :数 据挖掘 ;网格计算 ;决策树 ;并行 性 能
中 图分 类 号 :TP302.7 文 献标 识 码 :A
Design and Perform ance Analysis of a Parallel Decision
Tree Algorithm on Data M ining Grid
CHEN Ping , QIAO Xiu—quan , LIU Zhen , TIAN Xiao—ping
(1.Center of Information and Network Technology,Beijing Normal University,Beijing 100875,China;
2.State Key Laboratory of Networking and Switching Technology,
Beijing University of Posts and Telecommunications,Beijing 100876,China)
Abstract:W orking on the group of personal—com puters and servers,a parallel C4.5 decision tree
algorithm is proposed. This algorithm made the parallel date mining run on the data mining grid
efficiently. A partition of vertical and horizontal method is introduced to parallel the procedure of
recursive algorithm .The algorithm is scalable and solves the situation of lack of efficient parallel
algorithm SO far.The analysis and experim ent for the parallel decision tree prove that the com pu—
ting efficiency is affected by several param eters and the algorithm has high performance and high
computing speedup. Guides to enhance the efficiency are proposed as wel1.
Key words:data mining;grid com puting;decision tree;parallel performance
引 言
数 据挖掘 算 法 包 含 经 典 的分 类 、聚类 、关 联 分
析 、神经 网络 等算法 ,还 有新 型 的基于 图的复 杂 系统
分 析算 法 ,其 中决策 树 算 法是 一 种广 泛 采 用 的 预 测
算法.复杂并 行计算 一直是数据 挖掘网格计 算研究
中有 待解 决 的问题 L1],海量 数 据 的处 理 和 挖 掘使 存
储 和计 算面 临 巨大 的挑 战 .如 果增 加 新的 中小型 机
器 ,其代 价 巨 大 ,且 没 有 充 分 利 用 现 有 的服 务 器 和
PC等 设 备.而数 据 挖 掘 网 格[1 能充 分 利 用 已有 计
算设 备架 设成 数据 挖 掘 网 格 ,具 有规 模 动态 扩 展 能
力 ,很好地 解决了海量数 据挖掘 的计算密 集需求难
