书书书
第 38卷第 3期
2008年 5月
东 南 大 学 学 报
(自 然 科 学 版 )
JOURNAL OF SOUTHEAST UNIVERSITY(NaturalScienceEdition)
Vol38 No3
May 2008
分布式数据挖掘中的最优 K相异性取样技术
胡文瑜
1,2
孙志挥
1
张柏礼
1
(
1
东南大学计算机科学与工程学院,南京 210096)
(
2
福建工程学院计算机与信息科学系,福州 350014)
摘要:为了弥补基于集中式处理的分布式数据挖掘方法的不足,有效地实施分布式数据挖掘
(DDM)任务,需要一种能从分布式数据源中获取多样化代表性取样集的技术.提出了一种新的
适用于分布式数据挖掘环境的数据取样算法(OptiSimDDM 方法),算法核心是基于最优 K相
异性进行数据选择,采用移动 Agent技术和扩展的最优 K相异性数据多样化代表性子集选择方
法,能在各分布式数据场地中轮转选择出全局数据集的多样化代表性取样集.该方法通过降低所
挖掘的数据集的数据规模来降低数据挖掘算法的时空复杂度
,降低网络通讯代价,提高数据挖掘
的执行效率
,适合于各场地数据是互相关联和互相依赖的分布式数据挖掘任务.实验结果证实该
方法是可行、有效的.
关键词:分布式数据挖掘;最优 K相异性选择算法;Agent
中图分类号:TP31113 文献标识码:A 文章编号:1001-0505(2008)03038505
SamplingmethodusingoptimizableKdissimilarity
fordistributeddatamining
HuWenyu
1,2
SunZhihui
1
ZhangBaili
1
(
1
SchoolofComputerScienceandEngineering,SoutheastUniversity,Nanjing210096,China)
(
2
DepartmentofComputerandInformationScience,FujianUniversityofTechnology,Fuzhou350014,China)
Abstract:Asamplingmethodtoobtainadiversityrepresentativesubsetfromdistributeddatasources
isnecessarytoavoidtheshortcomingsofclientservemethodsbasedoncentralizeddatasetsandtoef
fectivelyperform distributeddataminingtasks.A noveldatasamplingmethodfordistributeddata
mining
,OptiSimDDM,isproposed.ItsmainideaisdataselectionusingoptimizableKdissimilarity
selection.TheOptiSimDDM isanintegrationofthetechnologyofmobileagentsandanextending
optimizable
Kdissimilarityselectionmethod.A diversityrepresentativesamplingdatasetselectedin
turnfrom distributeddatacitescanbegeneratedbyuseofthismethod.Apartfrombeingabletore
ducethecomplexityoftimeandspaceandtodecreasethecommunicationcostsaswellasimproving
theefficiencyofperformingdataminingtasksindistributedenvironmentbyscalingdownthedataset
fordatamining,theOptiSimDDM issuitableforthecasesthatdataminingisperformedonaspe
cialsamplingdatasetgeneratedbymeansofinteractionandintercombinationofsitesdatasetinthe
distributedenvironment.Theexperimentalresultsshow thatthenew methodiseffectiveandeffi
cient.
Keywords:distributeddatamining(DDM);optimizableKdissimilarityselectionmethod;Agent
收稿日期:20070924. 作者简介:胡文瑜(1963—),女,博士生,副教授;孙志挥(联系人),男,教授,博士生导师,sunzh@seu.edu.cn.
基金项目:国家自然科学基金资助项目(70371015)、教育部高等学校博士点科研基金资助项目(20040286009)、福建省教育厅科技资助项
目(JB06142).
引文格式:胡文瑜,孙志挥,张柏礼,等.分布式数据挖掘中的最优 K相异性取样技术[J].东南大学学报:自然科学版,2008,38(3):385 389.
所谓分布式数据挖掘就是使用分布式算法,从
逻辑上或物理上分布的数据源 中发现知 识的过
程
[12]
.现存的分布式数据挖掘方法中,常见的是
基于集中处理的分布式数据挖掘方法
[3]
(Client