2015年埃及信息学杂志：分布式关联规则挖掘系统在大型数据库中的应用效果和优化

168 浏览量更新于2023-12-10 收藏 1007KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志（2015年）16，297开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com全长文章分布式关联规则挖掘系统A.O. Ogundea，*， O. Folorunsob， A.S. 索迪亚ba尼日利亚奥贡州救赎营救赎大学计算机科学系b尼日利亚奥贡州阿贝奥库塔联邦农业大学计算机科学系接收日期：2014年9月17日;修订日期：2015年5月29日;接受日期：2015年6月30日2015年9月11日在线发布摘要通过现有的分布式关联规则挖掘系统从大型分布式数据库中提取模式和规则仍然面临着巨大的挑战，如高响应时间，高通信成本和无法适应不断变化的数据库。在这项工作中，分区增强挖掘算法（PEMA），以解决这些问题。在PEMA中，关联规则挖掘协调代理接收请求并决定要使用的适当数据站点、分区策略和挖掘代理采矿过程分为两个阶段。在第一阶段中，数据代理根据可用站点的数量和可用内存的大小，将平均事务长度较小的另一方面，具有相对较大的平均事务长度的数据库在此基础上，基于移动代理的关联规则挖掘代理，这是挖掘代理，执行本地频繁项集的发现在第二阶段，局部频繁项集通过从一个数据站点到另一个数据站点的增量集成得到全局频繁项集。这减少了系统的响应时间和通信成本在真实数据集上进行的实验结果表明，PEMA的平均响应时间比现有的算法有了改进同样，与基准DARM系统相比，PEMA的通信成本更低，交换的消息平均大小更低这一结果表明，PEMA可以有效地部署在分布式数据库中的有价值的知识的高效发现。©2015制作和主办由Elsevier B.V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http：//creativecommons.org/licenses/by-nc-nd/4.0/）。*通讯作者。电子邮件地址：ogundea@run.edu.ng（A.O. Ogunde）。开罗大学计算机和信息系负责同行审查。制作和主办：Elsevier1. 介绍数据挖掘是从大型数据库中提取隐藏的有用信息和规则的过程[1]。现在，许多企业和组织都依赖这些模式和规则来做出关键决策。关联规则挖掘是一种非常重要的数据挖掘技术。它试图找到频繁的关联，相关性，模式或http://dx.doi.org/10.1016/j.eij.2015.06.0061110-8665© 2015制作和主办Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词数据挖掘;分布式关联规则挖掘系统频繁项集;数据库划分;移动代理298A.O. Ogunde等人项目或对象的随意结构集合形成这样的数据库。关联规则挖掘一直是数据挖掘领域的研究热点。这种关联的一个例子是，一个项目集，影响另一组项目的购买[3]。在当今世界，大多数数据库现在都具有分布式特性，每个本地数据库存储其不断增加的日常数据量。鉴于此，使用集中式数据挖掘方法来发现这些组织的数据中的有用模式分布式数据挖掘因此成为数据挖掘研究的一个活跃的子领域。因此，迫切需要分布式数据挖掘系统，将减少分布式关联规则挖掘系统的响应时间和通信成本。移动代理是相对自治的实体，能够在它所感知的环境中执行操作。它们是控制线程，能够触发任意代码传输到任何远程计算机。为此，本文提出了一种基于移动Agent的分布式关联规则挖掘算法。2. 数据挖掘（DM）从数据库中的数据中提取有用和可理解的信息是数据挖掘的主要关注点[4]。可以部署机器学习算法来搜索可以在数据中展示的模式，并且随后导出知识。数据挖掘技术包括关联规则挖掘、聚类、分类、序列模式挖掘、时间序列挖掘等。根据Gharib等人的研究[5]，关联规则挖掘（ARM）在研究界受到了极大的关注。这些ARM方法在许多领域的应用中显示出非常有趣的结果根据Ahangar等人的研究[6]，数据挖掘的主要组成部分，如人工智能、统计学和机器学习已经发展了很多年，这些技术和技术的发展使得数据挖掘对于在数据存储环境中发现有价值的知识非常实用和有效在这一领域已经提出了许多DM算法，但没有一个可以说是在所有情况下最好的[7]。2.1. 分布式关联规则挖掘DARM是从分布式数据源中提取的半自动模式、知识和规则[8]。存储在组织的数据库中的数据的指数增长并不使得所有数据都驻留在存储器中成为可行的，如在大多数现有的DARM系统中可获得的。此外，出于容错目的，数据被固有地分发已经成为一个必要的问题。在多数据库挖掘环境中，通常需要处理多个大型数据库。这些问题的解决方案可以通过分析局部模式来获得[3]。2.2. 关联规则挖掘的数据划分方法Savasere等人。[9]是第一个提出ARM分区算法的人，但该算法没有分布式自然，而不是基于代理的。在此上下文中，数据库的分区是该数据库中包含的事务的任何子集局部和全局分区的其他定义与Savasere等人[9]的研究中定义的相似。其他研究人员如 Albashiri 等人 [10] ， Coenen 和Leng[11]以及Pudi[12]也致力于分区。大多数研究者提出的算法只是试图尽可能快地减少错误候选项的数量，但他们没有考虑优先将原始数据集的划分作为改进挖掘过程的一个主要因素Nguyen和Orlowska[13]建议，更仔细地查看数据可能是提高此类系统整体性能的一种方法。在这项工作中，提出了一种改进的方法，数据划分方法的基础上结合水平分区和垂直分区的数据集。这将大大减少局部频繁项集的数量，从而导致分区的更高的通用全局候选，因为分区大小被计算为适合可用的存储器空间。使用类似方法的研究人员并没有真正显示出划分数据库所考虑的此外，许多这些算法直接部署在远程，独立的机器上，而不是在一个分布式的设置，丁，因此不是基于代理的性质。这也是本文的另一个主要贡献领域，因为所提出的算法基本上是基于代理的，也适合于分布式设置。2.3. ARM算法中的数据划分与分布虽然在文献中已经提出了许多算法的ARM，大规模的数据库使得挖掘任务很难发生在一个单一的进程。这使得研究人员必须提出更有效的方法来执行此类采矿任务。人们相信，将大数据分布到较小的分区将增强和改善挖掘过程。文献中存在数据库的水平分区和垂直分区。Albashiri[7]，Coenen和Leng[11]致力于水平数据分布和分区方法。垂直数据分布和分区方法也由[7]和[14]探索。许多研究人员在文献[15-这些方法有计数分布、数据分布和候选数据分布.基于数据分布的DARM算法对候选项集和数据库进行分区，同时还使用并行系统的内存[18]。基于候选分布的并行/分布式ARM算法对候选项集进行划分，但有选择地复制数据库事务，以便对每个进程进行独立的挖掘。基于计数分布的DARM算法使用数据并行方法，对数据库进行水平分区，用于所有候选项集的局部扫描和检测[11，19，20]。通常，在许多情况下，使用移动代理可以实现分区，移动代理是位于特定环境中的计算机软件，具有在该环境中执行自主操作的能力，作为满足其设定目标的一种方式[21]。JADE是最重要的基于代理的平台之一[1]。分布式关联规则挖掘系统299不KKKK3. 方法传统Apriori对数据库进行多次扫描的主要原因是，要测试支持度的可能项集的数量呈指数级大，特别是如果要在数据库的单次扫描中完成。本工作中提出的方法基于Ogunde等人[22]早期工作的术语。它将整个数据库划分为更小的分区，可以在一次扫描中进行测试和挖掘。这具有非常大的潜力，尤其是当数据库中事务的平均长度PEMA使用水平分割来划分事务长度较小的数据库在一次扫描中，PEMA通过挖掘代理扫描数据库并在树结构中建立频繁项集的链接来生成所有潜在频繁项集的集合该频繁集是所有频繁项集的超集，这些频繁项集是局部分区中的频繁项集，当最终考虑整个数据库同样重要的是要注意，在该阶段没有报告假阴性在此阶段之后，由结果集成协调代理对频繁项集进行集成，建立项集并测量其实际支持度，而无需重新扫描数据库。3.1. 算法设计以下定义用于本工作的目的。数据库的分区pDB是指包含在数据库DB中的事务的任何子集任何两个不同的分区是不重叠的，即，p ip j= 1。项集的本地支持是包含该项集的分区中的事务部分局部候选项集是一个分区内的项集，正在测试其最小支持度。局部频繁项集是指一个分区中的项集，其局部支持度至少是用户定义的最小支持度。局部频繁项集可能是全局频繁项集，也可能不是全局频繁项集。项集的全局支持是DB中包含该项集的事务片段全局候选项集是整个DB中正在测试最小支持度的项集全局频繁项集是指其在整个数据库中的全局支持度至少为用户定义的最小支持度的项集为了找到所有全局频繁项集，使用以下符号：C p-划分p中局部候选k -项集的集合. F p-划分p中局部频繁k -项集的集合.F p-划分p中所有局部频繁项集的集合，C G -全局候选k -项集的集合.C G-所有全局候选项集的集合。 F G-全局频繁k -项集. F G-全局频繁项集的集合。单个项目集用小写字母表示，项目集的集合用大写字母表示注意当引用局部项集时，省略了分区号。使用以下符号：c[l]。c [2].. ... .. .... ... . c[k]表示由项c[1]，c[1]，c [2]和c [3]组成的k-项集c。[2]，.......c[k].3.2. The本节介绍PEMA的结构算法：PEMAP=分区数据库（T）;n=分区数;s=最小支持//第一节对于i=1到n，do {read_in_partition（PiinT）Fi=在主存中使用先验知识生成Pi的所有频繁项集//合并部分对于（k = 2; F i. . F i-1，i = 1，2，.. . ，n;k++） do {C：¼FGSK Kn我K i¼1K}//第二部分FG=/;对于i=1到n，do {在分区中读取（PiinT）6名候选人CeCG{如果s{C}TiPr，则//检查来自所有分区的全局候选项集的支持是否为Pmin-sup满足上述条件的{C}}返回FGFG=FG[{C};//生成全局频繁项集，//PEMA的工作过程如下：（p：database_partition，s：min_sup）Fp={频繁1-项集及其tidlist}1//tidlists对于（k= 2;FpK6itemsetsf1eFp {6itemsetsf2eFp {K-1如果f1[l]=f1[l]^f1[2]=f2[2]^. . . ^f1[k-2]=f2[k-2]^f1[k-1]=f2[k-1]，则K-1如果C不能被修剪，则c= f1[1]。 f1[2]。 . . f1[k-1]。f2[k-1]c.tidlist =f1.tidlist\f2.tidlist如果|c.tidlist|//下一页|p|P s然后Fp p}k-1k-1¼F[ fcg}}返回FSpk k-13.3. PEMA的水平分区算法组件PEMA的执行分为两个阶段。在初始挖掘任务的第一阶段中，当数据库相对较小时，挖掘代理在这完全取决于系统中可用数据站点的数量这简直是300A.O. Ogunde等人通过将整个数据水平分割成更小的分区来完成。通常情况下，所有站点的挖掘代理同时挖掘分区在第一阶段结束时，这些频繁项集被增量合并，以生成所有潜在频繁项集的集合在第二阶段，生成这些项目集的实际支持，并识别频繁项目集。分区大小的选择方式是每个分区都可以在主内存中容纳。在第一次挖掘时，每个数据站点的可用内存量也是确定可以从DB获得多少分区在这项工作中，挖掘代理检查系统以获得当前总可用内存空间，然后使用此信息将数据库划分为几个部分。这是为了确保在挖掘的第一阶段，每个分区都适合主内存。让整个数据库用ED表示，总可用内存空间用TAMS表示，单位为MB。让保留的内存表示为RM（它是正确的，以保留一定比例的内存，适当的内存使用和人工），这是一个百分比的总可用内存。如果采用该算法的基于移动Agent的关联规则挖掘Agent（MAARM）的规模用MA表示。为了计算分区的数量，将所有测量值都设置为相同的标准是合适的（为了这项工作的目的，最好以兆字节为因此，整个数据库的分区数（NP）由这里描述的公式给出，这是这项工作的另一个贡献。NP¼ ED=最大值-最大值ωRmin-最大值1应注意的是，ED、TAMS、RM和MA不是固定参数，但通常会因地点而异。这意味着NP在任何时候的值都取决于这些变量的值。例如，如果特定数据挖掘站点中整个数据库的大小为20 GB;挖掘代理的大小为800 KB;保留内存为10%;总可用内存空间的大小为1800 MB;则NP¼ 20000= 1800-1800ω 0：1 - 0：8 12： 35178NP向上近似于下一个整数。例如，本例中的数据库将被划分为十三个分区。下一件事是导出一个公式，用于计算特定分区p中的事务数。这里还假设整个数据库中的事务数量是预先已知的（对于大多数现实生活中的数据集来说因此，如果数据库中的事务的数量由NTDB表示;并且如上导出的分区的数量保持 NP ，则将在每个分区（NTP）中而不重叠的事务的数量用等式2中的公式计算。（二）、NTP/ NTDB= NP2000例如，如果上述示例的DE中的事务的总数是四十三万五千五百九十（435590）个事务，并且所计算的分区的数目是13，则每个分区中的事务的数目将是：NTP< $435590=13 < $33506： 92：该结果向下近似于最接近的整数，即来自上述示例的33506个事务。在该示例中很明显，前12个分区将具有完全相同数量的分区，而最后一个分区将具有比前12个多一点的其余事务。这将考虑第一近似的本文假设数据库位于辅助存储器上，同时也预先知道总的可用3.4. PEMA的垂直分区算法组件为了允许使用多个移动代理挖掘数据，需要由协调代理将不同的数据站点分配给每个在PEMA中，对于具有高平均事务长度的单个非常大的数据库，数据代理通过将数据中的列数除以可用数据站点的数量来垂直分区数据，以便生成相等数量的列。在数据尚未分发的情况下必须这样做。在这种情况下，算法执行得更快，因为完全消除了数据分区的时间。因此，在实践中，在大多数情况下，将数据分成相等的部分是最简单的。在不可能将数据精确地划分为相等列的情况下，从第一个站点开始重新分配剩余部分，直到无法再进行分配为止也就是说，如果数据的平均事务长度是AVL，并且我们有n个可用的数据站点因此，我们的分区数为ATL/n。例如，在我们有22列（或平均事务长度为22）的数据要在四个不同的数据站点之间垂直分区的情况下。第一个数据站点将有六列;第二个也将有六列，而第三和第四个将各有五列。PEMA中使用的水平分区或分割比PEMA的垂直分区组件更直接。PEMA假设使用的数据集是均匀和同质的;因此，记录的数量除以可用分区的数量，分配给每个挖掘代理进行挖掘任务。PEMA还优化了内存使用，如前所述。最后，应该注意的是，在这项工作中提出的系统工作在一个动态的方式，因为它执行水平段或分区的数据库通过数据代理，每当事务的平均长度在数据库是非常小的。对于事务长度较长的大数据，数据代理部署了数据的垂直分区，以提高挖掘算法的性能。PEMA的这种混合组件是在这项工作中所宣扬的新方法的典型它将数据集的水平分割，垂直分区和增量挖掘结合在一起。这是非常必要的，因为现实生活中的数据库通常分散在不同的位置。这项工作的一个独特之处在于，PEMA可以被部署来挖掘已经垂直分布在各种数据站点中的真实和合成数据集，并且/或者可以动态地和垂直地划分具有非常长的事务长度的非常大的数据集，例如。Covertype数据形成UCI机器学习存储库，同时根据可用数量分布式关联规则挖掘系统301-LG-的矿区。这是我们架构中数据代理执行的主要任务之一PEMA非常灵活，因为它不仅执行全局挖掘任务，还提供部分全局挖掘;数据挖掘器对挖掘所有数据部分或所有可用数据站点不感兴趣的情况。如第四节所示的结果所示，这很容易通过PEMA实现。3.5. PEMA中的消息通信大多数DARM系统的特征在于具有大量的发送和接收站点的消息的集合），取n为站点的数目，FL为第一局部频繁项集，F G为全局频繁项集，|F L|作为局部频繁项集的大小（在第一次整合之前，这将仅对于第一数据站点是需要的），以及|F G|作为全局频繁项集的大小（这的第一个实例是在第一次积分时得到的，其中我们有第一个中间全局频繁项集）。所有剩余消息大小的总和，n1个数据站点为我们提供了知识集成的总消息大小。因此，我们有总消息大小（Tmessage_size）的公式如下：在挖掘任务期间交换的消息。因此，重要的是要尽量减少在这项工作中交换的消息的数量和大小。在第2节已经描述的以前的工作中，代理或过程之间的信息交换消息大小n-1i¼1n-ið4Þ在系统中需要在它们之间发送消息在我们的设计中，使用了优化的一对多数据交换方法。在这里，系统中的代理不需要交换数据，直到最后的结果整合阶段。结果集成代理不必等待所有挖掘以在本地站点完成，而不像以前的工作，在以前的工作中，过程或代理必须等待才能读取它们的消息并执行它们的任务。每个挖掘代理在数据站点本地执行其任务，并等待结果集成代理根据其本地结果可用的站点将全局结果从一个站点递增地整理到另一个站点。在PEMA中，全局结果通过结果集成协调代理从一个站点到另一个站点进行增量集成，交换的总消息表示站点数量减1。也就是说，给定n个站点，总的数据交换将只需要n1个操作。这由图1示出。这仅仅意味着给定10个数据站点，系统交换的消息总数将是9。这种方法的主要好处是它涉及更少的信息交换。该系统甚至表现得更好，甚至与越来越多的数据网站。从每个分区或数据站点，PEMA从两个站点的增量集成中删除了不相关项，然后将结果留在主存储器中。期间两个站点的知识集成，将局部频繁项集插入到主存储器中。在插入这些局部频繁项集时，它检查它们是否已经在内存中。如果是，则将该本地频繁项集的计数器增加1。否则，它将本地频繁项集插入到主内存中，计数等于1。因此，给定总共n个站点，站点之间交换的消息总数等于（n-1）。测试消息没有四分之一-1分之一。...... ..... ...... ..... ......这是什么？.ð3Þ我们计算知识集成的总消息大小如下。要计算总消息大小（3.6. 使用PEMA代理的PEMA中使用的代理类型如下：用户代理（UA），关联规则挖掘协调代理（ ARMCA ），数据代理（ DA ），基于移动代理的关联规则挖掘代理（ MAARM ），基于移动代理的结果报告器（MARR），结果集成协调代理（RICA），注册代理（RA）和自动挖掘激活代理（AMAA）。所有代理都是在开发环境 JADE 中创建的，并向注册代理（RA）注册。用户代理（UA）提供了系统、用户和DARM系统其他组件之间的接口数据代理（DA）提供了DARM系统其它组件与输入数据之间的接口。MAARM代理是在数据站点自动或响应用户请求执行ARM任务的处理代理。DARM过程开始于（i）在更新的数据库中达到指定的百分比增量后，AMAA自动启动挖掘过程，或（ii）用户启动DARM请求。这将由用户代理接管。在第一种情况下，AMAA通过启动ARMCA自动启动挖掘过程，ARMCA根据数据代理向ARMCA确认的可用数据分区的数量启动执行DARM任务所需的MAARM。用户代理接收到用户请求的通知，并在第二阶段启动ARMCA又根据可用数据分区的数量启动执行DARM任务所需的ARMCA将MAARM的副本发送到指定用于采矿任务的所有数据站点。每个MAARM接受请求，前往数据分区并开始挖掘过程，以生成本地频繁项集。完成后，MAARM将结果交付给MARR，后者仅将局部频繁项集的结果信息传递给ARMCA图1在PEMA中交换的消息数.X302A.O. Ogunde等人表1Pima-Indian-Diabetes数据的特征。项目数768条记录平均交易规模8地生命捐赠日期下载时的网页点击次数Filamenta pima.T768L8表2字母识别数据的特征。项目数记录数20，000平均交易规模区域计算机捐赠日期截至下载时的网络点击次数77 051次T20000L16图2系统的代理体系结构。进行处理和协调。ARMCA使用结果信息确定这一结果被发送到RICA，它在结果站点进行知识整合，每次采取两个站点，由ARMCA确定。重复此操作，直到所有结果合并在一起以获得全局结果。RICA将全局挖掘结果发送到ARMCA，ARMCA又将其发送到UA或AMAA，这取决于这两个代理中的哪一个启动了挖掘过程。这一描述由图2概括。二、4. 系统实现本节描述了基于第三节中描述的算法PEMA设计的简单实验系统的输入是由位于单个或多个数据站点的数据组成的DARM任务。每个数据服务器都有一些特定的数据和资源需求，在挖掘任务开始之前必须满足所有这些需求关联规则是在分布式数据库服务器上挖掘的，每个服务器都有一组数据大小（可能不同）。数据库服务器的设置和数据大小都是静态的，所有服务器上都可以获得此然而，在服务器的负载条件可以随时间而变化。该系统的目标是尽可能快地完成所有的DARM任务通常，DARM任务由挖掘代理完全执行执行DARM任务的挖掘代理迁移到具有挖掘任务所需数据的服务器，并尝试生成频繁项集。如果数据站点上的所有必要资源都可用并且环境有利，则执行挖掘任务否则，数据服务器环境被感测以了解环境变化是什么，并且挖掘代理可能必须使用编程到其中的硬编码指令来适应变化的环境。4.1. 数据集描述这项工作中使用的数据集是从机器学习和智能系统中心托管的流行 UCI 机器学习库下载的真实数据集[23]。四个主要的基准数据普遍用于分布式关联规则的实验下载，并用于所有的实验。它们是Pima-印第安人-糖尿病，字母识别，连接-4和封面类型。这些数据集特征的完整描述见表1 - 4。分布式关联规则挖掘系统303表5datasite1（主机系统）的描述。硬盘400 GB内存3gb处理器2核客户操作系统Windows 7家庭高级版4.2. 执行工具为了实验的目的，在这项工作中开发的系统Java开发工具包（JDK）6，Netbeans 7.2用于前端应用程序。采用JADE 3.7作为多Agent系统开发的中间件平台。分布式数据库的仿真采用 VMware 后端数据库使用WampServer 2.2版和MySQL 5.5.24版。数据离散化/规范化工具用于规范化和离散化数据，以便于挖掘。4.3. 分布式数据站点一个名为VMWare Workstation 7.0.1版的软件工具被用于创建存储数据集的分布式环境。在三台虚拟机和主机系统上共创建了四个数据站点。数据站点的配置如表54.4. 数据预处理对数据进行离散化和规范化处理，对挖掘数据进行数据规范化工具集成到数据代理中，用于PEMA中使用的数据的数据离散化和规范化。使用的工具是一个利物浦大学计算机科学-数据组知识发现（LUCS-KDD）的开源独立Java应用程序，用于数据离散化/规范化软件版本2[24]。4.5. 实验实验旨在分析以下因素的影响：数据源的数量、数据集的大小（以记录数量表示）以及数据集的大小（以项目数量表示）。所描述的所有数据集都用于一个实验或另一个实验。所有实验都在四个虚拟机上进行，这些虚拟机运行在Intel（R）Core（TM）i5- 2450 M CPU@2.50GHz，2501 MHz，2个核心，3个逻辑处理器奔腾（R），6 GB主内存，运行于Windows 7家庭高级版。用于实验的数据集分布在创建的四台虚拟机器上。针对一个或多个实验测量以下内容：（i）响应时间（秒/毫秒），（ii）通信开销（交换的消息的数量和大小）。实验是通过根据所使用的特定数据集在总事务的0%和100%之间改变最小支持阈值来执行的。本文第三部分描述的PEMA算法的ARM结果与其他现有的最先进的算法，如Apriori，AprioriTFP和FP-Growth的性能进行了比较。4.6. 结果和讨论本节描述了PEMA系统和根据所述数据进行的各种实验获得的结果。如第3节所述，本工作中描述的系统本节的第一部分将专门讨论结果表3connect4数据的特征。项目数记录数67，557平均交易规模42区域游戏捐赠日期下载时的网页点击次数29 935 Filmconnect4.T67557L42表4covertype数据的特征。的项目记录数平均交易规模捐赠日期下载时的网页点击次数文件名120581,01254生活1998-08-0139,247封面T581012L54表6数据库描述硬盘100 GB内存1gb处理器1客户操作系统Windows 7旗舰版表7数据库描述3.硬盘100 GB内存1gb处理器1客户操作系统Windows 7终极版表8数据库描述4.硬盘100 GB内存1gb处理器1客户操作系统Windows 7旗舰版304A.O. Ogunde等人通过比较所提出的算法PEMA三个已经存在的算法，即AprioriT，FP-Growth和AprioriTFP。4.7. 基于ARM的PEMA算法性能分析两个主要的数据被用于实验本地ARM的挖掘算法。数据是Pima-Indian- diabetes和字母识别数据。4.7.1. 对pima-印第安人-糖尿病数据第一个实验是在pima-Indian-diabetes数据上进行的，这是一个相对较小的数据，min_sup在总事务的10%到50%之间变化，而min_conf固定为80%（图3）。第二个实验也是在相同的数据上进行的，min_sup在总事务的10%到50%之间变化，而min_conf固定为60%（图2）。 4）。实验结果表明，PEMA的响应时间优于其他三种算法。还注意到，从 20% min_sup 向上，性能与AprioriTFP相当随着min_sup的增加，所有算法获得的响应时间都减少这是由于搜索空间随着支持的增加而变得非常小，这实际上是非常低的响应时间的原因4.7.2. 在字母识别数据第一个实验是在字母识别数据上进行的，这是一个相对较大的数据，大约有20000个事务，min_sup在总事务的10%和50%之间变化，而min_conf固定为80%。第二个实验也在相同的数据上进行，min_sup在总事务的10%和50%之间变化，而min_conf固定为60%。结果显示在Fig.获得了5和6。这些结果表明PEMA算法的性能优于其他三种算法。同样清楚的是，随着min_sup增加，算法之间存在逐渐收敛。4.9. DARM实验DARM实验也在剩余的数据集上进行，这些数据集是connect4和covertype。使用20%的最小支持度和80%的最小置信度作为PEMA的默认值。这些实验的结果也在以下小节中示出。这里应该注意的是，这些值可以在需要时由用户随时改变。图3不同min_sup和80% min-conf图5算法在不同min_sup和80% min-conf的字母识别数据上的性能研究图4不同min_sup和60% min-conf图6算法在不同min_sup和60% min-conf的字母识别数据上的性能研究分布式关联规则挖掘系统3054.61.三种基准算法的PEMA性能研究PEMA还针对Venkatesan和Ramaraj[25]在挖掘connect4真实数据集上获得的结果进行了测试。min_sup参数在 10% 和 80% 之间变化，而 min_conf 固定为 80% 。PEMA将connect 4数据分发到四个可用的数据站点;在获得全局结果之前并行执行挖掘。结果（图7）表明，PEMA的响应时间在数据上是最好的。这显然是由于数据具有最少的事务总数和最小的平均事务数。此外，当min_sup较低时，由于数据的4.6.2. PEMA在多个站点上图图8和图9示出了针对PEMA和另外两种基准DARM方法 FDM 和 DDN 进行的放大实验，如 Deypir 和Sadreddini [20]的研究中所示。实验的目的是研究可用数据点的数量如何实验中使用了Connect4数据集在min_sup和min_conf设置分别为80%和100%的情况下，考虑了通信的运行时间和消息大小。该实验的结果表明，对于相同的数据集，每种方法的响应时间都随着分布式站点数量的增加而提高（图8）。这表明，对于大型数据集，尤其是具有高平均事务长度的数据集，该算法将有效测试PEMA与其他三种方法如果将数据分发到若干地点并进行挖掘，然后将结果综合起来，生成所需的全球知识，则效果会更好还观察到，PEMA的性能远远优于其他两种方法; FDM在分布的站点数量最少时（即只有两个站点）的性能最差。关于相同的实验，还测量了在交换的消息的大小方面的通信开销得到的结果表明，对于FDM和DDN，交换的消息的大小随着站点数量的增加而增加（图1）。 9）。PEMA也有最好的性能，随着站点数量的增加，交换的消息大小的增加非常小这实际上是因为PEMA是完全基于代理的，并且消息交换只会严格发生在知识集成阶段。4.6.3. 基于通信开销的性能研究进行了实验，以测量所提出的系统的通信开销与文献中通常用于相同目的的另外两个小的真实数据集[26，27]。图10示出了在Connect4数据集上进行的实验的结果，其中在min_sup在75%和90%之间变化并且min_conf设置为100%的情况下测量了根据所交换的消息的大小的通信开销的分布式站点上的FDM、DDN和PEMA性能（Min_Sup = 80%）20001800160014001200108Apriori Trie6FP-生长4BitSearch2个PEMA100080060040020002 3 4研究中心数量FDMDDNPEMA05 10 15 20 25最小支持率（%）图9网站数量（消息大小）的放大实验。图7 PEMA与三种基准算法的对比。分布式站点上的FDM、DDN和PEMA性能（Min_Sup = 80%）4000300014012010080PEMA在Connect4数据集上对三种基准方法CD2000100002 3 4研究中心数量FDMDDNPEMA604020075 80 85 90最小值-最大值（%）FDMODAMPEMA图8关于站点数量的放大实验（响应时间）。图10 connect4数据集上四个DARM方法的通信开销。响应时间（秒）响应时间（秒）消息大小（字节）x 106邮件大小（KB）306A.O. Ogunde等人该实验的结果表明，对于 connect4 数据集和75%min_sup阈值，除了PEMA之外，所有方法都交换了高数量的交换。此外，对于所有四种方法，随着最小支持阈值百分比的逐渐增加，交换的消息大小得到了显著改善PEMA即使在75% min_sup阈值下也具有最佳性能，并且随着其增加而略有下降。另一方面，图11显示了在covertype数据集上进行的类似实验的结果，这在第4.1节中进行了描述。从这个结果来看，所有四种方法的性能都随着最小支持度阈值的增加而提高，交换的消息的大小随着最小支持度阈值的增加而减少。PEMA即使在75%min_sup阈值下也具有最佳性能，交换了大约1.2KB的消息。随着最低支持阈值的增加，PEMA交换的消息大小后来下降到大约1千兆字节4.6.4. PEMA在三种不同数据集PEMA的性能也使用三个不同的真实数据集进行了测试，如前所述。min_sup参数在10%和80%之间变化，而min_conf固定为100%。结果（Fig. 12）表明，响应时间是最好的皮马印度糖尿病数据。这显然是由于数据具有最少的事务总数和最小的平均事务数此外，当min_sup较低时，由于数据的平均事务长度较高，connect4数据返回的响应时间PEMA在覆盖型真实数据集50405. 结论本文对数据挖掘中的分布式关联规则挖掘领域进行了研究该综述显示，大多数现有的DARM系统在数据库大小和内存挑战方面存在问题，这使得它们在现实生活中的场景中无效因此，这项工作通过利用移动代理的力量来解决这些挑战中的一些，移动代理被编程和部署以执行DARM任务。从这项工作中进行的实验获得的结果表明，PEMA在该领域的其他基准算法，如Apri-ori，AprioriTFP和FP-Growth，当在真实数据集上测试时，在算法的总响应时间方面表现出色。从比较PEMA与现有的DARM算法得到的进一步结果PEMA采用了将非常大的数据垂直划分到分布式数据站点的逻辑，并且比CD和DDN等方法表现得更好，这些方法对相同的数据进行水平分割我们可以得出结论，对于大型数据库，基于移动代理的垂直分区的数据集总是会产生更好的结果比水平parti- tioned数据集的响应时间和通信开销。从结果中还观察到，随着更新数据库的大小变得越来越大，PEMA比现有方法更好地扩展。最后，在PEMA中，该方法的可扩展性和效率也得到了适当的解决。此外，实现了DARM任务的有效分布和并行化，提高了系统的灵活性和可用性，降低了分布式关联规则挖掘任务的响应时间和通信开销。最后，由于PEMA假设了均匀的DARM环境，因此进一步开展这项工作的一个有趣方向是设计一种改进的PEMA，30201000.2 0.4 0.60.8最小支持率（%）CDFDMODAMPEMA驻留在异构环境中的数据模式未来的工作还将研究分布式挖掘和安全问题，在云计算环境中的DARM任务外包。引用图11覆盖类型数据集上四种方法的通信开销AMAARMD算法在三种真实数据集10.9[1] 沙克舒基湖评估代理工具包的方法。在：基于知识的智能信息和工程系统的程序。Springer; 2005. p. 941-9，4694/2010.[2] 王文，王文，王文.基于全同态加密的两方关联规则挖掘。Elsevier J：DataKnowledge Eng 2015;76-78：1-15.[3] 放大图片作者：Adhikari A，Adhikari J，Pedrycz W.多数据库中的数据分析和模式识别。智能系统参考0.80.70.60.50.40.30.20.1010 20 30 40 50 60 70 80最小支持率（%）PIMA_印度_糖尿病联系我们GNITIONCONNECT4library 61 ， @ Springer International Publishing ， Switzerland;2014. p. 21比42[4] 作者：Sarah S. 大型数据库中关联规则挖掘算法的里程碑研究。Int J Comput Appl2012;47（3）：12-9.[5] [10]杨文辉，王晓刚，王晓刚.一种有效的时态关联规则增量式挖掘算法。Data Knowledge Eng 2010;69：800-15.[6] Ahangar YB，Motameni H，Varzi RA.使用H-均值和W-K-均值算法识别Mazan-daran电信公司固定电话用户。国际机械电子学杂志，计算机图12在三个真实数据集上的性能。Technol2013;3（7）：1068-79。消息大小（字节）x 106响应时间（秒）分布式关联规则挖掘系统307[7] 阿尔巴希里EMADS：多主体数据挖掘问题研究博士论文，利物浦大学，利物浦L 69 3BX，英国; 2010年。[8] 杨文，李文，等.基于移动代理的分布式数据挖掘系统的设计与实现 . 北京：北京大学出版社， 2001 国际会议WWW/Internet 2003; 2003.[9] Savasere A，Omiecinski E，Navaras S.大型数据库关联规则挖掘的一种有效算法。载于：

下载后可阅读完整内容，剩余1页未读，立即下载