并行K均值算法在MapReduce文档聚类中的高效性

14 浏览量更新于2023-12-09 收藏 13.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

* Corresponding author.E-mail addresses: tanvir.cs@pace.edu.in (T.H. Sardar), zahid_cs@pace.edu.in (Z. Ansari).Peer review under responsibility of Faculty of Computers and InformationTechnology, Future University in Egypt.ScienceDirecthttp://www.journals.elsevier.com/future-computing-and-informatics-journal/0使用并行K均值算法分析MapReduce在文档聚类中的效率0Tanvir Habib Sardar, Zahid Ansari *0计算机科学与工程，印度芒格洛尔的P.A.工程学院02017年10月28日收到；2018年2月18日修订；2018年3月20日接受。2018年5月17日在线发布0摘要0聚类是重要的数据挖掘技术之一。由于各个领域的扩张和数字化，大型数据集正在迅速生成。传统的顺序聚类算法在处理时间上面对着大量数据集聚类的挑战。因此，分布式并行架构和算法对于满足大型数据集聚类的性能和可伸缩性要求是有帮助的。在本研究中，我们设计并实验了一个使用MapReduce编程模型的并行K均值算法，并将结果与顺序K均值进行了比较，以聚类不同大小的文档数据集。结果表明，所提出的K均值算法在聚类文档时获得了更高的性能，并在性能上优于顺序K均值。版权所有 © 2018 埃及未来大学计算机与信息技术学院。由ElsevierB.V.制作和托管。本文是根据CC BY-NC-ND许可的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。0关键词：MapReduce；Hadoop；并行K均值；文档聚类；分布式计算01. 引言0从数据集中提取知识，通过从数据中提取有用的模式来完成数据挖掘的任务[1]。聚类是数据挖掘和分析广泛领域中的一个主要研究领域之一。聚类将数据集的数据对象分成若干组或子集，使得特定子集中的对象彼此相似，并且与其他子集中的对象相比较不相似。聚类问题在不同领域中有许多应用，如图像分析、社会科学、网络技术、模式识别、电信等[2]。文档聚类产生包含相似文档的簇或组，使得簇中的文档包含相似的内容0与其他簇中的文档相比，文档的分组是通过数据集中文档文件中每个单词的出现来完成的。因此，聚类工作是确定具有许多相同单词的组，这是通过使用相似性度量来实现的，这是聚类算法的核心。文档聚类在各种需求中使用，如文档组织、文档浏览、文档的自动分层表示、信息过滤、搜索引擎结果生成、关键词提取、信息检索等[4,5]。最流行的聚类算法是K均值，因为它简单而高效[6]。ICDM会议将其列为前10大聚类算法中的第二位[7]。K均值算法将N个对象分成K个簇，保持对象的高组内相似性和低组间相似性。最初提供了k个簇中心（质心），K均值算法通过使用距离度量将数据对象放入一个组中，计算每个数据对象和质心之间的相似距离。0在线获取地址：www.sciencedirect.com0未来计算与信息学杂志3（2018）200-2090https://doi.org/10.1016/j.fcij.2018.03.003 2314-7288/版权所有 © 2018年埃及未来大学计算机和信息技术学院。由Elsevier B.V.制作和托管。本是一篇在CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）下的开放获取文章。201T.H. Sardar, Z. Ansari / Future Computing and Informatics Journal 3 (2018) 200e2090在许多可用的距离度量中，欧几里德距离是用于对象和质心之间的距离计算的广泛使用的度量[8]。K均值是一个迭代算法。在有限次迭代后收敛，或者如果满足收敛的先决条件。每次迭代都会提供一组对象到距离较低的特定质心。然后基于每个组的数据对象的平均值计算新的质心。这个新的质心被馈送到下一个迭代，依此类推。K-means的时间复杂度为O(nkt)，其中t是迭代次数[6]。许多领域的巨大发展和完全数字化变得不可避免，也是必须的。预计在不久的将来，数字化的趋势将覆盖技术的各个领域。由于科学实验室、工业制造过程、企业规划和管理、化学和制药、金融和保险、采矿、医疗保健、建筑、通信、农业、教育和娱乐等领域的数字化，数据集的大小以爆炸性的速度增长。数据规模的爆炸性增长使得现有的聚类算法在性能上变得不足[9]。经典的聚类算法在性能上存在不足，这导致企业失去时间，也失去了市场优势[10]。这种情况需要一个能够充分利用潜力的高效计算平台，同时考虑到与之相关的当前挑战。显然，我们需要将经典的聚类算法转化为专门设计用于大数据处理的高效计算平台。企业已经意识到，现有的集中式架构需要被分布式架构取代，以便有效地处理海量数据[11]。ApacheHadoop可以说是最有影响力、成熟和高效的大数据处理分布式计算框架[12]。Hadoop有两个关键组件：HDFS（Hadoop分布式文件系统）和MapReduce（分布式编程模型）。在分布计算过程中，HDFS负责划分数据集并将其发送到多个计算节点，并跟踪它们，而MapReduce在每个计算节点中处理算法步骤。在本研究中，我们提出了一种使用MapReduce编程模型的并行化K均值算法，并在Hadoop上执行。我们对不同数据大小的经典和修改后的K均值进行了执行时间的比较。本文的其余部分组织如下。第2节0提供了文献中提出的K均值的几种修改的快速见解。第3节提供了我们在MapReduce中的文档聚类研究的详细信息，特别是详细介绍了提出的算法。第4节提供了实验的观察和分析。最后一节总结了我们的工作。02. 文献综述0简单和高效使得K均值成为最受欢迎的聚类算法之一。它将簇的数量k作为聚类的先验输入。它选择k个对象，称为0质心，然后使用欧几里德距离计算每个对象到质心的距离。最接近的对象属于质心，形成一个簇。迭代执行此过程，直到达到有限次迭代或聚类标准[13]。传统的K均值在文档聚类中被广泛使用，并取得了良好的结果[33和35]。数据聚类算法在处理大型数据存储库时变得昂贵和缓慢。这种大量的数据存储库使得分析操作、检索操作和处理操作变得耗时和困难[14]。因此，必须开发高效、快速和有效的可扩展和并行聚类算法。还需要一个并行和分布式计算平台，以处理大量数据，并有效轻松地执行并行和分布式聚类算法。最近，许多作品修改了K均值，以便在不同平台上高效地对大型数据集进行聚类。一些作品修改了K均值算法，以进行顺序执行，其他作品修改了K均值算法，以在不同的并行和分布式平台上执行。以下是一些修改的评论和简介：K均值聚类对初始聚类中心的随机选择敏感。一般来说，聚类结果取决于早期质心值，但没有正式的规则来选择一组良好的初始质心。在Bradley和Fayyad的工作中，基于K均值的初步运行选择了初始质心，提供了更好的聚类结果。在[16]中，作者提出了一项研究，通过提出的ISODATA技术的集成和分裂过程确定k的正确值。这项工作是有效的，但它再次需要另一个用户提供的阈值来指定进程的数量。同样，Arthur和Vassilvitskii提出了k-means++，它提供了一种智能地从数据集中选择聚类中心的种子方法。它克服了由于初始质心值可能导致的糟糕的聚类结果。Kanungo等人使用k维树（kd-tree）数据结构修改了k-means，这使得k-means的每个步骤的执行更快。k-d树数据结构用于在k维空间中形成一定数量的点。k-d树首先存储所有数据对象，维护候选中心的子集。中心被过滤以传递给其子代。这棵树节省时间，因为它不需要在每次迭代时更新。corset点代表原始点的加权版本。为了加速k-means，Frahling等人使用coresets快速找到多个K值的相似点组。当用户在执行k-means之前不知道正确的K值时，这是很好和有用的。在[20]中修改了K-means，通过使用Minkowski度量去除了对噪声的敏感性。它使用Minkowski距离测量为每个聚类分配特征权重。在这种修改后的K-means中，Minkowski中的特征权重类似于经典K-means中的特征重新缩放因子。Likas等人提出了一项工作，其中维护了多个k-means过程，用于多个簇。作者建议修改0k-means可以并行执行，以获得效率。Zhang和Forman[22]观察到，对大型数据集进行聚类需要将聚类算法并行化。他们提出了并行k-means以获得大型数据集聚类的效率。设计了一个性能函数，该函数输入数据对象N和K聚类中心位置，以估计一个值M。输入数据对象在一组计算机（C）之间进行传播。根据性能函数值M，选择K个聚类中心，并在每个C中保持一致的副本。现在，每个计算机迭代地计算其N的全局统计信息S，该信息提供给性能函数。然后，在跨处理器求和后，S值被广播到所有计算机。根据S的值，每台计算机确定一个新的质心。这种方法的一个缺点是中心站点对于从/到远程站点的数据复制的计算和存储要求减慢了整个过程。k-means也可以使用其他并行计算架构（如OpenMP和MPI（消息传递接口））进行并行化，以获得效率。MPI为并行架构提供了消息传递编程模型。MPI模型对于创建高效且可扩展的并行应用程序非常有帮助。在[6]中，通过在k-means中添加合并算法，修改了MPI模型上的k-means。通过均匀分布数据对象到所有进程并复制质心，实现了数据并行化。在每次迭代后，通过合并算法对质心进行全局操作，该算法将来自每个进程的生成的质心集合合并成具有贪婪风格的最终质心集。然后输出K个质心，I/O执行时间和聚类时间。这项工作对于大型数据集是稳定和高效的。这项工作没有为不同进程数量的性能提供任何理论分析。类似地，在[23]中，MPI编程模型用于将k-means并行化，通过将算法作业分配给处理器并通过分布式内存访问以获得执行时间的加速。发现随着数据对象数量的增加，通信成本对整体聚类时间变得微不足道。k-means在不同的并行化平台上进行了实验，以比较它们之间的效率。在[24]中，作者在不同的并行框架（如OpenMP、MPI和Cuda-C）中实现了k-means，并比较了它们的性能。观察到对于小型数据集，OpenMP的性能最佳，而cuda在大型数据集上效果很好。类似地，在[25]中，k-means的并行版本在OpenMP、MPI和Cuda上执行，结果显示并行k-means的性能比顺序访问要好得多，并且性能随不同平台和硬件组合而变化。在[26]中，作者对并行化的三个标准框架进行了实验和比较：MPI、OpenMP和MapReduce。观察到对于小型数据集和足够的处理器核心和内存，OpenMP是并行化的最佳选择，而对于中等数据大小，MPI是一个不错的选择。还指出，对于现实世界的大型数据集，MapReduce比MPI更有效，0OpenMP。k-means最耗时的部分是迭代距离计算。[27]的作者观察到，通过算法的并行实现来优化这一迭代部分是获得效率的关键领域。在Hadoop分布式架构上修改k-means的要求如下：0�OpenMP和MPI只有在数据集的大小较小或中等时才能在聚类中发挥有效作用。Map-Reduce模型可以在处理大型数据集时实现主要性能提升[28]。�从对象到质心的距离计算是k-means中的迭代部分。因此，如果将距离计算部分设计为MapReduce并在Hadoop上并行执行，那么该算法将在聚类中获得效率[28]。�分布式架构中节点之间的数据分布和结果累积需要在编程中进行重大复杂操作，并对代码效率产生不利影响。因此，需要像Hadoop这样的分布式架构，它可以隐式地管理这些操作[29]。�分布式架构设计应该使用低成本商品硬件来放置节点，以便算法可以随时在任何地方执行。Hadoop集群可能是一个不错的选择[30]。�可伸缩性是分布式处理中的一个重要要求。Hadoop是可伸缩的，因为集群可以随时容纳任意数量的节点[31]。�容错性是分布式框架中的另一个重要因素。容错性保证了如果一个节点在算法执行时失败，那么节点内存中丢失的数据应该被恢复。Hadoop在节点故障时提供容错性[32]。03.方法论0在这项工作中，我们将传统的K均值算法修改为使用MapReduce范例的并行K均值，并在Hadoop平台上执行，以减少文档数据集的执行时间。本文的主要目标是发现所提出的k均值在不同大小的文档数据集上的执行时间上的聚类效率，与经典的k均值相比。这项工作的贡献在于将传统的K均值设计为基于MapReduce的K均值，该K均值适用于文档聚类的文本数据集的向量空间模型。我们相信，用于文档聚类的K均值的设计可以成为用于并行化其他聚类算法的框架。0A）Hadoop框架：Hadoop提供了一个简单但强大的分布式编程框架，用于并行处理大型数据集。它通过一组普通计算机的集群提供分布式存储和计算。集群中的每个节点都提供其自己的计算能力0202 T.H. Sardar，Z. Ansari /未来计算和信息学杂志3（2018）200至2090和集群中连接的节点的累积计算能力确定了Hadoop集群的总容量。Hadoop采用主/从架构（见图1）。集群中的一个节点由用户确定为主节点，而其他节点成为从节点。用户只通过主节点的命令界面进行交互，并且主节点与从节点协调存储和计算分配。例如，用户在主节点中存储数据集，并通过主节点执行程序。主节点的责任是将数据集分割到从节点进行计算，然后从从节点累积计算结果。存储和处理的能力由两个基本的Hadoop模块提供：�分布式文件系统：Hadoop分布式文件系统（HDFS）提供了Hadoop集群的数据存储和管理部分。集群中的每个节点都包含HDFS。在执行数据密集型应用程序之前，主节点的HDFS将数据集分割并将数据集发送到集群中的每个从节点。HDFS将数据分片复制到多个节点，以便在节点故障的情况下，可以从其他节点恢复数据。从节点可以相互通信以重新平衡数据，传输副本并保持数据复制。这样，HDFS提供了容错性和数据可靠性。�MapReduce编程模型：Hadoop架构使用MapReduce编程范式来跨多个连接的节点处理大型数据集。Hadoop数据处理部分由MapReduce提供。用户向主节点提交MapReduce作业。主节点将作业转移到可用的从节点中0集群。MapReduce编程模型的工作方式如下：MapReduce模型将输入作为一组<键，值>对，并输出<键，值>对集。每个数据处理算法都是使用两个函数在MapReduce模型上运行的：Map和Reduce。在将数据提交给mapper之前，数据应转换为<键，值>对，因为mapper只能处理它。当数据提交到HDFS时，为其分配一个键和一个值。数据集中一行的内容，除了行终止符被视为值，数据集行的起始偏移量被视为键。�Map函数：它接受一个输入<键，值>对，并输出一组中间<键，值>对。对于每个中间键i，收集所有中间值，然后提供给reduce函数。�Reduce函数：它接收来自mapper的键和一组该键的值，然后收集这些值以安排一组可能减少的值。通常，每个reduce调用提供零个或一个输出值。0一个基本的MapReduce数据处理方案在图中描述了0图2 .0B)提出的k均值算法执行阶段：在本节中，我们提供了基于MapReduce范式的并行k均值用于聚类大量文档数据集的必要细节。图3提供了使用并行K均值算法的步骤。0步骤1：预处理大量文档数据集：文档的文本数据需要经过预处理并转换为一种形式，以便k均值可以将其用作适当的输入。0图1. Hadoop主/从架构。0203 T.H. Sardar, Z. Ansari / 未来计算与信息学杂志3（2018）200-209“”……0适当的输入。在文献中，文档使用各种技术进行预处理，例如向量模型、图模型、词干提取等。K均值可以接受数值聚类输入。因此，数据集使用向量空间模型技术进行处理，该技术将数据集中的每个单词表示为其基于数据集中出现次数的归一化数值量。然后将归一化的数值量存储在文件中，然后通过HDFS提供为k均值的输入。文档数据集的转换适合于k均值的输入，因为它将数据集表示为一组多维数值向量值。这个多维向量由许多单一维度组成。一个维度是数据集中每个唯一单词（术语）的权重。“权重”反映了相应术语的相关性0在给定的数据集中。如果一个语料库包括n个术语，让t i，其中i = 1 …n，则来自该数据集的文档d将用向量来描述：d = {w 1 , w2 , … ,w n }，其中w n 是与术语t i相关联的权重。文档之间的关系程度可以用向量空间中相应文档的距离来描述。在实施广泛使用的预处理技术后，数据集被转换为向量空间模型，例如对文本进行标准化、使用Zipf's规则（对数缩放）去除频率非常小/高的术语、去除所谓的停用词、通过词干提取将单词减少到其根形式。步骤2：选择K个聚类质心：在执行算法之前，K均值需要提供输出聚类数。因此，我们提供了聚类数0图2.一个基本的MapReduce数据处理方案。0图3.使用并行K均值进行文档聚类的阶段。0204 T.H. Sardar, Z. Ansari / 未来计算与信息学杂志3（2018）200-209…0在算法执行之前的聚类质心K的数量。质心的数量K是由程序随机生成并存储在名为cluster_centroids的文件中。这些质心的值在map函数中的第一次迭代中用于并行k均值。随后的map操作将迭代重新计算聚类质心，并更新质心值，保持K的值不变。步骤3：k均值的MapReduce并行执行：预处理后的数据集生成输入文档数据集的数值向量表示，并将向量存储在名为input_data的文件中。然后从用户处输入聚类数k。从数据集中随机选择k个向量值，即聚类中心，并将其存储在名为centroid_data的文件中。input_data在从HDFS分割到从节点上，centroid_data通过HDFS复制到每个从节点上。我们的k均值在MapReduce中的并行执行是在一个10个节点的Hadoop集群上进行的。0实施将算法分为map和reduce部分的选择是有问题的。我们观察到0k均值的执行可以分为两个部分:首先，计算质心和数据集对象之间距离的并行和迭代部分，结果是将每个对象分配给最近的质心;其次是在每次迭代后将对象分配给质心后更新新的质心的顺序部分。根据上述观察，我们设计了并行k均值，使得map函数完成将每个对象分配给最近中心的工作，而reduce作业实现更新新的聚类中心的过程，直到它保持不变。图4中呈现了一个图示概述。当质心值保持不变时，表明聚类工作已成功完成，并显示结果。03.1.映射器算法0输入：一组以数字向量形式转换的文档对象O ={o1，o2，…，on}，随机选择的初始聚类中心C ={c1，c2，ck}0图4. Hadoop集群中的并行K均值迭代。0205 T.H. Sardar，Z. Ansari /未来计算和信息学杂志3（2018）200-2090输出：(Ci，Oj)的中间<键，值>对，其中1 ≤ i ≤ n且1 ≤ j ≤k。功能：03.2.减速器算法0输入：由映射器输出的<键，值>对，其中键=bestCentroid，值=分配给它的对象。0输出：<键，值>对，其中键和值分别是旧质心和新质心；mapper的bestCentroid用于计算新质心的值。功能：04.结果和分析04.1.实验设置0实验在一个由十个节点组成的Hadoop集群上进行。Hadoop集群中的节点配置为Intel Core 2 Duo CPU @ 2.53GHZ处理器，每个节点8GB DDR3RAM和80GB硬盘，端到端TCP套接字的带宽为100MB/s。使用的操作系统是Ubuntu 14.04LTS和Hadoop版本2.7.2。我们在这个实验中使用的数据集是新闻组文档。它包含来自不同类别的新闻，如体育，政治，宗教等。数据集的大小分别为100、250、500、750和1024兆字节。0类别，如体育，政治，宗教等。它有20个目录，每个目录包含特定类别的新闻。数据集是大量非结构化文本数据的集合。数据集包括100、250、500、750和1024兆字节的不同大小。04.2.实验结果及其分析0数据集大小的变化有助于有效评估我们提出的算法的性能增益。顺序k均值算法也使用相同的数据集和系统配置进行实验，并且呈现和分析了顺序和提出的k均值之间的性能差异。在表1中，提供了关于顺序和并行执行k均值的不同执行时间的观察。为了评估提出的k均值的性能，使用数据扩展方法进行评估。在我们的数据扩展实验中，针对固定大小的10节点Hadoop集群，分别对提出的k均值和顺序k均值执行不同数据集大小，并记录每个实验的执行时间。实验的结果执行时间提供了分析和评估提出的和顺序k均值之间性能差异的框架。0表1执行时间（秒）0算法观察数据集大小0100MB 250MB 500MB 750MB 1024MB0顺序k均值执行时间151 195 520 637 649比率1 1.3 3.4 4.2 4.3提出的k均值在10节点集群中执行时间为52 87 110 133 140比率1 1.7 2.1 2.52.7提出：顺序执行时间1:2.9 1:2.5 1:4.7 1:4.8 1:4.60206 T.H. Sardar，Z. Ansari /未来计算和信息学杂志3（2018）200-2090顺序k均值所花费的执行时间分别为100MB，250MB，500MB，750MB和1024MB的数据集分别为151，195，520，637和649秒，而提出的k均值分别为52，87，110，133和140秒。我们分析了所有实验中获得的执行时间，以检索提出的k均值的性能，并与顺序k均值进行比较。比率是一种有效的比较工具。比率表示两个数量之间的关系，即一个值包含或被另一个值包含的次数。为了对提出的k均值的性能进行批判性分析和评估，以100MB的数据集的执行时间作为单位，并使用比率计算和表示来比较其他数据集的执行时间。例如，提出的k均值对于100MB数据集的观察执行时间为52秒，被视为一个单位，并且其他数据集的执行时间是通过比率计算和表示进行比较的。顺序和提出的k均值的执行时间与不同数据集大小的比率也显示在表1中。还计算了顺序和提出的k均值之间的效率比率。从这个比率中可以直接得出提出的k均值相对于顺序k均值的性能增益。例如，250MB的数据集大小的顺序和提出的k均值之间的比率为1:2.5。因此，提出的k均值相对于顺序k均值的性能增益是顺序k均值的两倍半。提出的算法的执行时间明显低于k均值的顺序实现。对于100MB，250MB，500MB，750MB和1024MB的数据集，它比顺序k均值分别快2.9，2.5，4.7，4.8和4.6倍。还观察到，使用提出的算法进行聚类随着输入数据集变大而变得更加高效。例如，对于100MB数据集，聚类需要52秒，而对于1024MB数据集，即大10倍，只需要140秒即可完成聚类，这只是多出2.7倍的时间。这是因为MapReduce对大型数据集的效率更高。提出的算法的执行时间分别使用图5和图6的条形图和线图进行描述。0顺序k均值的时间分别用条形图和折线图在图7和图8中描述。很明显地从条形图和折线图中可以观察到，随着数据大小的增加，执行时间的增加并不是非常平坦的，即不能用一条直线的折线图来描述。数据集大小的执行时间的不均匀增加几乎发生在所有Hadoop集群中，因为集群中的节点除了MapReduce执行之外还必须承担许多其他开销。集群必须承担的一些开销包括系统进程和工具（如后台防病毒工具）执行的处理开销，不同优先级之间的节点之间的网络开销，Hadoop的复制因子，HDFS校验和等。05. 结论和未来工作0Hadoop集群的MapReduce编程模型是近年来分析大型数据集的一种流行趋势。使用MapReduce并行化聚类算法对于聚类结果的执行时间效率非常重要。本研究提出了一种使用MapReduce进行文档聚类的并行k均值算法，并将聚类作业的执行时间与不同大小的数据集的顺序k均值算法进行了比较。所提出的算法能够利用10个节点的Hadoop集群在短时间内对数据集进行聚类。实验结果给我们以下见解：0图5. 所提出的K均值执行的条形图。0图6. 所提出的K均值执行的折线图。0图7. 顺序K均值执行的条形图。0207 T.H. Sardar, Z. Ansari / 未来计算与信息学杂志 3 (2018) 200-2090文档聚类可以通过在k均值中编写适当的映射器和减速器部分来有效地在MapReduce中实现。所提出的k均值的效率在执行时间方面优于顺序k均值。与较小的数据集相比，所提出的算法在聚类较大数据集时更有效。从折线图和条形图中可以观察到，Hadoop集群的处理时间对于不同大小的数据集并不均匀，尽管使用相同的节点配置和相同的算法。0在本研究中，所提出的k均值只是为了在Hadoop上执行而进行了修改。k均值的固有问题被忽视和未解决。与顺序k均值一样，所提出的k均值在执行之前也需要提供k个聚类数。同样，所提出的k均值的聚类结果取决于初始质心的选择。对于所有研究工作，总是有许多可能性可以改进。作为未来工作，我们可以将所提出的算法和框架与以下提供的概念相结合：0提出的k均值可以进行修改，以便它可以自动确定聚类的数量，并根据数据集有效地选择初始质心。提出的k均值可以与层次聚类算法、群体智能、模糊逻辑、引力搜索算法、神经网络等技术相结合，以获得更高质量的聚类和效率。所提出的算法的优化也可以通过有效调整代码中的映射器和减速器的数量和/或在映射器和减速器之间添加组合器来完成。Hadoop提供了在磁盘、内存、网络和CPU上进行优化的选择。Hadoop集群可以针对每个特定作业进行优化，以获得更高的效率。0利益冲突0作者声明他们没有利益冲突。0道德批准0本文不包含任何作者进行的涉及人类参与者或动物的研究。0致谢0本研究得到了卡纳塔克邦政府 (GoK) 科学与技术愿景小组(VGST) CISEE (2015-16) 计划资助, GRD编号-461.0参考文献0[1] Shettar Rajashree, Bhimasen, Purohit V.适用于MapReduce的聚类算法综述. 国际会议计算系统用于健康与可持续发展;2015年4月. 第17-8页. 印度卡纳塔克邦班加罗尔. [2] Olman Victor, MaoFenglou, Wu Hongwei, Xu Ying. 应用于生物信息学的大数据集并行聚类算法.IEEE ACM计算生物学与生物信息学杂志 2009;6(2):344 . [3] Neepa Shah,Mahajan Sunita. 文档聚类: 详细综述. 应用信息系统国际杂志 2012;4(5):30 . [4]Sunita Bisht, Amit Paul. 文档聚类: 综述. 计算应用杂志 2013;73(11):0975 . [5]Michael Steinbach, Karypis George, Kumar Vipin. 文档聚类技术比较.KDD文本挖掘研讨会. 2000. 第400-1页 . [6] Jing Zhang, Wu Gongqing, HuXuegang, Li Shiying, Hao Shuilong. 一种带有mpi-mkmeans的并行聚类算法.计算杂志 2013;8(1):10 . [7] Wu Xindong, Kumar Vipin, Quinlan J Ross, GhoshJoydeep, Yang Qiang, Motoda Hiroshi, 等. 数据挖掘中的十大算法.知识信息系统杂志 2008;14(1):1. https://link.springer.com/journal/10115 . [8]Bawane Vinod S, Kale Sandesha M. MapReduce中的聚类算法: 综述.计算应用国际杂志 2015:0975. 国家计算机科学与工程最新趋势国际会议特刊(MEDHA 2015) . [9] Tanvir Habib Sardar, Ahmed Rimaz Faizabadi, ZahidAnsari. Hadoop框架上MapReduce范式数据处理分析, 新兴科学与工程国际会议(ICETSE e 2017) 由IEAE印度举办, 在卡纳塔克邦康尔格技术学院举行.印度新兴研究管理技术国际杂志 2017;6(5):922-7 . [10] Sulun Erhan.改进的K-means算法在大数据上的执行 (硕士学位论文).土耳其伊兹密尔理工学院伊兹密尔; 2004 . [11] Kumar Praveen, BarikerNirmala. 基于Hadoop的生物数据并行处理框架实现. 科学研究国际杂志 (IJSR)2015;4(4):1087 . [12] Willson Joseph C, Pushpalatha B.大数据和Hadoop综述. 创新研究计算机通信工程国际杂志 2017;5(3):5525 . [13]Habib Sardar Tanvir, Rimaz Faizabadi Ahmed, Ansari Zahid.MapReduce框架在集群分析中的评估. 2017年IEEE国际智能计算会议.印度坎努尔:仪器和控制技术 (ICICICT); 2017 . [14] Fahad Adil, Alshatri Najlaa,Tari Zahir, Alamri Abdullah, Khalil Ibrahim, Zomaya Albert Y, 等.大数据聚类算法综述: 分类和实证分析. IEEE新兴计算杂志 2014;2(3):267 . [15]Bradley PS, Fayyad UM. K-Means聚类的初始点优化. 机器学习国际会议论文集;1998. 第91-9页 . [16] Ball G, Hall D. 多元数据总结的聚类技术. 行为科学杂志1967;12:153 . [17] Arthur D, Vassilvitskii S. k-means++: 小心种子的优势.第十八届ACM-SIAM离散算法年会论文集; 2007. 第1027-35页 .0图8. 顺序K-means执行的折线图.0208 T.H. Sardar, Z. Ansari / 未来计算与信息学杂志 3 (2018) 200-2090[18] Kanungo T, Mount D, Netanyahu N, Piatko C, Silverman R, Wu A.一种高效的K-means聚类算法: 分析与实现. IEEE模式识别与机器智能杂志2002;24(27):881 . [19] Frahling G, Sohler C. 使用coresets的快速K-means实现.第二十二届计算几何年会论文集; 2006. 第135-43页 . [20] Amorim R, Mirkin B.Minkowski度量, 特征加权和K-means聚类中的异常簇初始化. 模式识别杂志2012; 45(3):1061 . [21] Likas Aristidis, Vlassis Nikos, Verbeek Jakob J.全局K-means聚类算法. 模式识别杂志 2003;36(2):451 . [22] Forman George,Zhang Bin. 分布式数据聚类可以高效且准确. ACM SIGKDD探索通讯2000;2(2):34 . [23] Dhillon Inderjit S, Modha Dharmendra S.分布式内存多处理器上的数据聚类算法. Springer. 柏林, 海德堡:大规模并行数据挖掘; 2002. 第245-60页 . [24] Bhimani Janki, Leeser Miriam,Mi Ningfang. 使用并行实现和GPU计算加速K-Means聚类. 高性能极端计算会议(HPEC). IEEE; 2015 . [25] Yang Luobin, Chiu Steve C, Liao Wei-Keng, ThomasMichael A, 等. 高性能数据聚类: GPU, RASC,MPI和OpenMP实现性能的比较分析. 超级计算杂志 2014;70(71):284 . [26]Kang, Ji Sol, Yeon Lee Sang, Lee Keon Myung. 实际问题中OpenMP,MPI和MapReduce的性能比较. 多媒体进展 2015;7 .0[27]田金兰，朱琳，张素琴，刘璐等。k均值聚类算法的改进和并行化。清华科技，2005; 10(13):277 . [28]周平，雷景生，叶文军。基于MapReduce和Hadoop的大规模数据集聚类。计算机信息系统杂志，2011; 7(16):5956 . [29] Marisiddanagouda M, Mr RaghuMT. HadoopMapReduce优化方法的性能调查。国际记录研究数学计算科学信息技术杂志，2015;2(1):114 . [30] Nagarjuna, Yogesh.Hadoop架构及其生态系统处理大数据的调查-真实世界Hadoop使用案例。国际科学研究工程技术杂志（IJSRET），2015;4(2):90 . [31] Verma, Jain.亚马逊Hadoop框架在业务中用于大数据分析。全球工程科学研究管理杂志，2017;4(5):131 . [32] Patil Vishal S, Soni Pravein D.Hadoop集群中的Hadoop骨架和容错。IJAIEM，2013;2(2):247 . [33]辛格，库玛尔维韦克，蒂瓦里尼莎，加格谢卡尔。使用k均值，启发式k均值和模糊c均值进行文档聚类。在：计算智能和通信网络（CICN），2011年国际会议。IEEE; 2011 . [34]辛格，哈迪普先生。通过实施K均值算法对文本文档进行聚类。流式信息海洋，2016年1月-6月;1(1) . [35] Balabantaray, Chandra Rakesh, Sarma Chandrali,Jha Monica. 使用K均值和K中值进行文档聚类。2015. arXiv预印本arXiv:1502.07938 .0209 T.H. Sardar, Z. Ansari / 未来计算与信息学杂志 3 (2018) 200 e 209

下载后可阅读完整内容，剩余1页未读，立即下载