基于大数据技术的物联网离群点检测

170 浏览量更新于2023-12-09 收藏 838KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志21（2020）131基于大数据技术的物联网离群点检测Haitham GhallabSunday，Hanan Fahmy，Mona Nasr埃及开罗赫勒万赫勒万大学信息系统系阿提奇莱因福奥文章历史记录：收到2019年2019年11月3日修订2019年12月10日接受在线发售2019年关键词：物联网大数据数据质量异常值检测DBSCANRDDsA B S T R A C T物联网（IoT）是一种新技术的基本概念，在各个领域都有前途和意义。物联网是一种愿景，它允许配备传感器、执行器和处理器的事物或对象通过互联网相互交谈和通信，以实现有意义的目标。不幸的是，影响物联网的主要挑战之一是数据质量和不确定性，因为数据量增加了噪音，数据中的不一致性和冗余增加，并导致物联网技术的最重要问题由于物联网被认为是产生大数据的大量异构网络嵌入式设备，因此计算和分析这样的海量数据是非常复杂的为此，本文在DBSCAN算法的基础上，提出了一种新的模型NRDD-DBSCAN，利用弹性分布式数据集（RDDs）检测影响物联网技术数据质量的离群点。NRDD-DBSCAN已应用于三种不同的N维数据集（2-D，3-D和25-D），结果是有希望的。最后，将NRDD-DBSCAN与RDD-DBSCAN模型和DBSCAN算法进行了比较，证明NRDD-DBSCAN解决了RDD-DBSCAN模型的低维问题，也解决了DBSCAN算法无法处理物联网数据的问题因此，本文提出的NRDD-DBSCAN模型能够利用弹性分布式数据集（RDD）检测出N维数据集中的异常值，提高物联网应用和技术中数据的质量©2019制作和主办由Elsevier B. V.代表计算机和人工智能学院-埃及开罗大学。这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍如今，移动设备，计算机，微处理器和其他电子设备在我们的日常生活中变得必不可少，并且每个设备都因特定原因而能够连接到互联网，这导致创建一个合适的环境来开发和实施物联网（IoT）应用和技术[1，2]。物联网正面临着许多挑战和开放性问题，包括硬件、安全、隐私、异构性、虚拟化和数据分析挑战。本文重点关注物联网的数据分析问题;更具体地说，数据质量问题。由于数据质量问题包括*通讯作者。电子邮件地址： haitham. fci.helwan.edu.eg （ H.Ghallab ）， hanan.fci.helwan.edu.eg（H.Fahmy），drmona_nasr@fci.helwan.edu.eg（M.Nasr）。开罗大学计算机和信息系负责同行审查。不确定性问题、噪声、离群点、不一致性和缺失值，那么本文的目标就是离群点检测对数据质量的挑战。许多聚类算法用于检测离群值，在本研究中使用了基于密度的噪声应用空间聚类（DBSCAN）算法[3]。DBSCAN有几个好处，使它特别是在处理集群和离群点时，比其他聚类算法，这些好处是：它的能力，发现任意形状的集群，敏感的离群点和噪声的存在，最后，它的输入参数是简单的，不像其他聚类算法，因为在DBSCAN中，它不需要用户输入的集群数量作为输入参数，因为集群是在执行后确定的。DBSCAN在研究人员和开发人员中也很有名，DBSCAN最初是为了在单台机器上处理数据库而开发的，根据需要分布在多个节点上并并行处理的大型数据集的现状，这如表1所示。MapReduce是一种广泛使用的缩放算法范例，Dai和Lin[7]，Luo和Mao[8]分别提出了DBSCAN-MR和MR-DBSCAN算法。也https://doi.org/10.1016/j.eij.2019.12.0011110-8665/©2019制作和主办由Elsevier B. V.代表开罗大学计算机和人工智能学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com132H. Ghallab等人/Egyptian Informatics Journal 21（2020）131表1缩放DBSCAN算法。名称架构尺寸支持的距离[8]第八集MapReduce高欧氏第70集9.4 The Dog（2012）MapReduce高欧氏第15集5.1The Dog（2014）MPI高欧氏[16]第16集9.1MapReduce高欧氏[11]第11话：Apache Spark低欧氏[9]第九届全国人大代表MapReduce高任意对称已经提出了称为NG-DBSCAN [9]的算法，并且这些算法是DBSCAN的变体，其允许算法在Hadoop框架的顶部上运行，Hadoop框架是MapReduce范例的实现，但是Zaharia等人已经注意到MapReduce的限制和缺点之一是在算法的并行处理期间发生的所有动作和转换都是通过文件系统发生的，这导致高等待时间和高计算成本。虽然这些成本对于在相同数据上不进行多次迭代的算法来说是可以接受的，但是对于包括DBSCAN在内的迭代算法来说，这不是最好的解决方案，为了解决这一限制，Zaharia等人提出了一种解决方案，该解决方案是对于内存计算：弹性分布式数据集（RDD）[10]。弹性分布式数据集（RDD）通过利用RAM来处理大量数据，通过允许其动作和转换使用高速缓存来降低计算成本并使计算更快。Cordova和 Moh[11] 提出了一种名为 RDD-DBSCAN 的新算法，以克服MapReduce与DBSCAN的缺点，并使用RDD以并行和分布式方式进行处理。Cordova和Moh使用Apache Spark来实现RDD-DBSCAN，该Spark被认为是RDD的一种实现。另一方面，有一组研究使用MapReduce范式与其他技术和方法，而不是聚类技术，这些研究专注于为物联网应用构建异常检测引擎，例如异常检测引擎（ADE），用于通过使用时间序列模型检测物联网智能应用中的异常[12]。此外，Nesa，Ghosh和Banerjee使用了另一种依赖于统计学习模型的技术来检测物联网的离群值[13]。此外，Hasan，Islam，Zarif和Hashem比较了不同机器学习方法之间的性能，如逻辑回归（LR），支持向量机（SVM），决策树（DT），随机森林（RF）和人工神经网络（ANN），这种比较侧重于提出最合适的机器学习方法，可用于检测物联网站点中物联网传感器的异常[14]。RDD-DBSCAN的局限性之一是它仅适用于低维数据集，因为RDD-DBSCAN的一个阶段称为分区阶段，该阶段要求数据集必须以二维表示形式呈现以进行分区，否则分区会崩溃[11]。因此，本文提出了一种称为NRDD-DBSCAN的新模型，通过水平扩展DBSCAN来检测物联网应用中存在的离群值，并允许使用弹性分布式数据集（RDD）跨多个节点以分布式方式处理DBSCAN，NRDD-DBSCAN也可以应用于高维数据集，并已实现以解决RDD-DBSCAN的低维限制。研究分为：第一部分为研究背景; 2第二部分为提出的模型; 3第三部分为评价和结果; 4第四部分为研究的局限性和未来的工作。2. 背景关于物联网的架构以及对象如何通过互联网相互交谈和通信，有一些关键概念需要说明除了描述DBSCAN是如何扩展的，以及它如何从如此庞大的异构数据中检测离群值2.1. 物联网（IoT）物联网于1999年由Kevin Ashton首次提出，它被定义为通过射频识别（RFID）技术连接在一起的一组智能对象，但物联网的确切定义仍处于发展和形成过程中。物联网架构的设计由不同的层组成，这些层是：1) 感知层：是物理层或硬件层，包括配备传感器，执行器和微处理器的智能对象，这些智能对象生成和收集信息并感测事物的状态[18，19]。2) 网络层：允许事物通过无线或有线网络基础设施相互通信，交谈和共享数据，并了解其周围环境，然后数据被聚合，收集并发送到服务层[18，19]。3) 服务层：是用于监控、创建和管理应用程序和用户所需服务的中间件层[18，19]。4) 接口层：它允许异构事物之间的交换，通信和事件处理，而不管硬件平台和不同设备标准，它允许用户和应用程序之间的交互[18，19]。2.2. 弹性分布式数据集（RDD）物联网需要数以百万计的配备有传感器的对象来生成和收集数据，但是这些数据是如此庞大和复杂，以至于无法由传统应用程序处理，并且在数据分析、数据存储、捕获数据、查询、信息安全、隐私、搜索和可视化等方面引起了至关重要的问题和挑战。因为物联网正在处理大数据[20]。有许多工具，方法和方法[21]被引入来处理，存储和分析大数据。这些工具是Hadoop MapReduce和弹性分布式数据集（RDD）[22，23]。MapReduce通过三个主要步骤对大量数据进行可靠的计算：map、shuffle和reduce，但是MapReduce的主要限制之一是当实现需要在相同数据上多次传递的迭代算法时它是低效的，因为MapReduce在每次map之后将大部分数据写入磁盘，混洗和归约操作，这导致计算花费很多时间，并且随着在相同数据上通过的次数增加，迭代算法的性能变得更差[24，25]。然后弹性分布式数据集（RDD）[10]被提出来解决这个问题，RDD可能被认为是MapReduce的替代方案，它有四个主要特征：分布式数据收集、容错、并行操作以及使用许多数据源的能力，而不仅仅是Hadoop分布式文件系统（HDFS），此外，RDD不需要将文件存储在HDFS中，因此它执行操作的速度比MapReduce快，因为大部分数据在每次执行后都缓存在内存中。转换和操作，并且如果存储器被填满，它可以溢出磁盘，它在存储管理方面也优于其他方法，因为它应用了容错而没有数据复制。所以快速反应装置更适合-H. Ghallab等人/Egyptian Informatics Journal 21（2020）131133222-22能够承载任何迭代算法的环境比其他环境。因此，在本研究中，RDDs方法将用于实现NRDD-DBSCAN模型来检测离群值。2.3. 分区、块和集群由于在IoT操作期间生成的数据量是巨大的，并且为了通过使用DBSCAN算法来处理这样的数据，那么DBSCAN被水平地缩放，并且数据被分布并被分成几个分区，如等式2中所示。（一）.D¼p1[p2[p3···[pn1]其中D是指整个数据，p为1，2，3.. . n是指分离。此外，跨多个节点处理这些分区，并且每个单个节点在分配给它的分区上独立地应用DBSCAN，其中DBSCAN循环通过分区中的每个点并开始创建集群，其中每个集群涉及共享共同特征的点的集合，但是如果存在不属于分区中存在的任何集群的一些点（二）、[c2[c 3]··· [cn][o 1[o 2[o 3]···[on][o2]]其中P是指单个分区，并且c 1，2，3. n指的是簇，而o 1，2，3. n表示离群值（如果存在）每个聚类包括一组数据点，这些数据点具有与等式中相同的特征。（三）、C¼x1[x2[x3···[xn3其中C是指单个集群，x1、x2、x3和xn是指共享相同特征的数据点。最后，请注意术语chunk是术语partition的同义词。2.4. DBSCAN算法DBSCAN （ Density-Based Spatial Clustering of Applicationswith Noise）是一种基于密度的聚类算法; DBSCAN取决于两个参数：创建聚类所需的邻域，半径在一个点。关于DBSCAN有一些关键概念算法是：3. 所提出的模型NRDD-DBSCAN3.1. 概述DBSCAN算法不能应用于大数据，需要扩展和配置，以便以并行和分布式的方式跨多个节点应用，因此提出了NRDD-DBSCAN模型来检测离群值，并使用RDD 实现，该模型适用于n维，并使用Apache spark实现。NRDD-DBSCAN由三个阶段组成：数据减少和分配，本地聚类和数据聚合以及重命名，如图1所示。算法1描述了NRDD-DBSCAN模型的各个阶段Fig. 1. NRDD-DBSCAN阶段。1) 核心点：点p2x是一个核心点时，数量其半径内的邻居>= MinPts。2) 边界点：p点X是一个边界点，当pc1 clus-t和p不是核心点。3) 离群点：当p既不是核心点也不是边界点并且不属于任何簇时，点p X是离群点。4) 直接可达：当p是核心点且q在点p的邻域内时，点q X可直接到达p。5) 密度可达：点y X是密度可达到p，当p和q是核心点，q直接可达到p，y直接可达到q，y不能直接可达到p。DBSCAN的好处之一是它所以DBSCAN从一组未标记的点X={x1，x2，x3. xn}，并且输出将是标记点X={x1，x2，x3. 其中xn具有核心、边界或离群值的标志，并且在核心和边界的情况下，它将被分配给集群标识符，并且在离群值的情况下，它将被分配给1。可以使用许多方程来计算点之间的距离以确定某个点的邻居，本研究中使用的方程是欧几里德距离矩阵（EDM）[26]。算法1提出的NRDD-DBSCAN算法输入：一组点X = {x1，x2，x3 xn}，其中xn是无标记点，s是点内的半径，MinPts是创建聚类所需的最小点数rowsNumber是节点内存所需的行数，nodesNumber是工作节点的数量。输出：一组点O = {o 1，o2，o3 on}，其中on是一个离群值1. label edPartitions←£2. partitions←evenlyChunksX; rowsNumber;nodesNumberX3. foreach part2 partitions do4.fpng←DBSCANNER part;s;MinPtsRisk5.labeledPartitions← labeledPartitions[f png6. 恩德福尔7. aggregatedPartitions←聚合标记的分区;e;MinPtsign8. renamedPoints ← renamingPoints aggregatedPartitionsPoints第九章离群值←all -1valueinrenamedPoints134H. Ghallab等人/Egyptian Informatics Journal 21（2020）131←算法2以太坊块输入：一组未标记的点X= {x1，x2，x3. xn}其中xn是n维的未标记点，rows Number是适应节点内存所需的行数，nodesNumber是工作节点的数量输出：一组块C= {c1，c2，c3 cn}，其中cn是一个块或分区，其中每个分区包含许多可以适合节点空间内存大小的点1. 区块←£2. 减少的重复性数据←PCAPIX;2次3. sortedData ←sortingReducedDataByPC1简化的数据库4. numberOfPointsPerNode ←ceiling已排序数据：长度节点编号5. 如果numberOfPointsPerNode> rowsNumber，则6.nodesNumber¼ sortedData： length将行编号，然后重新计算;numberOfPointsPerNode7. end if8. for n2 nodesNumber do9.fcg ← splitPointsFromSortedData每个节点的点数10.块←块[fcg11. 返回块图二.第一阶段：数据缩减分配。1) 第一阶段：数据减少和分配该阶段分为两个子阶段：数据缩减和数据分配。数据分配过程要求将数据点表示为要聚类的二维方案，如图2所示。这种表示的原因是NRDD-DBSCAN使用二维表示用于有效的分区方案。然后，该阶段的第一步是将数据集的维度降低到2D数据集，PCA算法已用于此任务，因为主成分分析（PCA）[27，28]是降低线性高度相关的n维数据集的维度的强大工具，但由于内存和存储障碍，经典PCA算法无法应用于大数据[29]，然后在此阶段使用apache spark API（pyspark）[22]实现的大数据PCA算法。数据分配开始加载2D数据集并将其划分为多个均匀的块，但要考虑避免创建超过可用内存空间的分区，强制从磁盘加载RDD并否定RDD提供的速度优势，这是对已经加载到内存中的数据进行多次传递的能力。算法2以n维未标记数据集X= {x1，x2，x3，x4 xn}的输入开始，并且由于分配过程需要二维表示来将X数据集划分为均匀的块或分区。然后PCA[27，28]算法需要两个参数：n维数据集和划分所需的维数，即二维简化的数据PCA（X，2）。该研究使用pyspark[22]提供的实现的PCA API来进行大数据分析并减少X的维度，在减少过程PC1已经以ASC顺序排序以开始分配和分区阶段之后，sortedData现在准备好被分区为多个均匀地划分块，因为rowsNumber是负责确定块的大小并确保块的大小可以适合节点的空间存储器而不超过它的参数，并且nodesNumber是负责确定分区的数量并帮助计算每个节点的点数的参数，则将开始循环以将sortedData分割成多个部分（nodesNumber）或块，并且每个块包含numberOfPointsPerNode点，然后将每个部分分配给单独的节点以开始本地聚类。2) 第二阶段：本地集群在数据缩减和分配阶段之后，分区集合C = {c1，c2，c3c n }已生成，其中cn包含一组未标记的点，这些分区已准备好进行分配由于每个节点独立地工作并且每个分区不知道其他分区，因此每个分区中DBSCAN的结果将是一组点P ={p1，p2，p3pn}，其中pn是具有核心、边界或离群值的标志，并且在核心或边界的情况下，它将被分配给集群标识符，但是这些集群标识符仅对它们的分区是唯一的，并且这导致不同分区中的不同集群将具有相同的集群标识符。这并不意味着两个集群代表同一件事。为了解决这个问题，每个点必须由簇标识符和分区标识符标记为（PnCn），其中Pn是分区号，Cn是簇号，在离群值的情况下，标志值是（-1），然后局部聚类的结果是一组分区，其中每个分区具有一组点Pn，并且Pn具有核心、边界或离群值的标志，如果结果是核心或边界该值将是（PnCn），并且在异常值的情况下，该值将是（-1）。3) 相三：数据聚集和重命名此阶段有两个主要任务：数据聚合和数据重命名任务，数据聚合阶段分区P= {p1，p2，p3pn}，其中pn包括一组H. Ghallab等人/Egyptian Informatics Journal 21（2020）131135-图三. 数据聚合。标记的点xn，其中xn是核心、边界或离群点，在离群点的情况下，值将是（-1），并且在核心或边界点的情况下，结果将是（PnCn），其中P1 C 0意味着点属于分区（1），并且在该分区内，它属于簇（0），现在是将所有这些分离的分区聚合成一个的时候了，但是聚合过程面临的主要问题是边缘点聚类问题，边缘点是位于分区边界的一组点，边缘点可能是离群点或者属于一个簇，但是它面临着它可能属于边界之外的另一个簇的可能性。根据图 3，如果s为1且MinPts为2，则x_1，属于P1C1也属于P2C0，看起来也是异常值的x_6和x_7，但实际上它们属于包括看起来也是P2中的异常值的x_5和x_4的聚类，聚合过程开始分别通过除了最后一个分区之外的每个分区，它从第一分区P1开始，并得到最大的PC1值点，该点将是x_1，其被认为是P1的最后一个点，并且x_1也是将要建立startLine的位置。第一步是通过使用startLine得到所有的边缘点，然后从startLine到goBackO-neEpsilon和goForwardOneEpsilon减去和添加一个节点，然后它们之间的所有点（borderPoints）是唯一能够在两个分区P1和P2之间共享一个以上聚类的点，然后对于borderPoints内部的每个点x_n开始检查其邻居（通过使用欧几里得距离矩阵），并且如果邻居的数量大于或等于MinPts，则对于每个neighborPoint属于邻居，如果neighborPoint的分区与x_n点不相同。的分区，那么有四种情况可能发生：第一种情况，如果一个点是一个离群点（例如，x_6，x_7），并且可直接到达的邻近点也是异常值（例如，x_4，x_5），则x_6，x_7和x_4，x_5将是PiCj，其中i是新的唯一分区值，j是新的唯一聚类值，第二种情况，如果点是离群点并且其直接可达邻居在PnCn中，则该点将是PnCn作为其邻居，第三种情况，如果点是PnCn并且其直接可达邻居是离群点，则该邻居将是PnCn作为其核心点，最后一个条件，如果点是PnCn并且其直接可达邻居是Pn +1Cn，则属于Pn +1Cn的所有点将成为PnCn，因为在聚合之后，属于Pn + 1Cn的所有点将成为PnCn的密度可达点，例如，如果x_1属于P1C1，x_8属于P2C0，则x_8将与属于与x_8相同的簇的所有点一起被重新分配给P1C1，算法3中描述的数据聚集。算法3数据聚合输入：一组分区P= {p1，p2，p3. . pn}，其中pn是标记的点，s是点内的半径，MinPts是创建聚类所需的最小点数。输出：一组点Y= {y1，y2，y3. . yn}，其中yn是具有核心、边界或离群值标志的标记点，在离群值的情况下，标志将是（-1），并且在边界和核心点的情况下，标志将是（PnCn），其中Pn是分区号，并且Cn是群集号。1. 除了最后一个分区外，2. startLine←lastElement最后一行3. goBackOneEpsilon← startLine-e4. goForwardOneEpsign← startLine启动5. borderPoints ← GetPointsbetweenbordergoBackOneEpoch;goForwardOneEpsilon26. foreach point2 borderPoint做7.neighbors←GetNeighbors点;s8.如果lengths_neighbor_s≥MinPts，则9.对于邻居点2邻居做10.如果partitionOfnumberNeighborPoints2！¼¼partitionOfpartialpoint或partialclusterOfpartialneighborPointPoint分区clusterOftenpoint =1，则11.如果clusterOftenpoint为1且clusterOftenneighborPoint为2！1 -1然后12.clusterOftenchpoint← clusterOftenchneighborPoint13.partitionOftenpoint← partitionOftenpoint neighborPointPoint14.else ifclusterOftenchoorPoint-1 andclusterOftenchoorpoint-1！1 -1然后15.clusterOften neighbor点云← clusterOften点云16.partitionOftenchNeighbor点分区←partitionOftenchNeighbor点分区17.else; if;clusterOften neighborPoint邻点簇-1和clusterOftenpoint邻点簇- 1，则18.clusterOftenpoint新的clustervalue19.partitionOfpartionpoint新的唯一的partitionvalue20.clusterOften neighbor点云← clusterOften点云21.partitionOftenchNeighbor点分区←partitionOftenchNeighbor点分区22.其他23.pointsOfNeighborCluster ←GetPointsBelongTo相邻点的聚类;partitionOfnighborPointnighter24.foreach p pointsOfNeighborCluster do25.clusterOftenpoint的使用26.partitionOf指针←partitionOf指针27.endFor28.endif29.endif30.endFor31. endif32. endFor33. endFor34. aggregatePoints← p1[ p2[ p3：[ pn35. 返回aggregatePoints然后，数据聚合过程的结果将是所有分区已经被组合成一个，并且每个点是其值为（-1）的离群点，或者是其值为（PnCn）的核心或边界点，并且在数据聚合之后，不存在共享多于一个集群的点，如图4所示。数据重命名过程开始将点的标签从PnCn重命名数据重命名过程的结果是使用Cn而不是PnCn标记点。4. 评价NRDD-DBSCAN是使用Apache spark实现的，它是弹性分布式数据集（RDD）的实现，并使用Python编写，并使用spark pythonAPI（Pyspark）绑定到Apache spark [22]。已经进行了三个实验来评估NRDD-DBSCAN，第一个实验是通过使用非合成数据集进行的，136H. Ghallab等人/Egyptian Informatics Journal 21（2020）131见图4。数据聚合子阶段。算法4数据重命名输入：一组点X = {x1，x2，x3 xn}，其中xn是核心的标记点，边界值为PnCn（Pn是分区标识符，Cn是集群标识符），或值为-1的离群值。输出：一组点X = {x1，x2，x3 xn}，其中xn是核心的标记点，具有Cn值的边界（集群标识符），或具有值-1的离群值。1. numberOfPartitons←maxOftenpartitionsOftenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXtenXten2. numberOfClusters←maxOfClustersOfClustersOfClusters3. 新用户标识符←用户值4. foreachpartitionIdentifierrange1;numberOfPartitonslogdo5.foreach clusterIdentifier range0;numberOftronsservedo6.filteredPoints←filteredPointsByNode X;clusterIdentifier;partitionIdentifier7.如果lengthOffixedfilteredPoints>0，则8.clusterOftagefilteredPoints过滤点←新过滤器标识符9.新用户标识符←新用户值10.endif11.endFor12. endFor13. return XH. Ghallab等人/Egyptian Informatics Journal 21（2020）131137--¼¼通过将高程信息添加到丹麦北日德兰半岛的2D道路网[30]中，该道路网具有434，874个实例和4个属性，而第二个实验是通过使用100万个条目、2个特征、3个中心和聚类标准偏差为0.4的合成数据集进行的，最后第三个实验是通过使用100万个条目、25个特征、3个中心和聚类标准偏差为0.4的合成数据集进行的。合成数据集允许在不同条件下观察和评估 NRDD-DBSCAN的行为和性能，并且合成数据集是通过使用scikit-learn的样本生成器实用程序的make_- blobs方法生成的为了验证NRDD-DBSCAN在检测离群值方面的正确性，将使用评估指标来评估聚类算法的性能，包括调整后的Rand指数、调整后的互信息、同质性、完整性和V-测量，V-测量需要地面真实标签labels_true以知之，而知之。第一个实验使用数据集中的100个实例作为样本描述上述和的给定参数是MinPts3;s1; labels_true和labels_pred，其中labels_true是样本的地面实况类作业，它是计算的通过使用scikit-learn的DBSCAN实现来计算DBSCAN的结果在排除OSM_ID列之后应用，然后（LONGITUDE，LATITUDE和ATTITUDE）列被标准化和缩放以克服维度问题的灾难，但实际上，不需要缩放现有数据集中的数据，因为数据单元是相同的，属性的数量只有四个属性。结果表明，将点分为4个聚类（0，1，2和3），用1标识离群点，然后将label- s_true值作为聚类列。为了计算通过使用NRDD-DBSCAN确定的labels_pred，然后设置了一个环境，该环境由两个基于Linux的系统的本地运行的虚拟机组成;每个机器具有2个CPU和4096 MB的基本内存（RAM）以及20 GB硬盘。结果表明，该算法将点集分为100 、 200 、 300 和 400 四类，离群点用 1 表示，labels_pred值为聚类列。当计算调整后的兰德指数、调整后的互信息、同质性、完备性和V-测度所需的参数都存在时， NRDD-DBSCAN 的同质性等于1.0 ，完备性等于1.0，V-测度等于1.0，调整后的兰德指数等于1.0最后调整后的互信息等于1.0，数学公式在[32]中描述，这些结果证明DBSCAN和NRDD-DBSCAN的结果在如图3所示的三维数据集的情况下是相同的。五、关于上述两个特征合成数据集的第二个实验使用1000个实例的样本，并且图五. NRDD-DBSCAN与DBSCAN[3]在3-D中。138H. Ghallab等人/Egyptian Informatics Journal 21（2020）131¼¼¼¼如表2所示。并与I. Cordova和T. S. Moh[11]以及所提出的模型NRDD-DBSCAN关于2D和25 D数据集的结果，比较表明，RDD-DBSCAN和NRDD-DBSCAN在使用2D数据集时返回5. 结论、局限性和未来工作见图6。NRDD-DBSCAN与DBSCAN[3]在2-D中。实验的给定参数是MinPts3;s 0： 5，label- s_true和labels_pred，其中labels_true是基础真值类样本的分配和它是通过使用scikit-learn的DBSCAN实现计算的[33]和labels_pred是NRDD-DBSCAN的结果，结果是调整后的Rand指数= 1.0，调整后的互信息= 1.0，同质性= 1.0，完整性= 1.0和V-measure = 1.0，这证明了NRDD-DBSCAN和DBSCAN的结果在二维数据集的情况下是相同的，如图所示。第六章关于上述25个特征合成数据集的第三个实验使用1000个实例的样本和给定的实验参数为MinPts3;s0： 5，labels_true和labels_pred，其中labels_true是地面真值类赋值-它labels_pred是NRDD-DBSCAN的结果，结果是：估计的聚类数=3，同质性= 1.0，完整性= 0.985，V-measure = 0.992，调整后的Rand指数= 0.996，调整后的互信息= 0.985，如图所示。第七章针对I.Cordova和T.S. MOH[11]它已被实现为使用弹性分布式数据集RDD水平扩展DBSCAN。在本研究中，我们分别使用二维、三维和25维数据集对NRDD-DBSCAN进行了三次实验，其中二维和三维实验证明了NRDD-DBSCAN表示的缩放DBSCAN的结果与原始DBSCAN相同，而25维实验则通过将其结果与scikit-learn的samples generator utility results的make_blobs方法进行比较，验证了缩放算法的性能和正确性最后，针对影响物联网技术和应用数据质量的异常值和噪声，实现了NRDD-DBSCAN模型，以有效地处理高维数据集，详细讨论了NRDD-DBSCAN模型的实现步骤和算法，并对NRDD-DBSCAN模型的工作原理和通信方式进行了可视化的描述，以及如何将这些步骤转化为实际实现，验证了算法的正确性.NRDD-DBSCAN模型的主要局限性在于数据约简和分配阶段使用主成分分析对数据集进行降维，而主成分分析对线性高相关的n维数据的降维效果较好，限制了模型对非线性数据的处理，因此未来的工作是改进模型以处理所有类型的数据，包括线性高相关的n维数据集和非线性的n维数据集。竞争利益作者声明他们没有利益冲突引用图第七章NRDD-DBSCAN与25-D中的高斯斑点集群[31]表2[1] 刘杰，严志.融合-物联网数据挖掘的助手。信息融合2015;23（8）：1-2.[2] 国家情报委员会，《颠覆性民用技术-到2025年对美国利益有潜在影响的六种技术》，会议报告CR 2008 www.dni.gov/nic/NIC_home.html。[3] EsterM，Kriegel H-P，Sander J，Xu X. 一种基于密度的含噪声大型空间数据库聚类发现算法。KDD1996;96（34）：226-31。[4] (2014 2014年8月18日，SIGKDD时间测试奖。[联机]。可通过以下网址获得：http://www.kdd.org/blog/2014-sigkdd-test-time-award。[5] 陈明，高翔，李华 . 使用优先级 r-tree 的并行 dbscan 。在：信息管理与工程（ICIME），2010年第二届IEEE国际会议上。IEEE; 2010年。p. 508- 11RDD-DBSCAN Vs. NRDD-DBSCAN。RDD-DBSCANNRDD-DBSCAN2-D 25-D 2-D25-D[6] 放大图片作者： Arlia D. dbscan 并行聚类实验。在：欧洲标准2001 并行处理 .Springer; 2001.p. 326比31[7] 戴宝荣，林义成.基于map/reduce的高效dbscan算法，优化数据分区。In：CloudComputing （ CLOUD ）， 2012 IEEE 5th InternationalConference on. IEEE;2012. p. 59比66调整后的兰德指数1.0–1.00.996[8]何勇，谭宏，罗伟，毛宏，马东，冯胜，范杰.Mrdbscan：一种高效并行计算方法调整后的互信息1.0–1.00.985基于密度聚类算法使用mapreduce。于：平行且均匀性1.0–1.01.0分布式系统（ICPADS），2011年IEEE第十七届国际会议完整性1.0–1.00.985IEEE; 2011年。第473- 480页。V-measure1.0–1.00.992[9][ 10]杨晓，李晓，李晓. 在：VLDB的会议记录捐赠。p. 157比68H. Ghallab等人/Egyptian Informatics Journal 21（2020）131139[10] Zaharia M，Chowdhu

下载后可阅读完整内容，剩余1页未读，立即下载