没有合适的资源?快使用搜索试试~ 我知道了~
基于密度立方体的时空聚类方法分析
沙特国王大学学报基于密度立方体的时空聚类方法Devi Fitrianaha,Bagh,Hisyam Fahmib,Achmad Nizar Hidayantoc,Aniati Murni Arymurthyca印度尼西亚雅加达Bina Nusantara大学计算机科学学院计算机科学系b印度尼西亚,UIN Maulana Malik Ibrahim,科学和技术学院c印度尼西亚印度尼西亚大学计算机科学学院阿提奇莱因福奥文章历史记录:收到2022年2022年7月26日修订2022年8月5日接受2022年8月8日网上发售保留字:聚类时空聚类密度立方体时空聚类分割技术伊姆斯塔格里A B S T R A C T本文提出了一种基于密度立方体的时空聚类方法。这项工作进一步适应这种聚类方法的时空数据。我们已经比较了IMSTAGRID-所提出的算法的ST-DBSCAN,AGRID+,和ST-AGRID算法,并发现IMSTAGRID算法改进了数据分区技术和区间扩展技术,能够实现均匀的空间和时间维度值。本实验中使用了三种类型的时空数据集:一个风暴数据集和两个合成数据集风暴数据集和合成数据集2在数据点的分散性方面具有可比性,而合成数据集1包含聚类数据。IMSTAGRID聚类方法的性能通过轮廓分析进行测量,其结果超过了其他算法的研究;合成数据集2的轮廓IMSTAGRID算法在风暴数据集的标记准确性方面也优于基线算法(ST-DBSCAN、AGRID+和ST-AGRID),分别产生82.68%、38.36%、76.13%和78.66%的结果。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍DBSCAN(基于密度的应用程序噪声空间聚类DBSCAN还可以识别各种形状的数据簇,包括线性、椭圆形和凹形簇(Ester,Sander,Kriegel,Xu,1998)。DBSCAN算法要求聚类中每个数据点的eps邻域的eps值大于零,并且eps邻域必须包含最小数量的点(MinPts),这意味着eps邻域中的密度必须大于指定的阈值。许多算法受到DBSCAN的启发,并试图提高其效率和有效性。在最近的研究中-*通讯作者。沙特国王大学负责同行审查即,DBSCAN算法仍用于应用聚类任务,结果令人满意(Wu,Shi,&Mamoulis , 2018;Shi&Pun-cheng , 2019; Deng 等 人 , 2022年;Zanfi-Pakdehi&Daneshpour,2021年; Zhu等人, 2021年)。用于提高效率的方法之一是使用基于网格的方法。基于网格的算法通过将数据转换成占据特定最小面积的代表性网格/框来加速聚类形成中的距离计算(Cook等人,2022年)。每个代表性网格必须具有最小数量的点以满足指定阈值(MinPts),这加速了聚类形成过程(Sun等人, 2005年)。基于密度和网格的聚类算法的处理方法不依赖于数据库的大小(Wang等人,2019);它们取决于网格化数据的转换维数(Huang&Bian,2009; Sun等人,2005年)。变换维度的数量受网格化区域(eps)形成中使用的距离选择方法的影响很大;因此,eps选择在确定算法效率时至关重要(Hu et al.,2021年)。较小的eps距离会降低效率,而较大的eps距离会降低聚类精度。网格中的最小数据点数量MinPts也是必不可少的。此值确定网格是否为核心https://doi.org/10.1016/j.jksuci.2022.08.0061319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comD. 菲特里亚纳,H.Fahmi,A.N.Hidayanto等人沙特国王大学学报823522网格(Huang Bian,2009)。Eps和MinPts在聚类过程开始时确定。所有源自DBSCAN算法的算法都包括距离计算过程,以生成所有点的邻域统计数据;因此,邻域查询效率也至关重要(Sander,Ester,Kriegel,Xu,1998)。邻域计算可以通过多种方式进行。DBSCAN使用索引方法R* Tree(Ester等人,1998),以提高数据查询效率。其他方法,如R +树,四叉树和X树(Birant Kut,2007)也可以用来提高空间访问效率。许多现有的基于密度和网格的聚类算法专门应用于空间数据(Tork,2012)。需要一些调整以使这些算法能够执行空间和时间数据聚类(Wang等人,2019年)。在基于密度的时空数据聚类中,必须考虑两个距离(Birant Kut,2007):eps 1和eps 2;其中eps 1是空间数据的距离,eps 2是非空间数据的相应距离。随后,通过比较非空间属性来实现空间和时间邻居选择过程,以形成空间和时间聚类。AGRID +算法是另一种聚类算法,类似于DBSCAN,基于适用于多维数据的数据和网格密度(Zhao,Cao,Zhang,Zhang,2011)。该算法已被证明可以以合理的精度和相对较快的计算速度识别聚类。由于该算法可以处理n维数据,因此可以用于时空聚类,并且经过修改,可以适用于时空数据集。基于密度和网格方法的算法适用于空间数据(Huang Bian,2009)。然而,对于时空数据,它们的实现存在一些障碍。通常,时空数据具有三个维度;两个空间维度和一个时间维度。时空数据也有特定的特征:在空间维度中有纬度和经度坐标,由正或负的实数值表示,而在时间维度中包括以时间为单位的数据(例如,每日、每周或每月)。ST-AGRID(Fitrianah,Hidayanto,Fahmi,Lumban Gaol,&Arymurthy,2015)是AGRID +算法的一个改编,修改了分区阶段,距离阈值阶段和密度复杂度计算阶段。这些直接影响多维数据从n维到三维的转换:两个空间维度(经度和纬度)和一个时间维度。然而,当使用ST-AGRID算法时,空间和时间间隔的分布是次优的。ST-AGRID算法的分区技术只处理空间维度(纬度和经度)的问题。该算法不能均衡时间维度的间隔,时间维度可以是每日、每月甚至每年数据的聚合。因此,某些像元可能是不平衡的(不是立方体形状),无法包含在距离阈值半径中在确定L_spatial的邻居(相邻点)和邻居(相邻单元)时。为了解决这一弱点,作者已经通过在空间和时间维度上均匀分布数据来改进分割技术,以实现立方体单元作为维度数据单元。所提出的算法改进解决的问题如下:1. 该算法改进了精确数据划分方法的开发,并产生可用于后续处理的代表性空间和时间子单元。2. 该算法增强了基于密度和立方体的时空聚类算法的创建,该算法可以有效地处理数据并生成准确的结果。1.1. 相关作品时空数据挖掘通常用于分析基于遥感数据和地理信息系统应用的数据(Roddick Lees,2001; Roddick Spiliopoulou,1999)。这些数据集通常很大,严重依赖于空间和时间尺度的数据,并包含多维度的相互作用,如季节和天气模式,可用于探索因果关系(Roddick Lees,2001年)。时空聚类是在时空数据挖掘中用于分析对象数据而不包括类标签的一种方法(Georgoulas等人,2013年)的报告。该算法适用于从具有未 知 数 据 标 签 的 庞 大 存 储 库 中 提 取 信 息 ( Kantardzic , 2003;Shi&Pun-cheng,2019)。时空聚类方法被广泛使用,并且可以在医学、安全、环境、生物学、病理学、健康和渔业领域中找到实例( Sahu& Mardia , 2005;Lorena 等 人 , 2014; Anbaroglu ,Heydecker,Cheng,2014; Liu例如,2018年)。时空聚类方法可以在一个聚类阶段或两个聚类阶段中实现:从空间信息开始,然后是时间信息,反之亦然。每种聚类方法产生的结果略有不同,因为每种方法都强调不同的维度&-空间或时间维度(Abraham Roddick,1998; Yao等人, 2018年)。一个基于DBSCAN的时空聚类实现已经发展成为一种称为ST-DBSCAN的算法(Birant Kut,2007)。该算法可以找到空间,非空间和时间的集群。ST-DBSCAN使用四个参数:Eps 1、Eps 2、MinPts和D。前三个参数与原始DBSCAN算法中的参数一致。相反,第四个参数D用于防止由于相邻位置的非空间值的微小差异而导致聚类在ST-DBSCAN中包括额外的距离度量以确定聚类这两个参数使用k-dist图确定,然后用作ST-DBSCAN的输入时空聚类中受DBSCAN 启发的算法是轨迹 识别(Chen,Ji,Wang,2014)。该算法通过考虑沿轨迹的时间序列特性来工作。单站内状态连续性和站与站之间的时间不相交性是提出的两个前提,作为规范聚类中轨迹点选择的理论基础。其他的时空聚类算法已经被提出。第一种是ST-GRID,这是一种基于DBSCAN的算法,已用于分析地震的阶次(Wang,Wang,&Li,2006)。ST-GRID将空间和时间维度划分为单元。检查时空聚类的第二种算法是ST-AGRID(Fitrianah等人,2015年),它已被用来研究鱼类捕捞数据的聚类。1.2. 基于密度立方体的时空聚类本节解释了提出的聚类算法方法。它包括对数据结构的讨论,对基线算法的适应,分区阶段,距离阈值和密度补偿计算。1.2.1. 时空数据结构该算法是基于密度和立方体。立方体结构是必要的,因为三个维度被表示在数据中:东经、南纬和时间。立方体结构将在后面的章节中进一步讨论,但我们首先描述时空数据,如图11所示。 1下面。D. 菲特里亚纳,H.Fahmi,A.N.Hidayanto等人沙特国王大学学报8236●通常,时空数据模型可以使用符号表示,其中Z表示时间维度,X表示纬度,Y表示空间维度中的经度。对于每种组合,都有非空间数据。这个数据模型可以在图3中看到。上图说明了时空数据模型,它由X线和Y线表示的位置数据和单元格表示的时间数据组成。由于时间维度是聚合的,因此数据结构被抽象为立方体。A1,. An数据立方体和B1,. Bn立方体的空间和时间形成的每个集群。每个立方体由具有其代表性非空间数据的数据点组成,由A11,A12,... Anm.下面的图2显示了由其他数据点组成的立方体的图像。对于所有数据点(A11、A12、. 复合数据结构由空间和时间数据以及非空间属性组成。可以得出结论,新提出的算法的数据结构包括至少一个空间和时间维度。空间维度具有正或负的实数值(经度和纬度坐标)。时间维度由具有正整数数据(日期、月份和年份)的时间单位和其他数据属性组成在聚类算法中使用的立方体中表示的数据点的结构在下面的图3中示出。在上图中,dd是日期属性,mm是月份属性,yy是年份属性。所有这三个属性都是临时数据。空间属性是经度(lon)和纬度(lat)。最后,atr 1到atr-n是来自相关代表点的数据属性。1.2.2. 分区技术ST-AGRID算法为了确定在ST-AGRID算法的划分阶段中的单元数目,必须计算单元间隔。像元间隔值(L)是通过将每个维度的范围(上限-下限)除以细胞,M。这种方法强调空间维度(经度和纬度)的单元数的相似性,而时间维度可以通过使用日、周或月时间单位来确定。形成每个(空间和时间)单元后,将每个数据对象插入到与其时空坐标匹配的单元中-结果以L_spatial和L_tempo- ral间隔表示。在用于ST-AGRID算法的划分方法中使用的划分阶段算法在下面的图4中示出。上述ST-AGRID算法中的分区方法将导致来自每个单元的间隔值,该间隔值将针对每个维度(X和Y空间和时间维度)而变化。这图二. Cube数据空间模型的说明。导致每个维度(空间和时间)上的数据间隔不相等。因此,在这样的过程中形成的单元不可能是完美的立方体。假设使用不同的数据间隔(L)在这种情况下,每个单元内的数据的某些部分可能不包括在距离阈值半径中,该距离阈值半径确定L_spatial的邻居(邻近点)和邻域(邻近单元)(如图2所示)。 五是差距。 图图5示出了使用空间和时间维度的非均匀数据间隔划分的数据。● 对划分技术的改进建议多维数据的不均匀划分会导致间隙;因此,提出了一种能够产生立方体形状的维度数据的划分技术。 所提出的方法是为空间和时间维度确定统一的间隔(L)。在上面示出划分的图5中,间隔划分基于小区的数量m。空间维度(经度和纬度)中的数据范围是不同的;时间维度也是如此。如果使用典型的m值,则每个维度将具有不同的间隔值。例如,如果X数据的数据范围是10°,而Y数据的数据范围是5°,并且时间维度由1000天组成,如果m的值= 5,则每个维度具有不同的间隔(L)。X维中的数据将具有间隔为2的单元格范围。Y维度中的数据将具有间隔为1的单元格范围,如图所示。 五、类似地,在时间维度中,1000天将除以5,从而导致每个单元格具有200天的间隔基于以上说明,如果在确定r(距离阈值)时在一维或多维中的数据中存在间隙,则可能出现问题,r是确定邻居(相邻点)和邻域(相邻小区)的半径r的值为L/2。从图5所示的图示中,我们知道L_spatial值是从图5中的平均间隔获得的。Fig. 1. 时空数据说明。D. 菲特里亚纳,H.Fahmi,A.N.Hidayanto等人沙特国王大学学报8237图三. 时空数据结构。见图4。基于m值的维数据划分算法。图五. 基于间隔数(m)的分区说明。X和Y维度((2 + 2)/2)。因此,L_spatial的值为1.5。r值为1.5/2 =0.75。Y维数据中的r值似乎是足够的然而,在X维中,由于L = 2,所以邻域半径(r)值应该为1,并且所需值为0.75。它导致数据的某些部分被排除在半径(r)之外。排除部分X维的效果将导致不连贯的聚类。此外,这也可能导致点的错误分类。因此,有必要为空间维度(X和Y)保持相同的间隔值,如下面的图6如果相同的L_spatial值((1 + 1)/2)= 1,r = 1,则可以使用空间相邻半径来1/2 = 0.5。由于空间维度和时间维度之间的差异,L_temporal也出现另一个问题。图7示出了L_spatial已经是立方体,而L_temporal不是,因为测量单位与空间维度不同。L_temporal跟随所需的聚合单元。如果聚合单位基于每日时间分析,则其值为1。此外,如果该单位是基于每周的时间分析,则累加值为7。因此,如果单位是基于见图6。 基于间隔值(L)的分区说明。按月分时分析,累计值为30。这个问题阻止了维度数据单元形成完美的立方体。为了解决上述问题,提出了使用拉伸或间隔扩展来标准化空间和时间维度值。这种方法为空间维度和时间维度创建了相同的维度值,并实现了整体立方体形状。分割过程中的L_temporal计算通过首先计算时间间隔的总数来确定每个单元的入口点。这是通过使用等式(1)来实现的。L_spatial计算(在等式2中)利用空间间隔的总数的计数;在确定空间和时间维度的间隔值之后,使用等式(3)计算单元坐标值。M温度/时间范围=时间聚合M空间/尺寸范围=L空间坐标值1/4坐标=L空间ω时间聚合图8示出了所提出的分区技术的伪代码以用于进一步说明。针对Cell_ID坐标示出了扩展结果,Cell_ID坐标已经被调整到其时间维度。D. 菲特里亚纳,H.Fahmi,A.N.Hidayanto等人沙特国王大学学报8238见图7。 L_空间和L_时间插图。见图8。 基于L值和扩展的数据维划分算法。1.2.3. 阈值距离(r)计算阶段接下来,如先前针对ST-AGRID算法所描述的,适配距离阈值(r)。距离阈值或r在确定邻居(每个单元中的相邻点)和邻域(相邻的相邻单元)方面非常有影响。AGRID +算法只有一个距离阈值,因为n维中的数据是相同的。因此,在该应用中,仅需要一个距离阈值来定义点之间的接近度。为新提出的算法实现单个距离阈值是不期望的,因为在时间维度中发现的间隔不同于空间维度中的间隔,空间维度中的间隔包含经度和纬度坐标。根据时空数据的特点,提出了空间和时间两个维度的距离阈值。空间维度中的这种距离阈值方法与AGRID +算法中的方法一致:r L/2。下面的图9示出了用于确定空间和时间维度上的距离阈值1.2.4. 密度补偿计算阶段密度补偿计算与阈值(密度阈值)的确定有关,该阈值确定组是否可以被认为是聚类。因此,密度补偿计算在该聚类过程中是必不可少的。这种计算取决于维数。这是因为每个单元的补偿是基于单元体积与相邻单元体积所有相邻单元立方体的体积(四)、C密度Oi密度Oi密度Oi立方体所有Oi个相邻立方体×vol4由方程式在公式(4)中,参数密度(Oi)通过使用公式将立方体中的数据点的数量(Oi)除以该立方体的体积来获得需要进行一些修改,因为见图9。距离阈值计算算法。D. 菲特里亚纳,H.Fahmi,A.N.Hidayanto等人沙特国王大学学报8239×。.好吧Σ22;.Σ.- 是的Σ只有三个维度例如,如果一个立方体中的一个点a,C a,在左上角,那么只有左上角的立方体将被包括在聚类中,如图所示。 10个。图图11示出了基于与第i个邻居的接近度的顺序来计算所有Oi个邻居立方体的体积。基于图11,存在必须确定体积的四个区域(相邻区域)。上面是点所在的立方体,被视为同一区域,并且是邻居的边界。为了计算所有Oi相邻立方体的体积,使用等式(5)volneighbor¼k0ra2rtempk1r ar-artempk2因此,用于确定密度补偿的公式由等式2给出。(六)、Cdensities密度2012年2月0日k0rartempk12rar-artempk3r-artempð6Þ以下是用于计算密度补偿的算法(图1)。 12)。2. 结果与实验分析既然已经在前面的部分中解释了三种调整,下一步是描述使用所提出的分区技术、调整的距离阈值和密度补偿计算过程进行2.1. 实验数据集在这项研究中,我们利用了风暴数据集,和两个合成数据集。每个数据集如下:● 风暴数据集风 暴 数 据 集 包 含 与 根 据 风 速 跟 踪 风 暴 数 据 可 以 从www.unisys.com下载。表1解释了所使用的风暴数据的数据风暴等级由萨菲尔-辛普森等级确定。下图13显示了本研究中使用的风暴数据图。这些风暴数据跨越了15年;从2000年到2014年。这些数据是在南太平洋(坐标:140° BT -140 °C)收集的。190°BT和10°LS-50° LS)。● 合成数据集合成数据集1由600个时空数据点组成,使用以每个聚类为中心的高斯分布随机生成。有五个聚类,每个聚类都有一个预定的质心:聚类1由100个数据点组成,质心位于0,0,7;聚类2由120个数据点组成,质心位于0,0,7。质心位于5 1 6第三组由200个数据点质心位于0,5,20,而聚类4由质心位于5,5,20的70个数据点组成,最后,聚类5由质心位于2.5,2.5,10.前两个属性是空间坐标,最后一个属性是时间坐标。合成数据集2由5000个时空数据点组成,使用随机分布提出。合成数据集1包含分组数据;因此,见图10。 一个Ca立方体的a点的第i个邻居阶。见图11。(a)显示了一个点,a的邻域是虚线内的区域(b)假设存在对角区域,aD. 菲特里亚纳,H.Fahmi,A.N.Hidayanto等人沙特国王大学学报8240表1见图12。 密度补偿计算算法。风暴数据集、合成数据集1和合成数据集2。在第一个实验中,调整了算法中的L间隔参数。使用的L值为0.25、0.5、1、1.25、1.5、1.75、2、2.25、2.5、3。这种调整被应用于调查的轮廓指数的立方体的大小的敏感性。从第二个实验中调整θ参数以确定密度阈值- DT。据报道,降低theta值将增加DT值,导致形成较小的簇,从而增加数据点可能被误识别为噪声的机会(Zhao等人,2011年)。较低的DT值将导致较大的聚类,从而降低噪声。每个数据集的每个实验的轮廓指数结果如图15所示。风暴数据集和合成数据组2是分散的数据组;较低的L值导致较好的轮廓指数值。相反,将合成数据集1分组风暴数据目录。号属性类型描述数据样本1.日期风暴发生日期012.月风暴发生月123.年风暴发生年20004.Lat纬度坐标26.5 °LS5.Lon经度坐标113,4 °BT6.风风速45节7.地位风暴名称第一号热带风暴数据已经形成明显分离的簇,而合成数据集2包含分散的数据。合成数据集1和2的图可以在图1中看到。 14(a)和(b)。2.2. 实验结果及讨论在所提出的分割技术实验中,空间维度(X和Y维度)的间隔在分割阶段被均衡。然后应用维度范围扩展或拉伸来均衡时间维度。进行这种改变是为了使空间维度和时间维度的间隔范围相等,从而能够形成立方体形状的维度数据。此外,如前所述修改密度补偿计算。在本文的其余部分,这种改进过程的组合将被确定为IMSTAGRID算法。IMSTAGRID时空聚类算法在三个先前描述的数据集上实现:数据,并且较低的L值导致较低的轮廓指数值。下表2显示了所有研究数据集的每个实验结果的轮廓指数值,此外还进一步显示续费上表2显示,在风暴数据集中,最低L值达到最高轮廓指数值。换句话说,较小的立方体导致更好的轮廓索引值。相反,在合成数据集1中,较高的L值(或较大的立方体)导致较好的轮廓指数值。合成数据集2的结果根据这些结果,较小的立方体最适合分散的数据,因为IMSTAGRID的性能与基于密度的聚类算法相似。另一方面,如果数据已经分组,最好使用更大的立方体,因为IMSTAGRID将执行类似于基于网格的聚类方法。综上所述,使用较低的L值可以快速且紧凑地形成聚类,这对于分散的数据更好,而使用较高的L值将对分组数据实现更优的聚类结果。表3提供了每个时空数据集的更详细结果。表3显示了本研究中探索的数据集的IMSTAGRID算法实现结果。基于该表,可以从分散数据上的较低L值相比之下,较高的L值为分组数据产生更好的轮廓指数值。表4显示了有(DS)和没有(TS)拉伸的风暴数据集所达到的实验精度。表4显示了应用拉伸技术的IMSTAGRID聚类算法产生了更准确的图13岁南印度洋的热带风暴数据图D. 菲特里亚纳,H.Fahmi,A.N.Hidayanto等人沙特国王大学学报8241见图14。 合成数据图。图15. 在每个数据集类型上,对L进行轮廓值比较。表2IMSTAGRID在三类数据(日常数据)上的实施结果。风暴数据集合成数据集1合成数据集2L轮廓指数时间(秒)轮廓指数时间(秒)轮廓指数时间(秒)0.250.9991.6210.4540.7170.9387.9830.50.9991.6680.3821.2960.76310.18710.9561.8300.9231.9710.34322.0331.250.9531.8720.7472.0820.18029.6341.50.9241.8680.9112.0770.12035.3641.750.8811.8950.9462.098-0.01244.74622.250.8990.8861.9171.9320.9700.9931.938-0.083 58.6832.194-0.135 81.6402.50.8711.9680.9722.316-0.135 82.07430.8671.9400.9802.629-0.199 121.789表3基于不同时态数据集类型的IMSTAGRID最佳实现的结果每日数据每周数据每月数据L席尔指数时间(秒)L席尔指数时间(秒)L席尔指数时间(秒)风暴数据集0.250.9991.6210.250.9991.6480.250.9871.639合成数据12.250.9932.1942.250.9872.41230.9754.106合成数据20.250.93827.9830.250.90520.3600.250.71010.106D. 菲特里亚纳,H.Fahmi,A.N.Hidayanto等人沙特国王大学学报8242表4使用数据拉伸和不使用数据拉伸的IMSTAGRID性能比较。精度(%)轮廓指数表6算法在合成数据集上的比较2.算法总聚类轮廓指数时间(秒)ST-DBSCAN158-0. 9343416. 941与应用拉伸技术之前相比的结果:83.29%与81.74%。拉伸的平均轮廓指数值(0.59)比不拉伸的平均轮廓指数值(0.33)好。因此,使用拉伸或空间和时间维度标准化成功地提高了IMSTAGRID算法的准确性。对来自合成数据集1的聚类结果的视觉检查表明,数据被相对准确地聚类。合成表7算法比较与聚合数据集1合成1.算法总群集轮廓指数时间(秒)ST-DBSCAN110.3671.494AGRID+260.2452.0142ST-AGRID70.9212.567IMSTAGRID200.9932.194数据集1,L值设定为3,θ参数= 1,时间总量= 4。IMSTAGRID时空聚类算法根据原始数据识别聚类。然而,在这方面,某些聚类小于原始数据集中所指示的聚类,因为某些点被错误地识别为噪声。下面的图16显示了聚类结果。表5提供了IMSTA-GRID算法与基线算法相比的性能概述ST-DBSCAN是一种适用于空间或时间聚类的时空聚类算法。该算法使用基于密度的方法来形成聚类。每个数据点都单独处理。它增加了计算时间,主要是如果该算法应用于基于真实世界现象的时空数据。AGRID +是一种基于密度和网格的算法。如果使用更少的间隔,其性能与基于密度的算法相当。如果间隔的数量增加,其性能与基于网格的算法相当。虽然AGRID +设计用于处理多维数据,但它不能直接用于处理时空数据。为了在时空上使用该算法,需要进行调整表8聚类方法性能精度比较。方法准确度(%)IMSTAGRID82.68ST-AGRID 78.66AGRID+76.13ST-DBSCAN 38.36数据使用合成数据集比较了每种算法的性能:合成数据集2(分散数据类型)和合成数据集1(分组数据)。使用合成数据集2的实验的结果可以在表6中看到,并且使用合成数据集1的实验的结果可以在表7中看到。为了保持一致性,对于AGRID+、ST-AGRID和IMSTAGRID算法,L= 1,距离阈值设置为0.5。对于ST-DBSCAN算法,Eps值设置为0.5。图16. (a)合成数据集1图(b)L = 3的聚类结果。表5四种算法的差异及其技术。算法基于密度基于网格第i阶密度补偿时空聚类ST-DBSCANUUAGRID+UUUUST-AGRIDUUUUUIMSTAGRIDUUUUU拉伸83.290.59AGRID+5880.78734.424无拉伸81.740.33ST-AGRID1070.93911.425IMSTAGRID310.97011.272D. 菲特里亚纳,H.Fahmi,A.N.Hidayanto等人沙特国王大学学报8243图十七岁聚类结果来自不同的theta值。在使用聚合合成数据集1的比较中,对于AGRID+、ST-AGRID和IMSTAGRID算法,距离阈值= 1.125,L= 2.25。对于ST-DBSCAN算法,eps值设置为1.125。使用风暴数据集测试了每个算法的聚类精度,因为它具有预定义的类。风暴数据集中有七个类别:气旋1、气旋2、气旋3、气旋4、气旋5、热带低压和热带风暴一个KNN的方法,以提高精度。将数据集分为训练数据和测试数据,两者的比例为70%使用10倍交叉验证根据混淆矩阵结果,将测试数据和预测结果与实际数据进行比较结果比较见表8。基于上述性能精度结果,IMSTA- GRID算法实现了最高精度。关于IMSTAGRID算法成功地分类数据点,根据现有的类内的风暴数据集。在分析了L区间值对聚类的影响和性能准确度的确定后,进一步通过实验研究了θ值对聚类的重要性。该实验使用了几个θ值,时间聚合为4。使用合成数据集1,已知其具有不同密度的五个数据组。 聚类结果可以在图中看到。 十七岁图17示出了改变θ影响形成的簇的数量。较高的θ值导致较低的密度阈值(DT)。较低的DT将产生较低的噪声,而较高的DT将产生更多的噪声。它导致最外面的点被认为是噪音和省略。由于被误认为噪声而被忽略的数据点可以在较低的θD. 菲特里亚纳,H.Fahmi,A.N.Hidayanto等人沙特国王大学学报8244值;这在图17(a)中示出。具有不同中心密度的组在聚类过程中不收敛。密度中间的数据组非常多样化。这意味着在聚类过程中,这个群体仍然无法收敛。随着theta值的增加,小的DT将导致较少的噪声被去除。在实验结果的基础上,该算法适用于时空数据结构,无论是离散型数据还是分组数据。该算法可以提供更好的结果,在分区数据,以产生代表性的空间和时间的子单元,可用于后续的过程。该算法在对预测数据进行分类方面也优于其他算法。然而,该算法仍然需要改进,包括根据数据量自动优化确定区间值(在开始时没有预先确定)。3. 结论通过对聚类过程中的划分过程、距离阈值计算和密度补偿计算进行调整,成功地开发了基于IMSTAGRID密度和立方体的时空聚类算法。产生最佳结果的维度分区基于相等的间隔(L)以及增加空间和时间维度上的扩展技术。基于数据集,较低的L值为分散数据产生更好的轮廓指数值。相反,L值越高,分组数据的 轮 廓 指 数 值 越 好 。 从 实 验 结 果 来 看 , 对 于 暴 雨 数 据 集 ,IMSTAGRID算法在准确率上优于ST-DBSCAN、AGRID+和ST-AGRID算法,准确率分别为82.68%、38.36%、76.13%、78.66%。我们还了解到,h(θ)或参数调整的变化可以用来找到不同密度的集群。4. 进一步研究在未来的工作中,一个可调的间隔值(L),应该是最佳的,自动确定的空间和时间维度的基础上传播的数据。它将允许考虑数据量的数据立方体Fur-theta,一个最佳的确定h(θ),它影响算法竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用亚伯拉罕,T.,罗迪克,J.F.,1998.时空信息系统中知识发现的机遇。AJIS 5(2).Anbaroglu,B.,Heydecker,B.,郑,T,2014.基于时空聚类的城市道路网络非重现性交通拥堵检测。运输单Res.PartC48,47-65.https://doi.org/10.1016/j.trc.2014.08.002网站。Birant,D.,Kut,A.,2007. ST-DBSCAN:一种时空数据聚类算法。数据知识工程60(1),208-221。https://doi.org/10.1016/j.datak.2006.01.013.陈伟,Ji,M.H.,王建民,2014年。 基于时空密度聚类的gps轨迹分割算法。Int.J.Online Biomed. Eng. 10(6),19-24.Cook,E.,Saleem,M.B.,翁,Y.,Abate,S.,Kelly-Pitou,K.,Grainger,B.,2022.基于密度的GPS-AMI数据关联变压器和智能电表的聚类算法。国际电力能源系统杂志,142,(PB)。网址://doi. org/10.1016/j.ijepes.2022.108291Deng,X.,唐,G.,王建奎,2022年。基于小网格密度聚类的LiDAR点云快速分类滤波算法Geod. Geodyn。13(1),38https://doi.org/10.1016/j.geog.2021.10.002网站。Ester,M.,Sander,J.,Kriegel,H. P.,徐,X.,1998.一种基于密度的簇发现算法。数据最小知识光盘2(2),169-194。https://doi.org/ 10.1023/A:1009745219419。Fitrianah,D.,Hidayanto,A.N.,Fahmi,H.,Lumban Gaol,J.,Arymurthy,上午,2015. ST-AGRID:基于时空网格密度的聚类及其在潜在渔区划分中的应用.国际软件杂志Eng.Its Appl.9(1). 网址:http://doi.org/10.14257/ijseia.2015.9.1.02Georgoulas , G. , Konstantaras , A. , Katsifarakis , E. , Stylios , C.D. ,Maravelakis,E.,Vachtsevanos,G.J.,2013.基于“地震质量”密度的时空聚类算法。专家系统Appl. 40(10),4183-4189。胡,L.,刘洪,张杰,Liu,A.,2021. KR-DBSCAN:一种基于密度的聚类算法,基于反向 最 近 邻 和 影 响 空 间 。 专 家 系 统 应 用 186 , ( 8 月 ) 。https://doi.org/10.1016/j.eswa.2021.115763www.example.comHuang,M.,&卞氏F. 2009.一种基于网格和密度的快速空间聚类算法。2009年人工智能和计算智能国际会议,260-263。https://doi.org/10.1109/AICI.2009.228的网站。Kantardzic,M.,2003年。数据挖掘-概念,模型,方法。 和算法A.Pakdehi,A.,Daneshpour,N.,2021. DBHC:一种基于DBSCAN的层次聚类算法。DataKnowl.Eng.135,(April).https://doi.org/10.1016/j.datak.2021.101922101922.刘,X.,Wan,C.,Xiong,N.N.,Liu,D.,中国科学院,Liao,G.,邓,S.2018年当时发生了什么:top-k时空关键字查询。INF. Sci. 453,281-301。Lorena,S.,Zarman,W.,&哈米达岛2014.数据挖掘中的C4.5预测算法分析和数据挖掘研 究 。 Prosiding Seminar Nasional Aplikasi Sains Dan Teknologi ( SNAST ) ,(November),263-272.https://doi.org/10.5829/idosi的网站。weasj.2015.6.2.22162.罗迪克,J.F.,&利斯湾,澳-地G. 2001.空间和时空数据挖掘的范例。地理信息系统研究专著,(7月),1罗迪克,J.F.,Spiliopoulou,M.,1999年时间、空间和时空数据挖掘研究文献目录ACMSIGKDDExplorer.Newslett.1(1),34-38.https://doi.org/10.1145/846170.846173网站。Sahu,S.,Mardia,K.,2005.时空数据建模的最新趋势。见:统计问题特别会议记录,pp.1-15。Sander,J.,Ester,M.,Kriegel,H.P.,徐,X.,1998.空间数据库中基于密度的聚类:算 法 GDBSCAN 及 其 应 用 。 数 据 最 小 知 识 光 盘 2 ( 2 ) , 169-194 。https://doi.org/10.1023/A:1009745219419网站。施,Z.,Pun-cheng,L.S.C.,2019.时空数据聚类:方法综述。国际地理信息杂志。8(112)。https://doi.org/10.3390/ijgi8030112网站。太阳,Z.,赵志,王,H.,妈妈,M.,张,L.,Shu,Y.,2005.一种基于网格和密
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功