空间数据中对象行为模式的相似性计算与挖掘"Anartileoncalculatingandminingsimilarbehaviorpatternsofobjectsinspatialdata

191 浏览量更新于2024-01-07 收藏 707KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊22（2019）618完整文章从空间数据Sandipan Maiti R.B.V.Subramanyam印度瓦朗加尔理工学院计算机科学工程系阿提奇莱因福奥文章历史记录：接收日期：2018年2018年10月10日修订2018年10月11日接受2018年10月31日在线提供保留字：行为相似性行为模式多数据类型空间数据A B S T R A C T对象的行为是从响应、反应、运动、属性的集合中确定的，这些集合在一些空间数据集中与时间和位置一起被记录为属性。行为模式发现一组具有相似行为的对象。我们已经探索了所有类型的可能的措施来定义具有一些相似特征的对象之间的相似性来自同一实体的对象将具有相同的特征集，而来自不同实体的对象可能具有一些相似的特征。提出了一种在不同实体集合中挖掘行为模式的相似性度量方法。本文还提出了一种计算行为模式的方法。最近的应用集中于理解来自不同实体集合的对象之间的交互，需要测量感兴趣区域内对象之间的行为相似性。这种新定义的度量和挖掘方法将极大地帮助许多应用程序分析数据并提取重要知识。©2018 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍计算对象之间的相似度是数据分析、数据挖掘和数据管理中的一项重要操作。大多数应用需要对象之间的相似性来解释对象之间的正交互、关系、依赖、共同目标等。一个对象的行为可以从一组属性值中估计出来[3]。我们在文献中发现，相似性可以测量具有相似数据集属性的对象之间。自治系统收集属于不同实体集的各种对象的数据，以及对象在特定时间内的实际空间位置我们可以在空间域[15]关于位置，i）移动的物体或ii）物体本质上是静态的。随着时间的推移，物体在地球上的位置也会发生变化。例如，在社交媒体数据中，我们感兴趣的是找到一组对特定主题进行讨论的人，具有相同类型购买习惯的客户，对社会问题或一些一般问题有共同意见的人。已经提出了许多相似性度量来计算两个数据点之间的距离，如欧氏距离，余弦相似度等。这些指标是寻找物体之间的相似性*通讯作者。电子邮件地址：sandibit@gmail.com，sandipan@student.nitw.ac.in（S。Maiti）。由Karabuk大学负责进行同行审查。通过考虑它们的属性值，但是这些值应该是数字。许多应用程序希望将某些属性视为比其他属性更重要的属性，因此现有的相似性度量无法满足这种要求。在空间数据的上下文中，每个对象都有一个位置和一组对应于一组属性的数据值两个物体是否靠近例如，两个宗教场所可能在总面积、每日访客、月收入、访客意见、基于宗教的重要性等某些属性方面相似，但它们可能在物理距离上很远，反之亦然。在本文中，我们提出了一种计算空间对象之间的行为相似性的方法。行为相似性将提取如下信息：1）来自不同实体集合的相似对象，2）来自单个实体集合的非相似对象，3）来自单个实体集合的相似对象。本文还提出了一种从空间数据集中发现行为模式的方法，该方法采用行为相似度计算方法。行为模式提供了理解空间域中对象之间关系的知识。行为模式挖掘方法提取一组经常被发现在行为上相似的实体，尽管它们具有不同的特征。本文的其余部分组织如下。第二节对传统的相似性度量方法进行了综述。第3节提出了行为相似性度量和行为模式挖掘方法。第4节给出了实验结果和解释。最后，第五部分总结了我们的贡献。https://doi.org/10.1016/j.jestch.2018.10.0072215-0986/©2018 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestchS. 麦提， R.B. V Subramanyam /工程科学和技术，一个国际杂志 22 （2019）618619P1/11/1我KK1/1;2. 相关工作物体之间的相似性可以通过求距离的逆概念来定义。当我们发现两个物体之间的距离与其他物体相比要小得多时，我们就可以得出结论，这些物体/物体是相同的，或者可以被解释为相似的东西。从科学和数学的角度来看，距离被定义为定量的度量，它推断出一个概念，即物体有多远。欧几里德找到最短的距离，而城市街区试图找到对象之间的实际距离Minkowski距离是欧氏距离和城市街区距离测度的推广一些重要的距离测量公式见表1[11，13]。当p趋于无穷大时，通过引入极大极小近似，可以导出切比雪夫距离一些改进的距离测量是Sorensen 、 Gower 、 Soergel 、 Kul- czynski 、 Canberra 等。Jaccard距离测度是城市街区空间中的比例系数，Mahalanobis测度是用组内离散度加权的组间距离，而X ~ 2度量是用变量和样本单位总数双重加权的修正欧氏距离近年来的应用对距离测量提出了更高的要求.数据分析、推荐系统、模式识别系统等。是其中一些我们不能采用传统距离测量方法的领域早期的应用程序处理结构化数据，如数据库，事务数据集[14，16]等。非结构化数据对于改进对象特征分析变得越来越重要，这提高了决策系统的效率。例如，客户对产品的评论在市场上发挥着更大的作用，以获得成功。日常生活，同事的评论，与邻居的理解，与所有朋友的沟通等将发挥重要作用，以了解一个人以用户为中心的相似性搜索已经被提出[8]，以找到在零售市场中有用的相似对象。它考虑用户该方法对客户的产品进行排名并执行top-k查询。这个top-k查询[8]为产品p的每个属性p[i]分配权重w[i]，然后使用scor函数f累积这些权重和属性。产品p的评分函数计算为：w½i]ωp½i]。任何产品都可以支配其他产品q，当fw<$p<$6fw<$q<$：如果p优于q，则RTOPk <$q<$是适当的RTOP kp的子集以用户为中心的相似度被定义为产品p和产品q的RTOPk集合的Jac-卡系数，即，Simp q Jaccard RTOP p RTOP q jRTOPkp\RTOPkqjjRTOP kp [RTOPkq jElahe，Chelse等人[3]提出了一种基于移动GPS记录的日常活动来预测人类行为的模型。他们从这个实时数据集中识别出了具有时间连续性的频繁行为模式。这种模式对个人和服务提供者都很有帮助。寻找两个字符串之间或字符串的有限多集之间的距离被定义为信息距离[9]，由Paul M. B.他们将字符串表示为有限二进制字符串，字符串的多集可以是表1距离公式欧几里德d欧几里德d欧几里德d欧几里德d欧几里德d编码成一串他们定义了信息距离，ID（x，y）= max{C（x| y），C（y| {C（x）}{\displaystyle {C（x）}| y），C（y| x）}）。这里C（x| y）是x对y的条件柯尔莫哥洛夫复杂度[21]。类似地，C（x）=C（x|e）是无条件Kolmogorov复杂度，其中e表示空字符串。传统的具有欧氏距离的K-means在具有紧凑球形数据分布的数据集上具有良好的性能，如推荐系统[22]空间调制[20]，但对于其他分布则失败。Jingjing Ma et al.[17]提出了一种改进的K-means算法，该算法具有两个阶段，用于使用密度探索距离度量对数据点进行聚类这种密度估计技术以更好的方式描述了数据的复杂结构，并且在具有复杂分布的数据集上工作良好这种距离度量的效率在寻找两个数据点之间的最短路径的过程中带来了更大的复杂性和成本信息论距离度量[2]也被提出来验证数据分析系统生成的聚类。传感器是数据的来源，用于监测任何活体的活动Faisal Sikder等人[18]研究了一些发现人类活动和监测变化的机制他们提出了一种名为长和距离的距离度量，用于计算两个正成员序列之间的距离，并提出了一种使用这种距离度量来发现人类活动的算法Peter Grunwald等[7]和Ming Li et al.[10]提出了一种计算信息距离的方法，称为Shannon信息和Kolmogorov复杂度[21]。相似性度量在数据集成、数据预处理、文本处理、自然语言处理等过程中也有重要作用，在许多数据内在应用中都有应用知识感知相似性连接[6]，相似性搜索的度量索引[5]，知识图的语义相似性概念[4]，度量空间的反向最近邻搜索[12]，行为距离[1]度量，模糊系统的修改距离度量[24]，区间值模糊数的符号距离度量[25]，Z-数的基于Z-VIKOR方法的加权距离度量[26]也由各种研究人员提出。Morteza[23]提出了Kruskal算法的一个变体，用于计算成对极大极小距离测量，以通过考虑传递关系来捕获正确的结构空间交叉验证在地理插值模型中很重要，可以通过使用可用的测量值进行验证，如均方误差（MSE）、均方根误差（RMSE）、平均偏差误差（MBE）[30]、相对绝对误差的几何平均值（GMRAE）、中位数RAE、中位数绝对百分比误差[29]。行为模式挖掘方法具有挖掘的影响1）来自事务数据的频繁模式[14，16]和2）来自空间数据的协同定位模式[15，27，28]一组项目可以被称为频繁模式，如果它被发现是由最大的客户购买。如果发现一组空间实体非常频繁地在一起（非常接近），则可以将它们称为共址模式。同样，本文提出的行为模式是具有相似行为的对象的集合，由行为相似性度量。3. 拟议办法本文提出了一种相似性度量方法，用于在空间域中寻找行为相似的目标.本节还提出了从空间数据中挖掘行为模式的方法。城市街区dCB¼PdjPi-Qij3.1. 问题陈述闵可夫斯基dPChebyshevd1/ maxjP-QjiChebi每个对象都属于一个实体，并具有一组描述它的特征的特征值。620S. 麦提， R.B. V Subramanyam /工程科学和技术，一个国际杂志 22 （2019）6182←[←1←←时间和地点这种记录的数据集被称为spa-tiotemporal数据集，它由自治系统收集。问题1.给定一个时空数据集，目标是根据它们的特征值找到具有相似行为的对象。本文使用了以下符号（见表2）。空间数据集具有类似于（ID，E，经度，纬度，{A}，T）。距离测量BS可以仅使用ID、{A}、T >来问题2.给定时间窗口TW和阈值k，d以及距离度量（BS），目标是从时空数据集中找到所有行为模式（BP）。我们在第3.2节中提出了一种寻找行为相似性（BS）的方法，并在第3.3节中提出了一种寻找行为模式BP的方法。3.2. 相似性度量我们已经定义了基于其属性的对象之间的行为相似性。这些对象可以取自同一实体或不同实体。实体地球上的每一个物体（生物/非生物）都可以由一组属性来定义实体是特定类型对象的一般定义。例如，动物（活体）不同于植物（活体），医院（非活体）不同于教育机构（非活体）。这些植物、动物、医院和教育机构一般被界定为实体。定义1.给定属性A的通用集合，我们可以有实体集合E = {E |E是一个实体，它是由一组属性A E描述的对象的集合，其中A E<$A}。我们将DT称为A中所有属性的数据集的集合。假设DTj是DT中的数据类型，属性AEk是属性定义2.给定由属性集AE定义的实体E，其中每个AEi具有数据类型DTj以及值范围REj。实体E的对象O被定义为值集合V，其中每个值VEi将来自REj，并且表示属性AEi。Example.表3中给出了一个数据集模式示例，|一|= 10，DT ={标称、二进制、数字、序数}，表示为DT j。根据定义和符号，存在具有不同属性集AEk的三个实体E1、E2和E3，以定义实体Ek以及对应的范围REj这些实体E1、E2和E3具有属性集合Ae1、Ae2和Ae3，如{A1、A2、A3、A4、A5、A7、A9}、{A1、A2、A3、A5、A6、A8、A10}、{A1、A3、A4、A6、A8、A9、A10}符合-ingly。所有这些AEk集只有10个属性中的7该示例具有四个数据集，其中标称属性具有固定的数据值，二进制可以具有真/假或1/0，数值数据具有一系列连续值，有序数据具有固定的数据集以及优先级顺序。属性A1只能有三个值来定义实体E1，而同一属性将有四个值来定义实体E2和E3。二进制属性只有两个值，true或false，1或0。例如属性A2将接受真或假来定义E1. 而E2需要0或1来定义.数值属性将从固定范围REj中取值。这里A3将接受0-10之间的任何值常规属性有一些固定的值，有顺序，如属性A5的值为1，2，3，顺序为（1> 2> 3），以定义实体E1等。数据预处理数据的预处理是发现对象之间的相似性的过程中必不可少的一部分。属性可以有不同的数据类型和不同的值集.该值集可以具有不同的数据值以定义不同的实体。我们可以观察到DT2的值集对于实体E1是真或假，而对于实体E2是0或1。通常，数据值的集合本质上可以是离散的或连续的。在算法1中，我们提出了一种离散化值集的方法。算法1.数据离散化在AE.数据类型DTj的属性AEk将具有范围REj，数据类型DTj的允许值。因此我们有A和E的每个实体E是由属性AE描述的对象的集合。每个属性都有自己的数据类型，每个属性都有自己的数据类型允许的值范围。在上述定义中，DTj可以是标称的、二进制的、数字的等。REK可以是连续或离散值的集合。对象：对象是来自特定实体的成员的特定表示。表2符号。符号描述一组通用属性。E实体由顺序对AE，T >定义。一组属性，定义了一个实体E。T Timestamp指示数据捕获时间。所有数据集的DT对象是实体（E）的实例。包含根据属性集（AE）定义对象的数据值。BS基于行为属性值的距离度量，指示对象的接近程度。TW首选时间窗口。k测量BS的接近范围d给定空间中BP出现的最小百分比BP的行为模式是具有与BS、TW、k、d相似的行为的实体（E）的集合，其大小为s。R任何AEi的设定值范围输入：数据类型dt，范围r，属性Ai Ek的值集输出：离散值变量：dt←Ai的数据类型;r←Ai的范围;Ai的V 值集;步骤：1.过程离散化2.如果dt=连续，则3.Q={四分位数（V）}（r的开始值，r的结束值）4.对于V中的所有y5.val;6.对于所有的q，7.如果|q-y| 2 > 3）（0-50）（1 > 2）E2（Rj）（1、2、3、4）（0或1）（0-20）（1> 2> 3> 4）（一、二、三）(40-80）(true或假）E3（Rj）（1、2、3、4）(10-30）(20-45）（一、二、三）(50-150）（1 > 2 > 3）（1或0）算法2.编码策略定义4.属性的全局权重是定义特定实体的属性的重要性百分比。输入：数据类型dt，属性Ai2Ek的范围r。. I分布的！输出：编码的数据值。变量：dt←Ai的数据类型;r←Rik;GW-A-J国际新闻报Aj 中Iij的j分布ω100Ai的V值设置;步骤：1.过程编码2.对于所有的e2Ek3.对于所有Ai4.如果dt（a）==（标称||序）然后5.对于所有xR6.xindex（x）|1 x7.端8.else如果dt（a）==二进制，则9.{（false）| 0| no），（true |1|是）}{1，2}10.end if11.else ifdt == Numeric then12.{起始值、Q1、Q2、Q3、结束值}{1，2，3，4，5}13.end if14.end if15.端16.端17.结束程序本地重量：设E i，i = 1，2，.. . .，N是具有与每个实体Ei相关联的一些对象的实体。每个实体E i用某些属性Aj，j = 1，2，.. . .M，每个Aj取一些值Xk，k = 1，2，L.我们为实体Ei的属性Aj的每个值Xk定义局部权重（LW），使得LW指示该值w的重要性r.t Aj的其他值。为了捕捉这种重要性，LW被定义为两个值的乘积，其中C是属于实体Ei的对象的计数，count（Xk）表示数量具有实体Ei的属性Aj的值Xk的对象。全局权重GW指示属性Aj相对于定义实体Ei的其他Aj的相对重要性。对于一个特定的Ei，当对象相对于Aj均匀分布时，则GW_A_j将小于其他A_j，反之亦然。属性序列这是定义实体E i的Aj的在求对象之间的行为相似性BS之前，如果我们发现Ei相似性度量我们将行为相似性（BS）指标函数定义如下i. 同一实体的对象之间的距离Ei。我们将考虑降序属性序列相对于全局权重的距离。nBS{Ok Ei;Ok Ei}=O1Eiattrj O2Eiattrj，其中i = i，并且第1页kii. 不同实体。我们将创建一个公共属性集（CA），如下所定义，其中iCA={属性集（Ei）\属性集（Ei）}。P和Q是对应的Ei中的公共属性的百分比。现在如果（Min（P，Q）≥阈值），则BS{OkEi;OkEi} =SfO1Eiattr-O2Eiattrg;其中k=kIi，j表示属于Ei的任意对象取属性Aj的值Xk的概率。如果Aj是Ei的序数属性，那么我们分配一个预定义的优先级值集合PR（i，j，）={v，k，i，j|vk，i，j是分配的优先级值或k-k否则BS {OE;OE};J J第1页对于每个k = 1，2，. . L}现在，我们正式定义局部权重如下：定义3.实体Ei的属性Aj的每个值Xk的局部权重（LW）LW<$X<$1/4（count <$X k<$=C ω PR kij;如果A j的数据类型为序数，则count<$X k<$=C ω 1 =. I ij. ;否则全局权重我们定义实体Ei的属性Aj的全局权重GW。它是根据实体定义Ei计算的，记录的对象定义属于Ei。现在我们将行为相似性（BS）指数定义为：I. BS中的所有位都为零，那么我们可以得出结论，这两个对象是相同的。II. 如果GW之和为k，其中BS位为零，则视为相似对象。III. BS中的所有比特都是非零的，但是差异非常小，则通过将较小的距离称为零来应用规则II，否则被认为是不相似的对象。3.3. 行为模式提出了一种从空间数据集中挖掘所有行为模式的方法。正如我们在前一节中所描述的那样，622S. 麦提， R.B. V Subramanyam /工程科学和技术，一个国际杂志 22 （2019）618←←← ← ←←←≤例如，空间数据集具有类似于（ID，E，经度，纬度，{A}，T）。提出的行为模式挖掘算法将发现TW、BS、d和感兴趣区域（R.O.I）中的所有频繁行为模式这个R. O.我可以用经度和纬度来表示。算法3. BP挖掘方法算法中提出了BP算法的伪模式所有对象都被隔离到相应的实体中。一个详细的结构已经被构造来总结数据集，相对于给定的条件。在DST构建时将生成大小为2而其余的模式将以迭代的方式通过candidate生成，修剪和支持度值的比较来挖掘。给D。输入：空间数据集、TW、BS、d、k和R.O.I.输出：所有频繁BP。变量：NL null; s 2; CBPs null; FBPsnull步骤：1.过程BP挖掘2.将所有O分离成Ek w.r.t TW、R.O.I和{A}3.对于所有Oi2数据集4.对于所有Oj2数据集5.如果BS（Oi，Oj）≤k实体（Oi）6.NL（Oi）加上Oj;7.end if8.端9.端10.CBPs←生成（NL，s）11.while（CBPs12.对于所有x2 CBP13.如果support（x）≥d，则14.FBPsx15.end if16.端17.o/pFBPs;18.如果FBPs19.CBPs生成（NL，s++）20.end if21.end while22.结束程序表4示例数据集。所提出的用于BP的候选生成方法与Apriori候选生成略有不同，即使标准行为模式CBPs将从频繁行为模式FBPs-1生成。在从两个FBPs-1中移除最后一个特征之后，如果剩余特征相同并且这两个特征之间的BS（来自两个FBPs-1的最后一个特征）为k，则将生成CBPs。算法3中提到的剪枝策略，对于挖掘BP算法，与Apriori剪枝策略相同。4. 结果和讨论提出的行为相似性度量（BS）和行为模式（BP）挖掘方法已实施和验证的系统具有核心i7处理器与8 GB RAM使用Java编程语言。本节详细介绍了BS度量和BP挖掘算法4.1. 合成数据集已使用实体集的定义模式生成合成数据集。该生成过程考虑了十个属性的属性集，这些属性具有不同的数据表和不同的值范围，对象属于不同的实体。模式示例见表3。4.1.1. BS措施我们以合成数据集为例，如表4所示。此数据集是根据示例的1一个2一个3一个4一个5一个6一个7A8一个9一个10X11真161null5null1nullX23假393null8null2nullX32假6151null15null1nullX43真4212null48null1nullX51真8283null36null2nullX62假5202null25null2nullX72真6241null18null2nullX81假9132null12null1nullX93真4171null23null1nullX101真283null32null2nullY1101.5null32null73null真Y2312.6null21null65null假Y3414null43null49null假Y4218null32null42null真Y5307null21null57null假Y64111null13null63null真Y72018null42null72null真Y81015null21null51null假Y9315null32null78null假Y101013null41null65null真Z12null1025null3null9821Z23null1531null2null13510Z31null1439null3null14531Z44null1842null1null11220Z53null1629null2null6711Z61null1223null3null6830Z73null1736null1null9420Z82null1445null2null12511Z94null1324null1null10831Z101null1237null3null8921S. 麦提， R.B. V Subramanyam /工程科学和技术，一个国际杂志 22 （2019）618623表3中给出的模式，|Ei|=3和|一个j|=10。每个实体有10个对象，在该示例数据集中分别由实体E1、E2和E3的前缀x、y和z我们已经应用所提出的镫骨从这个示例数据集中找到行为相似的对象。首先采用数据离散化和数据编码策略。然后，我们计算了所有属性的每个数据值的局部权重LW。最后，对象在表5中以一组LW值的形式呈现。我们已经为这个例子计算了实体的全局权重（GW）集，如表6所示。根据GW集，我们可以得出属性A3具有38.1%的权重，A7具有28.57%的权重来定义实体E1，而属性A3，A8具有31.58%的权重，A5，A6具有10.53%的权重来定义实体E2。如果我们找到BS{object（E1），object（E2）}，则根据所提出的方法，|CA|=4。 P=4/7=57%，Q=4/7=57%。假设100806040200A3 A1 A5 A2 A4 A6 A7 A8 A9 A10 E1E2Fig. 1. GW设置相对于CA（E1，E2）。阈值为50%。这样就可以找到BS{object（E1），object（E2）}，那么属性序列将是CA中的（A3，A1，A5，A2）。类似地，我们可以从对应的CA集合中找到关于BS{object（E1），object（E3）}的属性序列为（A3，A4，A1，A9）。图1示出了实体E1、E2相对于集合CA的全局权重的图形表示。可以解释为属性A3具有更大的权重来定义E1、E2，并且其他属性A1、A5、A2也具有更小的权重来定义这两个实体。我们可以从图中得出同样的结论。 2也。图图3-7示出了来自同一实体的对象的相似性，而图3 -7示出了来自同一实体的对象的相似性。图8-11示出了来自不同实体的对象的相似性。我们可以看到在图3属性A4，A9是完全相同的A3、A2、A1、A5非常相似，而只有A7与对象x1、x2不相似。因此，我们可以得出结论，x1和x2的行为相似。以类似的方式，可以得出结论，对象y1在行为上不同于y2，并且z1也完全不同于z2，如图2和3所示。分别为6和7。如果我们将图6与GW集合进行比较，我们可以发现属性A3，A8和A1具有（31.58 + 31.58 + 15.78）= 78.94%的权重来定义实体E2，并且对象y1和y2对于这三个属性具有不同的LW值。由于A3、A8、A1的不同LW值和高累积GW值，我们可以得出y1和y2在行为上不相似的结论。在GW集合中观察到，属性A8、A3、A4、A1对于实体E3具有高GW值，表5计算LW。的1一个2一个3一个4一个5一个6一个7A8一个9一个100.130.30.020.040.1300.0200.2500.10.20.040.040.100.0800.2500.10.20.10.060.1300.0800.2500.10.30.10.040.100.0200.2500.130.30.020.020.100.0400.2500.10.20.10.060.100.0400.2500.10.30.10.040.1300.0800.2500.130.20.020.040.100.0800.2500.10.30.10.060.1300.0400.2500.130.30.040.040.100.0400.2500.050.250.0200.080.1300.0400.250.080.250.0800.080.1300.0800.250.050.250.0800.080.0700.0400.250.080.250.0400.080.1300.0200.250.080.250.0800.080.1300.0800.250.050.250.0400.030.0700.0800.250.080.250.0200.080.1300.0400.250.050.250.0400.080.1300.0400.250.080.250.0800.080.1300.0200.250.080.250.0400.080.1300.0800.250.0500.060.0800.1300.10.130.30.0800.120.0200.100.040.10.20.0800.120.0600.1300.020.10.30.0500.020.0400.100.10.130.20.0800.120.0800.100.040.10.30.0800.060.0800.1300.040.10.20.0800.120.0600.100.10.130.20.0500.120.0400.100.040.10.30.0500.120.0800.100.10.10.30.0800.060.0600.1300.10.130.3表6计算的GW集的1一个2一个3一个4一个5一个6一个7A8一个9一个10E14.769.5238.114.294.76–28.57–0–E215.78031.58–10.5310.53–31.58–0E39.68–25.819.35–3.23–29.046.456.45624S. 麦提， R.B. V Subramanyam /工程科学和技术，一个国际杂志 22 （2019）618100806040200A3 A4 A1 A9 A2 A5 A6 A7 A8 A10 E1E3图二. GW设置相对于CA（E1，E3）。0.30.250.20.150.10.0500.25 0.25个单位0.130.080.080.08零点0.020.040.05A3 A8 A1 A5 A6 A2 A10y1 y2见图6。 E2的两个对象之间的相似性。0.350.30.250.20.150.10.050x1 x20.350.30.250.20.150.10.0500.30.20.10.120.130.10.130.10.060.080.080.050.040.02A8 A3 A4 A1 A9 A10 A6z1 z2图三. E1的两个对象之间的相似性。见图7。 E3的两个物体之间的相似性。0.350.30.250.20.150.10.0500.30.250.20.10.13 零点0.080.1 0.10.060.02 0.02个单位0.04A3 A7 A4 A2 A1 A5 A91 × 3 × 4见图4。 E1的3个对象之间的相似性。0.30.250.20.150.10.0500.30.250.25 0.250.13 0.130.08 0.080.130.0420.040.02 0.02A3A1A5A2A4A6A7A8 A9 A10x1 y4图8.第八条。 E1和E2的对象之间的相似性。0.350.30.250.20.150.10.0500.30.250.10.020.130.130.10.10.040.02A3 A7 A4 A2 A1 A5 A90.350.30.250.20.150.10.050A3 A1 A5A2 A4 A6A7 A8A9 A101 × 4 × 5图五. E1的3个对象之间的相似性。x4 y2图9.第九条。 E1和E2的对象之间的相似性。0.30.250.20.13零点0.0420.080.020.1 0.10.040.30.250.250.250.1 0.1 0.10.130.080.080.080.080.040.02S. 麦提， R.B. V Subramanyam /工程科学和技术，一个国际杂志 22 （2019）6186252≤0.350.30.250.20.150.10.0500.350.30.250.20.150.10.0500.3A3 A4 A9 A2 A5 A6 A7 A8 A10X5 Z4见图10。 E1和E3的对象之间的相似性。0.30.250.250.10.130.130.0800。.00680.080.050.080.08A8 A3 A1 A6 A10 A2 A4 A5 A7 A9Y2 Z1见图11。 E2和E3的对象之间的相似性。4.1.2. BP挖掘提出的BP挖掘算法发现来自不同实体的对象之间的相似性。可以发现，（x5，y1）、（x8，y1）、（x7，y2）、（x4，y2）、（x7，y2）、（x4，y2）、（y1，z2）等。是对象对对于该示例，w.r.tk= 40%。行为模式（X，Y）、（X，Z）和（Y，Z）的支持率分别计算为60%、50%和100%。如果d= 50%，则所有候选BP将被认为是频繁BP，而对于d= 60%，仅（X，Y）和（Y，Z）是频繁BP。(x7，y1，z2）、（x7，y1，z8）、（x8，y7，z4）、（x8，y1，z4）是在候选生成和修剪之后当d= 50%时大小为3的候选BP。由于行为模式（X，Y，Z）的支持率为20%（d），因此不认为其为频繁BP。4.1.3. 绩效评价我们生成了10 K、20 K、30 K点的合成数据，# E = 20; #A = 10并且定义（DT，R）6AjEi. 图12示出了-给出了不同合成数据集和不同k，d.对于10 k个点和k= 40%，行为相似对的数量将小于k= 20%。在执行时间的情况下，数据大小的差异非常小，因为用于查找相似性的比较次数相同。20 k点的COM数量>10 k点，因此与10 k相比，20 k的处理时间也更多。图12的第二曲线图示出了针对不同最小支持度d的所有合成数据集的执行时间。与d= 70%相比，d= 80%时频繁模式的数量较少，因此执行时间将更短。由于频繁模式生成的数量，执行时间与数据大小成正比，与d成反比（29.04 + 25.8 + 19.35 + 9.68）= 83.87%累积GW。由于对象z1和z2的这些属性中没有一个是彼此一致的，因此它可以可以得出结论，z1，z2是不相似的，在图。7.第一次会议。属于实体E1和E2的对象之间的相似性在图1和图2中示出。8和9。如果LW值相差2，则这对对象可以被视为相似，累积相似性指数为41%。在另一侧，如果LW值之差为2，则（x4，y2）将被视为相似，（x1，y4）将被视为不相似。图10中的对象对（x5，z4）可能表现为不相似，但是在LW值2的差异的条件下，该提出的测量将发现它们是相似的，具有40%的相似性指数。对象对（y2，z1）在LW值差为2的条件下具有58%的相似性指数，图十一岁1.10.90.70.50.340% 30% 20%BS λ =10K 20K 30K4.2. 标准数据集Adrino Mazziotta等人进行了一项调查，题为该数据集有102个森林地块，位于两个不同的地方。他们记录了每102块地块的地块坐标、地块编号、地名、四个生态组的数量、五种断面积、每种树木类型的枯木、腐烂部分的树木、年龄、树属数量、当前水位和预测水位。我们的实验已经取得了唯一的数字来识别一个情节。例如，T11表示Tofte中的一个森林，其地块编号为11，H111表示Hostermark中的另一个森林，其地块编号为111等。6543210百分之八十百分之七十百分之六十 40%50%BP δ =10K 20K 30K见图12。 BS和BP挖掘的性能图。最小时间最小时间0.250.20.130.130.1 0.10.10.050.020.040.04626S. 麦提， R.B. V Subramanyam /工程科学和技术，一个国际杂志 22 （2019）618≥4.2.1. 行为相似性该提出的相似性度量和模式挖掘算法已经将该数据集作为输入，并且能够找到表7中给出的满足条件（# similar features> 10）的具有相似行为的以下成对的图，所述相似行为根据行为相似特征的数量和BS相似性的百分比来测量和呈现。R. G. Pontius等人对不同度量的均方误差（MSE）和平均绝对误差（MAE）[31]进行了简要分析我们计算了所有对的MSE，也在表7中列出。图13中的两个图都显示了森林之间的相似性比较，T76与H111的相似性分别为61%，T109与H119的相似性分别为31%。X轴显示的功能列表和Y轴是呈现的对象的值对应的功能集。第一个图显示，对应于属性A4，A5，A6，A7，A8，A9，A10，A12，A14，A15，A17的值对于两个对象是相同的，而在第二个图中，只有属性A2，A5，A7，A8，A9，A15，A16对

下载后可阅读完整内容，剩余1页未读，立即下载