HRNeuro-fuzzy：基于粗糙集和全息熵的数据流分类算法

77 浏览量更新于2024-01-14 收藏 1.19MB PDF 举报

数据流分类

神经模糊系统

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.comJournal of King Saud UniversityHRNeuro-fuzzy：使用粗糙集理论和全息熵自适应Jagannath E.Nalavadea，*， T. Senthil Muruganb研究学者，Veltech博士RR博士SR技术大学，Avadi，钦奈，印度bVeltech Dr. RR Dr. SR Technical University，Avadi，Chennai，India接收日期2016年3月26日;修订日期2016年11月1日;接受日期2016年11月13日2016年11月21日在线发布摘要数据流分类在数据挖掘技术中起着至关重要的作用，它从现实世界的数据库中提取目前，传感器网络、视频监控、网络流量等应用都产生了大量的数据流。由于输入数据的模糊性、输入信息的不精确性和概念漂移等原因，数据流分类存在一些问题。为了解决这些问题，本文提出了一种基于粗糙集理论和全熵函数的HR神经模糊系统。首先对输入数据进行主成分分析，对数据进行降维采用自适应神经模糊分类器，其中隶属函数和规则库的设计是两个重要方面。然后，当数据流之间的检测发生变化时，神经模糊系统进行更新。在这里，隶属度函数和规则的更新行为进行使用粗糙集理论和全息熵函数。实验结果进行了评估的数据集和性能分析的一些指标，并与现有的系统，如JIT自适应K-NN和HRFuzzy系统进行比较实验结果表明，本文提出的模糊分类器具有96%的准确率，证明了数据流分类算法的有效性©2016作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。这是CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍*通讯作者。电子邮件地址：jen20074u@gmail.com（J.E.Nalavade）。沙特国王大学负责同行审查数据流挖掘被定义为从由模型和模式表示的连续数据流中提取结构信息（Mena-Torres和Aguilar-Ruiz，2014;Masud等人，2011; Wang等人，2003; Read andBifet，2012）。数据流分类是数据流挖掘的重要内容之一，已被应用于垃圾邮件过滤、实时入侵检测和恶意网站监控等领域http://dx.doi.org/10.1016/j.jksuci.2016.11.0051319-1578© 2016作者制作和主办由爱思唯尔B.V.代表沙特国王大学。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier关键词数据流;神经模糊;变化检测;粗糙集理论;全熵函数基于粗糙集理论和全熵函数的499（Zhang等人， 2015年）。数据分类通常是学习分类器对数据类进行区分和描述的然后，学习分类器可以在不知道类标签值的情况下预测实体的类（Ghosh和Biswas，2014）。数据流的分类方法单分类器方法从数据流的小集合中构建模型或模式，然后使用机器学习增量地更新模型一些学习技术是人工神经网络、模糊、决策树、基于实例的学习等（ Mena-Torres 和Aguilar-Ruiz，2014; Rutkowski等人， 2014年）。基于集成的方法是将各个基本模型以某种方式组合与基于单个分类器的方法相比，该集成分类器获得了更好的准确性并且更容易缩放（Bifet等人， 2009年）。目前，数据挖掘正受到以非模式速率提供大量数据的实时系统的挑战此类数据流的示例包括电话通话记录、监控视频流、信用卡交易流以及传感和网络事件日志（Ghosh和Biswas，2014）。在数据流分类算法中，存在两个主要问题：无限无限长度由数据流定义，其是快速和连续的现象（ Masud 等人， 2013年）。然后，当底层数据流可能随着时间的推移而进展并且其分布可能随之改变时，概念漂移发生。现实生活中概念漂移的例子是金融欺诈检测，垃圾邮件分类，监控系统，不断变化的客户偏好和天气预测（Brzezinski和Stefanowski，2014）。处理数据的不完整性、数据的不可用性、数据的不精确性和不确定性是任何实际应用中的主要困难。因此，采用流数据分类算法来处理概念漂移并通过机器学习方法对不确定的数据流进行分类（Han等人， 2015年）。数据流分类是由两个步骤的过程。首先，一个分类器是由一组预定义的数据类和数据概念。在训练阶段，使用分类算法以及从数据集元组及其标签属性中学习来构造分类器。这个过程被称为机器学习。其次，分类器用于分析数据集的性能，这与训练预定数据无关。该步骤被称为监督学习（Patil等人，2010年）。模糊系统是最常用的分类任务之一，它用来描述特征空间，用模糊规则维护模糊区域。在经典集合论中，模糊集合论很容易处理不确定数据和不精确数据的不同方面。这些特征与模糊分类器中的隶属度函数相关联，该隶属度函数是使用基于模糊规则的分类系统确定的。在该分类中还利用模糊化方法来通过数据流分类中的输入数据映射模糊集（Mitrakis等人，2008; Nowak和Nowicki，2014;Azar和Hassanien，2014）。通常，基于模糊的方案是非常有效的，因为它们被有效地应用于检测网络环境中的入侵（Zadeh，1992;Snasel等人，2010; Shojafar等人，2016; Sh等人，2014年）。此外，神经模糊系统有效地用于各种实时场景。据此，进行了风尾流估算在Shamshirbandaetal. （ 2014）和Nikolic'etal. （ 2015），Singh等人（2016）、Moshtaghi等人（2015）使用神经模糊方法进行异常检测。本文的主要目的是分类的数据流的类标签的基础上，以前的数据流使用建议的自适应神经模糊分类器。隶属度函数和模糊规则库是神经模糊系统中的两个重要步骤。最初，使用主成分分析减轻输入数据库的维度然后，数据库被划分成若干数据块，用于建立神经模糊系统。然后，模糊分类器利用规则库和隶属函数，基于前一数据流对第一数据流进行其次，当检测到当前数据流与先前数据流之间的概念变化时，需要更新先前数据流因此，粗糙集理论被用来更新隶属函数，然后利用基于全息熵的方法来更新模糊规则。在更新模糊系统之后，模糊分类器基于先前的数据流对当前的数据流进行分类本文的主要贡献是：由于数据流的规模较大，本文采用主成分分析（PCA）对数据进行降维。提出了一种基于隶属函数和模糊规则库的自适应神经模糊分类器本文的结构如下。第二部分介绍了利用机器学习方法进行数据流分类的文献综述.第3节描述了背后的动机通过问题陈述和挑战的方法。第4节解释了神经模糊分类器的建议方法数据流分类。第五节讨论了实验结果和比较性能分析。最后，本文在第6节中结束。2. 文献综述Mena-Torres和Aguilar-Ruiz（2014）介绍了一种名为基于相似性的数据流分类器（SimC）的技术，该技术通过引入快速适应数据趋势的插入或删除策略来实现良好的性能，并保持了一组具有代表性的小样本和估计量，以保证良好的分类率。这种方法还能够在运行阶段检测新的类或标签，并删除没有为分类过程增加任何价值的无用类或标签。使用统计检验从功效（分类率）和效率（在线响应时间）两个角度评估模型性能。五个著名的技术和16个数据流进行了比较，使用弗里德曼的测试。此外，为了找出哪些方案是显着不同的，Nemenyi结果表明，SimC是非常有竞争力的（绝对和流）的准确性，分类或更新时间，在文献中最流行的方法相比。它的优点是使用基于实例的学习技术，但缺点是改进模型以检测和处理突然的概念变化。●●500J.E. Nalavade，T.森希尔·穆鲁甘1/4fgAlibaba等人（2013年）考虑了一种即时适应策略;传感单元在需要时准确地做出反应，即，当概念漂移被发现时。变化检测测试（CDTs），旨在检查工业和环境数据中的结构变化，在这里与自适应k-近邻和支持向量机分类器相结合，并在检测到变化时进行适当的重新训练由于嵌入式传感中宝贵的有限资源，CDT和分类器的计算复杂度和存储器要求我们表明，一个分层的CDT加上自适应资源感知分类器是一个合适的工具，用于处理和分类连续的数据流。KNN和SVM对变化漂移的检测准确，但更适合于数值型数据。Zhang et al.（2015）提出了一种Ensemble-tree（简称E-tree）索引结构，将所有基本分类器组织在一个集合中，以实现快速预测。E树将集合作为空间数据库处理，并采用类似R树的高度平衡结构将预测时间从线性复杂度降低到次线性复杂度。另一方面，E树可以通过不断集成新的分类器并丢弃过时的分类器来自动更新，很好地适应数据流下的新趋势和模式。理论分析和实证研究的合成和现实世界的数据流证明了这种方法的性能。然而，E-tree对存储空间和树的维护要求很高。Brzezinski和Stefanowski（2014）提出了一种数据流分类器，称为准确度更新的包络（AUE2），旨在对不同类型的漂移做出同样好的AUE2将基于块的集合中已知的基于精度的加权机制与Hoeffding树的增量性质相该算法是实验com-mountain与11个国家的最先进的流方法，包括单一的分类器，基于块和在线集成，以及混合方法在不同的漂移情况下。在所有比较的算法中实验结果表明，AUE2可以被认为是适合的场景，涉及多种类型的漂移以及静态环境。AUE2分类器易于考虑周期性加权机制，但难以适应不同数据空间的权重。Mitrakis和Theocharis（2012）解释了一种用于开发自组织神经模糊多层分类器（SONeFMUC）的有效结构学习算法这些分类器是分层结构，包括小规模的模糊神经元分类器（FNC），沿多个层互连SONeFMUC结构通过基于分组数据处理方法（GMDH）算法的原理生成层来逐步传统的GMDH盲目地从前一层构建所有可能的亲本FNC对，以获得下一层中的个体，而没有适当注意FNC组合的多样性因此，设计了一种改进的GMDH版本，用于有效鉴定SONeFMUC结构。我们采用特定协议（Ps）的比例来评估FNC对的多样性。在所设计的方法中，仅对互补的FNC进行检测。组合，即，在不同的模式子空间中犯错误的FNC因此，在保持高分类精度的同时实现了计算减少。所提出的结构学习的有效性进行了测试，在不同的基准数据集使用土地覆盖分类从多光谱图像作为一个现实世界的应用。它利用了歧义模式的更高的准确性和更多的复杂性。Nowak和Nowicki（2014）描述了一种神经模糊分类器的架构，该分类器具有模糊粗糙集，用于处理不精确的数据。这种系统的原始输出是一个间隔，必须在以后的分类中解释。为了得到一个可信的答案，区间应该尽可能的窄;然而，只要输入值不精确，它的宽度他们讨论了使用标准梯度学习技术确定分类器参数。仿真实验验证了该方法的有效性神经模糊分类器用于降低分类错误率。Snasel等人（2010年）提出了一种遗传编程，以模糊搜索表达式的形式进化模糊分类器来预测产品质量。他们将数据挖掘任务解释为模糊信息检索问题，并将搜索查询优化的成功信息检索方法应用于模糊分类器的他们展示了遗传编程在两个用例中进化有用的模糊分类器的能力，在这两个用例中，他们检测到了产品加工厂的故障产品，并发现了计算机网络中模糊分类器仅用于描述缺陷产品。Azar和Hassanien（2014）提出了一种具有选定特征的语言模糊限制语神经模糊分类器（LHNFCSF），用于降维，特征选择和分类。四个真实世界的数据集，以证明神经模糊分类器的性能。针对不同的分类问题，将该分类器与其他分类器进行了比较结果表明，应用LHNFCSF不仅降低了问题的维度，而且通过丢弃冗余，噪声损坏或不重要的特征来提高分类性能。实验结果表明，该方法不仅有助于降低大数据集的维数，而且可以加快学习算法的计算时间，简化分类任务。随着每类模糊规则数的增加，识别率下降。3. 动机3.1. 问题陈述通常，分类器的学习不能用完整的数据流来执行以分类数据，因为仅知道先前数据流的类标签。让我们假设输入数据库I被划分为一个数据块样本d t的大小为s，Id t; 0 6t6s。在当前时间，数据可以被读出，我们可以执行分类。因此，每个数据包含v属性向量数aj;a模糊分类器用于处理基于粗糙集理论和全熵函数的501对新数据流进行X¼我S我我隶属函数象征性的和定性的数据。在这里，主要的挑战是使用神经模糊分类器对当前数据流中的数据进行分类，该分类器还处理数值和定量数据。然后，基于先前数据流的已知类别标签执行分类。3.2. 挑战通常，数据流被定义为连续和无限的，并且数据以高速率创建。因此，在这些环境中出现了不同的挑战，例如挖掘，查询和存储（Mena-Torres和Aguilar-Ruiz，2014）。这里的挑战是确定现实世界数据流分类中的概念漂移，因为数据不断生成，例如Web日志、传感器网络、业务交易等（Cao和Huang，2013）。数据流中的其他重大挑战是概念中的反复变化、少得多的关注、特征空间演变和上下文信息的集成（Gomes等人，2014年）。数据流的演化是更具挑战性的，输入数据不完善、不可用、不确定和不精确在神经模糊系统中，本文提出了用全息熵来更新隶属函数和模糊规则的方法。最后，神经模糊系统的更新的基础上以前的数据流被用来分类新的数据流。4.1. 主成分分析最初，输入数据库I由s个数据集组成，这些数据集作为主成分分析（PCA）算法的输入被给出以进行降维。主成分分析（Ilin和Raiko，2010年）是减少数据维度的一个重要工具。本文利用主成分分析从数据库中提取相关信息，降低复杂数据集的维数。与其它分析方法相比，它具有噪声降低、内存占用少、冗余度低和复杂度低等优点PCA分析由下式导出(i) 数据库I中的每个数据集Ii通过使用等式2的平均值来计算。（一）.S输入信息。M1 Isi¼0ð1Þ4. 建议的方法：使用粗糙集理论和全息熵本文的主要目的是利用自适应神经模糊系统对数据流进行分类图1表示所提出的方法的框图。最初，输入数据库被送入主成分分析（PCA）系统，以减少输入的维数。然后，数据-数据库被划分为用于构建的数据块，(ii) 然后，从存储在变量u i中的每个数据集中减去平均值，并由等式给出。（二）、/i¼I i-M在哪里;06i6s2(iii) 计算协方差矩阵。协方差计算用于发现高维数据集的维度之间的关系。因此，使用PCA（Ilin和Raiko，2010）算法来表达矩阵，并且在等式（1）中给出。（三）、S神经模糊系统隶属函数和模糊规则是建立模糊系统的两个重要方面。C¼1X//Tð3Þtem用于第一数据流。当当前数据流和前一粗糙集理论其中，fT是矩阵的转置。(iv) 协方差矩阵的本征向量和本征值由等式（1）计算。（四）、数据流PCA数据库神经模糊系统的修正建立神经模糊系统模糊规则库解模糊图1拟议方法框图1/4我502J.E. Nalavade，T.森希尔·穆鲁甘X我我我XiFGJKÞ¼.zh-z¼我FG我jk0- 是的ΣΣui¼S1/4vi/i4选择模糊隶属函数。然后，模糊化层中的每个节点i用由等式表示的节点函数构造。（八）其中，ui是特征向量，vi是/T.然后，本征值wi相对于本征向量来表示。wiuTIi-M5L1¼dPia其中，a是节点i的输入属性，Pi是与节点函数相关联的语言变量，dPi是钟形从上述方程中，我们可以观察到本征值是相当不同的。因此，为了降低维数，具有最高特征值的特征向量被认为是数据集的主成分一旦形成特征向量，它们就按照特征值和生成的特征向量特征向量F由方程给出。（六）、Fw1;w2;. . . ;wn2006年6月其中，n个特征向量对应于n个最大特征值。(v) 一旦主成分被选择，最终数据或新数据由特征向量与数据集的均值相乘来表示。D¼ FTω MT因此，通过PCA（Ilin和Raiko，2010）分析获得数据库D的降维。然后，将数据库D作为神经模糊器的输入，用于建立模糊系统。4.2. 构造神经模糊系统隶属函数由等式表示（九）、1dPia2yi9a-zi其中，xi;yi;zi是前提参数集。参数z确定钟形隶属函数的中心，参数x表示半宽度，并且y（连同x）被定义为控制不同交叉点处的斜率。这些参数的变化表现出不同形式的隶属函数的语言变量。因此，采用广义钟形隶属度函数与三个隶属度函数x;y;z来定义每个属性的特征。在ANFIS（Jang，1993）体系结构中，成员函数在这一层中使用的是可以表示为其中，j是指属性的索引，k是指隶属函数的索引。第i个隶属函数的第j个属性的钟形隶属函数定义在等式中。（十）、d0mfdij;x;y;z10然后，通过下式导出钟形隶属函数：使用PCA获得数据库D数据库D由s个数据块组成，其由下式定义：当量（十一）、mfdij;x;y;z10ð11ÞDd t; 0 6 t 6 s。模糊系统是由当前数据建立的流基于先前的数据流。分类器分类ij2y1þ0当前数据流DT基于先前数据流DT-1，因为我们只知道当前时间中先前数据流的类标签然后，利用隶属函数和模糊规则构造模糊分类器4.2.1. 自适应神经模糊推理系统结构ANFIS是一类自适应网络，它是函数-基于模糊集合论、模糊通过修改前提参数集x;y;z;的值，我们可以获得我们想要的隶属函数，这为分类提供了更多的灵活性。层2：在该层中，节点被固定以确定规则的触发强度fi。因此，该层中每个节点的输出由等式中给出的属性的隶属函数的乘积计算。（十二）、L2¼fi¼dPia×dQa12if-then规则和模糊推理。ANFIS（Jang，1993）体系结构代表了Sugeno和Tsukamoto模糊模型。模糊推理系统由第一数据流d0的两个属性a和b构成。规则库包含如下的Takagi 和 Sugeno 型模糊的模糊 if-then 规则一阶两规则Sugeno模糊推理其中，dPi和dQi是两个语言变量P和Q的隶属函数。第3层：该层中的每个节点用于计算射击强度，其由第i个规则的射击强度与所有规则射击强度之和的比率定义，由等式：（十三）、F系统中，这两个规则可以表述为：L3¼f¼iFð13Þ规则1：如果a是P1，b是Q1，那么c1=x1a+y1b+z1我我1 2号线规则2：如果a是P2，b是Q2，那么c2=x2a+y2b+z2这两个模糊规则被用于自适应神经模糊系统。图图2展示了ANFIS的体系结构，它包含五个层。因此，自适应层神经模糊系统描述如下。其中f1定义为层3中的归一化烧结强度。第4层：该层是用节点函数作为自适应函数以及输入来构造的这一层的输出由方程表示。（十四）、L4¼fici¼fipaqbri 14我我我层1：该层被称为模糊化层，定义每个属性的成员资格等级，并取决于其中，p i;q i;r i 是参数集。此图层被称为结果参数集。X1þ基于粗糙集理论和全熵函数的503Pfii我ð Þð Þ¼ð ÞaðjjYÞ¼d0JK0图2 ANFIS系统的体系结构。第5层：输出层由单个节点组成，该节点将最终输出或总输出计算为所有输入的总和，并通过等式估计。（十五）、（Pawlak，2002）用于检查数据集和近似值。通常，数据集由粗糙集理论所利用的对象和属性组成在这个理论中，L5¼ Xfici¼我Pificið15Þ集合Y属于对象，A属于数据集中的属性。然后，近似集被定义为由数据对象的等价关系组成的因此，ANFIS系统包含两个参数集，如前提参数和结果参数。在学习过程中，这些参数被调整，直到实现该系统当前提参数固定时，ANFIS（Jang，1993）的输出可以用后件参数的线性组合表示。cf1ap1f1bq1f1r1f2ap2f2bq2f2r2ð16Þ4.2.2. 数据分类的模糊系统神经模糊系统由隶属函数和模糊规则库定义。因此，所设计的神经模糊系统可以表示为Ffdi;Rg。然后，输入数据送入设计的神经模糊系统进行分类。该模糊系统生成一个得分值，然后可以用于对数据标签进行分类。4.3. 神经模糊系统在神经模糊系统建立之后，需要更新行为以基于先前数据流dt-1的类别标签对每个数据流dt中的数据进行分类。由于数据流信息的不断变化的性质，变化检测是一个必不可少的数据挖掘过程。因此，神经模糊系统进行更新的前一个数据流时，然后，等价关系被称为基本集合或粒g。因此，下面给出集合Y(i) 集合Y关于A的下近似集合是集合中包括的所有粒的并集，其在等式中定义。（17）.AY<$fgj½g]A6Yg17集合Y关于A的上近似集是与集合具有非空相交的所有粒的并集（十八）、AY¼fgj½g]A\Y其中，g是粒或基本集。(ii) 集合Y的边界区域（Pawlak，2002）A由等式给出。（十九）、ANAYAY-AY19如果Y的边界区域是空集，即ANA Yu，则集合Y相对于A是清晰的。然而，当边界区域非空时，即，则集合Y相对于A是粗糙的(iii) 近似的准确度是根据数据的下近似集和上近似集来计算的，该数据由等式（1）表示。（二十）观念发生了变化因此，利用粗糙集理论和的Y一j是 jð20Þ4.3.1. 基于粗糙集理论的利用粗糙集理论计算前一个数据流的检测变化粗糙集理论然后，将近似的准确性与称为T的阈值进行比较。如果近似aAY的精度小于阈值，则存在需要更新隶属函数的概念504J.E. Nalavade，T.森希尔·穆鲁甘XJXJJJJJJJXJ.！公司简介JKJJ1/1JJJJJJJJJJJJRJ;wRj

下载后可阅读完整内容，剩余1页未读，立即下载