没有合适的资源?快使用搜索试试~ 我知道了~
概念漂移的精确检测方法及其在数据流挖掘中的应用
⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 6(2020)332www.elsevier.com/locate/icte演化数据流中概念漂移的精确检测Myuu Myuu Wai Yan缅甸仰光计算机研究大学接收日期:2020年2月16日;接受日期:2020年在线预订2020年摘要在不断变化的数据流上运行的预测模型是动态的。当一个模型受到概念漂移的影响时,其性能最终会恶化。学习算法需要适当的自适应策略来应对概念漂移的数据流。在本文中,我们提出了一种新的概念漂移检测方法,分析的一致性的先决条件错误率使用Hoeffding不等式检测数据流中的概念漂移。实验结果表明,我们提出的方法优于比较在真漂移检测、虚警和检测延迟方面与其它现有技术的检测器c2020年韩国通信与信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:概念漂移;变化检测;自适应学习;数据流挖掘1. 介绍数据流学习算法[1,2]通常必须从大量连续到达的数据流中学习。 这种类型的学习范式通过内存消耗、运行时消耗和模型准确性来表现预测模型的挑战。传统的监督学习方法不足以从动态变化的数据中学习,其中数据分布在稳定期之后不时地发生变化。这种现象可能会导致模型性能下降。为了获得最佳精度,从先前的历史数据训练的模型必须使用新到达的实例进行适应概念漂移的类型根据其变化的速度和性质进行分类。漂移速度[3]是通过两个概念之间的漂移过渡期的倒数来描述的。较快的速度使概念发生突变,较慢的速度使概念逐渐漂移[1]。此外,概念漂移可能会出现一个新的概念,在数据流的前一个时间步出现的循环概念。概念漂移[4]是由于不同的因素而发生的,如随机噪声、随机趋势(出现逐渐漂移)、随机替代(出现突然漂移)和系统趋势(出现重复出现的概念)。电子邮件地址:mmwaiyan@outlook.com。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.05.011概念漂移适应技术分为被动适应和主动适应两种。反应式自适应是一种基于数据流的方法,它观察数据流中的漂移点,然后调整模型。主动适应通过在新实例到达时不断调整模型来为更改做准备。漂移检测器是数据流学习中检测概念漂移的基本算法。在[1]中,检测方法被认为是以下类别:(i)基于序列分析的方法,如SPRT [5],EDMUM [6]和PH [6],(ii)基于统计过程控制的方法,如DDM [7],EDDM [8],ECDD [9]和RDDM [10],(iii)基于监测不同时间窗口的数据分布的方法,如ADWIN [11]和FHDDM [12],(iv)基于上下文方法的方法等。本文的其余部分组织如下。第二节讨论了概念漂移检测的相关工作.我们提出的算法在第3节中介绍。第4节描述了所提出的方法和最先进的检测器之间的实验分析。第五章是结论部分,讨论了本研究的结论和未来的工作2. 相关工作序贯概率比检验(SPRT)[5]是几种变化检测算法的基础。其他序贯分析技术,如累积和(Cumulative Sum,缩写为CASUM)[6]及其变体Page Hinkley(PH)[6]测试也用于2405-9595/2020韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。M.M.W. 严/信通快报6(2020)332333正+ +正+ +正+ ++ ≥++ ≥+正+ +=|=Pr(X|yk=1|概念漂移检测这种检测方法的性能通常取决于用户定义的阈值的选择,导致虚警率和漏检率之间的权衡。最广泛使用的概念漂移检测器是Gama等人提出的漂移检测方法(DDM)。[7]其中它监视基本学习器的错误率。正如在可能近似正确(PAC)学习模型[13]中所述,该方法假设错误率将降低,在增量学习过程中,如果数据分布是平稳的,则实例的数量增加。它估计在时间t的错误率p t及其标准差s t,并更新变量p min和s min,如果p tst pmins min.当p t Stpmin2smin,并在pt st pmin3smin时发出漂移状态信号。在漂移的情况下检测时,算法仅使用自警告状态以来存储的实例重新学习新模型。Baena-Garc 'ıa等人提出了一种新的算法,早期漂移检测方法(EDDM)[8],该方法估计两个相邻误差之间的平均距离pt及其在时间t的标准差st,如果pt2st>pmax2smax,则更新变量pmax和smax。当(pt2st)/(pmax2smax)<α时,它发出警告状态信号,当(pt2st)/(pmax 2smax)<β时,它发出漂移状态信号。如果检测到概念漂移,则算法从存储的实例中重新学习新的模型。自适应加窗(ADWIN)是Bifet等人提出的一种基于滑动窗口的变化检测算法。[11 ]第10段。通过测试窗口W中的两个子窗口的平均值之间的差是否大于给定阈值来检测变化。ADWIN应用于概念漂移检测,通过测试预测错误率的变化,模型EWMA for Concept Drift Detection(ECDD)[9] al-tem计算时间t的指数加权错误率Zt。此外,还估计了EWMA估计量s的误差率pt及其标准差.如果出现以下情况,则它将发出漂移状态信号检测延迟,可能会导致更好的整体准确性,学习算法另一方面,如果检测器对噪声敏感,则较小的延迟时间可以影响更多的机会获得高虚警率。因此,性能是不可靠的各种概念漂移。最先进的探测器的基准比较将在后面的章节中讨论。3. 一种精确的概念漂移检测方法我们介绍了准确的概念漂移检测方法(ACDDM),检测概念漂移在不断发展的数据流。算法利用Hoeffding不等式分析了序贯错误率的状况它根据基本学习者当前的错误率,3.1. 预赛假设数据流是一个实例序列( Xi,yi),其中i为1,2,.. . . 其中X是属于m维特征空间的向量,y是属于具有n个类的集合的目标变量。在演化数据流的情况下,由实例序列生成的数据分布会随时间而变化定义1(概念漂移)。时间之间的概念漂移[1]t和t+1定义为X :Prt ( X , y ) =Prt+1 ( X , y ) ,( 1)其中Prt表示在时间t处输入变量X的集合与目标变量y之间的联合概率分布。在贝叶斯决策理论[14]中,分类决定-Zp+Ls。根据p确定参数λt,Lt>特什特根据类分类假阳性变化检测的可接受平均率ARL是用蒙特卡洛搜索法。快速Hoeffding漂移检测方法(FHDDM)[12]其中类的后验概率 y 给定 X是表示为Pr(y)Pr(X|年)的使用恒定大小的滑动窗口来估计预测模型的精度,并保持最大精度,直到Pr(y|X)=Pr(X),(2)当前时间当当前精度和最大精度之间的差异大于通过使用Hoeffding不等式确定的阈值时,它发出漂移状态的信号无功漂移检测方法(RDDM)[10] modi-其中Pr(y)表示类别y的先验概率,Pr(X y)表示类别条件概率密度函数X给定类y且Pr(X)=∑nPr(yk)fied DDM以提高性能。当当前概念的实例达到预定义的最大实例数时,它发出称为RDDM漂移的新型漂移的信号,并仅使用最近的最小实例更新DDM统计信息。此外,RDDM信号DDM漂移时,在警告级别下的实例的数量达到一定的限制。因此,它为DDM增加了三个新参数:max,即,概念的最大尺寸min,即,一个稳定的概念和warnLimit,即,限制警告级别的最大实例大多数检测器的性能的经验实验是由高的真漂移检测和小的k)的情况。从这一决策理论的角度来看,概念漂移分为两种类型[1]:真正的概念漂移是指类的后验概率的变化,即,影响分类决策的Pr(y X)的变化虚拟漂移是指输入属性Pr(X)的概率分布的变化,而不影响Pr(y|X)。定义2(先决错误)。假设一个实例序列(Xi,yi),其中i一,二,. . ,使用实例在训练之前测试模型并计算误差··334M.M.W. 严/信通快报6(2020)332ˆ我=∑1=t k()下一页我nKDRI F T使用Hoeffding界的置信度α在第10到24行中,2Nln−表1数据集的描述数据集实例总数属性数班级数漂移数量漂移宽度Agrawal-60K60,000925100Agrawal-600K600,0009251,000Agrawal-6M6,000,00092510,000混合-60 K60,000425100混合-600 K600,0004251,000混合-6个月6,000,00042510,000随机树-60 K60,0001025100随机树-600 K600,00010251,000随机树-6 M6,000,000102510,000航空公司539,38372––电力45,31282––扑克牌829,2011010––基于预测yi和观测值yi之间的损失函数L的累加和,如下:pi=1∑L(yk,yk)(3)k=1(1δ)。通过使用这个定理,我们可以确定任何期望置信水平的可能差异ε。为了得到完整的漂移检测方法,我们定义了一个过程,对错误率进行三种不同的条件测试该过程测试支持以下不一致的错误率:这种预测误差被称为预测序列误差或前误[15]。事实上,如果输入数据分布是平稳的,则当训练实例的数量增加时,一致性学习算法[15]的先决误差将减小并收敛到最佳误差。如果在学习了足够多的实例之后错误率非常高,则意味着由于输入数据分布是非平稳的,因此输出假设是不一致的。前置误差的这些特性是实现我们提出的漂移检测方法的基础。3.2. 算法实现设pt是来自一致学习算法的前序误差输出,并且pmin是在每个时间步长t1, 2处的对应最小误差,如果时间t处的最小误差和当前误差是Δt,即,pt=pt−pmin,(4)我们可以用Hoeffding不等式检验当前错误率的一致性定理1(Hoeffding不等式)如果D1、D2、. . .,Dn是n个独立的随机变量,使得在D ∈ [0,1]处,则经验均值D=1∑n=1Dk偏离的概率早期的时间步骤。它使用高置信度α来确定通过假设错误率是高度不稳定的,上界εdrift。如果在这一步中ε drit大于εdrift不稳定否则,在学习了足够多的实例之后,该过程使用非常低的置信度θ来确定ε稳定,以支持稳定的错误率。在此步骤中,它估计序列的平均值如下:不汽车旅馆(7)tk=1如果ε pt小于或等于εstable,则意味着误差率已渐近收敛到其最优误差。在错误率稳定之后,该过程使用较低置信度β来细化εdrift以支持漂移错误率。如果ε drit大于εdrift,则意味着由于漂移概念,错误率不一致。算法1描述了ACDDM过程的伪代码.在每一时间步,逐个计算输入的序贯误差。如果t大于最小值 检测漂移状态d的实例,算法开始来检测错误率。如果误差小于最小值误差,它将最小误差变为当前误差。 然后,它估计当前误差和最小误差之间的差和平均差之间的差(第8行)。 在第9行中,它计算最大差值ε,PRD−E[D] ≥ε≤ e−2nε2,(5)其中ε > 0 [16]。从这个不等式,我们推导出偏差ε如下:√1 1δ算法测试三种可能的错误率状态。如果没有 ,大于εdrift,则表示漂移状态(第11行)。如果t大于检测稳定状态s的最小实例数,则算法开始测试稳定错误率。它使用置信值θ计算ε稳定。如果pt小于小于或等于εstable,则表示稳定状态(第16行)。在错误率处于稳定状态后,重新计算εdrift从它的期望E[D]是ε≤(六)M.M.W. 严/信通快报6(2020)332335在我们的例子中,我们假设ε是其经验误差与概率最优误差使用置信度值β。如果ε drit大于εdrift,则表示漂移状态(第21行)。336M.M.W. 严/信通快报6(2020)332=-==-公司简介3.3. 复杂性分析由于ACDDM算法在内存中只存储输入数据的统计信息,因此它具有O(1)的空间复杂度。它在每个时间戳执行恒定的处理步骤,时间复杂度也是O(1)。4. 实验分析我们的实验在大规模在线分析(MOA)框架上执行和分析[17]。我们比较我们提出的算法ACDDM对四个国家的最先进的检测器,即,DDM、EDDM、FHDDM和RDDM。ACDDM的参数为d100,s5000,α 0.9,θ0。05和β0。1.我们的目标是评估一个公平的比较检测器的性能,真正的概念漂移检测。4.1. 数据集描述我们从Agrawal,Mixed和RandomTree生成器创建合成数据集。关于我们实验中使用的合成数据生成器和真实世界数据集的简要描述如下:Agrawal-这个生成器在[18]中引入,由六个数字属性和三个分类属性组成,用于描述假设的贷款申请。对于数值属性,有一个扰动因子,通过添加偏移量来移动真值。它可以产生十个不同的函数来确定贷款是否应该被批准。概念漂移是通过改变功能来实现的。对于我们的实验,我们使用了六个函数,参考函数2到7,具有5%的扰动噪声。Mixed-这个生成器在[7]中引入,由两个布尔属性v和w以及两个数值属性x和y均匀分布在[0, 1]中。如果满足以下三个条件中的至少两个,则实例被分类为正:v,w,y<0。50. 3sin(2πx)。概念漂移是通过颠倒分类条件而产生的。RandomTree-这个生成器在[19]中引入,通过随机选择属性来生成决策树分裂,并分配一个随机的类标签给每个叶子。树建立后,通过对属性分配均匀分布的随机值来生成新的示例,并通过树确定类标签。它具有预定义的参数来控制类的数量、属性和树的深度。通过更改treeRandom参数创建概念漂移。航空公司-该数据集[20]包含由7个属性定义的539,383条航班时刻表记录。任务是预测航班是否延误电力-该数据集[21]收集自澳大利亚新南威尔士电力市场。该数据集包含由8个属性定义的45,312个实例。类别标签标识价格相对于过去24小时移动平均线PokerHand-该数据集来自[22]。规范化后,它由10个属性定义的829,201个实例组成。PokerHand数据集的每个记录都是从52张标准牌组中抽取的五张扑克牌组成的手牌的示例。每张牌都使用两个属性(花色和等级)来描述,总共有10个预测属性。class属性描述扑克牌。我们通过在实例总数上以规则的间隔创建概念漂移来例如,在Agrawal-60 K数据集中,每10,000个实例创建一个概念漂移,漂移宽度为100个实例。概念漂移事件由表征目标概念的两个数据分布的加权组合生成[2]。漂移大小和数据集大小的详细数值信息见表1。其目的是生成具有不同漂移持续时间的不同概念变化的演化数据流M.M.W. 严/信通快报6(2020)332337表2Agrawal数据集中检测器的性能结果Agrawal-60KAgrawal-600KAgrawal-6MDDM 0.83± 0.38 3.93± 1.82 392.06±5.68 73.01 ± 5.29EDDM 0.13± 0.35 17.63± 10.72 396.09±11.25 68.67 ± 1.77FHDDM 4.67± 0.48 2.97± 2.08 267.97±24.13 76.53 ± 0.99RDDM 2.30± 0.70 3.77± 1.07 374.10±7.35 76.69±0.78ACDDM 4.80± 0.41 2.07± 1.62 2359.61±223.73 84.85±1.27DDM 4.67± 0.61 0.53± 1.01 2819.84±126.52 84.30 ± 2.06EDDM 0.43± 0.50 21.33± 10.78 3962.89±48.83 75.16 ± 4.42FHDDM 4.90± 0.31 19.83± 7.61 1931.34±188.74 84.60 ± 1.53RDDM 4.93± 0.25 9.27± 3.35 2133.55±146.44 84.22 ± 1.16ACDDM 5 1.77±1.96 17036.65 ±342.59 88.32 ± 1.04DDM 5 0.33±0.61 19933.77 ±396.28 88.13 ± 1.32EDDM 0.37± 0.49 21.73±11.64 39520.01 ±647.20 81.81 ± 4.79FHDDM 5 114.77± 40.93 15333.57± 1329.0389.41±1.12RDDM 5 124.00± 7.95 12323.13±2419.01 85.17 ± 0.39表3混合数据集中检测器的性能结果混合-60 K混合-600 K混合-6个月DDM 4.97± 0.18 2.50± 2.73 261.09±8.37 91.60 ± 0.47EDDM 2.43± 1.43 19.80± 6.00 343.21±42.21 90.46 ± 0.25FHDDM 5 0.03± 0.18 215.89±1.88 92.09±0.17RDDM 5 4.80± 3.61 223.28±11.42 91.64 ± 0.31ACDDM 5 0.03± 0.18 1790.25±34.08 94.66±0.08DDM 5 0.33± 0.84 2012.26±14.82 94.65 ± 0.08EDDM 1.17± 0.91 29.50± 10.45 3963.57±38.67 93.64 ± 0.10FHDDM 5 0.07± 0.25 1704.46±4.64 94.63 ± 0.08RDDM 5 18.97± 6.37 1592.75±102.32 93.96 ± 0.18ACDDM 5 0 14691.96± 51.09 97.69± 0.06DDM 5 0.33± 0.84 15176.24±62.54 97.70 ± 0.07EDDM 5 2.77±4.64 24610.96 ±277.59 97.56 ± 0.08FHDDM 5 0 15665.25± 240.0197.71±0.07RDDM 5 254.9± 18.88 8804.27±1612.53 94.21 ± 0.094.2. 业绩评价措施我们使用非常快速决策树(VFDT)[19]作为在MOA中实现的基本学习算法。通过为合成数据集生成不同的随机实例序列,漂移检测过程运行30次如果检测到概念漂移,则从头开始重新学习新模型。然后,我们计算真阳性(真漂移检测)、假阳性(虚警)、平均检测延迟和预定准确度的均值和标准差。真阳性和假阳性检测由发生的总数描述。检测的平均延迟由实例的数量描述,准确度由百分比描述。可接受的检测间隔[12]定义为漂移宽度的四倍。例如,如果宽度被设置为100,则可接受检测间隔中的实例数(即,可接受的延迟长度)是从漂移点之前的199个实例开始到漂移点之后的下一个200个实例的400。4.3. 实验结果在我们的实验中,我们比较了四个标准,即,真阳性、假阳性、检测延迟和检测器之间的准确性。检测器的最佳性能应该具有最高真阳性数、最低假阳性数和最短延迟长度的结果。最后,由于正确的漂移检测,总体分类精度将是高的。表2表2描述了Agrawal数据集上的实验结果。RDDM在Agrawal-60 K数据集上的精度最高,ACDDM在Agrawal-600 K数据集上的精度最高,FHDDM在Agrawal-6 M数据集 上 的 精 度 最 高 。 此 外 , 在 Agrawal-6 M数 据 集 中 ,FHDDM和RDDM的假阳性检测的数量显著较大。表3描述了在混合数据集上的实验结果。FHDDM实现了最高的精度,数据集检测器真阳性假阳性延迟精度ACDDM2.07±0.915.60±2.30348.29 ±24.1576.02 ±1.09数据集检测器真阳性假阳性延迟精度ACDDM50.23±0.50280.17 ±35.7991.67 ±0.27338M.M.W. 严/信通快报6(2020)332表4RandomTree数据集中检测器的性能结果随机树-60 K随机树-600 K随机树-6 MDDM 0 5.67±0.80 400 71.08±0.27EDDM 0 20.70±8.99 400 66.07 ± 0.57FHDDM 4.63± 0.56 4.17± 2.13 273.18±28.05 69.94 ± 0.94RDDM 0.93± 0.74 4.60± 1.04 395.62±4.24 71.25±0.36ACDDM 5 0.23± 0.43 2250.96±49.47 83.98±0.44DDM 5 0 2782.65± 29.10 83.96± 0.39EDDM 0 31.33±10.72 4000 81.12 ± 0.43FHDDM 5 19.10± 6.13 1932.30±144.35 80.50 ± 1.28RDDM 5 5.23± 2.71 2203.13±74.30 82.86 ± 0.60ACDDM 5 0.03± 0.18 17657.21±91.37 93.03±0.17DDM 5 0 19506.78± 106.36 92.93± 0.30EDDM 1 23.97±8.89 39168.23 ±163.75 91.94 ± 0.21FHDDM 5 99.43± 40.71 16564.52±1288.27 89.42 ± 1.43RDDM 5 78.40± 7.96 13097.55±1812.21 85.27 ± 0.35表5真实世界数据集中检测器的准确性结果数据集ACDDMDDMEDDMFHDDMRDDM航空公司65.5365.2965.0666.0166.00电力84.8185.4184.9184.0985.18扑克牌76.0172.7477.3075.7476.70Mixed-60 K和Mixed-6 M数据集,而ACDDM在Mixed-600K数据集中达到最高精度。除EDDM外,大多数检测器的真阳性检测都很好。另一方面,在Mixed-6 M数据集中,RDDM的假阳性检测的数量也非常大表4描述了RandomTree数据集上的实验结果。ACDDM在RandomTree-600 K和RandomTree-6 M数据集中达到了最高的精度,而RDDM在RandomTree-60 K数据集中达到了最高的精度。FHDDM的真阳性检测是检测器中最好的,但在RandomTree-6 M数据集中,假阳性检测的数量也很大。通过对合成数据流的整体实验结果进行分析,我们发现ACDDM在几乎所有的时间内都取得了较高的准确率、较高的真阳性率、较低的误报率和较短的检测延迟所有数据集。DDM在大多数数据集上都取得了良好的性能。在 大 多 数 情 况 下 , EDDM 的 性 能 比 其 他 探 测 器 差 。FHDDM和RDDM在大多数数据集上都取得了较好的效果。在大多数情况下,这些检测器的延迟比其他检测器短。但是,当概念稳定期较长时,误报率通常较高。结果还表明,大多数检测器的真阳性检测在Agrawal-60 K和RandomTree-60 K数据集中较差,这是检测延迟长的结果表5描述了真实世界数据集上实验的准确性结果。在这些真实世界的数据流中,概念漂移是极端的,数据分布的序列经常变化。因此,VFDT的增量学习过程可能无法完全学习到最优模型如果学习实例的数量不足。但是,另一方面,我们在表2-4中的合成数据流上的经验实验,其中基础学习器从底层概念的不同大小的输入实例中学习,表明大多数漂移检测器仍然有可能即使基本学习器没有达到最佳性能,也能够有效地检测概念漂移。此外,由于这些数据集中的地面实况漂移点是未知的,我们只评估准确性。FHDDM在航空公司数据集中实现了最高的准确性。在电力数据集中,DDM实现了最高的准确性。在PokerHand 数据集中,EDDM达到了最高的准确度。虽然ACDDM没有达到最佳的精度,通过比较每个数据集的最高精度,我们得出结论,其精度结果是一致的。总之,ACDDM的主要优点是,性能是可靠的,以检测真正的概念漂移。虽然与DDM和EDDM相比,检测延迟有了很大的改善,但其真阳性和假阳性检测在几乎所有合成数据流中都是一致的。相比之下 , 具 有 较 短 延 迟 的 其 他 检 测 器 ( 诸 如 FHDDM 和RDDM)由于对噪声的敏感性,这些检测器的假阳性检测通常较高。5. 结论本 文 提 出 了 一 种 精 确 的 概 念 漂 移 检 测 方 法(ACDDM),用于检测演化数据流中的概念漂移。该算法利用Hoeffding不等式推导出经验错误率与其期望值的可能偏差值述的方法数据集检测器真阳性假阳性延迟精度ACDDM2.17±0.914.33±1.97358.11 ±17.9470.71 ±0.56M.M.W. 严/信通快报6(2020)332339对于各种概念漂移的检测是有理论保证的,也是经验有效的。实验结果表明,该方法的性能优于其它检测器,具有较高的可靠性.在未来,我们将进行额外的实验分析该方法在噪声数据流概念漂移检测中的效果。我们还打算通过将该检测器与传统的监督学习方法相结合来开发自适应学习算法。竞合利益作者声明,他们没有已知的可能影响本文所报告工作引用[1] 伽马岛Zliobaite,A.比费特,M. Pechenizkiy,A. Bouchachia,概念漂移适应调查,ACM Comput。监视器46(4)(2014)37,44:1-44.[2] A.比费特湾霍姆斯湾普法林格河柯克比河Gavalda,New ensemblemethods for evolving data streams , in : Proceedings of the ACMSIGKDD International Conference on Knowledge Discovery and DataMining,2009,pp. 139-148。[3] L.L. Minku,A. P. White,X. Yao,在概念漂移的存在下,多样性对在线集成学习的影响,IEEE Trans.Knowl。 数据工程师22(5)(2010)730[4] L.I. Kuncheva,Classifier ensembles for changing environments,收录 于 : Proceedings of the International Workshop on MultipleClassifierSystems,Lecture Notes in Comput。Sci. 3077(2004)1[5] A. Wald,Sequential Analysis,John Wiley and Sons,Inc,1947。[6] E.S. Page,Continuous inspection schemes,Biometrika 41(1 -2)(1954)100-115.[7] J. Gama,P. Medas,G. Castillo,P. Rodrigues,学习与漂移检测,在:巴西人工智能研讨会论文集,SBIA'04,计算机讲义。Sci.3171(2004)286-295。[8] M. Baena-García,J. Del Campo-Avila,R. Fidalgo,A. Bifet,Earlydrift detection method , in : Proceedings of the ECML PKDDInternational Workshop on Knowledge Discovery from Data Streams,IWKDDS 七十七比八十六[9] 新墨西哥州G.J.罗斯亚当斯,D.K. Tasoulis,D.J. Hand,指数加权移动平均图检测概念漂移,模式识别。Lett. 33(2012)191-198。[10] R.S.M.巴罗斯,D.R.L.卡布拉尔下午,SGTC Santos,RDDM:反应漂移检测方法,专家系统应用90(30)(2017)344-355。[11] A.比费特河Gavalda,Learning from time-changing data with adaptivewindowing,in:Proceedings of the SIAM International Conference onData Mining,2010,pp. 443-448[12] A. Pesaranghader,H. Viktor,Fast Hoeffding drift detection methodforevolvingdatastreams , in : ProceedingsoftheJointEuropeanConference on Machine Learning and Knowledge Discoveryin Databases,LectureNotes in Comput. Sci. 9852(2016)96[13] T. Mitchell,Machine Learning,McGraw-Hill,1997。[14] R. 杜达山口Hart,D.Stork,模式分类,Wiley,2001年。[15] 加马河P.P. Rodrigues,关于评估流学习算法,Mach。学习. 90(3)(2013)317[16] W.何福定,有界随机变量和的概率不等式,J。Amer. 国家主义者。Assoc. 58(301)(1963)13[17] A. 比 费 特 湾 霍 姆 斯 河 柯 克 比 湾 Pfahringer , MOA : MassiveOnlineAnalysis,Mach. 学习. Res. 11(2010)1601[18] R. Agrawal , T. Imielinski , A. Swami , Database Mining : APerformancePerspective,IEEE Trans. 知道。数据工程师5(6)(1993)914[19] P. Domingos , G. Hulten , Mining high-speed data streams , in :Proceedings of the ACM SIGKDD International Conference onKnowledge Discovery and Data Mining,2000,pp.71比80[20] H. Wickham,ASA 2009数据博览会,J. Comput. Graph.国家主义者。20(2)(2011)281-283。[21] M. Harries , N.S. Wales , Splice-2 Comparative Evaluation :ElectricityPricing , Technical Report , University of New SouthWales,Australia,1999.[22] D.杜阿角Graff,UCI机器学习库,2019,[http://archve. ics. 乌奇岛 edu/ml] 。 Irvine , CA : University of California , School ofInformation and Computer Science.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功