数据流集成分类算法研究进展与展望

需积分: 13 151 浏览量更新于2024-08-13 收藏 1.29MB PDF 举报

"数据流集成分类算法综述" 数据流分类是一种处理不断变化的数据流的机器学习方法，尤其在实时分析和大数据环境中具有重要应用。集成学习是数据流分类中的一个关键策略，它通过结合多个基分类器来提高整体预测性能。这篇综述详细探讨了国内外在集成分类算法上的研究进展，尤其是针对数据流场景。集成学习的核心在于基分类器的组合和动态更新集成模型。基分类器通常包括决策树、随机森林、支持向量机等，它们各自有不同的训练和预测机制。组合策略可以分为并行和串行两种，例如， Bagging (Bootstrap Aggregating) 和 Boosting 是并行和串行的典型代表。Bagging通过随机抽样创建多个基分类器，而Boosting则根据错误率逐步调整权重，强调弱学习器之间的互补性。动态更新集成模型则是为了应对数据流中的概念漂移，即数据分布随时间变化的现象。这类模型需要快速适应新出现的概念，例如，AdaBoost.MH 和 Hoeffding Trees 可以有效地检测和应对概念漂移。文章对比了不同集成算法在处理数据流时的优缺点。例如，AdaBoost 虽然对噪声数据有很好的鲁棒性，但在处理大规模数据流时可能因过多迭代导致计算复杂度增加；而Hoeffding Trees 利用近似算法快速构建树结构，适合在线学习，但可能对某些类型的概念漂移反应不够灵敏。此外，作者还提出了未来的研究方向，包括如何设计更有效的基分类器组合策略以提高准确性和泛化能力，如何构建更灵活的动态更新机制以适应快速变化的数据环境，以及如何在有限的计算资源下实现高效的学习和更新。同时，他们强调了对新数据集的开发和公开，以促进算法的公平比较和进一步研究。总结来说，这篇综述为数据流集成分类算法提供了全面的理解，涵盖了算法设计、性能评估和应对概念漂移的策略。对于研究者和实践者来说，它是深入理解这一领域的宝贵资源，有助于推动数据流分类技术的发展和应用。

书书书

　　收稿日期：２０１８０９１１；修回日期：２０１８１０２６　　基金项目：国家自然科学基金资助项目（６１５６３００１）；宁夏自然科学基金资助项目

（ＮＺ１７１１５）；北方民族大学研究生创新项目（ＹＣＸ１８０５５）

　　作者简介：许冠英（１９９４），男，辽宁葫芦岛人，硕士研究生，主要研究方向为数据流集成分类器；韩萌（１９８２），女（通信作者），副教授，硕导，博

士，主要研究方向为数据挖掘（２００３０５１＠ｎｕｎ．ｅｄｕ．ｃｎ）；王少峰（１９９３），男，陕西人，硕士研究生，主要研究方向为高效用模式挖掘；贾涛（１９９３），

男，陕西人，硕士研究生，主要研究方向为数据流单分类器．

数据流集成分类算法综述



许冠英，韩　萌



，王少峰，贾　涛

（北方民族大学计算机科学与工程学院，银川７５００２１）

摘　要：详细介绍了国内外集成分类算法，对集成分类算法的两个部分（基分类器组合和动态更新集成模型）进

行了详细综述，明确区分不同集成算法的优缺点，对比算法和实验数据集。并且提出进一步的研究方向和考虑

的解决办法。

关键词：数据流分类；集成学习；概念漂移

中图分类号：ＴＰ３０１６　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２０）０１００１０００１０８

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．０９．０５１０

Ｓｕｍｍａｒｉｚａｔｉｏｎｏｆｄａｔａｓｔｒｅａｍｅｎｓｅｍｂｌｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍ

ＸｕＧｕａｎｙｉｎｇ，ＨａｎＭｅｎｇ



，ＷａｎｇＳｈａｏｆｅｎｇ，ＪｉａＴａｏ

（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ，ＮｏｒｔｈＵｎｉｖｅｒｓｉｔｙｆｏｒＮａｔｉｏｎａｌｉｔｉｅｓ，Ｙｉｎｃｈｕａｎ７５００２１，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｄｔｈｅｅｎｓｅｍｂｌｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍａｔｈｏｍｅａｎｄａｂｒｏａｄｉｎｄｅｔａｉｌ．Ｉｔｒｅｖｉｅｗｅｄｔｈｅｔｗｏｐａｒｔｓ

ｏｆｔｈｅｅｎｓｅｍｂｌｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍ（ｂａｓｅｃｌａｓｓｉｆｉｅｒｃｏｍｂｉｎａｔｉｏｎａｎｄｄｙｎａｍｉｃｕｐｄａｔｅｅｎｓｅｍｂｌｅｍｏｄｅｌ）ｉｎｄｅｔａｉｌ，ａｎｄ

ｃｌｅａｒｌｙｄｉｓｔｉｎｇｕｉｓｈｅｄｔｈｅａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓｏｆｄｉｆｆｅｒｅｎｔｉｎｔｅｇｒａｔｉｏｎａｌｇｏｒｉｔｈｍｓ，ｃｏｍｐａｒｉｓｏｎａｌｇｏｒｉｔｈｍａｎｄｅｘｐｅｒｉｍｅｎ

ｔａｌｄａｔａｓｅｔ．Ｔｈｅｐａｐｅｒｐｒｏｐｏｓｅｄｆｕｒｔｈｅｒｒｅｓｅａｒｃｈｄｉｒｅｃｔｉｏｎｓａｎｄｃｏｎｓｉｄｅｒａｔｉｏｎｓ．

Ｋｅｙｗｏｒｄｓ：ｄａｔａｓｔｒｅａｍｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇ；ｃｏｎｃｅｐｔｄｒｉｆｔ

　　近年来，随着大数据的快速发展，这些数据中蕴涵着大量

有用的信息，为了获得这些信息，研究人员开展了大量的数据

挖掘任务

［１］

。最近，在数据流挖掘的研究领域中，从大量快速

生成的数据中获得有用的模型已经取得了很多进展。数据流

对学习算法提出了若干挑战

［２］

。学习者的集合已被广泛研究

和部署在现实世界的问题中。研究人员提供了三个理由来证

明使用集合而不是单个学习者，即统计学、计算学和代表

性

［３］

。对这种偏好的另一种解释是难以获得强大的学习者，

而一组弱学习者相对容易发展并且可以有效地被提升为强大

的学习者

［４］

，只要它们受到了战略训练和结合。集成学习者

在数据流设置中很受欢迎，因为除了利用弱学习者之外，它们

还可用于处理一般的机器学习问题以及特定数据流的挑战，例

如，集合学习者已被广泛应用在解决数据流概念漂移

［５］

，反复

出现的概念

［６］

，新颖的类检测

［７］

的问题上。集成学习者在这

些问题上都体现出了比单分类模型更好的性能。

和传统的静态数据相比，数据流具有实时、高效、快速到达

和到达的实例只能处理一次的特点。因此在对数据流中的数

据进行挖掘任务时面临以下挑战：

ａ）数据流中的数据仅能处

理一次，流动的数据并不能存储在数据仓库当中

［８］

；ｂ）处理的

结果只能最大程度的近似；

ｃ）在流中数据的分布会随着时间

的推移而改变

［９］

，即发生概念漂移（ｃｏｎｃｅｐｔｄｒｉｆｔ）现象。因此

要求面向流处理的算法必须具有快速的恢复性、适应性、准确

性和鲁棒性。能够实时更新算法，满足算法能处理接下来流中

分布改变的数据。在面向处理流数据的算法中，分类是挖掘数

据流中最重要也是最关键的部分。目前静态数据处理的方式

已经较为成熟，传统分类方法已经不能满足流挖掘任务。对传

统挖掘算法来讲，在发生概念漂移的数据流中已经不能进行挖

掘任务了，因此面向流数据的处理算法就显得尤为重要。

１　背景知识

１１　数据流分类

分类（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）

［１０］

在流数据挖掘任务中是尤为重要

的，而且在实际生活中也有很广泛的应用。例如网络入侵检

测、金融欺骗、垃圾邮件过滤等问题上

［１１］

。分类任务就是在包

含实例和实例所属的类标签中的初始训练集里，通过对数据集

中的实例进行学习得到一个目标函数ｆ，用这个函数ｆ来预测

下一个未知实例的类标。即通过某种学习算法在假设样本空

间中找到一个

ｆ的近似函数ｇ，这个近似函数ｇ就叫分类

器

［１２］

，也称为分类模型（ｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌ）。流数据分类任

务的输入是记录，每条记录也称做实例或者样本，用元组（ｘ，

ｙ）表示，其中ｘ是属性的集合，ｙ是实例所属的类标签，即样本

的类标号。

１２　增量学习

增量学习（ｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ）是指一个学习体系不断地

从新的样本数据中学习新的知识。在进行流数据分类任务中，

需要保证分类器能时刻适应当前流中的数据分布，因此需要获

得新数据对原始分类器进行修改，这种不断在线学习新实例的

技术（即增量学习）是解决数据流问题不可缺少的

［１３］

。

增量学习主要有两种学习方式：

ａ）对原本并不具有增量处理能力的现有算法进行改进，

让其具备一定处理数据流中新到来实例的能力。对原始算法

进行改造时，核心思想是利用算法的原理或者实验的辅助信

息，通过重新进行数学建模从而使算法达到具有增量处理数据

的能力。例如有基于支持向量机改造的增量支持向量机（

ＩＳ

ＶＭ）

［１４］

和ＬＡＳＶＭ

［１５］

、基于随机森林算法改造的在线随机森

第３７卷第１期

２０２０年１月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３７Ｎｏ．１

Ｊａｎ．２０２０

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38683562

粉丝: 6
资源: 970

数据流集成分类算法研究进展与展望

数据挖掘分类算法综述.pdf

概念漂移数据流集成分类算法及实验综述

数据挖掘算法综述.pdf

集成服务网络中的分组调度算法研究综述.pdf

06-Qos调度算法综述1

基于FPGA的正则表达式匹配算法综述.pdf

基于Python进行分类算法实验(人工智能)的设计与实现.docx

基于支持向量数据描述的分布式数据流挖掘.pdf

数据挖掘综述 基础文章

数据挖掘软件产品综述.pdf

最新资源

数据挖掘综述基础文章