数据流滑动窗口下自适应集成分类算法提升

12 浏览量更新于2024-08-26 收藏 955KB PDF 举报

本文主要探讨了"数据流滑动窗口方式下的自适应集成分类算法"这一主题。在当前的数据挖掘领域，传统的基于数据块的集成学习方法如Bagging、Boosting等，虽然在处理静态数据集时表现出色，但在数据流环境中，由于数据块大小的设定可能会影响分类的稳定性和效率，而且它们往往难以实时响应概念漂移（Concept Drift），即数据分布随时间或样本增加而发生变化的现象。针对这些问题，作者提出了一个新的算法策略，即采用滑动窗口模型来检测数据中的概念漂移。滑动窗口是一种动态的窗口机制，它只保留一定时间段内的数据，这样可以减少内存消耗，同时能够快速适应新数据带来的变化。当滑动窗口检测到概念漂移时，算法会构建一个新的分类器，并将其融入到集成分类器中，以保持系统的灵活性和准确性。通过在人工合成数据集和真实世界数据集上进行广泛的对比实验，研究结果显示，作者提出的算法在保持高分类准确率的同时，显著降低了内存需求，特别适合于概念漂移频繁且类型多样的数据流环境。这种自适应集成分类器在实时性、鲁棒性和资源管理方面都显示出优势，对于处理不断变化的数据流场景具有实际应用价值。关键词包括数据挖掘、数据流、概念漂移、集成分类器和滑动窗口，这些词汇强调了研究的核心技术路径和解决的关键问题。这篇研究论文为数据流环境下的集成学习提供了一种新颖且有效的解决方案，有助于提升数据处理的效率和准确性。

第



卷第



期



年



月

北



京



交



通



大



学



学



报

 





文章编号

󰁒

(



)

󰁒󰁒 DOI





󰁒

数据流滑动窗口方式下的自适应集成分类算法

孙艳歌





王志海



原继东



韩



萌







北京交通大学计算机与信息技术学院



北京







信阳师范学院计算机与信息技术学院



河南信阳





摘



要

针对基于数据块的集成算法

存在数据块大小影响分类效果

且不能及时应对完整式概念

漂移的问题

提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法



用滑

动窗口作为概念漂移检测器

当检测到概念漂移时

则建立新的分类器并加入到集成分类器中



本

文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验



结果表明

提出的算

法在分类准确率上具有明显优势

消耗更少的内存

更适合多种类型概念漂移的环境



关键词

数据挖掘

;

数据流

;

概念漂移

;

集成分类器

;

滑动窗口

中图分类号



文献标志码



Ada

tiveensembleal

orithmbasedonslidin

windowsmodelfordatastreams

SUN Yan









WANGZhihai





YUAN Jidon





HAN Men

























































































Abstract



󰁒





























󰁒





























































󰁒









󰁒󰁒󰁒

















































󰁒





 











































words

































收稿日期

󰁒󰁒

基金项目

国家自然科学基金资助项目







北京市自然科学基金资助项目







信阳师范学院青年骨干教师资助计划项目

资助







作者简介

孙艳歌







女



河南平顶山人



讲师



博士生



研究方向为数据挖掘和机器学习

email









通信作者

王志海







男



河南安阳人



教授



博士



博士生导师

email















传感器网络异常检测



信用卡欺诈行为监测



天

气预报和电价预测等众多实际问题中



数据都是以

流的形式不断产生的



这种快速到达的



实时的



连

续的和无界的数据序列称为数据流



󰁒





传统的数据

流挖掘与分析过程



一般假设数据是独立同分布的



基于这种假设已经研究与开发了许多实用的面向数

据流的分类算法



󰁒





在现实生活中数据流的数据分布常会随着时间

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38621427

粉丝: 10
资源: 941

数据流滑动窗口下自适应集成分类算法提升

云计算-并行计算框架下人车分类算法研究与优化.pdf

行业分类-设备装置-基于类脑分层记忆机制的实时数据流智能化处理平台.zip

jviolajones(人脸检测算法).7z

Python时间序列分析滑动窗口技术：原理与应用

交易算法自适应学习：动态市场中的机器学习应用

图像识别图像分类秘籍：揭秘图像分类算法与应用

实时处理中的数据流管理：高效流动与网络延迟优化

逻辑回归的在线学习：增量学习与数据流处理技巧

YOLO算法在Windows上的部署与集成：无缝对接，轻松应用于实际项目

数据挖掘算法的并行化处理：揭秘数据处理速度提升的秘诀！

最新资源