时间衰减数据流中的频繁项挖掘算法FI-Decay
需积分: 10 15 浏览量
更新于2024-09-08
收藏 274KB PDF 举报
"随时间衰减数据流中的频繁项挖掘,舒平达,陈华辉,宁波大学信息科学与工程学院"
随时间衰减数据流中的频繁项挖掘是数据挖掘领域的一个重要研究方向,主要关注如何在不断变化且具有时间特性的数据流中发现频繁出现的元素。传统的数据挖掘算法,如Apriori和FP-Growth,适用于静态数据集,但在处理数据流时面临挑战,因为数据流的特性包括数据的连续生成、无限量以及高速流动,这使得无法将所有数据存储并进行全面处理。
在数据流挖掘中,一个关键问题是如何处理时间对历史数据的影响。一些早期算法忽视了时间的衰减效应,将当前数据和历史数据同等看待,这并不符合现实情况,人们往往更加关注最近发生的事情。舒平达和陈华辉提出的FI-Decay算法针对这一问题进行了创新,它引入了指数衰减机制来降低历史数据的重要性,同时利用Count-MinSketch这一数据结构来高效地维护数据流的概要信息。
Count-MinSketch是一种空间效率高的数据结构,通过哈希函数将数据流映射到一个紧凑的矩阵中,用于近似计数。在FI-Decay算法中,这种结构被修改以适应时间衰减的需求,从而能够更好地反映数据流中随着时间变化的频繁项。
实验结果证明了FI-Decay算法的有效性,它能够在减少存储需求的同时,准确地挖掘出随时间衰减的数据流中的频繁项。此外,论文还对比了其他数据流挖掘算法,如StickySampling、LossyCounting、CountSketch、Count-MinSketch、FP-Stream、DS-CFI以及Moment等。这些算法各有特点,例如滑动窗口模型关注最近一段时间内的频繁项,而FP-Stream则支持多粒度时间查询。
随时间衰减数据流中的频繁项挖掘算法旨在解决动态环境中数据挖掘的挑战,通过引入时间衰减因子和高效的内存管理策略,提高了挖掘的准确性和效率。这一领域的研究对于实时数据分析、预测和决策支持具有重要意义,特别是在物联网、社交媒体分析和金融交易等领域。
153 浏览量
129 浏览量
171 浏览量
150 浏览量
108 浏览量
2021-08-10 上传
108 浏览量
128 浏览量
2019-09-10 上传

普通网友
- 粉丝: 484

最新资源
- Java编程课程CS61B深度解析
- 现代建筑风格工作汇报PPT模板精粹
- Java数组操作与遍历方法详解
- C#实现Winsock通讯教程:服务端与客户端集成
- AspNetPager 7.3.2:提升Web开发分页功能效率
- 光伏技术:HTML页面开发与展示
- 公交查询系统完整开发文档及设计分析
- 安卓开发简易计算器应用功能指南
- 仿酷我音乐盒Java网页版全套源码发布
- C# Siemen PLC读取测试程序学习指导
- 基于MyEclipse的简易J2EE BBS论坛教程
- 电磁干扰环境下的WSN路由协议设计与能量效率提升
- 8101E网卡驱动程序更新与下载
- sorl-thumbnail:Django高效缩略图管理工具
- 简易Java文本电话簿系统的设计与实现
- 南邮微机原理:课件与历年真题集锦