分布式数据流挖掘：技术、模型与系统

数据流模型

39 浏览量更新于2024-09-02 收藏 151KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇综述文章探讨了分布式数据流挖掘技术，强调了它在网络信息技术快速发展背景下的重要性。文章首先阐述了数据流模型的概念，这种模型源于不断产生的高速且庞大的数据，尤其在实时处理需求日益增长的领域。接着，文章讨论了支持数据流挖掘的关键技术，包括应对数据流的快速性、连续性、变化性和无限性特点的方法。作者进一步分析了分布式数据流挖掘的优势，提出了算法并行化的数学模型，并列举了若干代表性分布式数据流处理系统，如S4、Storm、Spark Streaming和Samza。文章还简要介绍了数据流模型的分类，包括时序模型、现金登记模型和十字转门模型。" 在数据流挖掘领域，数据流模型是核心概念，它表示的是带有时间戳的多维数据点集合，这些数据点在时间上连续且可能无限。数据流处理的挑战在于其海量数据量和实时处理需求，这使得传统的数据挖掘方法不再适用。因此，数据流挖掘技术应运而生，旨在高效处理和分析这种非静止的数据流。分布式数据流挖掘是解决这些问题的有效手段，通过将数据分布在多个节点上并行处理，提高了处理速度和效率。这种技术在分布式计算平台如S4、Storm、Spark Streaming和Samza的推动下得以广泛应用。这些系统提供灵活的框架，允许开发人员设计和实施适应数据流特性的算法，同时降低了组件之间的耦合度，增强了系统的可扩展性。数据流模型的分类主要依据数据描述现象的方式和算法处理数据流时的时间范围。时序模型关注数据随时间的变化趋势；现金登记模型则假设数据流是不可回溯的，只能处理一次；十字转门模型考虑了数据的进入和离开，允许一定程度的更新和撤销操作。这些模型各有优缺点，适用于不同的数据流处理场景。分布式数据流挖掘技术是应对大数据时代挑战的关键工具，它结合了数据流模型的特性与并行计算的优势，为实时数据分析和决策支持提供了强有力的支持。随着技术的不断进步，这一领域的研究和应用将继续深化，为各种实时应用提供更高效的解决方案。

资源详情

资源推荐

分布式数据流挖掘技术综述分布式数据流挖掘技术综述

网络信息技术的高速发展产生了新的数据模型，即数据流模型，并且越来越多的领域出现了对数据流实时处理

的需求，庞大且高速的数据以及应用场景的实时性需求均推进了数据流挖掘技术的发展。首先介绍了常见的数

据流模型；然后根据数据流模型的特点总结数据流挖掘的支撑技术；最后，分析了分布式数据流挖掘的重要性

和有效性，给出了算法并行化的数学模型，并介绍了几种具有代表性的分布式数据流处理系统。

　　万新贵

（南京邮电大学计算机学院，江苏南京 210003）

　　摘要：摘要：网络信息技术的高速发展产生了新的数据模型，即

　　关键词：关键词：数据流模型；数据流挖掘；分布式；并行化；数据流处理系统

0引言引言

　　数据流(Data Stream)常常产生于Web上的用户点击、网络入侵检测、实时监控系统或无线传感器网络等动态环境中。与

传统数据集相比较，这些海量的数据流具有快速性、连续性、变化性、无限性等特点。海量的数据流、复杂的数学模型和高要

求的时效性使得传统的数据挖掘面临巨大的挑战，数据流挖掘技术得到了迅猛的发展。

　　20世纪初，出现了诸如STREAM［1］、Aurora［2］等数据流管理系统(Data Stream Management System)。早期的数

据流管理系统应用领域较为单一，并且大多采用集中式架构，虽然提供了基本算子，但是算子与底层模块的耦合度较高，难以

实现扩展开发。随着技术的发展和需求的提升，分布式技术对数据流处理的重要性显现出来。

　　21世纪初，随着各类开放式计算平台的兴起，S4［3］、Storm［4］、Spark Streaming ［5］以及Samza［6］等数据

流处理平台相继被提出，分布式数据流处理技术已经成为热点。

1数据流模型数据流模型

　　数据流是一个带有数据时间戳(Time Stamp)的多维数据点集合x1,…，xk，每个数据点xi是一个d维的数据记录。数据流不

被控制且潜在体积无限大，数据流处理系统无法保存庞大的数据流。

　　目前的数据流研究领域存在多种数据流模型，根据数据流模型自身的特点，可以从两个方面对数据流模型进行分类

［7］，分别是按照数据流中数据描述现象的方式和算法处理数据流时所采用的时序范围。

　　1.1按照描述现象的方式分类按照描述现象的方式分类

　　按照数据流中数据描述现象的方式，数据流模型可以分为时序(Time Seriel)模型、现金登记(Cash Register)模型和十字转

门(Turnstile)模型，其中十字转门模型的适用范围最广，但也是最难处理的。

　　(1)时序模型：将数据流中的每个数据看作独立的对象。

　　(2)现金登记(Cash Register)模型：数据流中的多个数据项增量式地表达某一现象。

　　(3)十字转门(Turnstile)模型：数据流中的多个数据项表达某一现象，随着时间的流逝，该现象可增可减。

　　　1.2按照算法所采用的时序范围分类按照算法所采用的时序范围分类

　　部分算法并不将数据流的数据作为处理对象，而是选取某个时间范围的数据进行处理，按照算法处理数据流时所采用的时

序范围，可以将数据流模型分为：快照(Snapshot)模型、界标(Landmark)模型和滑动窗口(Sliding Window)模型，其中界标模

型与滑动窗口模型使用得比较普遍。

　　(1)快照模型：处理数据的范围限定在两个预定义的时间戳之间。

　　(2)界标模型：处理数据的范围从某一已知时间到当前时间。

　　(3)滑动窗口模型：处理数据的范围由固定窗口的大小决定，窗口的终点永远是当前时间。

2支撑技术支撑技术

　　根据数据流的特点，数据流处理技术需要满足单遍扫描、低时空复杂度等要求。为了有效地处理数据流，新的数据结构、

技术和算法是必须的。参考文献［8］将数据流挖掘的支撑技术分为两类，分别是基于数据(Databased)的技术，旨在以小范

围的数据代替所有数据，达到数据流处理方法的高性能；另一种是基于任务(Taskbased)的技术，力图在时间和空间上得到更

有效的解决方法。

　　2.1基于数据的技术基于数据的技术

　　数据挖掘与查询需要读取扫描过的数据［9］，但是由于数据流的数据量远大于数据流处理系统的可用内存，不能保证所

有数据都能被存储。因此数据流处理系统需要维持一个概要数据结构，用于保留扫描过的信息。生成数据流概要信息的主要方

法有：抽样、梗概和大纲数据结构等。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38708945

粉丝: 2
资源: 908

分布式数据流挖掘：技术、模型与系统

最新资源