流数据监控项目实践：Storm实时处理

155 浏览量更新于2024-07-15 收藏 906KB PDF 举报

"本文主要介绍了Storm项目中的一个流数据监控模拟项目，涵盖了数据流的产生、处理和持久化，以及数据监控设计框架。" 在 Storm 项目中，流数据监控是一种重要的实时处理技术，用于对持续不断的数据流进行分析和管理。文章作者提到，他们计划通过一系列文章来分享关于 Storm 实时处理的代码实现，本文是系列的第一部分，主要关注项目的整体设计和基础架构。 1. 数据流产生：Spout Spout 是 Storm 中数据流的源头，它负责生成或接收数据流。文章中提到了四种常用的数据流产生方式： - 日志文件读取：直接从 log 文件中提取数据。 - 数据库获取：从 MySQL 或类似数据库中读取数据。 - 消息中间件：利用如 MetaQ 这样的中间件接收数据。 - 网络 socket：通过网络连接从远程服务接收数据。在本项目中，由于 MetaQ 尚未搭建，作者选择了读取日志文件作为数据源。 2. 数据处理：HandleBolt HandleBolt 是对数据进行各种操作的组件，包括过滤、添加、统计和监控等。在这个项目中，作者重点实现了数据监控功能，通过设定条件过滤数据，筛选出符合特定条件的数据进行进一步处理，支持多条件、多字段和多种逻辑判断的组合。 3. 数据持久化：LastingBolt LastingBolt 负责将处理后的数据保存到持久化存储中。常见的持久化操作包括打印、写入文件、存储到数据库、发送到消息中间件或通过 Socket 发送。目前，项目实现了两种持久化策略：直接打印和存储到 MySQL 数据库，未来将扩展更多接口。 4. 数据监控设计框架文章展示了数据监控的设计拓扑，由 ReadLogSpout 读取 domain.log 文件中的数据，然后传递给 MonitorBolt 进行处理。MonitorBolt 应用预定义的条件对数据进行筛选，保留需要监控的部分。这种设计允许系统实时地对流入的数据进行动态监控，及时发现异常情况。通过这个流数据监控项目，读者可以了解到 Storm 在实时处理中的基本操作，包括数据的获取、处理和存储，以及如何构建一个简单的实时监控系统。后续文章将会逐步完善和扩展这个框架，包括引入其他数据源、增加更复杂的数据处理功能和持久化机制。

图3.2 MonitorBolt.xml截图

参数说明：

MatchLogic：条件间的逻辑关系，用于如下几个条件间的逻辑关系指明，其有“AND”及“OR”两种逻辑关系设置。

MatchType：判断类型列表，该列表指明了某个字段用何种匹配算法进行判断，regular为正则匹配、range为范围匹配、

routine0为常规模糊匹配、routine1为常规完全匹配。

MatchField：匹配字段列表，指明对哪几个字段进行判断。

FieldValue：对应的字段值。

如上配置说明：对字段1/2/5分别进行正则、范围及常规模糊匹配，字段1满足正则匹配.*google.*，字段2满足从200到2001，

字段5满足模糊匹配ina，只有三个条件同时满足“AND”，该数据才会发射到下一级。

3.3 数据Mysql处理

从MysqlBolt.xml中进行说明：

图3.3 MyslqBolt.xml截图

Myslq数据存储处理指明myslq的host，指明database及from，使用username及password将数据存储已经创建好的mysql表

中。

3.4 源码简介

剩余14页未读，继续阅读

weixin_38593738

粉丝: 0
资源: 924

流数据监控项目实践：Storm实时处理

storm项目-流数据监控系列1《设计文档》

storm项目-流数据监控系列5《zookeeper统一配置》

storm项目-流数据监控系列3《实例运行》

Storm: 1.列举几个常见的流计算框架。 2.试述流数据的特点。 3.试列举几种Stream Groupings 的方式。

hadoop+storm数据采集模块开发

hadoop+storm数据导出

3.阐述企业应用中"Hadoop+Storm"架构是如何部署的

spark streaming、flink和storm三种流处理技术的分析和对比。

分布式流数据系统采用了哪些并行技术来进行处理？

最新资源