Flume基础教程：分布式日志采集系统

需积分: 13 33 浏览量更新于2024-07-18 2 收藏 604KB PDF 举报

"实战Flume基础" Flume是一个用于大数据收集、聚合和移动的分布式系统，尤其适用于日志数据的处理。它由Apache软件基金会开发，是大数据生态系统中的重要组件，帮助用户从各种分布式系统中高效地收集日志数据并将其传输到集中式存储。 Flume的设计目标是提供一个分布式、高可靠性和高可用性的解决方案，确保大规模日志数据能够无损地从源头传输到目标存储。其核心思想是基于流式处理，这使得Flume能够实时处理数据，而不仅仅是批量处理。 Flume有两种主要版本：Flume OG（Old Generation）和Flume NG（New Generation）。Flume NG是在Flume 1.x版本中引入的，相较于0.9x版本进行了重构，简化了配置和部署，去除了Master节点，使系统更加简洁和易于操作。 Flume的数据流模型包含四个关键步骤： 1. 外部数据源（例如web服务器）生成Flume能识别的Event，并将其发送到Source。 2. Source接收到Event后，将其存储到一个或多个Channel中。 3. Channel作为数据缓冲区，保持Event直到Sink完成处理。 4. Sink从Channel取出Event，将其传输到外部存储，如HDFS（Hadoop Distributed File System）。 Flume的架构由几个核心组件构成： - Event：是Flume处理的基本数据单位，可以是一条日志、Avro对象等，通常为4KB左右。 - Agent：是Flume的运行实例，每个Agent可以在一台机器上运行，并可能包含多个Source和Sink。 - Client：生成Event，运行在独立的线程中。 - Source：负责接收Event并放入Channel，有独立的线程进行监控，并且可以通过SourceRunner进行管理。 - Sink：从Channel中读取Event并进行进一步处理，如转发到其他Source，也运行在独立线程中。 Flume的灵活性体现在Source和Channel的插件化扩展上。Source支持多种类型，如Exec（执行命令生成Event）、Avro（通过Avro协议接收Event）、Syslog（通过TCP/UDP接收日志事件）等。Channel则提供类似队列的功能，保证数据的可靠性，并支持事务处理，如Memory Channel用于内存存储，JDBC Channel则利用数据库存储Event。 Flume是大数据日志处理中的重要工具，通过其分布式、高可靠性的设计，能够有效地处理大量日志数据，为企业的大数据分析提供强大的支撑。通过插件扩展机制，Flume可以适应各种不同的数据源和存储需求，是构建实时数据流水线的关键组件。

Flume OG vs. NG

• Flume 1.x版本(New Generation, NG)基

于Flume 0.9x版本(Old Generation, OG)

重新开发，且不兼容

• NG的主要目标：

– 简化配置

– 简化部署（取消了Master节点）

– 程序重构

剩余18页未读，继续阅读

znarey

粉丝: 0
资源: 1

Flume基础教程：分布式日志采集系统

Flume相关教程

Scala编程实战高清完整带目录

Flume 构建高可用、可扩展的海量日志采集系统_PDF电子书下载 带索引书签目录_（美）史瑞德哈伦著_电子工业出版社_P208_2015.08.pdf

flume基础架构图

spark kafka flume实战

flume安装与配置

linux运行flume,在linux中安装flume

切换至flume安装目录/opt/flume，启动flume服务

使用flume采集元数据

[atguigu@node11 flume]$ ./bin/flume-ng version [atguigu@node11 flume]$ ./bin/flume-ng version

最新资源

Flume 构建高可用、可扩展的海量日志采集系统_PDF电子书下载带索引书签目录_（美）史瑞德哈伦著_电子工业出版社_P208_2015.08.pdf