Apache Flume 1.5.0 教程：安装、配置与案例解析

17 浏览量更新于2024-08-29 收藏 144KB PDF 举报

"Flume1.5.0入门：安装、部署、及flume的案例" Apache Flume 是一个专门用于高效、可靠地收集、聚合和移动大量日志数据的工具。它最初由Cloudera开发，后来成为Apache软件基金会的一个项目。Flume 1.5.0是其某个版本，具有改进的性能和稳定性，特别是相较于早期的FlumeOG，它解决了代码臃肿、设计不合理和配置不标准等问题。 Flume的核心组件包括Source、Channel和Sink，它们共同构成了数据流处理的基础架构。Source负责从外部源接收事件（Event），这些事件通常包含了日志数据。Source将接收到的事件存储到Channel，Channel作为一个缓冲区，可以确保在Sink处理事件时保持数据的完整性。Sink则负责将事件转发到目标位置，如HDFS、HBase或其他数据存储系统，或者是另一个Flume Agent。 Flume提供了多种级别的可靠性保证，以适应不同的应用场景。最强大的是end-to-end可靠性，它确保即使在节点故障的情况下，数据也不会丢失。这种模式下，数据先被写入磁盘，只有在成功传输到下一个节点后才会被删除。若传输失败，数据可以从磁盘重新发送。Storeonfailure模式在接收方崩溃时将数据存储在本地，待恢复后再继续发送，而Besteffort模式则不保证确认数据接收，仅尽力发送数据。为了实现高可用性和容错性，Flume使用了可恢复的Channel类型，如FileChannel，它将事件持久化到磁盘，即使在系统崩溃后也能恢复未完成的传输。此外，Flume还支持配置多个Sink，实现数据的复制和备份，进一步增强了系统的可靠性。 Flume的部署相对简单，可以通过配置文件定义Source、Channel和Sink的组合，以及它们之间的连接方式。安装过程通常包括下载Apache Flume的二进制包，设置环境变量，以及根据需求编写和应用配置文件。在实际应用中，Flume常用于监控和分析应用程序的日志，帮助企业快速响应问题，提升运维效率。通过Flume，开发者可以轻松集成不同的日志来源，定制数据处理逻辑，例如过滤、转换或聚合数据，然后将处理后的数据送入大数据分析平台，如Hadoop生态系统。 Apache Flume是日志管理和分析领域的一个强大工具，它的灵活性、可扩展性和高可用性使其在大数据环境中备受青睐。对于初学者，通过学习Flume的安装、配置和案例实践，可以掌握如何有效地管理和处理大规模的日志数据。

Flume1.5.0入门：安装、部署、及入门：安装、部署、及flume的案例的案例

一、什么是Flume?

　　flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为

Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不

合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94.0 中，日志传输不稳定的现象尤为严

重，为了解决这些问题，2011 年 10 月 22 号，cloudera 完成了 Flume-728，对 Flume 进行了里程碑式的改动：重构核心组

件、核心配置以及代码架构，重构后的版本统称为 Flume NG（next generation）；改动的另一原因是将 Flume 纳入 apache

旗下，cloudera Flume 改名为 Apache Flume。

flume的特点：

　　flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用

于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。

　　flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信

息，这些Event由Agent外部的Source生成，当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多

个)Channel中。你可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件

推向另一个Source。

flume的可靠性

　　当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别

为：end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。

），Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发

送），Besteffort（数据发送到接收方后，不会进行确认）。

flume的可恢复性：

还是靠Channel。推荐使用FileChannel，事件持久化在本地文件系统里(性能较差)。

flume的一些核心概念：

1.Agent 使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。

2.Client 生产数据，运行在一个独立的线程。

3.Source 从Client收集数据，传递给Channel。

4.Sink 从Channel收集数据，运行在一个独立线程。

5.Channel 连接 sources 和 sinks ，这个有点像一个队列。

6.Events 可以是日志记录、 avro 对象等。

Flume以agent为最小的独立运行单位。一个agent就是一个JVM。单agent由Source、Sink和Channel三大组件构成，如下

图：

值得注意的是，Flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source,Channel和Sink可以自由组合。组

合方式基于用户设置的配置文件，非常灵活。比如：Channel可以把事件暂存在内存里，也可以持久化到本地硬盘上。Sink可

以把日志写入HDFS, HBase，甚至是另外一个Source等等。Flume支持用户建立多级流，也就是说，多个agent可以协同工

作，并且支持Fan-in、Fan-out、Contextual Routing、Backup Routes，这也正是NB之处。如下图所示:

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38735790

粉丝: 4
资源: 899

Apache Flume 1.5.0 教程：安装、配置与案例解析

apache-flume-1.5.0-cdh5.3.6-bin.zip

flume-ng-1.5.0-cdh5.3.6.rar

"Flume1.5.0入门：安装、部署和案例详解

Apache Flume 1.5.0 教程：安装、配置与实战

apache-flume-1.5.0-bin.tar

flume-ng-1.5.0-cdh5.3.6.tar.gz

flume-ng-kafka-sink:将数据发布到 Apache Kafka 的 Apache Flume Sink 实现

Flume集群环境搭建，flume监控

flume-chd版本

Flume-ng在windows环境搭建并测试+log4j日志通过Flume输出到HDFS.docx

最新资源