Apache Flume 1.7.0 分布式日志收集系统指南

3星 · 超过75%的资源需积分: 12 74 浏览量更新于2024-07-20 收藏 80KB DOCX 举报

身份认证购VIP最低享 7 折!

30元优惠券

"Flume1.7.0用户指南提供了关于如何使用和理解Apache Flume这一分布式数据收集框架的详细信息。文档适用于1.x代码线，主要关注Flume的架构、数据流模型、可靠性和构建自定义Flume组件的步骤。" Apache Flume是一个专门设计用于高效、可靠地收集、聚合和移动大量日志数据的工具，尤其适合从多个不同源向数据存储进行传输。作为Apache软件基金会的顶级项目，Flume提供了两个主要的代码版本：0.9.x和1.x，而该指南针对的是1.x系列。 **体系结构** Flume的核心概念包括源（Sources）、通道（Channels）和水槽（Sinks）。源是数据的入口，负责从外部源如Web服务器获取事件。AvroSource是示例，能接收Avro格式的事件。事件是一个包含有效载荷（字节数组）和可选头信息（字符串属性）的基本数据单元。通道则作为一个被动存储，在源接收到事件后，将事件暂存于通道，等待水槽处理。FileChannel是其中一种类型，利用本地文件系统存储事件。水槽负责从通道取出事件，将其写入外部存储（如HDFS）或传递给下一个代理。 **数据流模型** 在Flume中，事件的传递遵循异步模型，源和水槽在通道中独立工作。水槽仅在成功将事件写入下一跳的通道或终点存储后，才会从当前通道中删除事件，确保了单跳消息传递的可靠性。 **可靠性** 为了实现端到端的可靠性，Flume利用通道的事务机制。源和水槽在事务中处理事件，确保数据在源和下一跳水槽之间安全地传递。如果在传输过程中发生故障，事件会保留在通道中，等待重新处理，从而实现数据的不丢失。 **构建自定义Flume组件** 想要开发自定义的Flume组件，首先需要通过Git检出源代码。Flume的开发分支位于“trunk”，可以使用如下命令克隆： ```shell git clone https://git-wip-us.apache.org/repos/asf/flume.git ``` 之后，使用Maven进行编译和测试： ```shell # 只编译 mvn clean compile # 编译并运行单元测试 mvn clean test ``` 这些步骤对于扩展Flume功能，如创建新的源、水槽或处理器，是必要的。 Apache Flume 1.7.0用户指南是理解、配置和扩展Flume以适应各种日志管理和数据流需求的关键资源。通过其强大的体系结构和可靠的机制，Flume能够有效地处理大规模的数据收集任务。

资源详情

资源推荐

客户端运行时事件的起源,提供他们一个水槽代理。客户通常运行在应用程序的

进程空间消费的数据。水槽目前支持 Avro,log4j,syslog 和 Http POST(用一

个 JSON 的身体)的方式来传输数据从外部来源。此外,有一个T& 可

以使用局部流程的输出作为输入水槽。

很可能有一个用例,这些现有的选项是不够的。在这种情况下,您可以构建一个

定制的机制将数据发送给水槽。有两种方法实现。第一个选项是创建一个自定

义与水槽的现有通信的客户机T源年代像T 或T'(%。

这里的客户应该将数据转换成信息理解这些水槽T源年代。另一个选择是编写一

个定制的水槽T源直接与您现有的客户端应用程序使用 IPC 或 RPC 协议,然后将

客户端数据转换为水槽T事件下游发送。注意,所有存储在事件T通道水槽代理必

须存在的水槽T事件年代。

客户端 SDK

尽管水槽(即包含许多内置的机制。T源 s)摄取数据,通常希望能够直接从一个自

定义应用程序与水槽。水槽客户端 SDK 是一个库,使应用程序连接到水槽和发

送数据到水槽对 RPC 的数据流。

RPC 客户端接口

水槽的 RpcClient 接口封装的实现 RPC 机制支持的水槽。用户的应用程序可

以简单地调用客户端 SDK 的水槽T追加)事件*或T%%+,)列表事件*发

送数据,不用担心底层消息交换的细节。用户可以提供所需T事件参数直接实现T

剩余16页未读，继续阅读

66进

粉丝: 4
资源: 13

Apache Flume 1.7.0 分布式日志收集系统指南

flume-1.7.0.zip

apache-flume-1.7.0-bin.zip

[ERROR - org.apache.flume.node.Application.main(Application.java:348)] A fatal error occurred while running. Exception follows. org.apache.commons.cli.ParseException: The specified configuration file does not exist: /usr/local/flume1.7.0/agent/agent1.con

将 flume 文件先拷贝到桌面上，在移动到/usr/local 下，在/usr/local 解压 tar -zxvf apache-flume-1.7.0-bin.tar.gz mv apache-flume-1.7.0-bin flume #改名

使用sudo mv ./apache-flume-1.7.0-bin ./flume后显示无法获取文件状态

sudo mv ./apache-flume-1.7.0-bin ./flume

大数据flume环境搭建

linux系统flume

如果要安装hadoop2.7.0，对应的jdk hbase hive flume的版本号

1、 设置Flume环境变量，并使环境变量只对当前root用

flume cgroup目录权限问题会导致flume启动失败吗

java使用flume自定义Handler

flume采集数据到hdfs

flume数据持久化

linux运行flume,在linux中安装flume

切换至flume安装目录/opt/flume，启动flume服务

[atguigu@node11 flume]$ ./bin/flume-ng version [atguigu@node11 flume]$ ./bin/flume-ng version

[ys@hadoop102 flume]$ flume-ng agent --conf-file /path/to/file-flume-kafka.conf --name kafka-flume-agent -Dflume.root.logger=INFO,console bash: flume-ng: 未找到命令...

flume安装与配置

最新资源

1、设置Flume环境变量，并使环境变量只对当前root用