Flume 1.6.0 CDH5部署与配置详解

5星 · 超过95%的资源 169 浏览量更新于2024-08-29 收藏 88KB PDF 举报

Flume部署与使用指南 Flume是Apache开源的一个分布式、可靠的数据收集系统，主要用于高效地从多个数据源收集、聚合和传输海量日志数据至集中存储。Flume的历史可以追溯到0.9版本（Flume OG）和1.X版本（Flume NG），它在Hadoop生态系统中占据重要地位，尤其在日志处理和监控场景中广泛应用。相较于轻量级的Logstash，Flume更适合需要复杂数据处理和长期稳定性的场景，后者常与ELK（Elasticsearch, Logstash, Kibana）集成。在Flume的架构中，数据流的基本模型是：WebServer → Agent（包含Source、Channel和Sink组件）→ HDFS。以下是关键知识点的详细说明： 1. **源（Sources）**：Flume支持多种源类型，如Avro用于序列化的数据源，`exec`用于执行系统命令，`spooling`从指定目录读取文件，`taildir`跟踪目录变化，以及与Kafka的集成。理解不同源的选择取决于数据的来源形式和格式。 2. **通道（Channels）**：Flume的数据在传输过程中暂存于Channel中，常见的通道有内存通道（`memory`）、Kafka通道和文件系统通道（`file`）。通道的选择取决于数据量、吞吐量需求和实时性要求。 3. **Sink**：数据最终会被发送到Sink，Flume支持HDFS（Hadoop分布式文件系统）、控制台输出（`logger`）、Avro和Kafka等多种sink。选择Sink时要考虑数据的最终目的地和处理方式。 4. **配置与使用**：Flume的核心是配置管理，用户主要通过编写配置文件来定义Source、Channel和Sink之间的连接。《Flume开发者指南》是学习Flume配置的关键资源，虽然实际编程工作相对较少，但对定制开发源、sink和通道时需要具备一定的编程基础。 5. **安装与管理**：Flume的安装步骤包括从Cloudera或其他可信源下载安装包（如`flume-ng-1.6.0-cdh5.16.2.tar.gz`），解压后创建软链接，然后配置环境变量和启动Flume服务。根据具体版本和集群需求进行相应调整。要成功部署和使用Flume，理解其工作原理、配置选项以及如何选择和配置适合的数据流路径至关重要。掌握这些基础知识后，可以轻松实现日志数据的高效收集和处理，并为后续的自定义开发打下坚实的基础。

Flume部署和使用部署和使用

官方文档: http://flume.apache.org/

example: WebServer –> Agent[Source–>Channel–>Sink] –> HDFS

一一.简介简介

Flume是一个分布式，可靠的的框架，它能从许多不同的数据源高效地收集、聚合和移动大量日志数据到一个集中的目的进行

存储。Flume OG主要是0.9及以前的版本，Flume NG主要是1.X的版本。类似的框架还有Logstash。对应广义的Hadoop而

言，Flume是比较常用的。Logstash更轻量级，主要配合ELK使用

我们使用Flume，真要需要开发的代码不多，从使用层面来讲就是写配置文件，掌握常见类型Source、Channel、Sink的配

置，配置我们的Agent。这部分主要对应的是Flume User Guide:

http://flume.apache.org/releases/content/1.9.0/FlumeDeveloperGuide.html。

需要自己写代码的部分,主要是如何基于Flume进行自定义开发，自定义Source、Sink、和Channel。

常用的Source类型如下(从哪里收集)

avro (序列化)

exec (命令行)

spooling (目录)

taildir (重要)

kafka

常见的Channel类型(数据存在哪里)

memory

kafka

file

常见Sink类型(数据输出到哪里)

hdfs (Hadoop)

logger (控制台)

avro

kafka

二二.安装安装

下载

[ruoze@rzdata001 ~]$ cd software/

[ruoze@rzdata001 software]$ wget http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.16.2.tar.gz

解压,创建软连接

[ruoze@rzdata001 software]$ tar -zxvf flume-ng-1.6.0-cdh5.16.2.tar.gz -C /home/app/

[ruoze@rzdata001 software]$ cd ~/app/

[ruoze@rzdata001 app]$ ln -s /home/ruoze/app/apache-flume-1.6.0-cdh5.16.2-bin /home/ruoze/app/flume

配置配置文件

[ruoze@rzdata001 ~]$ cd /home/ruoze/app/flume/conf

[ruoze@rzdata001 conf]$ cp flume-env.sh.template flume-env.sh

[ruoze@rzdata001 conf]$ cp flume-conf.properties.template flume-conf.properties

[ruoze@rzdata001 conf]$ vim flume-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_121

添加环境变量

[ruoze@rzdata001 ~]$ vim .bash_profile

# Flume env

export FLUME_HOME=/home/ruoze/app/flume

export PATH=$FLUME_HOME/bin:$PATH

flume版本

[ruoze@rzdata001 bin]$

[ruoze@rzdata001 bin]$ flume-ng version

Flume 1.6.0-cdh5.16.2

Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git

Revision: df92badde3691ee3eb6074a177f0e96682345381

Compiled by jenkins on Mon Jun 3 03:49:33 PDT 2019

From source with checksum 9336bfa3ff8cfb5e20cd9d700135a2c1

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38625143

粉丝: 6
资源: 916

Flume 1.6.0 CDH5部署与配置详解

大数据Ambari之flume集成编译好的源码包

Flume详解与安装部署教程

基于CDH安装部署的flume导入mysql数据到kafak的jar包

Flume部署及数据采集准备

flume分布式部署

flume实训的目的以及意义400字

flume只能部署在linux系统上吗，我只能安装虚拟机下载linux系统然后使用flume吗

flume监控和管理采用哪些工具实现

docker compose flume

flume实训的目的以及意义

最新资源