"尚硅谷大数据技术之Flume1：高可靠、分布式海量日志采集系统"

需积分: 0 42 浏览量更新于2024-01-17 收藏 4.44MB PDF 举报

尚硅谷大数据技术之Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，具备灵活简单的特点。 Flume的组成架构如图1-1和图1-2所示。整个架构由多个Agent组成，每个Agent是一个JVM进程，负责将数据以事件的形式从源头传输到目的地。Agent主要由三个部分组成：Source、Channel和Sink。 Source是Flume中的数据源，负责从数据源头收集数据，并将数据传输到Channel中。常见的Source包括Avro Source、Thrift Source、NetCat Source等。Channel是数据在Flume中的缓冲区，用于存储从Source收集到的数据。Flume提供了多种类型的Channel，包括Memory Channel、JDBC Channel、Kafka Channel等。Sink是数据最终的目的地，负责将数据从Channel中取出，并将数据传输到目的地。常见的Sink包括HDFS Sink、Logger Sink、Kafka Sink等。在Flume的组成架构中，还可以通过Interceptor对数据进行处理和转换。Interceptor可以对Source收集到的数据进行预处理、过滤和格式化等操作，以确保数据的有效性和规范性。除了以上的核心组件，Flume还提供了一些辅助工具和组件，如Event和Channel Selector。Event是Flume中的基本数据单元，包含了具体的数据和数据的相关信息。Channel Selector用于根据某些条件从多个Channel中选择合适的Channel，以实现数据的按需发送。 Flume的工作流程如下：首先，Agent从Source收集数据，并将数据传输到Channel中；然后，Sink从Channel中获取数据，并将数据传输到目的地。在这个过程中，很多Agent可以同时工作，实现数据的并行传输，从而提高整个系统的性能和可靠性。总的来说，Flume是一个强大的数据采集、聚合和传输的系统。它具备高可用性、高可靠性和分布式的特点，能够满足海量日志数据处理的需求。Flume的灵活简单的架构设计使得用户可以方便地定制和扩展系统功能。通过Flume，用户可以轻松地实现日志数据的采集、聚合和传输，为大数据分析和挖掘提供了有力的支持。

尚硅谷大数据技术之 Flume

—————————————————————————————

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

先开启

flume

监听端口

[atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name

a1 --conf-file job/flume-telnet-logger.conf

-Dflume.root.logger=INFO,console

参数说明：

--conf conf/ ：表示配置文件存储在 conf/目录

--name a1 ：表示给 agent 起名为 a1

--conf-file job/flume-telnet.conf ：flume 本次启动读取的配置文件是在 job 文件夹下

的 flume-telnet.conf 文件。

-Dflume.root.logger==INFO,console ： -D 表示 flume 运行时动态修改

flume.root.logger 参数属性值，并将控制台日志打印级别设置为 INFO 级别。日志级别包括:log、

info、warn、error。

．使用

telnet

工具向本机的

44444

端口发送内容

[atguigu@hadoop102 ~]$ telnet localhost 44444

6．在 Flume 监听页面观察接收数据情况

剩余44页未读，继续阅读

本本纲目

粉丝: 31
资源: 293

"尚硅谷大数据技术之Flume1：高可靠、分布式海量日志采集系统"

尚硅谷大数据技术之 Flume 1

尚硅谷大数据技术之Flume

尚硅谷大数据技术之Flume笔记1

尚硅谷大数据技术：Flume详解

尚硅谷大数据技术：Flume入门与原理解析

学习尚硅谷大数据技术之Flume：快速入门与实战【章节导读】

"深入了解尚硅谷大数据技术之 Flume：架构、组件与应用

尚硅谷大数据技术之 Hadoop1

03_尚硅谷大数据技术之SparkStreaming1

01_尚硅谷大数据技术之SparkCore1

最新资源