尚硅谷大数据技术：Flume详解

需积分: 9 141 浏览量更新于2024-07-16 收藏 4.1MB DOCX 举报

"这份文档是关于大数据技术中的Flume的学习资料，主要介绍了Flume的基本概念、组件架构以及Source、Channel和Sink的详细功能。" 在大数据处理领域，Flume是一款非常重要的工具，由Cloudera开发，用于高效、可靠地收集、聚合和传输大量日志数据。Flume基于流式处理架构，设计简洁而灵活，适用于处理实时的日志流。 Flume的核心架构由三个主要组件构成：Source、Channel和Sink。 1. Source是Flume数据流入的入口，它负责从各种来源获取数据。Source支持多种类型的数据源，包括avro、thrift、exec、jms、spoolingdirectory、netcat、sequencegenerator、syslog、http和legacy等。这使得Flume能适应各种不同格式和来源的日志数据。 2. Channel是Flume架构中的数据缓冲区，它位于Source和Sink之间，起到数据中转的作用。Channel保证了即使Source和Sink的处理速度不匹配，数据也能被正确处理。Flume提供了两种内置的Channel类型：MemoryChannel和FileChannel。MemoryChannel将数据存储在内存中，适合对数据丢失不敏感的情况，但当系统崩溃时，可能会丢失数据。相比之下，FileChannel将数据写入磁盘，确保在系统故障后数据的持久性。 3. Sink是Flume架构的出口，它从Channel中取出事件并批量写入目标系统，如HDFS、logger或传递到另一个FlumeAgent。Sink的工作是事务性的，确保数据的安全传输。在写入目标系统之前，Sink会启动一个事务，一旦批量事件成功写入，就提交事务，此时Channel才会从其内部缓冲区删除这些事件。 Flume的这种设计使得它能够灵活地构建复杂的数据流管道，实现大规模数据的实时处理和传输。在大数据环境中，Flume常用于收集分布式系统的日志数据，然后将这些数据传输到分析工具或存储系统，如Hadoop HDFS，进行进一步的处理和分析。 Flume是大数据生态系统中不可或缺的一部分，它简化了日志数据的收集和管理，提高了数据处理的效率和可靠性。通过深入理解和熟练运用Flume，我们可以更有效地管理和利用大数据环境中的日志信息。

尚硅谷大数据技术之 Flume

—————————————————————————————

4. 先开启 flume 监听端口

[atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --

name a1 --conf-file job/flume-telnet-logger.conf -

Dflume.root.logger=INFO,console

参数说明：

--conf conf/ ：表示配置文件存储在 conf/目录

--name a1 ：表示给 agent 起名为 a1

--conf-file job/flume-telnet.conf ：flume 本次启动读取的配置文件是在 job 文件夹下

的 flume-telnet.conf 文件。

-Dflume.root.logger==INFO,console ： -D 表示 flume 运行时动态修改

flume.root.logger 参数属性值，并将控制台日志打印级别设置为 INFO 级别。日志级别包

括:log、info、warn、error。

5．使用 telnet 工具向本机的 44444 端口发送内容

[atguigu@hadoop102 ~]$ telnet localhost 44444

6．在 Flume 监听页面观察接收数据情况

3.2 实时读取本地文件到 HDFS 案例

1）案例需求：实时监控 Hive 日志，并上传到 HDFS 中

2）需求分析：

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

剩余46页未读，继续阅读

mhbin6

粉丝: 0
资源: 15

尚硅谷大数据技术：Flume详解

最新资源