Flume通道与接收器详解：Memory Channel、File Channel、HDFS Sink等

需积分: 9 66 浏览量更新于2024-07-16 收藏 1.01MB DOCX 举报

"Flume是Apache的一个开源项目，主要用于大数据收集和传输。本文重点讨论了Flume中的两个关键组件——Channel和Sink，以及相关的配置和使用场景。" Flume的Channel是事件(Event)的存储区域，它在Source与Sink之间起到缓冲作用。Channel可以是内存型、文件型或数据库型，每种类型都有其特定的应用场景和配置选项。 1. Memory Channel：事件存储在内存中，提供快速的数据传输，但存在数据丢失的风险，因为如果Flume进程崩溃，未持久化的事件将丢失。配置参数包括`Capacity`（默认100个event）和`transactionCapacity`（默认100个event，建议调整至1000-3000）。 2. File Channel：事件存储在磁盘文件中，提供了数据安全性，即使Flume重启，数据也不会丢失。启动Flume时需要指定配置文件并设置日志级别。File Channel是生产环境中的常见选择。 3. JDBC Channel：将事件存储在Derby数据库中，适用于测试环境，由于单连接限制，不推荐用于生产环境。 4. 内存溢出Channel：结合内存和文件存储，当内存满时，事件会溢出到文件中，同样主要用于测试。 Flume的Sink则是将事件输出到目标位置，如控制台、本地文件系统或HDFS等。以下是一些常见的Sink类型： 1. Logger Sink：将事件输出到控制台，方便调试，但输出的body内容有限制，通常为16字节。 2. File Roll Sink：定期将事件写入本地文件，并按时间生成新文件，适合于数据归档。启动Flume时需要指定配置文件，并可以通过nc工具进行测试。 3. HDFSSink：将事件写入HDFS，通常用于大数据存储。配置包括`hdfs.path`指定HDFS目录和`hdfs.fileType`选择文件类型，如SequenceFile。 Flume还支持Source端的Selector和Interceptor，用于事件路由和处理： - 多路复用/路由器Selector：根据规则将事件分发到不同的Sink。 - Timestamp Interceptor：添加或修改事件的时间戳。 - Search And Replace Interceptor：在事件内容中执行搜索和替换操作。 - Regex Filter Interceptor：根据正则表达式过滤事件。 - Regex Extractor Interceptor：使用正则表达式提取事件中的特定信息。 - Host Interceptor：添加或修改事件的主机信息。 - Static Interceptor：设置固定的事件属性。 - UUID Interceptor：为每个事件添加唯一的UUID。最后，Channel可以通过负载均衡机制选择多个Sink中的一个进行输出，确保高可用性和数据的高效处理。这样的设计使得Flume能够灵活地适应各种大数据采集和传输的需求。

hdfs.path: 指定 hadoop 系统的保存目录

hdfs.leType：SequenceFile(序列化文件)/DataStream(文本文件)/CompressedStream(压缩文件)

hdfs.rollInterval: 文件生成的间隔事件，默认是 30，单位是秒

启动 ume

bin/ume-ng agent -n a1 -c conf -f data/hdfssink.conf -Dume.root.logger=INFO,console

HDFS 管理台查看运行结果

剩余18页未读，继续阅读

时下握今

粉丝: 96
资源: 8

Flume通道与接收器详解：Memory Channel、File Channel、HDFS Sink等

Flume配置双HA hdfsSink.docx

Flume日志采集手册.docx

flume 1.7 user guide.docx

flume+kafka搭建.docx

第10章 Flume组件安装配置.docx

Flume学习文档(2){Flume安装部署、Flume配置文件}.docx

04、日志收集系统Flume-flume配置案例.docx

flume的安装和实践.docx

Flume1.9.0配置.docx

Flume基本理论与实践.docx

最新资源