Flume大数据采集系统详解

需积分: 0 183 浏览量更新于2024-07-15 收藏 2.49MB DOCX 举报

"Flume是Cloudera设计的一款用于大数据采集、聚合和传输的系统，具有高可用性、高可靠性和分布式的特点。基于流式架构，Flume操作简单且灵活。文档主要介绍了Flume的基本概念、组件以及核心的Event结构。" 在Flume V1.5版本中，其核心组成部分包括Agent、Source、Sink和Channel，每个部分都有其特定的功能： 1. **Flume Agent** 是Flume的基本工作单元，以Java虚拟机（JVM）进程运行，负责将数据从源头传输到目标。Agent包含了Source、Channel和Sink三个子组件。 2. **Source** 负责接收来自不同数据源的数据，支持多种数据类型和格式，例如avro、thrift、exec、jms等。Source接收的日志数据可以被处理并转发到后续流程。 3. **Sink** 是数据的出口，它不断从Channel中获取并移除事件，然后将这些事件批量写入目标系统，如HDFS、HBase、Solr等，或者传递给其他Flume Agent。Sink提供了多种输出选项，适应不同的存储和索引需求。 4. **Channel** 在Source和Sink之间充当临时存储的角色，允许两者在不同的速度下运行。Channel是线程安全的，能同时处理多个Source的写入和多个Sink的读取。Flume提供了两种内置的Channel类型：MemoryChannel和FileChannel。MemoryChannel在内存中存储事件，适用于对数据丢失不敏感的情况；而FileChannel将事件写入磁盘，提供容错能力，即使在程序或机器故障后也能恢复数据。 5. **Event** 是Flume内部传输的基本单位，包含Header和Body两部分。Header存储了事件的元数据，以键值对形式存在，而Body则承载实际的数据，以字节数组的形式存储。第二章"Flume快速入门"通常会介绍如何配置和启动Flume Agent，创建简单的数据流管道，以及如何监控和调试Flume服务。这包括定义配置文件，指定Source、Sink和Channel的类型及参数，以及如何启动和停止Agent。 Flume的应用场景广泛，常见于日志收集、网站点击流分析、实时监控等多个领域。通过灵活配置和扩展，Flume能够适应各种复杂的大数据采集需求，有效地管理和传输大规模的数据流。了解和掌握Flume的基本原理和实践，对于构建高效的数据处理流水线至关重要。

a3.sinks.k3.hdfs.useLocalTimeStamp = true

3.运行 Flume

[zhouchen@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --

name a2 --conf-file job/flume-file-hdfs.conf

4.开启 Hadoop 和 Hive 并操作 Hive 产生日志

[zhouchen@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh

[zhouchen@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh

[zhouchen@hadoop102 hive]$ bin/hive

hive (default)>

5.在 HDFS 上查看文件。

2.2.3 实时监控目录下多个新文件

1）案例需求：使用 Flume 监听整个目录的文件，并上传至 HDFS

2）需求分析：

剩余41页未读，继续阅读

陈舟的舟

粉丝: 88
资源: 3

Flume大数据采集系统详解

Flume+kafka环境搭建详细教程

Flume组件安装与信息传输实战教程

Flume安装与配置指南

Hadoop大数据系统理论与实践.docx

《Hadoop大数据技术》课程理论教学大纲.docx

数据仓库学习.docx

Hadoop平台搭建与应用课程标准.docx

大数据的学习计划.docx

大数据工程师简历3份.docx

大数据研发方向教学计划.docx

最新资源