#定义三大组件的名称 a.sources = r a.sinks = k1 k2 k3 a.channels = c1 c2 c3 #将数据流复制给所有channel a.sources.r.selector.type = replicating # 配置Source组件 a.sources.r.type = exec #exec表示数据源来自运行给定的Unix命令后生成的数据 a.sources.r.command = cat /home/bit/ys/hngyzd.csv # kafka a.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink a.sinks.k1.kafka.topic = data a.sinks.k1.kafka.bootstrap.servers = localhost:9092 a.sinks.k1.kafka.flumeBatchSize = 20 a.sinks.k1.kafka.producer.acks = 1 a.sinks.k1.kafka.producer.linger.ms = 1 a.sinks.k1.kafka.producer.compression.type = snappy a.channels.c1.type = memory a.channels.c1.capacity = 100000 a.channels.c1.transactionCapacity = 100 # mysql a.sinks.k2.type =com.us.flume.MysqlSink a.sinks.k2.hostname=localhost a.sinks.k2.port=3306 a.sinks.k2.databaseName=ys a.sinks.k2.tableName=table1 a.sinks.k2.user=bit a.sinks.k2.password=123456 a.channels.c2.type = memory a.channels.c2.capacity = 100000 a.channels.c2.transactionCapactiy = 2000 # hdfs a.sinks.k3.type = hdfs a.sinks.k3.hdfs.path = hdfs://localhost:9000/user/bit/ys #积攒多少个Event才flush到HDFS一次 a.sinks.k3.hdfs.batchSize = 100 #设置文件类型，可支持压缩 a.sinks.k3.hdfs.fileType = DataStream #多久生成一个新的文件 a.sinks.k3.hdfs.rollInterval = 5 a.channels.c3.type = memory a.channels.c3.capacity =100000 a.channels.c3.transactionCapacity = 100 # Bind the source and sink to the channel a.sources.r.channels = c1 c2 c3 a.sinks.k1.channel = c1 a.sinks.k2.channel = c2 a.sinks.k3.channel = c3

时间: 2023-11-22 18:52:05 浏览: 266

大数据采集技术-Flume配置.pptx

**大数据采集技术与Flume配置详解** 在大数据领域，数据采集是整个数据分析流程的第一步，它涉及从各种来源收集大量数据并将其传输到处理或存储系统。Apache Flume是Apache Hadoop项目的一个子项目，专门设计用于高效、可靠且可扩展地收集、聚合和移动大量日志数据。本篇将深入探讨Flume的配置方法及其在大数据采集中的应用。 ### Flume基本概念 Flume由多个组件构成，主要包括Source、Channel和Sink。Source负责从数据源接收数据，Channel作为缓冲区存储数据，而Sink则负责将数据发送到目的地。这些组件通过配置文件进行定义和连接，形成一个数据流动的Agent。 ### Flume配置 Flume的配置文件采用基于Java的属性文件格式，例如`conf/hdfs.conf`。以下是一个Flume Agent `a1` 的配置示例： ```properties # 定义Agent的组件 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 配置Source r1 a1.sources.r1.type = TAILDIR # 监听指定目录下的文件变化 a1.sources.r1.positionFile = /opt/flume/position/position.json # 记录文件读取位置 a1.sources.r1.filegroups = f1 f2 a1.sources.r1.filegroups.f1 = /opt/flume/files/file1.txt a1.sources.r1.filegroups.f2 = /opt/flume/files/file2.txt # 配置Sink k1 a1.sinks.k1.type = hdfs # 将数据写入HDFS a1.sinks.k1.hdfs.path = hdfs://192.168.200.219:8020/flume a1.sinks.k1.hdfs.filePrefix = upload- a1.sinks.k1.hdfs.round = true a1.sinks.k1.hdfs.roundValue = 1 a1.sinks.k1.hdfs.roundUnit = hour a1.sinks.k1.hdfs.useLocalTimeStamp = true a1.sinks.k1.hdfs.batchSize = 10 a1.sinks.k1.hdfs.fileType = DataStream a1.sinks.k1.hdfs.rollInterval = 60 a1.sinks.k1.hdfs.rollSize = 1024 a1.sinks.k1.hdfs.rollCount = 0 ``` 在上述配置中： - `TAILDIR` Source 监视指定的`filegroups`（如`file1.txt`和`file2.txt`）目录，当文件有新数据追加时，Flume会捕获并传输新数据。 - `positionFile` 记录每个文件的最后读取位置，使得Flume可以连续读取。 - `hdfs` Sink 将数据写入HDFS，配置了路径、文件前缀、时间戳处理方式以及文件滚动策略等。 ### Channel配置 ```properties # 配置Channel c1 a1.channels.c1.type = memory # 使用内存通道，速度较快但容量有限 a1.channels.c1.capacity = 1000 # 通道的最大容量 a1.channels.c1.transactionCapacity = 100 # 事务处理能力 ``` Channel `c1` 是一个内存通道，具有1000个事件的容量和每次事务处理100个事件的能力。 ### 绑定Source和Sink ```properties # 绑定Source和Channel a1.sources.r1.channels = c1 # 绑定Sink和Channel a1.sinks.k1.channel = c1 ``` 通过这种方式，Source `r1` 将数据写入Channel `c1`，然后由Sink `k1` 从`c1`中读取数据并写入HDFS。 ### 启动Flume Agent ```bash $ bin/flume-ng agent -n a1 -c conf -f conf/hdfs.conf ``` 使用上述命令启动名为`a1`的Flume Agent，加载配置文件`conf/hdfs.conf`。 ### Flume工作原理 Flume的工作流程通常包括以下步骤： 1. Source监控数据源，如日志文件，当检测到新的数据时，将数据发送到Channel。 2. Channel作为数据缓冲区，暂时存储Source传递的数据，保证数据的可靠性。 3. Sink从Channel中获取数据并将其发送到目标位置，如HDFS、Elasticsearch或其他存储系统。 ### 总结 Apache Flume是大数据采集的重要工具，其灵活的配置和强大的数据处理能力使其在日志收集、实时流处理等领域得到广泛应用。理解并熟练掌握Flume的配置，能够帮助我们更有效地构建和优化数据采集系统，实现大数据的高效管理。

这段代码是一个 Apache Flume 的配置文件，用于将数据从一个源头复制到多个目的地。其中，a.sources 定义了数据源，a.sinks 定义了数据的目的地，a.channels 定义了数据在传输过程中的缓存区。具体配置如下： - 数据源：a.sources.r.type = exec 表示数据源来自运行给定的 Unix 命令后生成的数据，a.sources.r.command = cat /home/bit/ys/hngyzd.csv 表示运行 cat 命令读取指定文件中的数据作为数据源。 - Kafka 目的地：a.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink 表示将数据发送到 Kafka，a.sinks.k1.kafka.bootstrap.servers = localhost:9092 表示连接到本地的 Kafka 服务器，a.sinks.k1.channel = c1 表示从名为 c1 的缓存区取出数据发送到 Kafka。 - MySQL 目的地：a.sinks.k2.type = com.us.flume.MysqlSink 表示将数据写入 MySQL 数据库，a.sinks.k2.hostname = localhost、a.sinks.k2.port = 3306、a.sinks.k2.databaseName = ys、a.sinks.k2.tableName = table1、a.sinks.k2.user = bit、a.sinks.k2.password = 123456 分别表示连接到本地的 MySQL 数据库 ys 中的 table1 表，并使用 bit 用户名和 123456 密码进行认证。a.sinks.k2.channel = c2 表示从名为 c2 的缓存区取出数据写入 MySQL。 - HDFS 目的地：a.sinks.k3.type = hdfs 表示将数据写入 HDFS，a.sinks.k3.hdfs.path = hdfs://localhost:9000/user/bit/ys 表示将数据写入到本地的 HDFS 文件系统中的 /user/bit/ys 目录下。a.sinks.k3.hdfs.batchSize = 100 表示积攒多少个事件才将它们一起 flush 到 HDFS 中，a.sinks.k3.hdfs.rollInterval = 5 表示每隔 5 秒生成一个新的文件。a.sinks.k3.channel = c3 表示从名为 c3 的缓存区取出数据写入 HDFS。最后，a.sources.r.channels、a.sinks.k1.channel、a.sinks.k2.channel 和 a.sinks.k3.channel 分别将数据源和目的地绑定到缓存区 c1、c2 和 c3。这样，数据在传输过程中会先进入缓存区，再从缓存区分别发送到 Kafka、MySQL 和 HDFS 中。

阅读全文

相关推荐

大数据采集技术-Flume读取本地文件到HDFS.pptx

大数据采集技术-flume至kafka.pdf

a1.sinks.k1.type = avro a1.sinks.k1.hostname = localhost a1.sinks.k1.port =44444

agent3.sources = source3 agent3.channels = channel3 agent3.sinks = sink3

Serilog.Sinks.OrientDB:Serilog.Sinks.OrientDB

Serilog.Sinks.TencentCloud:仿照Serilog.Sinks.Http写的Serilog扩展将日志推送到腾讯云cls

第10章 Flume组件安装配置.docx

SIMULINK模块库详解：从Sources到Sinks

编写flume测试文件 sources使用netcat channels使用memory sinks使用logger

serilog.sinks.mysql

ClassNotFoundException: reactor.core.publisher.Sinks

ERROR source.AvroSource: Avro source source2: Unable to process event batch. Exception follows. org.apache.flume.ChannelFullException: Space for commit to queue couldn't be acquired. Sinks are likely not keeping up with sources, or the buffer size is too tight

Cannot resolve org.apache.flume:flume-ng-sinks:1.9.0

ListView上下翻页效果.zip

Android项目之——漂亮的平台书架.zip

TestBrightness2.zip

最新推荐

ListView上下翻页效果.zip

Android项目之——漂亮的平台书架.zip

TestBrightness2.zip

Java集合ArrayList实现字符串管理及效果展示

管理建模和仿真的文件

【MATLAB信号处理优化】：算法实现与问题解决的实战指南

在西门子S120驱动系统中，更换SMI20编码器时应如何确保数据的正确备份和配置？

实现2D3D相机拾取射线的关键技术

"互动学习：行动中的多样性与论文攻读经历"

【MATLAB时间序列分析】：预测与识别的高效技巧