1、在主节点使用Flume采集/data_log目录下实时日志文件中的数据，将数据存入到Kafka的Topic中（Topic名称分别为ChangeRecord、ProduceRecord和EnvironmentData，分区数为4）

好的，这是一个关于Flume、Kafka的数据采集和存储问题，你需要在主节点上配置Flume并使用它来采集/data_log目录下的实时日志文件，并将数据存储到Kafka的三个Topic中。具体的步骤如下： 1. 在主节点上安装Flume和Kafka，并确保它们能够正常工作。 2. 在Flume的配置文件中定义一个source，用于采集/data_log目录下的实时日志文件。例如： ``` # Define a source for tailing log files agent.sources = logsource agent.sources.logsource.type = exec agent.sources.logsource.command = tail -F /data_log/*.log ``` 3. 在Flume的配置文件中定义一个channel，用于存储采集到的数据。例如： ``` # Define a channel for storing events agent.channels = logchannel agent.channels.logchannel.type = memory agent.channels.logchannel.capacity = 10000 ``` 4. 在Flume的配置文件中定义三个sink，分别用于将采集到的数据存储到Kafka的三个Topic中。例如： ``` # Define sinks for sending events to Kafka agent.sinks.kafka1.type = org.apache.flume.sink.kafka.KafkaSink agent.sinks.kafka1.topic = ChangeRecord agent.sinks.kafka1.brokerList = kafka1:9092,kafka2:9092,kafka3:9092 agent.sinks.kafka1.batchSize = 100 agent.sinks.kafka2.type = org.apache.flume.sink.kafka.KafkaSink agent.sinks.kafka2.topic = ProduceRecord agent.sinks.kafka2.brokerList = kafka1:9092,kafka2:9092,kafka3:9092 agent.sinks.kafka2.batchSize = 100 agent.sinks.kafka3.type = org.apache.flume.sink.kafka.KafkaSink agent.sinks.kafka3.topic = EnvironmentData agent.sinks.kafka3.brokerList = kafka1:9092,kafka2:9092,kafka3:9092 agent.sinks.kafka3.batchSize = 100 ``` 其中，brokerList指定了Kafka的地址和端口号，batchSize表示每次向Kafka发送的事件的数量。 5. 在Flume的配置文件中定义一个agent，将source、channel和sink组合起来。例如： ``` # Define the agent and the flow of events agent.sources = logsource agent.channels = logchannel agent.sinks = kafka1 kafka2 kafka3 agent.sources.logsource.channels = logchannel agent.sinks.kafka1.channel = logchannel agent.sinks.kafka2.channel = logchannel agent.sinks.kafka3.channel = logchannel ``` 6. 启动Flume，并检查是否能够采集到/data_log目录下的实时日志文件，并将数据存储到Kafka的三个Topic中。以上就是将Flume和Kafka用于数据采集和存储的一个简单示例。具体的配置可能会因为环境和需求的不同而有所不同，需要根据实际情况进行调整。

阅读全文

1、 在主节点使用Flume采集/data_log目录下实时日志文件中的数据，将数据存入到Kafka的Topic中（Topic名称分别为ChangeRecord、ProduceRecord和EnvironmentData，分区数为4）

相关推荐

【实战Apache-Flume采集DB数据到kafka】

大数据采集技术-Flume监控日志至Kafka.pptx

大数据课程-Hadoop集群程序设计与开发-8.Flume日志采集系统_lk_edit.pptx

Flume_实时分析_日志收集1

Flume_离线处理_日志收集1

tada_分析各区域热门商品_——_使用_Flume_采集数据，MapReduce_或_

flume_sink_ext:flume收集日志到postgrepsql ,es扩展

flume-demo_大数据_flume_DEMO_自定义拦截器_

07.flume采集配置案例--采集目录中的新文件到HDFS中--配置详解.mp4

flume17ess522_0827_01

flume+kafka+sparkStream+redis实时日志采集.docx

天气爬虫采集，kafka实时分发，flume_收集数据导入到_Hbase,_再由_Hive_

Flume 构建高可用、可扩展的海量日志采集系统_PDF电子书下载 带索引书签目录_（美）史瑞德哈伦著_电子工业出版社_P208_2015.08.pdf

已上线的日志采集系统，使用flume收集日志，通过logstash将日志中的数据根据规则进行结构化，

spark-streaming-flume-sink_2.11_2.1.1.jar

最新采集规则大全__2010

Flume 构建高可用、可扩展的海量日志采集系统_part1

es522_flume17_bak0827_succ_modify.zip

es522_flume16_bak0827_succ_modify.zip

大家在看

yolo开发人工智能小程序经验和总结.zip

基于MATLAB的表面裂纹识别与检测

Modbus on AT32 MCU

论文研究-一种面向HDFS中海量小文件的存取优化方法.pdf

Gephi Cookbook 无水印原版pdf

最新推荐

kafka+flume 实时采集oracle数据到hive中.docx

OGG实现ORACLE数据到大数据平台KFAKF的实时同步到KUDU数据库

MySql准实时同步数据到HDFS(单机版).docx

Kafka接收Flume数据并存储至HDFS.docx

《永磁无刷直流电机控制系统与软件综合研究-集成电机计算软件、电机控制器及电磁设计软件的创新设计与实践》,永磁无刷直流电机计算与控制软件：高效电机控制器与电磁设计工具,永磁无刷直流电机计算软件，电机控

Spring Websocket快速实现与SSMTest实战应用

电力电子技术的智能化：数据中心的智能电源管理

通过spark sql读取关系型数据库mysql中的数据

新版微软inspect工具下载：32位与64位版本

如何运用电力电子技术实现IT设备的能耗监控

1、在主节点使用Flume采集/data_log目录下实时日志文件中的数据，将数据存入到Kafka的Topic中（Topic名称分别为ChangeRecord、ProduceRecord和EnvironmentData，分区数为4）

Flume 构建高可用、可扩展的海量日志采集系统_PDF电子书下载带索引书签目录_（美）史瑞德哈伦著_电子工业出版社_P208_2015.08.pdf