没有合适的资源?快使用搜索试试~ 我知道了~
首页47_Flume、Logstash、Filebeat调研报告
资源详情
资源评论
资源推荐

Flume、Logstash、Filebeat 调研报告
1. 概述
数据的价值在于把数据变成行动。这里一个非常重要的过程是数据分析。
提到数据分析,大部分人首先想到的都是 Hadoop、流计算、机器学习等数据加
工的方式。从整个过程来看,数据分析其实包含了 4 个过程:采集,存储,计
算,展示。大数据的数据采集工作是大数据技术中非常重要、基础的部分,具
体场景使用合适的采集工具,可以大大提高效率和可靠性,并降低资源成本 。
Flume、Logstash 和 Filebeat 都是可以作为日志采集的工具,本报告将针对这三
者进行分析。
2. Flume
Flume 是一种分布式、高可靠和高可用的服务,用于高效地收集、聚合和
移动大量日志数据。它有一个简单而灵活的基于流数据流的体系结构。它具有
可调的可靠性机制、故障转移和恢复机制,具有强大的容错能力。它使用一个
简单的可扩展数据模型,允许在线分析应用程序。

2.1 Flume 介绍
Flume 的设计宗旨是向 Hadoop 集群批量导入基于事件的海量数据。系统中
最核心的角色是 agent,Flume 采集系统就是由一个个 agent 所连接起来形成。
每一个 agent 相当于一个数据传递员,内部有三个组件:
source: 采集源,用于跟数据源对接,以获取数据
sink:传送数据的目的地,用于往下一级 agent 或者最终存储系统传递数据
channel:agent 内部的数据传输通道,用于从 source 传输数据到 sink
2.2 Flume 安装部署准备
1. Linux 运行环境
2. jdk1.6 或更高版本
3. 充足的内存和磁盘
2.3 Flume 安装
wget https://www-eu.apache.org/dist/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz
tar -zxvf apache-flume-1.9.0-bin.tar.gz#解压
mv apache-flume-1.9.0-bin flume #改名

cd flume/
rm -rf docs/ #删除没用的帮助文档
cd conf/
2.4 flume 配置
Flume 的配置是在 conf 下以.conf 结尾的文件
vim conf/test.conf
# 分别为 起别名
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
# 配置 source
a1.sources.r1.type = netcat
# 数据来源的方式:
# bind:ip,此 ip 必须是本机,ip:如果换成 0.0.0.0(木有限制)
a1.sources.r1.bind = localhost
# 端口号是 44444
a1.sources.r1.port = 44444
# Describe the sink
# 配置的是 sink

a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
#配置 channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
# 将 source,和 channel 绑定起来
a1.sources.r1.channels = c1
# 将 sink 和 channel 绑定起来
a1.sinks.k1.channel = c1
# –conf conf 指定 flume 配置文件的位置
#--conf-file 指定 user 配置文件的位置
#--name 必须与配置文件中的别名一致。
bin/flume-ng agent -conf conf --conf-file conf/test.conf --name a1 -
Dflume.root.logger=INFO,console
3. Logstash
Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据,
转换数据,然后将数据发送到存储库中。数据从源传输到存储库的过程中,
剩余16页未读,继续阅读



















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0