Flume：分布式日志聚合系统的可靠性与可扩展性解析

72 浏览量更新于2024-08-29 收藏 282KB PDF 举报

"Flume日志收集" Flume是Apache Hadoop生态中的一个关键组件，专门设计用于高效地收集、聚合和移动大量日志数据。它是一个分布式、可靠且高可用的系统，允许用户自定义数据源来收集数据，并将处理后的数据发送到各种可定制的数据接收端。 ### Flume的主要特性 1. 可靠性 Flume提供了三种不同的可靠性级别以确保数据不丢失。最高等级的end-to-end可靠性意味着数据在被传输到接收方之前会先保存到磁盘，只有在成功传输后才会删除。Store-on-failure策略是在接收方崩溃时将数据存储在本地，等待恢复后继续发送。最低级别的Best effort策略则仅在数据发送后不做确认。 2. 可扩展性 Flume的三层架构（agent、collector和storage）使其具有良好的可扩展性。agent和collector可以通过添加更多实例进行水平扩展，以处理更大规模的数据流量。通过使用多个master并借助ZooKeeper进行管理和负载均衡，Flume避免了单点故障问题。 3. 可管理性所有的agent和collector都由master统一管理，便于监控和维护。多master设置下，Flume利用ZooKeeper和gossip协议保证动态配置数据的一致性。用户可以通过Web界面或shell脚本对数据流进行管理和配置。 4. 功能可扩展性用户可以为Flume开发自定义的agent、collector和storage组件，以满足特定需求。Flume内置了多种预定义组件，如file、syslog等数据源，以及file、HDFS等数据存储选项。 ### Flume架构 Flume的架构分为三个层次： - Agent Agent是Flume的基本工作单元，包含source和sink。Source负责从各种日志源（如应用程序、网络设备等）获取数据，而sink负责将数据发送到下一个处理阶段或最终目的地。 - Collector Collector用于聚合来自多个agent的数据，可能进一步处理这些数据，然后将它们传递给storage。 - Storage Storage是数据的最终归宿，可以是本地文件系统、HDFS、数据库或其他持久化存储解决方案。 Flume的Master和Node协同工作，Node根据Master上的配置动态调整其角色，作为Agent或Collector。这种灵活性使得Flume能够快速适应不断变化的日志收集需求。 Flume通过其强大的功能和灵活性，成为大数据环境中日志管理和分析的首选工具。它的设计考虑了高可用性和容错性，确保在大规模分布式系统中可靠地处理日志数据。通过合理配置和扩展，Flume能够有效地处理PB级别的日志数据，为日志分析和业务洞察提供强有力的支持。

Flume日志收集日志收集

一、Flume介绍

Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同

时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

设计目标：

(1) 可靠性

当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：

end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。

），Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），Best

effort（数据发送到接收方后，不会进行确认）。

(2) 可扩展性

Flume采用了三层架构，分别为agent，collector和storage，每一层均可以水平扩展。其中，所有agent和collector由master统

一管理，这使得系统容易监控和维护，且master允许有多个（使用ZooKeeper进行管理和负载均衡），这就避免了单点故障问

题。

(3) 可管理性

所有agent和colletor由master统一管理，这使得系统便于维护。多master情况，Flume利用ZooKeeper和gossip，保证动态配

置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况，且可以对各个数据源配置和动态加载。Flume提

供了web 和shell script command两种形式对数据流进行管理。

(4) 功能可扩展性

用户可以根据需要添加自己的agent，collector或者storage。此外，Flume自带了很多组件，包括各种agent（file， syslog

等），collector和storage（file，HDFS等）。

二、Flume架构

flume的逻辑架构：

正如前面提到的，Flume采用了分层架构：分别为agent，collector和storage。其中，agent和collector均由两部分组成：

source和sink，source是数据来源，sink是数据去向。

Flume使用两个组件：Master和Node，Node根据在Master shell或web中动态配置，决定其是作为Agent还是Collector。

(1) agent

agent的作用是将数据源的数据发送给collector。

Flume自带了很多直接可用的数据源（source），如：

text(“filename”)：将文件filename作为数据源，按行发送

tail(“filename”)：探测filename新产生的数据，按行发送出去

fsyslogTcp(5140)：监听TCP的5140端口，并且接收到的数据发送出去

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38614462

粉丝: 4

Flume：分布式日志聚合系统的可靠性与可扩展性解析

品友互动：Hadoop Flume日志收集与优化详解

Flume日志收集系统：安装与配置指南

巴豆大数据：Flume日志收集系统详解与实战指南

flume日志收集与Mapreduce书籍

Flume日志收集与MapReduce模式

Flume日志收集工具.pptx

Flume日志收集与MapReduce模式.pdf

《Flume日志收集与MapReduce模式》.pdf

"Flume日志收集系统简介及基础知识概述

xmen-taildir-source:优化Flume日志收集以适应文件inode变化

最新资源