Flume：分布式日志收集与管理

124 浏览量更新于2024-08-28 收藏 291KB PDF 举报

"Flume日志收集" Flume是一个由Apache开发的分布式系统，专门用于高效、可靠地收集、聚合和移动大量日志数据。它设计的目标是保证数据的完整性，具备良好的可扩展性和易管理性，同时也允许用户自定义扩展以适应不同的日志收集需求。 1. **Flume的核心特性** - **可靠性**：Flume提供了多种可靠性机制，如end-to-end、Storeonfailure和Best effort。end-to-end是最强的保障，确保即使在节点故障时，数据也不会丢失，通过将事件写入磁盘并在传输成功后删除来实现。Storeonfailure则是在接收方崩溃时将数据存储在本地，等待恢复后再发送。Best effort则是最简单的策略，仅将数据发送到接收方，不进行确认。 - **可扩展性**：Flume的三层架构（agent、collector和storage）允许水平扩展，通过增加组件数量来提高处理能力。多master设置借助ZooKeeper实现负载均衡和故障切换，避免单点故障。 - **可管理性**：所有agent和collector由master统一管理，可以通过web界面或shell脚本进行监控和配置，支持动态加载和更新配置，确保系统的灵活性和响应性。 - **功能可扩展性**：用户可以创建自己的agent、collector和storage组件，以满足特定的日志处理需求。Flume内置了多种预设组件，如file、syslog等source，以及file、HDFS等sink。 2. **Flume的架构** Flume的架构分为三个主要层次：agent、collector和storage。每个agent和collector都由source和sink组成。source负责从各种数据源（例如系统日志、网络流等）抽取数据，而sink则负责将数据发送到目标位置（如HDFS、Elasticsearch等）。在物理部署中，这些组件通常分布在网络中的不同节点上。 - **Agent**：作为Flume的基本工作单元，包含source、channel和sink。source从外部源获取数据，channel临时存储数据，sink将数据传递给下一个agent或最终存储。 - **Collector**：用于收集来自多个agent的数据，可以进一步聚合或分发到不同的storage。 - **Storage**：是数据的最终目的地，可以是文件系统、数据库或任何其他可定制的存储解决方案。 Master和Node是Flume操作的控制层面，Master负责管理和配置整个Flume集群，Node根据Master的配置动态调整角色。 Flume是一个强大的日志收集框架，适用于大规模日志管理和分析。其设计理念是通过灵活的架构和可靠的机制，确保在复杂分布式环境中数据的无损传输。通过自定义扩展和集成，Flume可以轻松适应各种日志源和目标，满足不同组织的监控和分析需求。

Flume日志收集日志收集

一、Flume介绍

Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同

时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

设计目标：

(1) 可靠性

当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：

end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。

），Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），Best

effort（数据发送到接收方后，不会进行确认）。

(2) 可扩展性

Flume采用了三层架构，分别为agent，collector和storage，每一层均可以水平扩展。其中，所有agent和collector由master统

一管理，这使得系统容易监控和维护，且master允许有多个（使用ZooKeeper进行管理和负载均衡），这就避免了单点故障问

题。

(3) 可管理性

所有agent和colletor由master统一管理，这使得系统便于维护。多master情况，Flume利用ZooKeeper和gossip，保证动态配

置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况，且可以对各个数据源配置和动态加载。Flume提

供了web 和shell script command两种形式对数据流进行管理。

(4) 功能可扩展性

用户可以根据需要添加自己的agent，collector或者storage。此外，Flume自带了很多组件，包括各种agent（file， syslog

等），collector和storage（file，HDFS等）。

二、Flume架构

flume的逻辑架构：

正如前面提到的，Flume采用了分层架构：分别为agent，collector和storage。其中，agent和collector均由两部分组成：

source和sink，source是数据来源，sink是数据去向。

Flume使用两个组件：Master和Node，Node根据在Master shell或web中动态配置，决定其是作为Agent还是Collector。

(1) agent

agent的作用是将数据源的数据发送给collector。

Flume自带了很多直接可用的数据源（source），如：

text(“filename”)：将文件filename作为数据源，按行发送

tail(“filename”)：探测filename新产生的数据，按行发送出去

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38627590

粉丝: 13
资源: 919

Flume：分布式日志收集与管理

Flume日志收集与MapReduce模式

Flume日志收集与MapReduce模式.pdf

《Flume日志收集与MapReduce模式》.pdf

Flume日志收集工具.pptx

flume日志收集与Mapreduce书籍

Flume日志收集系统：安装与配置指南

品友互动：Hadoop Flume日志收集与优化详解

巴豆大数据：Flume日志收集系统详解与实战指南

"Flume日志收集系统简介及基础知识概述

xmen-taildir-source:优化Flume日志收集以适应文件inode变化

最新资源