Apache Flume：分布式日志聚合系统

需积分: 0 119 浏览量更新于2024-09-03 收藏 350KB DOCX 举报

身份认证购VIP最低享 7 折!

30元优惠券

"Apache Hadoop---Flume 是一个用于大规模日志聚合的分布式系统，它允许用户自定义数据发送方来收集数据，并能对数据进行基本处理后存储到各种可定制的数据接收方。其特点包括可靠性（提供不同级别的数据传输保障）、可扩展性（通过三层架构实现水平扩展并避免单点故障）、可管理性（通过master统一管理agent和collector）、功能可扩展性（用户可添加自定义组件）以及丰富的文档和活跃的社区支持。Flume分为FlumeOG和FlumeNG两个版本，FlumeOG是早期版本，由agent、collector和master组成，而FlumeNG进行了重大改进，引入了更灵活的事件模型和新的架构设计。" Apache Hadoop中的Flume是一个强大的工具，主要设计用于高效、稳定地收集、聚合和移动大量日志数据。作为大数据生态系统的一部分，Flume的可靠性是其核心特性之一。它提供了三种不同的可靠性级别，确保即使在节点故障情况下，数据也能得到保护并最终传递。End-to-end模式是最可靠的，它在数据发送成功前先保存在磁盘，而Best-effort则是最不保证的，仅依赖于接收方的确认。 Flume的可扩展性体现在其三层架构——agent、collector和storage，这三层都可以水平扩展以适应不断增长的数据量。通过master的统一管理，系统变得更加易于监控和维护。在多master配置下，Flume利用ZooKeeper进行管理和负载均衡，防止单点故障。为了提升易用性，Flume提供了Web界面和Shell脚本命令，使用户可以轻松查看和管理数据流，动态配置数据源。此外，用户还可以根据需求扩展Flume的功能，添加自定义的agent、collector或storage组件。Flume内建了多种预设组件，如file、syslog等，以及file、HDFS等存储选项。 FlumeOG是Flume的早期实现，而FlumeNG则是后续的改进版本，引入了更先进的事件处理机制和更模块化的架构，提高了性能和灵活性。Flume作为一个强大的日志管理工具，因其可靠性、可扩展性、易管理性和丰富的社区支持，在大数据处理领域中扮演着不可或缺的角色。

资源详情

资源推荐

Apache Hadoop---Flume

1、Flume（分布式数据采集系统）

Flume 是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系

统中定制各类数据发送方，用于收集数据；同时，Flume 提供对数据进行简单

处理，并写到各种数据接受方（可定制）的能力。

1、ume 特点

1.1、可靠性

当节点出现故障时，日志能够被传送到其他节点上而不会丢失。 Flume 提

供了三种级别的可靠性保障，所有的数据以 event 为单位传输，从强到弱依次

分别为：end-to-end（收到数据 agent 首先将 event 写到磁盘上，当数据传

送成功后，再删除；如果数据发送失败，可以重新发送）， Store on

failure（这也是 scribe 采用的策略，当数据接收方 crash 时，将数据写到本

地，待恢复后，继续发送），Best eort（数据发送到接收方后，不会进行确

下载后可阅读完整内容，剩余8页未读，立即下载

砸锅卖铁上论坛

粉丝: 4
资源: 39

Apache Flume：分布式日志聚合系统

Apache Hadoop---Crunch.docx

Flume-ng在windows环境搭建并测试+log4j日志通过Flume输出到HDFS.docx

Exception in thread "main" org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.fs.FileAlreadyExi

Could not find artifact org.apache.hadoop:hadoop-MapReduce-client-core:pom:2.7.7 in central (https://repo.maven.apache.org/maven2) Could not find artifact org.apache.hadoop:hadoop-MapReduce-client-core:pom:2.7.7 in central (https://repo.maven.apache.org/

Unresolved dependency: 'org.apache.hadoop:hadoop-common:jar:${hadoop.version}'

org.apache.hadoop.shaded.org.apache.commons.configuration2.Configuration

cd /root cp hadoop-2.8.3.tar.gz /home/modules/ cd /home/modules/ tar -zxvf hadoop-2.8.3.tar.gz如何分割

Unresolved dependency: 'org.apache.hadoop:hadoop-MapReduce-client-core:jar:2.7.7'

cp /opt/hadoop/hadoop-0.20.2.tar.gz /usr/local/ tar –zxvf hadoop-0.20.2.tar.gz

<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-mapreduce-client-core</artifactId> <version>3.2.1</version> </dependency>

hadoop102: /opt/module/hadoop-3.1.3/libexec/hadoop-functions.sh:行1842: /tmp/hadoop-ys-namenode.pid: 权限不够 hadoop102: ERROR: Cannot write namenode pid /tmp/hadoop-ys-namenode.pid.

<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-mapreduce-client-jobclient</artifactId> <version>3.2.1</version> </dependency>

java.lang.ClassNotFoundException: org.apache.hadoop.yarn.exceptions.YarnException

[admin@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh Starting namenodes on [hadoop102] hadoop102: /opt/software/hadoop-3.1.3/libexec/hadoop-functions.sh:行1842: /tmp/hadoop-admin-namenode.pid: 权限不够 hadoop102: ERROR: Cannot write namenode pid /tmp/hadoop-admin-namenode.pid. 如何解决

<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.2.1</version> </dependency>

java: 不兼容的类型: org.apache.hadoop.mapreduce.Job无法转换为org.apache.hadoop.mapred.JobConf

vi hadoop-env.sh export HADOOP_CONF_DIR=/opt/programs/hadoop-2.7.6/etc/hadoop 文件末尾加入JAVA_HOME环境变量 export JAVA_HOME=/opt/programs/jdk1.8.0_211 source hadoop-env.sh写注释

最新资源