Kafka：实时流数据处理平台详解

需积分: 14 36 浏览量更新于2024-09-11 收藏 568KB PDF 举报

"Kafka搭建详解" Kafka是一款由LinkedIn开源的分布式消息系统，后来成为Apache软件基金会的顶级项目。它的主要目标是处理活跃的流式数据，这种数据在现代Web应用中非常常见，比如网站的页面浏览量（PV）、用户行为记录等。Kafka的独特之处在于它结合了实时和离线数据处理的能力，既能提供低延迟的实时消息传递，又支持大规模的数据持久化，适合与Hadoop等离线分析工具集成。 Kafka的核心概念包括： 1. 主题（Topics）：消息被分类为不同的主题，每个主题可以视为一类消息的集合。 2. 生产者（Producers）：负责向主题发布消息的程序。 3. 消费者（Consumers）：订阅主题并处理发布消息的程序。 4. 代理（Brokers）：组成Kafka集群的服务器，负责存储和转发消息。设计目标： - O(1)的磁盘存取效率：通过将数据分片存储，Kafka实现了高效的磁盘操作，降低了读写成本。 - 高吞吐量：Kafka能在普通硬件上实现每秒处理大量消息的能力。 - 显式分布式：所有组件（生产者、消费者、代理）都设计为多实例的，增强了系统的容错性和可扩展性。 - 支持并行加载到Hadoop：Kafka能够方便地将数据导入Hadoop进行进一步分析。在Kafka中，主题被划分为多个分区（Partitions），每个分区都是一个有序、不可变且只追加的日志。消息在分区中按顺序存储，通过偏移量（Offset）来标识其位置。每个分区都有一个主副本（Leader）和若干从副本（Followers），保证了数据的冗余和高可用性。消息在被消费后，可以在设定的保留期内保持，过了保留期则会被自动删除，以控制存储空间。 Kafka的高性能和线性可扩展性使其在大数据实时处理领域具有广泛应用，它常用于日志聚合、流式处理、实时监控等多种场景。在搭建Kafka时，需要考虑集群的规模、主题和分区的设置、以及消费者的消费策略等，以满足不同业务需求。同时，为了保证系统的稳定性和数据一致性，还需要关注Kafka的配置参数，例如副本复制策略、消息保留策略以及网络通信参数等。

Kafka简介

概述

Kafka是Linkedin于2010年12月份开源的消息系统，它主要用于处理活跃的流式数据。活跃的流式数据

在Web应用中非常常见，这些数据包括网站的PV、用户访问了什么内容、搜索了什么内容等。这些数据通

常以日志的形式记录下来，然后每隔一段时间进行一次统计处理。

传统的日志分析系统提供了一种离线处理日志信息的可扩展方案，但若要进行实时处理，通常会有较大延

迟。而现有的消（队列）系统能够很好的处理实时或者近似实时的应用，但未处理的数据通常不会写到磁

盘上，这对于Hadoop之类（一小时或者一天只处理一部分数据）的离线应用而言，可能存在问题。Kafka

正是为了解决以上问题而设计的，它能够很好地离线和在线应用。

Kafka是一种分布式的、分段、重复提交日志的服务系统，提供传递消息的功能，采用独一无二的设计。

Kafka的定义了一下基本术语：

1.Kafka按类别维护订阅的消息（Messages），这些类别称为主题（Topics）。

2.我们把发布消息的程序叫做Kafka的主题生产者（Producers）。

3.我们把订阅主题并且处理被发布的消息的程序叫做Kafka的消费者（Consumers）。

4.Kafka是一台或多台服务器组成的集群，其中的每一台服务器都被称为代理（Broker）。

设计目标

1.数据在磁盘上存取代价为O(1)。一般数据在磁盘上是使用BTree存储的，存取代价为O(lgN)。

2.高吞吐率。即使在普通的节点上每秒钟也能处理成百上千的Message。

3.显式分布式，即所有的Producer、Broker和Consumer都会有多个，均为分布式的。

4.支持数据并行加载到Hadoop中。

TopicsandLogs

一个Topic是发布（Publish）的消息的类别。在Kafka的集群中，每个Topic都按分段日志的方式维护，如

下图所示：

下载后可阅读完整内容，剩余4页未读，立即下载

NinjaPanda

粉丝: 30
资源: 231

Kafka：实时流数据处理平台详解

kafka搭建单机windows_单机linux_集群linux操作.rar

kafka搭建与使用.doc

kafka 搭建

Kafka3.0详解，客户端命令，核心配置文件详解。spring集成、webflux集成、集群搭建

kafka搭建套装.zip

flume+kafka搭建.docx

Linux环境下完整搭建Kafka步骤详解

Zookeeper与Kafka集群搭建详解及安装包指南

Kafka集群详解：从入门到配置与搭建

Kafka基础与集群搭建详解

最新资源