Kafka入门到精通：实战与原理剖析

需积分: 5 193 浏览量更新于2024-08-03 1 收藏 1.05MB PDF 举报

Kafka快速实战与基本原理详解深入剖析了一个强大的分布式消息系统——Kafka。Kafka最初由LinkedIn开发，后来成为Apache基金会的顶级开源项目，特别适合处理实时数据和大规模消息传输。它以分布式、分区和多副本设计为核心，通过Zookeeper实现协调，使得系统具有高可用性和容错性。 Kafka的主要应用场景广泛，包括日志收集，用于整合来自不同服务的logs，提供统一接口供Hadoop、HBase、Solr等工具消费；消息系统中，Kafka被用来解耦生产者和消费者，支持消息缓存，有助于构建灵活的消息传递模型；在用户活动跟踪方面，通过记录用户的在线行为，实现实时监控和数据分析；此外，运营指标的收集也是Kafka的重要用途，如监控分布式应用数据和集中反馈。 Kafka的基本概念包括： 1. **Broker**：消息的处理节点，一个Kafka实例即为一个Broker。一个或多个Broker构成一个Kafka集群，确保数据的高可用和分区负载均衡。 2. **Topic**：消息分类的逻辑容器，每条消息都有特定的主题，用于组织和分发数据。 3. **Producer**：负责发送消息的客户端，将数据推送到指定的Topic。 4. **Consumer**：接收消息的客户端，从Broker获取数据，是消息处理系统的使用者。 5. **Consumer Group**：消费者按照组进行组织，一条消息可以被多个Consumer Group消费，但同一组内的消费者只能消费一次。 6. **Partition**：Topic的细分单元，每个分区内部的消息顺序是有序的，提高了吞吐量和并发处理能力。 Kafka的独特设计使其在实时数据处理中表现出色，其Java客户端API使得与其他技术栈如Spring Boot集成变得简单。通过本文档，读者可以从零开始掌握Kafka的安装、配置、生产和消费过程，深入了解其内部机制，以及如何构建和维护高效的Kafka集群。对于任何希望在大数据和实时分析领域利用Kafka的企业或开发者，这篇文档提供了宝贵的实践指导和理论基础。

3 cdapache‐zookeeper‐3.5.8‐bin

4 cpconf/zoo_sample.cfgconf/zoo.cfg

6 #启动zookeeper

7 bin/zkServer.shstart

8 bin/zkCli.sh

9 ls/#查看zk的根目录相关节点

第一步：下载安装包

下载2.4.1release版本，并解压：

1 wgethttps://mirror.bit.edu.cn/apache/kafka/2.4.1/kafka_2.11‐2.4.1.tgz#2.11是scala的版本，2.4.1是kafka的版本

2 tar‐xzfkafka_2.11‐2.4.1.tgz

3 cdkafka_2.11‐2.4.1

第二步：修改配置

修改配置文件config/server.properties:

1 #broker.id属性在kafka集群中必须要是唯一

2 broker.id=0

3 #kafka部署的机器ip和提供服务的端口号

4 listeners=PLAINTEXT://192.168.65.60:9092

5 #kafka的消息存储文件

6 log.dir=/usr/local/data/kafka‐logs

7 #kafka连接zookeeper的地址

8 zookeeper.connect=192.168.65.60:2181

第三步：启动服务

现在来启动kafka服务：

启动脚本语法：kafkaserverstart.sh[daemon]server.properties

可以看到，server.properties的配置路径是一个强制的参数，daemon表示以后台进程运行，否则ssh客户端退出后，

就会停止服务。(注意，在启动kafka时会使用linux主机名关联的ip地址，所以需要把主机名和linux的ip映射配置到本地

host里，用vim/etc/hosts)

1 #启动kafka，运行日志在logs目录的server.log文件里

2 bin/kafka‐server‐start.sh‐daemonconfig/server.properties#后台启动，不会打印日志到控制台

3 或者用

4 bin/kafka‐server‐start.shconfig/server.properties&

6 #我们进入zookeeper目录通过zookeeper客户端查看下zookeeper的目录树

7 bin/zkCli.sh

8 ls/#查看zk的根目录kafka相关节点

9 ls/brokers/ids#查看kafka节点

11 #停止kafka

12 bin/kafka‐server‐stop.sh

server.properties核心配置详解：

Property Default Description

broker.id 0

每个broker都可以用一个唯一的非负整数id进行标识；这个id可以作为broker的“名字”，

你可以选择任意你喜欢的数字作为id，只要id是唯一的即可。

log.dirs /tmp/kafka-logs

kafka存放数据的路径。这个路径并不是唯一的，可以是多个，路径之间只需要使用逗号分

隔即可；每当创建新partition时，都会选择在包含最少partitions的路径下进行。

listeners

PLAINTEXT://192.168.65.60:909

server接受客户端连接的端口，ip配置kafka本机ip即可

zookeeper.connect localhost:2181

zooKeeper连接字符串的格式为：hostname:port，此处hostname和port分别是

ZooKeeper集群中某个节点的host和port；zookeeper如果是集群，连接方式为

hostname1:port1,hostname2:port2,hostname3:port3

剩余13页未读，继续阅读

光芒软件工匠

粉丝: 797
资源: 64

Kafka入门到精通：实战与原理剖析

kafka细心原理与实战

Spark从入门到精通

Zookeeper从入门到精通课程资源（未加密）

Linux入门到精通

精通 Spring Boot 42 讲

精通 Spring Boot 42 讲(有源码).rar

从0开始-大数据技术学习思路.docx

SpringCloud实战指南：从入门到精通

Kafka核心技术深入与实战应用详解

Spark入门精通：实战+源码解析，Scala编程与性能优化

最新资源