Python操作Kafka：生产者与消费者实战

137 浏览量更新于2024-08-30 1 收藏 64KB PDF 举报

"这篇文章深入探讨了如何使用Python与Apache Kafka进行交互，主要关注生产者和消费者的实现。通过kafka-python库，我们可以轻松地发送和接收消息。文章强调了在发送消息时使用回调函数的重要性，特别是在爬虫场景下，因为这有助于追踪消息的分区和offset，以便于问题排查。示例代码展示了如何定义成功和失败的回调函数，并提供了发送JSON格式消息的方法。" Apache Kafka是一种分布式流处理平台，常用于构建实时数据管道和流应用。在Python中，我们可以通过kafka-python库来操作Kafka。以下是关于Python读写Kafka的一些关键知识点： 1. KafkaProducer: 生产者是向Kafka主题发布消息的组件。在Python中，`KafkaProducer`类用于创建一个生产者实例，它需要配置`bootstrap_servers`参数来指定Kafka集群的地址。 2. 发送消息: 使用`send()`方法将消息发送到指定的主题。例如，`producer.send(topic, value=b'{"test_msg":"helloworld"}')`将JSON字符串编码为字节并发送到名为`demo`的主题。 3. 回调函数: 为了确保消息发送的可靠性，可以添加回调函数到`send()`方法中。`on_send_success()`和`on_send_error()`是两个示例回调，分别在消息成功发送和发送失败时调用。它们可以帮助跟踪消息的状态，例如记录发送到的分区和offset。 4. 分区和Offset: 分区是Kafka主题内的逻辑部分，每个分区都有一个唯一的偏移量（Offset），表示消息在分区中的位置。通过记录发送消息的分区和offset，可以追踪消息的处理状态。 5. 序列化: 在发送消息时，可能需要将Python对象转换为Kafka可以理解的格式。在示例中，使用`value_serializer`参数设置了一个lambda函数，将消息转换为JSON格式的字节。 6. KafkaConsumer: 负责从Kafka主题中消费消息的组件。虽然在提供的摘要信息中没有直接提及，但在实际应用中，也需要了解如何创建`KafkaConsumer`，设置`group_id`、`auto_offset_reset`等参数，以及如何使用`poll()`或`consume()`方法来获取消息。 7. 自动偏移提交: 默认情况下，KafkaConsumer会自动提交消费的offset，以保持消费者的消费进度。通过配置`enable_auto_commit`，可以选择开启或关闭这一特性。 8. 幂等性: 为了确保消息不会因网络问题而重复发送，KafkaProducer可以启用幂等性。这样即使同一消息被发送多次，Kafka也只会将其存储一次。 9. 重试策略: 当发送消息失败时，可以配置重试策略，如设置最大重试次数和延迟时间，以提高消息的送达率。 10. 消费者组: 多个消费者可以组成一个消费者组，共同消费一个主题的所有分区。这样可以实现负载均衡和高可用性。通过理解和应用以上知识点，开发者可以构建出可靠的Python应用程序，利用Kafka进行高效的数据传输和处理。

深入了解如何基于深入了解如何基于Python读写读写Kafka

这篇文章主要介绍了深入了解如何基于Python读写Kafka,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定

的参考学习价值,需要的朋友可以参考下

本篇会给出如何使用python来读写kafka, 包含生产者和消费者.

以下使用kafka-python客户端

生产者生产者

爬虫大多时候作为消息的发送端, 在消息发出去后最好能记录消息被发送到了哪个分区, offset是多少, 这些记录在很多情况下可

以帮助快速定位问题, 所以需要在send方法后加入callback函数, 包括成功和失败的处理

# -*- coding: utf-8 -*-

'''

callback也是保证分区有序的, 比如2条消息, a先发送, b后发送, 对于同一个分区, 那么会先回调a的callback, 再回调b的callback

'''

import json

from kafka import KafkaProducer

topic = 'demo'

def on_send_success(record_metadata):

print(record_metadata.topic)

print(record_metadata.partition)

print(record_metadata.offset)

def on_send_error(excp):

print('I am an errback: {}'.format(excp))

def main():

producer = KafkaProducer(

bootstrap_servers='localhost:9092'

)

producer.send(topic, value=b'{"test_msg":"hello world"}').add_callback(on_send_success).add_callback(

on_send_error)

# close() 方法会阻塞等待之前所有的发送请求完成后再关闭 KafkaProducer

producer.close()

def main2():

'''

发送json格式消息

:return:

'''

producer = KafkaProducer(

bootstrap_servers='localhost:9092',

value_serializer=lambda m: json.dumps(m).encode('utf-8')

)

producer.send(topic, value={"test_msg": "hello world"}).add_callback(on_send_success).add_callback(

on_send_error)

# close() 方法会阻塞等待之前所有的发送请求完成后再关闭 KafkaProducer

producer.close()

if __name__ == '__main__':

# main()

main2()

消费者消费者

kafka的消费模型比较复杂, 我会分以下几种情况来进行说明

1.不使用消费组(group_id=None)

不使用消费组的情况下可以启动很多个消费者, 不再受限于分区数, 即使消费者数量 > 分区数, 每个消费者也都可以收到消息

# -*- coding: utf-8 -*-

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38737635

粉丝: 6

Python操作Kafka：生产者与消费者实战

Python操作Kafka：分布式流处理详解

Python Kafka库eventcore-kafka-0.3.3rc2新版本发布

深入浅出Apache Kafka代码示例与解析

python读写kafka

python -kafka

基于Java与Python的多语言支持，实现datax hive动态分区和kafka读写功能的数据集成设计源码

基于Python+SpringBoot+Vue+HDFS+MapReduce+HBase+Hive+Kafka+Sp.zip

基于Python的实时数据库设计.zip

Python Kafka元数据交互库kafkameta: 从ZooKeeper提取Kafka配置

Python基础的Kafka-Docker映像教程

最新资源