spark消费kafka
时间: 2023-08-18 07:07:41 浏览: 149
spark与kafka集成
Spark可以使用两种方式来消费Kafka数据:基于receiver的方式和基于direct的方式。基于receiver的方式是使用Kafka的高阶API来在ZooKeeper中保存消费过的offset,这种方式可以保证数据的高可靠性,但不能保证数据被处理一次且仅一次。因为Spark和ZooKeeper之间可能不同步。而基于direct的方式则使用Kafka的简单API,Spark Streaming自己负责追踪消费的offset,并保存在checkpoint中。这种方式可以保证数据被消费一次且仅消费一次。大多数生产环境中使用的是基于direct的方式。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* [SparkStreaming消费Kafka的方式](https://blog.csdn.net/u011095039/article/details/126076035)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"]
- *2* *3* [SparkStreaming消费Kafka的两种方式](https://blog.csdn.net/dudadudadd/article/details/114402955)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文