Kafka分布式日志服务详解

需积分: 9 163 浏览量更新于2024-07-18 收藏 2.01MB PDF 举报

"Kafka中文文档" Kafka是一款强大的分布式消息中间件，它最初由LinkedIn开发，后来成为Apache Software Foundation的顶级项目。Kafka的核心设计理念是构建一个高吞吐量、低延迟、可持久化的发布订阅系统，适用于大规模数据集成和实时数据流处理。 **介绍** Kafka是一个分布式流处理平台，它可以作为一个消息队列，用于存储和传输消息。其特性包括： 1. **分布式**: Kafka支持在多台服务器上部署，通过复制和分区机制确保数据的可用性和容错性。 2. **分区与复制**: 每个主题（Topic）都可以被划分为多个分区（Partition），每个分区都存储在不同的服务器上，提高了读写性能。同时，每个分区都有一个或多个副本，用于容错。 3. **提交日志**: Kafka将消息视为日志条目，保证了消息的顺序，并且提供了消息持久化能力，即使在服务器故障时也能恢复数据。 4. **高性能**: Kafka能够处理每秒数十万条消息，适合大规模的数据处理需求。 **应用场景** Kafka广泛应用于各种场景，包括但不限于： - 日志收集：聚合应用日志并进行分析。 - 流数据处理：实时数据管道，将数据从源头传递到处理系统。 - 用户活动跟踪：记录用户行为以供分析和个性化推荐。 - 数据备份：作为数据备份和恢复的中间层。 **API** Kafka提供了多种API来供开发者使用： 1. **生产者API**：允许应用程序发布消息到Kafka主题。 2. **消费者API**：支持订阅主题并消费其中的消息。旧的消费者API包括简单的消费者和上层消费者，新的API提供更高级的功能和更好的性能。 3. **流处理API (Kafka Streams)**：用于构建复杂的流处理应用程序，可以处理和转换实时数据流。 **配置** Kafka的配置涉及多个层面，包括 Broker 配置、生产者配置、消费者配置等，以满足不同场景下的性能和稳定性需求。此外，还有针对Kafka Connect和Kafka Streams的特定配置选项。 **设计原理** Kafka的设计目标是高效、可靠和可扩展。它采用了异步I/O模型，优化了网络层的性能。消息的语义保证了消息的正确传递，而复制和日志压缩策略则确保了数据的持久性和一致性。 **总结** Kafka作为一款强大的分布式消息中间件，通过其独特的设计和丰富的API，为大数据处理和实时流处理提供了高效、可靠的解决方案。无论是日志收集、流数据处理还是构建复杂的数据管道，Kafka都能胜任。理解和掌握Kafka的各项特性和配置，对于构建高可用的分布式系统至关重要。

1.2应用场景UseCases

本章节介绍几种主流的ApacheKafka的应用场景。关于几个场景实践的概述可以参考这篇博

客.

信息系统Messaging

Kafka可以作为传统信息中间件的替代产品。消息中间件可能因为各种目的被引入到系统之中

（解耦生产者和消费、堆积未处理的消息）。对比其他的信息中间件，Kafka的高吞吐量、内

建分区、副本、容错等特性，使得它在大规模伸缩性消息处理应用中成为了一个很好的解决

方案。

根据我们的在消息系统场景的经验，系统常常需求的吞吐量并不高，但是要求很低的点到点

的延迟并且依赖Kafka提供的强有力的持久化功能。

在这个领域Kafka常常被拿来与传统的消息中间件系统进行对比，例如ActiveMQ或

者RabbitMQ。

网站活动追踪WebsiteActivityTracking

Kafka原本的应用场景要求它能重建一个用户活动追踪管线作为一个实时的发布与订阅消息

源。意思就是用户在网站上的动作事件（如浏览页面、搜索、或者其它操作）被发布到每个

动作对应的中心化Topic上。使得这些数据源能被不同场景的需求订阅到，这些场景包括实时

处理、实时监控、导入Hadoop或用于离线处理、报表的离线数据仓库中。

活动追踪通常情况下是非常高频的，因为很多活动消息是由每个用户的页面浏览产生的。

监控Metrics

Kafka常被用来处理操作监控数据。这涉及到聚合统计分布式应用的数据来产生一个中心化的

操作数据数据源。

日志收集LogAggregation

很多人把Kafka用作日志收集服务的替换方案。日志收集基础就是从服务器收集物理日志文件

并他们放在统一的地方（文件服务器或者HDFS）存储以便后续处理。Kafka抽象了文件的细

节，为日志或者事件数据提供了一个消息流的抽象。这样就可以很好的支持低延迟处理需

求、多数据源需求，分布式数据消费需求。与Scribe或Flume其它的日志收集系统相比，

Kafka提供了同样优秀的性能，基于副本的更强的持久化保证和更低的点到点的延迟。

流处理StreamProcessing

应用场景

1.2UseCases

HereisadescriptionofafewofthepopularusecasesforApacheKafka.Foranoverviewof

anumberoftheseareasinaction,seethisblogpost.

Messaging

Kafkaworkswellasareplacementforamoretraditionalmessagebroker.Messagebrokers

areusedforavarietyofreasons(todecoupleprocessingfromdataproducers,tobuffer

unprocessedmessages,etc).IncomparisontomostmessagingsystemsKafkahasbetter

throughput,built-inpartitioning,replication,andfault-tolerancewhichmakesitagood

solutionforlargescalemessageprocessingapplications.

Inourexperiencemessagingusesareoftencomparativelylow-throughput,butmayrequire

lowend-to-endlatencyandoftendependonthestrongdurabilityguaranteesKafkaprovides.

InthisdomainKafkaiscomparabletotraditionalmessagingsystemssuchasActiveMQor

RabbitMQ.

WebsiteActivityTracking

TheoriginalusecaseforKafkawastobeabletorebuildauseractivitytrackingpipelineasa

setofreal-timepublish-subscribefeeds.Thismeanssiteactivity(pageviews,searches,or

otheractionsusersmaytake)ispublishedtocentraltopicswithonetopicperactivitytype.

Thesefeedsareavailableforsubscriptionforarangeofusecasesincludingreal-time

processing,real-timemonitoring,andloadingintoHadooporofflinedatawarehousing

systemsforofflineprocessingandreporting.

Activitytrackingisoftenveryhighvolumeasmanyactivitymessagesaregeneratedforeach

userpageview.

Metrics

Kafkaisoftenusedforoperationalmonitoringdata.Thisinvolvesaggregatingstatisticsfrom

distributedapplicationstoproducecentralizedfeedsofoperationaldata.

LogAggregation

ManypeopleuseKafkaasareplacementforalogaggregationsolution.Logaggregation

typicallycollectsphysicallogfilesoffserversandputstheminacentralplace(afileserver

orHDFSperhaps)forprocessing.Kafkaabstractsawaythedetailsoffilesandgivesa

UseCases

cleanerabstractionoflogoreventdataasastreamofmessages.Thisallowsforlower-

latencyprocessingandeasiersupportformultipledatasourcesanddistributeddata

consumption.Incomparisontolog-centricsystemslikeScribeorFlume,Kafkaoffersequally

goodperformance,strongerdurabilityguaranteesduetoreplication,andmuchlowerend-to-

endlatency.

StreamProcessing

ManyusersofKafkaprocessdatainprocessingpipelinesconsistingofmultiplestages,

whererawinputdataisconsumedfromKafkatopicsandthenaggregated,enriched,or

otherwisetransformedintonewtopicsforfurtherconsumptionorfollow-upprocessing.For

example,aprocessingpipelineforrecommendingnewsarticlesmightcrawlarticlecontent

fromRSSfeedsandpublishittoan"articles"topic;furtherprocessingmightnormalizeor

deduplicatethiscontentandpublishedthecleansedarticlecontenttoanewtopic;afinal

processingstagemightattempttorecommendthiscontenttousers.Suchprocessing

pipelinescreategraphsofreal-timedataflowsbasedontheindividualtopics.Startingin

0.10.0.0,alight-weightbutpowerfulstreamprocessinglibrarycalledKafkaStreamsis

availableinApacheKafkatoperformsuchdataprocessingasdescribedabove.Apartfrom

KafkaStreams,alternativeopensourcestreamprocessingtoolsincludeApacheStormand

ApacheSamza.

EventSourcing

Eventsourcingisastyleofapplicationdesignwherestatechangesareloggedasatime-

orderedsequenceofrecords.Kafka'ssupportforverylargestoredlogdatamakesitan

excellentbackendforanapplicationbuiltinthisstyle.

CommitLog

Kafkacanserveasakindofexternalcommit-logforadistributedsystem.Theloghelps

replicatedatabetweennodesandactsasare-syncingmechanismforfailednodesto

restoretheirdata.ThelogcompactionfeatureinKafkahelpssupportthisusage.Inthis

usageKafkaissimilartoApacheBookKeeperproject.

UseCases

剩余229页未读，继续阅读

只会敲键盘的码农

粉丝: 1
资源: 4

Kafka分布式日志服务详解

Kafka官方中文文档.pdf

spring-kafka 整合官方文档

kafka中文文档

kafka中文官方文档

kafka 2.11版本文档

kafka2.2 命令文档

Kafka消息队列文档

kafka官网文档很卡

kafka集群搭建 文档

中华石杉 kafka内核源码

最新资源

kafka集群搭建文档