大规模实时数据处理:流计算系统原理与实践
需积分: 12 167 浏览量
更新于2024-07-17
收藏 8.59MB PDF 举报
"流计算系统:大型数据处理的原理与实践"
流计算系统是当前大数据领域中的重要组成部分,尤其在企业寻求控制并利用无界、海量数据集时,流计算技术已经发展成熟,足以被广泛应用。本书基于Tyler Akidau的知名博客文章“Streaming 101”和“Streaming 102”,深入浅出地介绍了实时数据流处理的各个方面,由Akidau本人及其合著者Slava Chernyak和Reuven Lax共同撰写。
本书不仅适合数据工程师、数据科学家和开发者阅读,它将带你从基础知识开始,逐步深入理解实时数据流处理的原理。读者将了解流处理与批量处理模式的比较,以及在处理无序数据时的核心原则和概念。此外,书中详细阐述了水印(watermarks)如何追踪无限数据集的进度和完整性,以及如何通过精确一次(exactly-once)处理技术确保数据处理的正确性。
书中的内容还涵盖了流和表的概念如何构成批处理和流处理的基础,并探讨了强大的持久状态机制背后的实用动机,通过实际案例进行解释。时间变化的关系则提供了流处理与SQL和关系代数世界之间的桥梁,使得传统的数据库查询技术可以应用于实时数据流。
本书于2018年首次出版,旨在为读者提供一个全面、深入理解流计算的平台无关性视角。编辑团队包括Rachel Roumeliotis和Jeff Bleiel,由Nicholas Adams担任生产编辑,Octal Publishing, Inc.负责校对,Ellen Troutman-Zaig负责索引,David Futato设计内页,Karen Montgomery设计封面,Rebecca Demarest负责插图。
对于希望在教育、商业或销售推广中使用本书的人来说,O'Reilly Media提供了在线版本(http://oreilly.com/safari)。如果你对本书的错误或更新有兴趣,可以访问http://oreilly.com/catalog/errata.csp?isbn=9781491983874获取详细信息。
这本书是理解和应用流计算系统的宝贵资源,无论你是初次接触流处理,还是寻求深化现有知识,都能从中受益匪浅。通过学习,你将能够熟练掌握处理大规模实时数据的技巧,以应对当今数据驱动的世界所带来的挑战。
2021-08-15 上传
2021-01-20 上传
2021-08-08 上传
2021-09-14 上传
2021-09-25 上传
2024-08-30 上传
2024-03-16 上传
点击了解资源详情
点击了解资源详情
weixin_44421535
- 粉丝: 0
- 资源: 2
最新资源
- 开源数据结构:全球开源项目中使用的数据结构
- quiron:Modulo QtQuick para cargar en Unik Qml Engine-Modulo deaplicaciónpara Ayuda Memoria de DatosAstrológicos
- accyrding-policy-aloha.zip_TreeView控件_Visual_Basic_
- LogKyrcach
- 算法和数据结构:使用JavaScript实现的常见排序算法,数据结构和其他算法挑战的交互式概述
- led发光管(PE).rar_嵌入式/单片机/硬件编程_C/C++_
- 用于读取和写入图像数据的Python库-Python开发
- 第十三届中国大学生服务外包创新创业大赛-A08基于 FPGA 的铝片表面工业缺陷检测系统
- gdxextras:Libgdx的一些额外工具
- clean-undefined:删除未定义的对象字段
- Women-in-Big-Data-South-Africa:本笔记本介绍了Zindi竞赛(南非大数据中的女性-南非女性为户主的家庭)。 我们将快速浏览数据,展示如何创建模型,估算您在Zindi上获得的得分,准备提交并进入排行榜。 我还提供了一些有关如何获得更高分数的提示-一旦您第一次提交,这些都可能给您一些下一步尝试的想法
- 正方教务通用安卓
- libradio-开源
- 数据结构算法:此存储库包括我在本科期间所做的数据结构程序和算法。 这些是我自己用C ++从头开始编写的功能齐全的算法。 -要求:Microsoft Visual Studio 2019-打开sln文件以打开整个项目
- lilt:Lilt终端模拟器-用于Linux,macOS和其他类似Unix的系统的简单便携式终端模拟器
- siptapi-开源