Apache Pig 2nd Edition: Scripting & Hadoop Data Processing
需积分: 10 95 浏览量
更新于2024-07-20
收藏 3.87MB PDF 举报
《编程.Pig:Hadoop数据流脚本编程第二版》是由Alan Gates和Daniel Dai合著的一本权威指南,专为Apache Pig——这个开源的在Hadoop上执行并行数据流的引擎——设计。本书适合初学者入门,也为经验丰富的用户提供了深入理解和全面覆盖Pig语言特性,如Pig Latin脚本语言、Grunt命令行工具以及用户自定义函数(UDFs)的开发和使用。
第一部分,第一章介绍了Pig的基本概念,帮助读者理解这个工具在大数据处理中的作用。第二章则详细讲解了如何安装和运行Pig,确保用户能够顺利启动他们的数据处理之旅。第三章探讨了Pig的数据模型,这是理解其工作原理的关键,它展示了数据如何在Pig的环境中组织和流动。
第四至六章深入剖析了Pig Latin,这是一种面向列的、声明式的数据处理语言,让数据分析师可以编写简单的命令来处理大量数据。第五章介绍了高级特性,如复杂的逻辑和控制结构,使用户能够处理更复杂的任务。第六章则涵盖了脚本的开发和测试,强调实践的重要性。
第七章关注如何优化Pig的性能,让处理过程更为高效。第八章讨论了嵌入Pig到其他应用程序中的可能性,提升集成性和灵活性。第九和十章分别介绍了如何编写评估和过滤函数,以及加载和存储数据的函数,这些都是构建复杂数据处理流程的基础。
第十一章专门介绍了Tez的使用,Tez是Hadoop的新一代计算框架,能进一步提升Pig的性能。最后,第十二章扩展到Hadoop社区的其他组件,展示Pig与其他工具的协同工作,以及最佳实践。而第十三章则通过实际案例和编程示例,展示了Pig在各种场景下的应用和解决方案。
作为一本针对Hadoop环境的实用教程,此书不仅提供理论知识,还配以丰富的实践指导,帮助读者从数据准备到结果分析的全流程掌握Pig的使用。无论是初次接触的大数据新手,还是寻求深化理解的专业开发者,都能在《编程.Pig:Hadoop数据流脚本编程第二版》中找到所需的信息和技能提升。
2018-02-24 上传
2018-02-24 上传
2018-09-01 上传
2018-02-24 上传
2016-11-14 上传
143 浏览量
332 浏览量
2017-07-20 上传
2019-08-18 上传
ramissue
- 粉丝: 354
- 资源: 1487
最新资源
- weixin009模拟考试+ssm(源码+部署说明+演示视频+源码介绍+lw).rar
- 创业计划书-农用机械创业计划书(重点)
- 基于VB开发的数控加工技术教学素材资源库的构建(源代码+论文+毕业设计).rar
- kirby3-cookie-banner:适用于Kirby3的Cookie同意模式
- 高并发02-JUC编程
- WS2812B.rar
- 公共设施施工组织设计--湖南长大公司中南大学湘雅医学院新校区教学中心大楼施工组织设计方案
- Python库 | Flask-WePay-0.0.7.tar.gz
- weixin043培训机构客户管理系统的设计+ssm(源码+部署说明+演示视频+源码介绍+lw).rar
- visa驱动安装包.zip
- ragemp-starter::high_voltage:RAGE多人游戏准备就绪的后端开发入门。 基于使用Sequelize构建的Node
- rails-4.20-blog:CloudFoundry上的ExampleTutorial Ruby on Rails 4.2博客
- EXIF元数据编辑-exif信息去除
- 创业计划书-(热点问题)第三届互联网+创新创业大赛
- weixin033微信小程序的商品展示+ssm(源码+部署说明+演示视频+源码介绍+lw).rar
- matlab开发-单胞菌属.zip