Apache Pig 2nd Edition: Scripting & Hadoop Data Processing

需积分: 10 95 浏览量更新于2024-07-20 收藏 3.87MB PDF 举报

《编程.Pig：Hadoop数据流脚本编程第二版》是由Alan Gates和Daniel Dai合著的一本权威指南，专为Apache Pig——这个开源的在Hadoop上执行并行数据流的引擎——设计。本书适合初学者入门，也为经验丰富的用户提供了深入理解和全面覆盖Pig语言特性，如Pig Latin脚本语言、Grunt命令行工具以及用户自定义函数(UDFs)的开发和使用。第一部分，第一章介绍了Pig的基本概念，帮助读者理解这个工具在大数据处理中的作用。第二章则详细讲解了如何安装和运行Pig，确保用户能够顺利启动他们的数据处理之旅。第三章探讨了Pig的数据模型，这是理解其工作原理的关键，它展示了数据如何在Pig的环境中组织和流动。第四至六章深入剖析了Pig Latin，这是一种面向列的、声明式的数据处理语言，让数据分析师可以编写简单的命令来处理大量数据。第五章介绍了高级特性，如复杂的逻辑和控制结构，使用户能够处理更复杂的任务。第六章则涵盖了脚本的开发和测试，强调实践的重要性。第七章关注如何优化Pig的性能，让处理过程更为高效。第八章讨论了嵌入Pig到其他应用程序中的可能性，提升集成性和灵活性。第九和十章分别介绍了如何编写评估和过滤函数，以及加载和存储数据的函数，这些都是构建复杂数据处理流程的基础。第十一章专门介绍了Tez的使用，Tez是Hadoop的新一代计算框架，能进一步提升Pig的性能。最后，第十二章扩展到Hadoop社区的其他组件，展示Pig与其他工具的协同工作，以及最佳实践。而第十三章则通过实际案例和编程示例，展示了Pig在各种场景下的应用和解决方案。作为一本针对Hadoop环境的实用教程，此书不仅提供理论知识，还配以丰富的实践指导，帮助读者从数据准备到结果分析的全流程掌握Pig的使用。无论是初次接触的大数据新手，还是寻求深化理解的专业开发者，都能在《编程.Pig：Hadoop数据流脚本编程第二版》中找到所需的信息和技能提升。

剩余126页未读，继续阅读

ramissue

粉丝: 354
资源: 1487

Apache Pig 2nd Edition: Scripting & Hadoop Data Processing

Programming Pig Dataflow Scripting with Hadoop(2nd) 无水印转化版pdf

Programming Pig Dataflow Scripting with Hadoop(2nd) mobi

Programming Pig Dataflow Scripting with Hadoop 2nd EditionPDF

Programming Pig Dataflow Scripting with Hadoop(2nd) epub

Programming Pig: Dataflow Scripting with Hadoop [2016]

Prentice.Hall.C++.GUI.Programming.with.Qt.4.2nd.Edition.2008.chm

SVG.Essentials.2nd.Edition.1449374352

Nmap.Network.Exploration.and.Security.Auditing.Cookbook.2nd.Edition.2017.5.pdf

Web.Client.Programming.with.Perl.Automating.Tasks.on.the.Web.pdf

Java.9.Programming.By.Example.epub

最新资源