精通Hadoop管理：调优与保障Spark、YARN和HDFS安全

需积分: 50 96 浏览量更新于2024-07-19 收藏 16.97MB PDF 举报

"Expert Hadoop Administration 是一本由资深Hadoop管理员Sam R. Alapati编写的书籍，旨在帮助读者在任何环境下创建、配置、保护、管理和优化生产级Hadoop集群。书中结合了作者在大规模Hadoop管理中的实战经验，提供了问题和解决方案的深入解释。覆盖了广泛的主题，并提供了一系列实用示例，无论使用哪种Hadoop发行版或运行何种Hadoop应用，这些高价值的管理技巧都将不可或缺。" 本书分为五个部分，详细涵盖了以下知识点： 1. **Hadoop架构和集群**：了解Hadoop架构，从管理员的角度出发，学习如何创建简单和完全分布式集群。章节包括对Hadoop和其环境的介绍，Hadoop架构概述，以及创建和配置简单Hadoop集群的方法。 2. **Hadoop应用框架**：探讨MapReduce和Spark框架在集群中的运行，以及如何运行Spark应用程序。这部分让读者掌握如何在Hadoop集群中执行各种任务。 3. **管理与保护Hadoop数据及高可用性**：深入理解NameNode的角色和HDFS的工作原理，学习HDFS命令、权限和存储管理，实现数据保护，以及NameNode操作、高可用性和联邦配置。 4. **数据移动、资源分配、调度作业和安全性**：掌握将数据导入和导出Hadoop的方法，了解如何在Hadoop集群中分配资源，利用Oozie管理作业工作流，以及确保Hadoop的安全。 5. **监控、优化和故障排除**：通过监控、度量和日志记录管理作业，调整集群资源，优化MapReduce作业和基准测试。此外，还涉及Apache Spark在YARN上的配置和调优，优化Spark应用程序，以及Hadoop故障排除。这本书全面地涵盖了Hadoop管理员所需的各种技能，从基础到高级，从理论到实践，无论你是初学者还是有经验的管理员，都能从中受益。通过学习本书，你将能够更好地理解和管理Hadoop生态系统中的关键组件，如YARN和HDFS，以及充分利用Spark进行数据分析和处理。

ptg18444370

xvContents

10 Data Protection, File Formats and Accessing

HDFS 277

Safeguarding Data 278

Using HDFS Trash to Prevent Accidental Data

Deletion

278

Using HDFS Snapshots to Protect Important

Data

280

Ensuring Data Integrity with File System

Checks

284

Data Compression 289

Common Compression Formats 290

Evaluating the Various Compression Schemes 291

Compression at Various Stages for

MapReduce

291

Compression for Spark 295

Data Serialization 295

Hadoop File Formats 295

Criteria for Determining the Right File Format 296

File Formats Supported by Hadoop 298

The Ideal File Format 302

The Hadoop Small Files Problem and Merging

Files

303

Using a Federated NameNode to Overcome the Small

Files Problem

304

Using Hadoop Archives to Manage Many Small

Files

304

Handling the Performance Impact of Small

Files

307

Using Hadoop WebHDFS and HttpFS 308

WebHDFS—The Hadoop REST API 308

Using the WebHDFS API 309

Understanding the WebHDFS Commands 310

Using HttpFS Gateway to Access HDFS from Behind a

Firewall

313

Summary 315

11 NameNode Operations, High Availability and

Federation 317

Understanding NameNode Operations 318

HDFS Metadata 319

剩余839页未读，继续阅读

mxlwew

粉丝: 0
资源: 5

精通Hadoop管理：调优与保障Spark、YARN和HDFS安全

Expert Hadoop Administration Managing，Tuning，and Securing Spark，YARN，and HDFS

Hadoop 2.6.4 呕心沥血的笔记，HDFS集群及Yarn的搭建

Hadoop 2.x Administration Cookbook epub

外网无法访问HDFS org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block

Packt.Big.Data.Analytics.with.Spark.and.Hadoop

3.Hadoop之HDFS.md

【hive on spark Error】return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask.

在启动spark的时候报错ERROR spark.SparkContext: Error initializing SparkContext. org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create file/spark-logs/app-20230715173954-0000.inprogress. Name node is in safe mode

最新资源