Spark 2.0性能调优深度解析：关键问题与解决方案

需积分: 10 71 浏览量更新于2024-07-18 收藏 1.87MB PDF 举报

Spark 2.0 是一个强大的大数据处理框架，它在大规模分布式计算方面表现出色。本文档提供了关于如何进行 Spark 2.x 性能调优的一系列实用指南，旨在帮助用户解决在实际部署和使用过程中可能遇到的问题。首先，"Building Spark" 部分着重于构建 Spark 环境，强调了设置正确的 Java 环境变量的重要性。用户应确保安装了最新的 Java 发行版（如 Java 1.8），并将其路径添加到系统的环境变量中，以避免因 JRE 版本不匹配或找不到合适的 JRE 而导致的编译错误。此外，某些组件如 Hive 的支持可能默认不包含在构建中，这时需要明确配置。运行 Spark 时，文档提到了几个关键选项，例如 "--verbose" 可以提供更详细的日志输出，帮助诊断问题。常见问题包括缺少外部 JAR 文件、Spark 驱动器或执行器出现 Out Of Memory (OOM) 错误，以及不同类型的垃圾收集策略的选择。针对这些问题，文档建议检查内存分配，并优化 GC 策略以减少内存消耗。 "Profiling Spark" 部分深入探讨了性能分析技巧。如何收集运行时的线程和堆dump，以便在任务失败后进行故障排查是重要的一环。此外，还介绍了如何在 Spark Thrift Server 中使用 JDBC 应用程序，以及 HDFS 块分布和 Parquet 块大小之间的关系，这些都对性能有着直接影响。当用户尝试自己构建新的 Spark 版本时，可能会遇到一系列问题，如使用不正确的 JDK 版本、缺少 Maven 或特定组件支持不足等。为了解决这些问题，文档建议在构建时设置正确的环境变量，特别是针对 root 用户，确保使用指定的 JDK 版本路径。这份 Spark 2.0 性能调优指南提供了全面的指导，从基础环境设置、运行参数优化到故障排除和性能分析，旨在帮助用户最大化利用 Spark 进行大数据处理，提高效率并减少潜在问题。通过遵循这些步骤，开发者可以更有效地管理和提升 Spark 应用的性能表现。

Building a Spark release is extremely slow …

§  Use more cores to speed up the build process (default uses only 1 core)

§  Rebuild only modified source code (default is “clean”)

Edit the file ‘./dev/make-distribution.sh’, change line

BUILD_COMMAND=("$MVN" –T 1C clean package -DskipTests $@)

To:

BUILD_COMMAND=("$MVN" -T 48C package -DskipTests $@)

** Assuming your have 48 cores on your build machine

** Assuming you don’t need to always build clean, for iterative changes

§  Can cut build time from 45 min to 15 min on a typical 128GB-RAM 48-core node

剩余18页未读，继续阅读

大数据老宅男

粉丝: 3
资源: 2

Spark 2.0性能调优深度解析：关键问题与解决方案

spark性能调优

Spark性能调优分享

spark性能调优文档

Apache Spark：Spark性能调优.docx

spark性能调优经验总结

spark性能调优参数总结

spark性能调优与故障处理之(2)spark 算子调优

hive on spark 性能调优

hive on spark性能调优

spark性能调优与spark SQL项目代码分享

最新资源