生产环境中的SparkR扩展实战：经验分享

需积分: 5 63 浏览量更新于2024-06-21 收藏 1.34MB PDF 举报

本篇文档《藏经阁-Scaling SparkR in Production. Lessons from the Field》由Wireframe公司的CEO兼创始人Heiko Korndorf撰写，主要聚焦于在生产环境中成功扩展SparkR技术的经验分享。Heiko拥有计算机科学硕士学位，并且在多个行业领域如制造业、电信、金融服务、公用事业以及石油天然气等行业有着丰富的经验，特别擅长于利用SparkR进行快速应用开发和数据科学服务。讲座内容分为三个主要部分： 1. **数据科学**：讨论如何通过SparkR技术来优化和扩展R应用程序，实现数据处理和分析的性能提升。重点将放在如何利用SparkR的分布式计算能力来应对大规模数据。 2. **数据工程**：讲解如何将数据科学应用融入到企业的生产流程中，即如何将R编程语言整合到现有的工具套件中，使之成为日常数据处理工作的一部分。 3. **管理**：探讨如何有效管理和整合数据科学与数据工程，确保SparkR在生产环境中的稳定性和效率。这包括不同Spark版本（如1.x和2.x）的架构对比，以及在Spark 1.5/1.6和2.0版本中的部署策略。讲座中还将涉及的关键技术点有： - SparkR的并行化技术，特别是通过YARN（Yet Another Resource Negotiator）在1.x和2.x版本中的应用。 - 动态部署R应用程序，包括依赖包的管理。 - Spark 2.0引入的并行化机制，以及如何利用SparkR进行图形处理，考虑到无头环境和并发性问题。 - 利用Spark API，如SQL和MLlib（机器学习库），进行数据操作和分析。 - 分析On-Premises（企业内部部署）与云计算环境之间的区别，强调弹性（Elasticity）和存储与计算的解耦。这篇文档为读者提供了一套实用的指南，帮助企业在实际生产环境中有效地使用SparkR进行大数据处理和分析，确保了高性能和可扩展性。无论是初学者还是经验丰富的开发者，都能从中找到宝贵的学习和实践案例。

Data Science with R

• Very popular language

• Designed by statisticians

• Large community

• > 10.000 packages

• plus: integrated package management

• But: Limited as Single-Node platform

• Data has to fit in memory

• Limited concurrency for processing

剩余24页未读，继续阅读

weixin_40191861_zj

粉丝: 84
资源: 1万+

生产环境中的SparkR扩展实战：经验分享

藏经阁-Scaling SparkR in Production. Lessons from the Field..pdf

藏经阁-Boosting Spark Performance on.pdf

藏经阁-A Developer's View Into Spark'.pdf

藏经阁-Scaling up date science applications.pdf

藏经阁-Scaling Spark applications by connecting code to resource co

藏经阁-SCALING FACTORIZATION MACHINES.pdf

藏经阁-Scaling Apache Spark MLlib to billions of parameters.pdf

藏经阁-Scaling Data Science Capabilities with Spark at Stitch Fix.p

藏经阁-Scaling Genetic Data Analysis with Hail Apache Spark.pdf

藏经阁-Scaling Genetic Data Analysis with Hail and Apache Spark.pdf

最新资源