Spark技术深度解析与百度云BMR实战

88 浏览量更新于2024-08-27 收藏 740KB PDF 举报

"Spark技术解析及在百度开放云BMR应用实践" Spark，作为一个在大数据领域迅速崛起的开源项目，自2014年以来受到了广泛关注。它以其高效的内存计算能力和丰富的生态系统，成为Apache基金会的顶级项目，并被众多知名大数据公司如Hortonworks、IBM、Cloudera、MapR和Pivotal广泛应用。特别引人注目的是，中国开发者在Spark的贡献者中占据了约一半的比例，这展示了中国在大数据技术领域的积极参与和影响力。这场2015年的技术盛宴由Databricks的连城、百度的甄鹏、孙垚光和刘少山四位专家共同呈现，他们深入探讨了Spark的高性能应用实践。其中，连城重点介绍了SparkSQL 1.2版的改进和新特性： 1. 外部数据源API (ExternaldatasourceAPI)：为了解决处理多种外部数据源的扩展问题，Spark 1.2引入了此API，将不同数据源抽象为关系表格，使操作更加无缝。这一特性支持了JSON、Avro、CSV等简单格式，以及Parquet、ORC等更智能的数据格式。此外，开发者还可以通过JDBC将HBase等外部系统与Spark对接。 2. 列式内存存储加强 (Enhanced in-memory columnar storage)：Spark增强了列式内存存储，提高了处理效率，尤其在分析任务中，列式存储能更好地利用内存，加快查询速度。 3. Parquet支持加强 (Enhanced Parquet support)：Parquet是一种高效、跨平台的列式存储格式，1.2版本的增强使得Spark在处理Parquet数据时性能更优。 4. Hive支持加强 (Enhanced Hive support)：SparkSQL 1.2进一步优化了对Hive的支持，增强了与Hive的集成，使得用户可以更加方便地在Spark上执行Hive查询。 Spark的这些改进显著提升了数据分析的效率和灵活性，使其在大数据处理场景中表现出色。在百度开放云BMR（Big Data Management & Runtime，大数据管理与运行环境）中，Spark的应用实践展示了其在云计算环境中的强大能力，为企业提供了高效、灵活的大数据解决方案。 Spark通过其易用性、高吞吐量和低延迟的特性，成为了大数据处理的首选工具，尤其是在实时流处理（Spark Streaming）、机器学习（MLlib）和图计算（GraphX）等方面有着广泛的应用。随着Spark技术的不断发展和完善，其在大数据领域的地位将进一步巩固。

Spark技术解析及在百度开放云技术解析及在百度开放云BMR应用实践应用实践

2015年1月10日，一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙

垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。

2014年，Spark开源生态系统得到了大幅增长，已成为大数据领域最人气的开源项目之一，活跃在Hortonworks、IBM、

Cloudera、MapR和Pivotal等众多知名大数据公司，更拥有Spark SQL、Spark Streaming、MLlib、GraphX等多个相关项目。

同时值得一提的是，Spark贡献者中有一半左右的中国人。

短短四年时间，Spark不仅发展为Apache基金会的顶级开源项目，更通过其高性能内存计算及其丰富的生态快速赢得几乎所有

大数据处理用户。2015年1月10日，一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄

鹏、百度架构师孙垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。

Databricks软件工程师连城软件工程师连城——Spark SQL 1.2的提升和新特性的提升和新特性

谈及Spark SQL 1.2的提升和新特性，连城主要总结了4个方面——External data source API（外部数据源API）、列式内存存

储加强（Enhanced in-memory columnar storage）、Parquet支持加强（Enhanced Parquet support）和Hive支持加强

（Enhanced Hive support）。

External data source API

连城表示，因为在处理很多外部数据源中出现的扩展问题，Spark在1.2版本发布了External data source API。通过External

data source API，Spark将不同的外部数据源抽象成一个关系表格，从而实现更贴近无缝的操作。

External data source API在支持了多种如JSON、Avro、CSV等简单格式的同时，还实现了Parquet、ORC等的智能支持；同

时，通过这个API，开发者还可以使用JDBC将HBase这样的外部系统对接到Spark中。

连城表示，在1.2版本之前，开发者其实已经实现了各种各样外部数据源的支持，因此，对比更原生的支持一些外部数据

源，External data source API的意义更在于针对相应数据源进行的特殊优化，主要包括Column pruning（列剪枝）和Pushing

predicates to datasources（将predicates贴近数据源）两个方面：

Column pruning。。主要包括纵横的两种剪枝。在列剪枝中，Column pruning可以完全忽视无需处理的字段，从而显著地减少

IO。同时，在某些条件查询中，基于Parquet、ORC等智能格式写入时记录的统计信息（比如最大值、最小值等），扫描可以

跳过大段的数据，从而省略了大量的磁盘扫描负载。

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38672794

粉丝: 5
资源: 924

Spark技术深度解析与百度云BMR实战

SurfacePro5 Win10 1809 系统恢复镜像

最新Surface Pro5 官方恢复镜像文件高速下载地址

SurfacePro5 Win10 1809 系统恢复镜像.docx

Spark在百度大数据生态上的应用与实践

百度去BMR解决方案,百度云平台

baidu-bmr-samples-scala:百度-bmr-样本-scala

bmr-calculator:BMR计算器（移动应用程序开发课程）

webInicial_bmr

BMR.doc

百度开放云大数据

最新资源