Spark技术升级与百度开放云实践：四大新特性与应用展示

2 浏览量更新于2024-08-30 收藏 740KB PDF 举报

Spark技术解析及在百度开放云BMR应用实践是一场2015年1月10日由Databricks的连城、百度的甄鹏、孙垚光和刘少山四位专家共同呈现的技术分享活动。该活动聚焦于Spark这一在大数据领域备受瞩目的开源项目，自2014年以来，Spark以其卓越的性能和强大的生态系统迅速崛起，吸引了诸如Hortonworks、IBM、Cloudera、MapR和Pivotal等知名大数据公司的关注，并包含了SparkSQL、SparkStreaming、MLlib、GraphX等一系列相关组件。 SparkSQL是Spark的一个关键部分，1.2版本的提升尤为显著。连城在分享中强调了四个主要改进：首先，新的ExternaldatasourceAPI（外部数据源API）解决了在处理各种外部数据源时的扩展性问题，将不同数据源统一抽象为关系表，提供了更为无缝的交互体验。这个API支持包括JSON、Avro、CSV等多种格式，同时也对Parquet和ORC进行了智能优化，并允许通过JDBC连接HBase等外部系统。其次，列式内存存储的增强提升了数据处理的效率，使得Spark能够更有效地利用内存进行计算。Parquet支持的加强意味着Spark能够更好地处理高效的列式存储格式，而Hive支持的增强则意味着Spark与Hive的数据集成更加紧密，开发者可以方便地利用Hive的查询语言操作Spark数据。 Spark在短短四年间发展迅猛，从Apache基金会的顶级项目到成为大数据处理领域的首选工具，得益于其内存计算的优势和丰富的生态系统。百度开放云BMR（百度云端机器学习平台）的应用实践表明，Spark在实际场景中的高效性和灵活性使得它在大数据分析、实时流处理等领域发挥着核心作用。这次活动不仅是技术展示，也是实践经验的交流，对于理解Spark的最新进展、优化工作流程以及在实际业务中如何有效利用Spark进行高性能计算具有重要意义。通过四位专家的专业讲解，听众能够深入了解如何利用Spark的特性解决大数据处理中的挑战，并在百度开放云平台上实现高效的数据处理和分析。

Spark技术解析及在百度开放云技术解析及在百度开放云BMR应用实践应用实践

2015年1月10日，一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙

垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。

2014年，Spark开源生态系统得到了大幅增长，已成为大数据领域最人气的开源项目之一，活跃在Hortonworks、IBM、

Cloudera、MapR和Pivotal等众多知名大数据公司，更拥有Spark SQL、Spark Streaming、MLlib、GraphX等多个相关项目。

同时值得一提的是，Spark贡献者中有一半左右的中国人。

短短四年时间，Spark不仅发展为Apache基金会的顶级开源项目，更通过其高性能内存计算及其丰富的生态快速赢得几乎所有

大数据处理用户。2015年1月10日，一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄

鹏、百度架构师孙垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。

Databricks软件工程师连城软件工程师连城——Spark SQL 1.2的提升和新特性的提升和新特性

谈及Spark SQL 1.2的提升和新特性，连城主要总结了4个方面——External data source API（外部数据源API）、列式内存存

储加强（Enhanced in-memory columnar storage）、Parquet支持加强（Enhanced Parquet support）和Hive支持加强

（Enhanced Hive support）。

External data source API

连城表示，因为在处理很多外部数据源中出现的扩展问题，Spark在1.2版本发布了External data source API。通过External

data source API，Spark将不同的外部数据源抽象成一个关系表格，从而实现更贴近无缝的操作。

External data source API在支持了多种如JSON、Avro、CSV等简单格式的同时，还实现了Parquet、ORC等的智能支持；同

时，通过这个API，开发者还可以使用JDBC将HBase这样的外部系统对接到Spark中。

连城表示，在1.2版本之前，开发者其实已经实现了各种各样外部数据源的支持，因此，对比更原生的支持一些外部数据

源，External data source API的意义更在于针对相应数据源进行的特殊优化，主要包括Column pruning（列剪枝）和Pushing

predicates to datasources（将predicates贴近数据源）两个方面：

Column pruning。。主要包括纵横的两种剪枝。在列剪枝中，Column pruning可以完全忽视无需处理的字段，从而显著地减少

IO。同时，在某些条件查询中，基于Parquet、ORC等智能格式写入时记录的统计信息（比如最大值、最小值等），扫描可以

跳过大段的数据，从而省略了大量的磁盘扫描负载。

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38560275

粉丝: 2
资源: 916

Spark技术升级与百度开放云实践：四大新特性与应用展示

Spark在百度大数据生态上的应用与实践

百度去BMR解决方案,百度云平台

Spark技术深度解析与百度云BMR实战

baidu-bmr-samples-scala:百度-bmr-样本-scala

bmr-calculator:BMR计算器（移动应用程序开发课程）

webInicial_bmr

BMR.doc

NBU7.5 BMR

百度开放云大数据

网络技术-网络基础-BMR饲草高梁农艺性状、品质特性及木质素合成中COMT基因的表达.pdf

最新资源