Spark弹性部署：Mesos上的大数据处理

需积分: 10 198 浏览量更新于2024-07-23 收藏 4.21MB PDF 举报

"Paco Nathan在Spark Summit 2013上的演讲主要介绍了如何在Elastic Mesos上运行Spark，以及如何使用PMML导入各种数据分析框架的预测模型，如R、SAS、SPSS、SAP和Microstrategy等。演讲者是Mesosphere公司的Paco Nathan，讨论了使用Mesos的原因，并探讨了大数据、云计算与Spark在企业应用中的场景。" 在这次演讲中，Paco Nathan首先阐述了使用Mesos的重要性。Mesos源于对谷歌Borg系统的借鉴，Borg是一种大规模数据中心计算的系统，旨在解决大规模数据工作流的复杂性。Mesos利用现代内核实现资源隔离，而不是依赖虚拟机，支持混合工作负载和多租户环境，实现了较高的资源利用率。虽然JVM在某些场景下并不理想，但Mesos的调度能力在处理批量作业时较为简单，而在服务调度方面则相对复杂和昂贵。接着，Paco Nathan介绍了如何在Mesos集群上部署Spark，演示了如何启动Mesos集群并运行Spark。Spark on Mesos能够提供弹性扩展性和高效率，使得在企业环境中处理大数据任务变得更加便捷。此外，他还展示了基于PMML（Predictive Model Markup Language）的一个示例应用。PMML是一种标准的XML格式，用于在不同的分析工具之间交换预测模型。通过PMML，Spark可以与多种数据分析框架集成，如R、SAS、SPSS、SAP和Microstrategy，使得企业能充分利用已有的模型和算法。演讲还提及了Google的数据中心计算机概念，以及2011年Google发布的Omega项目，这些都是对大规模分布式系统设计的深入研究。Omega由John Wilkes等人提出，旨在提高数据中心操作的灵活性和效率，这些理念对Mesos的设计和发展产生了影响。这场演讲揭示了Spark与Mesos结合在大数据和云计算领域的强大潜力，以及PMML在跨平台数据分析中的作用。它为企业提供了如何利用Mesos来管理和调度资源，以及如何通过Spark进行高效大数据处理的宝贵见解。

“Return of the Borg”!

Google has been doing datacenter computing for years, !

to address the complexities of large-scale data workﬂows:!

•

leveraging the modern kernel: isolation in lieu of VMs!

•

“most (>80%) jobs are batch jobs, but the majority !

of resources (55–80%) are allocated to service jobs”!

•

mixed workloads, multi-tenancy!

•

relatively high utilization rates!

•

JVM? not so much…!

•

reality: scheduling batch is simple; !

scheduling services is hard/expensive

剩余37页未读，继续阅读

villa123

粉丝: 418
资源: 236

Spark弹性部署：Mesos上的大数据处理

行为科学研究平台Paco.zip

paco：Paco行为科学移动研究平台

SPD-Conv-main.zip

Docker从零走向实战视频（上）.zip

《狼》教学设计.docx

房屋租赁平台：提升租赁交易透明度的数字化路径

四轮独立驱动横摆角速度控制，LQR 基于LQR算法的 基于二自由度动力学方程，通过主动转向afs和直接横摆力矩dyc实现的横摆角速度跟踪 ，模型包括期望横摆角速度，质心侧偏角，稳定性因素，lqr模块等

ESP8266、ESP32网页配网 支持中文SSID

Python圣诞节倒计时与节日活动管理系统

双目立体匹配三维重建点云C++ 本工程基于网上开源代码进行修改，内容如下： 1.修改为 VS2015 Debug win32 版本，支持利用特征点和 OpenCV 立体匹配算法进行进行三维重建及显示

最新资源

四轮独立驱动横摆角速度控制，LQR 基于LQR算法的基于二自由度动力学方程，通过主动转向afs和直接横摆力矩dyc实现的横摆角速度跟踪，模型包括期望横摆角速度，质心侧偏角，稳定性因素，lqr模块等

ESP8266、ESP32网页配网支持中文SSID