IBM研究：将Spark管道直接部署到生产环境

需积分: 5 119 浏览量更新于2024-07-17 收藏 595KB PDF 举报

"IrelandHighPerformanceSystems.pdf 是IBM Research Dublin的研究员Yiannis Gkoufas在SPARK SUMMIT 2017上的演讲，主要探讨了高性能计算系统在云计算环境中的应用。" 在现代数据驱动的世界中，将机器学习算法从开发环境部署到生产环境是一项具有挑战性的任务。【标签】"云计算"在这里指的是利用云技术来支持大规模的数据处理和机器学习工作流程。Yiannis Gkoufas的分享可能涉及如何优化云计算平台以提升高性能系统的效率和可扩展性。演讲中提到了一个名为"MLeap+Combust.ML"的项目，这是由Combust团队开发的一个工具，旨在解决机器学习模型部署的问题。【部分内容】中提到，Combust.ML提供了一个开源平台，其GitHub仓库(https://github.com/combust-ml/mleap)可供用户访问和参与。这个平台允许数据科学家直接将Spark管道（pipelines）部署到生产环境中，简化了从研究到生产的转换过程。通常，数据科学家会编写数据管道来构建研究数据集，而工程师则需要将这些管道重新编写以适应生产环境。工程师还需要构建可扩展的库来处理特征计算和算法。然而，数据科学家往往不使用这些工程化的库，而是维护自己的代码副本，这导致了重复劳动和效率低下。此外，由于工程限制，数据科学家可能更多地专注于线性或逻辑回归等相对简单的模型。 Combust.ML的出现试图打破这种困境，通过提供一个统一的平台，让工程师和数据科学家可以更顺畅地协作，减少代码重复，并支持更复杂的模型部署。例如，它可能支持将机器学习模型打包成独立、可移植的格式，以便在不同的环境中运行，如本地服务器、云端服务或边缘设备。这个解决方案对数据科学和工程团队的协作有着显著的影响，有助于减少摩擦，提高生产力，并可能推动技术发展，使得机器学习在生产环境中的实施更加便捷和高效。通过使用这样的工具，企业能够更快地将研究成果转化为实际业务价值，同时减轻工程师的负担，让他们有更多的时间专注于创新和优化。

Action Reaction

- Data scientists write data pipelines to construct

research datasets

- Engineers re-write the data pipelines for a

production-ready system

- Engineers write scalable libraries for computing

features and algorithms

- Data scientists largely don’t use those libraries

and maintain/re-write their own copy of the

code

- Data scientists largely focus on linear/logistic

regressions due to engineering constraints

- Talented engineers get largely tired of coding

up linear regressions and updating coefficients

Outdated Research <> Engineering Dynamics

Hadoop and HDFS helped bridge the data gap.

Spark has bridged the language gap, by providing a common set of APIs to easly process data and train models

MLeap and Combust.ML extend Spark functionality by allowing researchers and engineers to deploy pipelines as

a service

剩余17页未读，继续阅读

weixin_38744270

粉丝: 328
资源: 2万+

IBM研究：将Spark管道直接部署到生产环境

1基于蓝牙的项目开发--蓝牙温度监测器.docx

AppDynamics：性能瓶颈识别与优化.docx

percona-xtrabackup-2.4.28-1.ky10.x86-64.rpm

2024年全球产品经理大会（脱敏）PPT合集（34份）.zip

基于物联网技术的停车场智能管理系统设计用户有单独APP

Adobe XD：AdobeXD高级技巧与最佳实践.docx

ARKit（iOS的增强现实）：ARKit的多人AR场景实现.docx

1python自动化脚本.docx

河北省、市、区县及街镇可编辑SVG图

金融工程之量化交易算法：均值回归：时间序列分析与预测.docx

最新资源