IBM研究:将Spark管道直接部署到生产环境
"IrelandHighPerformanceSystems.pdf 是IBM Research Dublin的研究员Yiannis Gkoufas在SPARK SUMMIT 2017上的演讲,主要探讨了高性能计算系统在云计算环境中的应用。" 在现代数据驱动的世界中,将机器学习算法从开发环境部署到生产环境是一项具有挑战性的任务。【标签】"云计算"在这里指的是利用云技术来支持大规模的数据处理和机器学习工作流程。Yiannis Gkoufas的分享可能涉及如何优化云计算平台以提升高性能系统的效率和可扩展性。 演讲中提到了一个名为"MLeap+Combust.ML"的项目,这是由Combust团队开发的一个工具,旨在解决机器学习模型部署的问题。【部分内容】中提到,Combust.ML提供了一个开源平台,其GitHub仓库(https://github.com/combust-ml/mleap)可供用户访问和参与。这个平台允许数据科学家直接将Spark管道(pipelines)部署到生产环境中,简化了从研究到生产的转换过程。 通常,数据科学家会编写数据管道来构建研究数据集,而工程师则需要将这些管道重新编写以适应生产环境。工程师还需要构建可扩展的库来处理特征计算和算法。然而,数据科学家往往不使用这些工程化的库,而是维护自己的代码副本,这导致了重复劳动和效率低下。此外,由于工程限制,数据科学家可能更多地专注于线性或逻辑回归等相对简单的模型。 Combust.ML的出现试图打破这种困境,通过提供一个统一的平台,让工程师和数据科学家可以更顺畅地协作,减少代码重复,并支持更复杂的模型部署。例如,它可能支持将机器学习模型打包成独立、可移植的格式,以便在不同的环境中运行,如本地服务器、云端服务或边缘设备。 这个解决方案对数据科学和工程团队的协作有着显著的影响,有助于减少摩擦,提高生产力,并可能推动技术发展,使得机器学习在生产环境中的实施更加便捷和高效。通过使用这样的工具,企业能够更快地将研究成果转化为实际业务价值,同时减轻工程师的负担,让他们有更多的时间专注于创新和优化。
剩余17页未读,继续阅读
- 粉丝: 328
- 资源: 2万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全