"第7章:Spark大数据技术与应用-机器学习与模型评估"

5星 · 超过95%的资源 需积分: 9 7 下载量 176 浏览量 更新于2024-01-20 收藏 1.27MB PPTX 举报
本文是对《Spark大数据技术与应用-第7章.pptx》中第七章节中关于Spark机器学习库的内容进行总结。本章节主要介绍了机器学习的概念、应用和流程,并对Spark MLlib进行了简要介绍。 机器学习是人工智能的子领域,也是人工智能的核心之一。早在20世纪50年代,Samuel就给出了机器学习的定义,即通过特定编程使计算机具备学习能力。百度百科对机器学习的定义更加全面,指出它是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机如何模拟或实现人类的学习行为,通过获取新的知识或技能,来不断改善自身的性能。 为什么要使用机器学习?机器学习和统计模型等基于模型的方法相比,能够发现人类难以发现的模式,特别是在数据集量级和复杂度较高的情况下。同时,基于模型的方法能够避免个人或情感上的偏见,只要应用时足够细心且正确。 在机器学习的流程中,常见的步骤包括数据获取与存储、数据清理与转换、模型训练、模型测试、模型部署与整合等。其中,数据获取与存储是获取原始数据并进行存储,数据清理与转换是对数据进行清洗和转换的过程,以便于后续的分析和建模。模型训练是通过训练数据集来构建模型,模型测试是对构建好的模型进行评估和验证。最后,将训练好的模型部署到实际应用中,并与其他系统进行整合。 在机器学习的分类中,一种常见的方法是使用标注好的训练数据集来学习一个模型。监督学习是其中的一种方法,包括K-近邻和决策树等。此外,还有无监督学习、半监督学习和强化学习等其他分类方法。 Spark MLlib是Spark的机器学习库,它提供了丰富的机器学习算法和工具,方便用户进行大规模数据的机器学习任务。Spark MLlib支持的机器学习任务包括分类、回归、聚类和推荐等。它还提供了特征提取、特征转换和模型评估等功能,方便用户进行数据预处理和建模过程。 总之,本章节系统介绍了机器学习的概念、应用和流程,并对Spark MLlib进行了简要的介绍。通过掌握机器学习的基本原理和使用Spark MLlib进行机器学习任务的方法,可以帮助用户更高效地进行大规模数据的分析和建模,提高数据的处理效率和质量。
2015-12-19 上传
简介之前罗嗦一句:以下内容版本归原作者,本来本着分享精神我不应该要这一分 的,但是我发现整理这些资源竟然整整花了我超过一个小时,而且原先地址的资源有 些不能下载,我是千方百计找到所有的ppt,做个合集方便大家,节约大家的时间吧, 以下正题! 2015 中国大数据技术大会已经圆满落幕,本届大会,以更加国际化的视野,从政 策法规、技术实践和产业应用等角度深入探讨大数据落地后的挑战,作为大数据产业 界、科技界与政府部门密切合作的重要平台,吸引了数千名大数据技术爱好者到场参 会。 以下为合集列表: 1. 启明星辰公司副总裁潘柱廷:2016 年大数据技术发展趋势解读 2. Databricks公司联合创始人、Spark首席架构师辛湜:Spark发展:回顾2015,展望 2016 3. 京东云平台总架构师、系统技术部负责人刘海锋 :从2014 到2016,大规模内存数 据库演进之路 4. Hulu 资深研发主管梁宇明 :Voidbox - Docker On YARN在Hulu的实践 5. Pivotal 研发总监姚延栋:开源大数据引擎:分布式Greenplum数据库内核分析 6. 阿里巴巴iDST语音组高级专家鄢志杰 :Deep Learning助力客服小二:数据技术及 机器学习在客服中心的应用 7. 小米金融技术主管方流: 大数据在互联网金融中的应用 8. 新加坡管理大学信息系统学院教授朱飞达 :大数据与金融创新:从研究到实战 9. 宜信大数据创新中心首席数据科学家项亮: 大数据在信用风险管理中的应用 10. 南京大学计算机系PASA大数据实验室教授黄宜华 :Octopus(大章鱼):基于R语 言的跨平台大数据机器学习与数据分析系统 11. 百度基础架构部高级架构师沈国龙 :BML百度大规模机器学习云平台实践 12. 新浪微博算法技术总监姜贵彬:大数据驱动下的微博社会化推荐 13. FreeWheel技术副总裁李旸:FreeWheel基于大数据的新兴视频广告测量实践 14. 阿里巴巴数据安全部阿里数据安全小组总监郑斌:大数据下的数据安全 15. 数美公司联合创始人兼CTO梁堃:Sentry金融实时风控系统