"第7章：Spark大数据技术与应用-机器学习与模型评估"

5星 · 超过95%的资源需积分: 9 201 浏览量更新于2024-01-20 收藏 1.27MB PPTX 举报

本文是对《Spark大数据技术与应用-第7章.pptx》中第七章节中关于Spark机器学习库的内容进行总结。本章节主要介绍了机器学习的概念、应用和流程，并对Spark MLlib进行了简要介绍。机器学习是人工智能的子领域，也是人工智能的核心之一。早在20世纪50年代，Samuel就给出了机器学习的定义，即通过特定编程使计算机具备学习能力。百度百科对机器学习的定义更加全面，指出它是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机如何模拟或实现人类的学习行为，通过获取新的知识或技能，来不断改善自身的性能。为什么要使用机器学习？机器学习和统计模型等基于模型的方法相比，能够发现人类难以发现的模式，特别是在数据集量级和复杂度较高的情况下。同时，基于模型的方法能够避免个人或情感上的偏见，只要应用时足够细心且正确。在机器学习的流程中，常见的步骤包括数据获取与存储、数据清理与转换、模型训练、模型测试、模型部署与整合等。其中，数据获取与存储是获取原始数据并进行存储，数据清理与转换是对数据进行清洗和转换的过程，以便于后续的分析和建模。模型训练是通过训练数据集来构建模型，模型测试是对构建好的模型进行评估和验证。最后，将训练好的模型部署到实际应用中，并与其他系统进行整合。在机器学习的分类中，一种常见的方法是使用标注好的训练数据集来学习一个模型。监督学习是其中的一种方法，包括K-近邻和决策树等。此外，还有无监督学习、半监督学习和强化学习等其他分类方法。 Spark MLlib是Spark的机器学习库，它提供了丰富的机器学习算法和工具，方便用户进行大规模数据的机器学习任务。Spark MLlib支持的机器学习任务包括分类、回归、聚类和推荐等。它还提供了特征提取、特征转换和模型评估等功能，方便用户进行数据预处理和建模过程。总之，本章节系统介绍了机器学习的概念、应用和流程，并对Spark MLlib进行了简要的介绍。通过掌握机器学习的基本原理和使用Spark MLlib进行机器学习任务的方法，可以帮助用户更高效地进行大规模数据的分析和建模，提高数据的处理效率和质量。

机器学习的分类

•

使用标注好的训练数据集学习一个模型

•

K- 近邻、决策树

监督学习

•

有训练数据集但无标签，自主推断数据

•

主成分分析、随机森林、 K-means

无监督学习

•

介于监督学习和无监督学习之间，少量标注数据

•

模式识别

半监督学习

•

通过奖励函数，输入数据对模型进行反馈

•

Q-learning

强化学习

剩余35页未读，继续阅读

惜于情

粉丝: 1
资源: 2

"第7章：Spark大数据技术与应用-机器学习与模型评估"

会计大数据基础教学PPT资源包

大数据概论：特征、应用与发展趋势揭秘

NoSQL数据库技术深度教学与案例分析

京东金融大数据分析平台总体架构-v1.0-0827.ppt.pptx

大数据与大数据技术.pptx

Spark大数据技术与应用课件

第七章-机器学习、大数据技术和图像处理技术在农业中的应用.pptx

大数据技术体系图谱.pptx

大数据与云计算.pptx

京东金融大数据分析平台总体架构-v1.0-0827.pptx

最新资源