清华大学机器学习课程：无监督学习概论-聚类与降维

版权申诉

5星 · 超过95%的资源 148 浏览量更新于2024-07-04 收藏 1.16MB PPTX 举报

本资源是清华大学出品的机器学习技术课程，专注于统计学习方法第二版，其中详细讲解了第13章——无监督学习概论。无监督学习是机器学习的重要分支，它利用未标记的数据进行学习或训练，目标在于理解数据本身的内在结构，而无需预先定义的标签。主要内容包括： 1. **基本概念**：无监督学习的模型可以表现为函数、条件概率分布或条件概率分布。数据通常表示为一个N个样本的M维向量矩阵，每一行代表一个特征，每一列代表一个样本。 2. **主要任务**：无监督学习的核心目标是对数据进行“压缩”，寻找数据的潜在结构，这可能涉及纵向结构的发掘（如聚类），即将相似样本归类，以及横向结构的处理（如降维），即通过转换降低样本的维度，揭示高维空间中数据的内在联系。 3. **聚类方法**：聚类是无监督学习的一种重要技术，分为硬聚类和软聚类。硬聚类假设每个样本只属于一个类别，而软聚类允许样本概率性地属于多个类别。聚类的目标是根据样本间的相似度或距离自动划分类别。 4. **降维技术**：降维是为了从高维空间中提炼出数据的关键特征，保持尽可能少的信息丢失。常见的降维方法包括线性和非线性降维，例如将高维数据映射到低维欧氏空间或流形，以更直观地展示样本间的关系。 5. **假设与限制**：无监督学习假设数据是由某个概率模型生成的，并试图通过学习该模型来揭示数据的内在规律。同时，降维过程中需要确保从高维到低维的转换过程尽可能减少信息损失。通过学习这一章节，学生将掌握无监督学习的基本原理和方法，为后续的聚类和降维操作打下坚实基础。对于机器学习初学者或希望复习此领域的专业人士，这是一份十分有价值的参考资料。全套课程包含多章内容，涵盖了机器学习的基础理论和实践应用，提供了深入学习的全面指导。访问链接（<https://download.csdn.net/download/qq_27595745/85252312>）可以获取完整的课程资料。

聚类

•

聚类（ clustering ）是将样本集合中相似的样本（实例）分配到

相同的类，不相似的样本分配到不同的类。

•

聚类时，样本通常是欧氏空间中的向量，类别不是事先给定，而

是从数据中自动发现，但类别的个数通常是事先给定的。样本之

间的相似度或距离由应用决定。

•

如果一个样本只能属于一个类，则称为硬聚类（ hard

clustering)

•

如果一个样本可以属于多个类，则称为软聚类（ soft

clustering)

剩余26页未读，继续阅读

passionSnail

粉丝: 467
资源: 7835

清华大学机器学习课程：无监督学习概论-聚类与降维

清华出品 机器学习技术课程 统计学习方法第二版系列课程 第14章 聚类方法 共52页.pptx

清华大学AI人工智能概论课程 第6章 深度学习 含习题 共65页 .pptx

全套清华大学数据分析 统计学 系列课程 01 第一章 统计学习方法概论 （共32页）.pptx

清华大学AI人工智能概论课程 第5章 机器学习 含习题 共55页 .pptx

清华大学AI人工智能概论课程 第4章 搜索技术 含习题 共34页 .pptx

清华大学AI人工智能概论课程 第8章 智能控制技术 含习题 共39页 .pptx

清华大学AI人工智能概论课程 第9章 工业机器人技术 含习题 共58页 .pptx

清华大学AI人工智能概论课程 第10章 建筑智能化技术 含习题 共35页 .pptx

清华大学AI人工智能概论课程 第2章 感受AI 含习题 共68页 .pptx

清华大学AI人工智能概论课程 第7章 自然语言处理 含习题 共42页 .pptx

最新资源

清华出品机器学习技术课程统计学习方法第二版系列课程第14章聚类方法共52页.pptx

清华大学AI人工智能概论课程第6章深度学习含习题共65页 .pptx

全套清华大学数据分析统计学系列课程 01 第一章统计学习方法概论（共32页）.pptx

清华大学AI人工智能概论课程第5章机器学习含习题共55页 .pptx

清华大学AI人工智能概论课程第4章搜索技术含习题共34页 .pptx

清华大学AI人工智能概论课程第8章智能控制技术含习题共39页 .pptx

清华大学AI人工智能概论课程第9章工业机器人技术含习题共58页 .pptx

清华大学AI人工智能概论课程第10章建筑智能化技术含习题共35页 .pptx

清华大学AI人工智能概论课程第2章感受AI 含习题共68页 .pptx

清华大学AI人工智能概论课程第7章自然语言处理含习题共42页 .pptx