清华大学机器学习课程:无监督学习概论-聚类与降维

版权申诉
5星 · 超过95%的资源 1 下载量 148 浏览量 更新于2024-07-04 收藏 1.16MB PPTX 举报
本资源是清华大学出品的机器学习技术课程,专注于统计学习方法第二版,其中详细讲解了第13章——无监督学习概论。无监督学习是机器学习的重要分支,它利用未标记的数据进行学习或训练,目标在于理解数据本身的内在结构,而无需预先定义的标签。主要内容包括: 1. **基本概念**:无监督学习的模型可以表现为函数、条件概率分布或条件概率分布。数据通常表示为一个N个样本的M维向量矩阵,每一行代表一个特征,每一列代表一个样本。 2. **主要任务**:无监督学习的核心目标是对数据进行“压缩”,寻找数据的潜在结构,这可能涉及纵向结构的发掘(如聚类),即将相似样本归类,以及横向结构的处理(如降维),即通过转换降低样本的维度,揭示高维空间中数据的内在联系。 3. **聚类方法**:聚类是无监督学习的一种重要技术,分为硬聚类和软聚类。硬聚类假设每个样本只属于一个类别,而软聚类允许样本概率性地属于多个类别。聚类的目标是根据样本间的相似度或距离自动划分类别。 4. **降维技术**:降维是为了从高维空间中提炼出数据的关键特征,保持尽可能少的信息丢失。常见的降维方法包括线性和非线性降维,例如将高维数据映射到低维欧氏空间或流形,以更直观地展示样本间的关系。 5. **假设与限制**:无监督学习假设数据是由某个概率模型生成的,并试图通过学习该模型来揭示数据的内在规律。同时,降维过程中需要确保从高维到低维的转换过程尽可能减少信息损失。 通过学习这一章节,学生将掌握无监督学习的基本原理和方法,为后续的聚类和降维操作打下坚实基础。对于机器学习初学者或希望复习此领域的专业人士,这是一份十分有价值的参考资料。全套课程包含多章内容,涵盖了机器学习的基础理论和实践应用,提供了深入学习的全面指导。访问链接(<https://download.csdn.net/download/qq_27595745/85252312>)可以获取完整的课程资料。