降维与度量学习：kNN算法解析

需积分: 0 82 浏览量更新于2024-08-04 1 收藏 1.66MB DOCX 举报

"第十章降维与度量学习1" 在机器学习领域，降维与度量学习是解决“维数灾难”问题的关键技术。当数据的特征维度非常高时，会出现一系列挑战，如数据样本稀疏、计算复杂度增加以及模型泛化能力下降。为了解决这些问题，降维技术应运而生，它通过数学变换将高维空间的数据映射到一个低维的子空间，以保持或增强数据的结构和信息。降维有助于提高数据的密度，简化计算，并可能揭示隐藏的低维结构。降维方法包括主成分分析(PCA)、线性判别分析(LDA)、奇异值分解(SVD)以及非线性的降维技术如Isomap、t-SNE等。这些方法在保留关键信息的同时，减少数据的复杂性，使后续的分析和建模更为高效。 K近邻(kNN)学习是监督学习的一种，以其简单但有效的思想被广泛应用。kNN算法无需显式的训练过程，而是依赖于测试样本的邻居信息来做出预测。在分类任务中，kNN通过计算测试样本与训练样本之间的距离（通常使用欧氏距离，但也可能使用其他度量方式），选择最近的k个邻居，根据它们的类别标签进行多数投票决定测试样本的类别。在回归任务中，kNN则取k个邻居的平均值作为预测值。度量学习是另一个重要的概念，它关注如何学习一个合适的距离度量或相似度函数，以更好地适应特定学习任务。在kNN中，选择合适的距离度量至关重要，因为它直接影响到邻居的选择和最终的预测结果。度量学习可以通过优化目标函数来调整距离度量，使其在特定任务上更具区分性，例如支持向量机(SVM)中的核函数，就是通过低维映射实现高维空间的非线性决策边界，从而避免了高维计算的困难。支持向量机(SVM)是一种二分类模型，其基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还通过核技巧有效地处理了非线性问题，使得即使在高维空间中也能找到最优的决策边界。核函数的作用是将低维空间的数据映射到高维，使得原本在低维空间中难以分隔的数据在高维空间中变得容易分隔。降维与度量学习是解决高维数据问题的有效工具，它们在kNN、SVM等算法中发挥着重要作用，帮助提升模型的性能和效率。通过对数据进行适当的降维和学习有效的距离度量，我们能够更好地理解和挖掘数据的内在结构，从而提高机器学习模型的预测能力和泛化能力。

好与一个噪声数据距离最近，就导致了分类错误；若 k 值太大，则在更大的邻

域内进行投票，此时模型的预测能力大大减弱，例如：极端取 k=训练样本数，

就相当于模型根本没有学习，所有测试样本的预测结果都是一样的。一般地我

们都通过交叉验证法来选取一个适当的 k 值。

对于距离度量，不同的度量方法得到的 k 个近邻不尽相同，从而对最终的投票

结果产生了影响，因此选择一个合适的距离度量方法也十分重要。在上一篇聚

类算法中，在度量样本相似性时介绍了常用的几种距离计算方法，包括闵可夫

斯基距离，曼哈顿距离，VDM 等。在实际应用中，kNN 的距离度量函数一般

根据样本的特性来选择合适的距离度量，同时应对数据进行去量纲/归一化处理

来消除大量纲属性的强权政治影响。

##11.2 MDS 算法

不管是使用核函数升维还是对数据降维，我们都希望原始空间样本点之间的距

离在新空间中基本保持不变，这样才不会使得原始空间样本之间的关系及总体

分布发生较大的改变。**“多维缩放”（MDS）**正是基于这样的思想，MDS 要

求原始空间样本之间的距离在降维后的低维空间中得以保持。

假定 m 个样本在原始空间中任意两两样本之间的距离矩阵为 D∈R(m*m)，我

们的目标便是获得样本在低维空间中的表示 Z∈R(d'*m , d'< d)，且任意两个样

剩余12页未读，继续阅读

蟹蛛

粉丝: 32
资源: 323

降维与度量学习：kNN算法解析

线性代数基础与降维学习概述

深入理解机器学习的降维与度量学习策略

机器学习：降维与度量学习解析

机器学习-第十章降维与度量学习

第十章 降维与度量学习 -by- VAY-长跑 - CSDN博客1

周志华《机器学习》手推笔记

哈工大模式识别讲义（一到十一章）

实用多元统计与sas系统 高惠璇版

模式识别：基于贝叶斯决策理论与线性分类器

机器学习：降维与度量学习实战解析

最新资源

第十章降维与度量学习 -by- VAY-长跑 - CSDN博客1

实用多元统计与sas系统高惠璇版