kNN算法实战:基于曼哈顿距离的分类演示

需积分: 30 7 下载量 160 浏览量 更新于2024-08-13 收藏 2.83MB PPT 举报
在数据挖掘原理与实践的第四章PPT中,讲解了K-最近邻(K-NN)分类算法的演示。K-NN是一种简单而直观的分类算法,它基于实例的相似性进行预测。在这个演示中,主要包括以下步骤: 1. **距离计算**:首先计算输入样本X((rain, hot, normal, weak, ?))与数据集中其他14个样本(p1-p14)之间的距离,这里使用的是曼哈顿距离。每个样本的距离值分别计算得出。 2. **近邻选择**:找到与样本X距离最近的k个邻居,这里是取k=3。在这个例子中,最近的三个邻居是p5、p10和p13。 3. **预测类别**:根据这k个近邻的类别标签(在这个例子中,所有三个邻居的类标号都是yes),通过多数投票的方式决定样本X的预测类别。由于三个邻居都是yes,所以预测样本X的类标号也为yes。 **分类与回归简介**: 这部分讲解了分类在数据挖掘中的基本概念,包括其定义(预测未知样本的类标号)、应用(如垃圾邮件检测、肿瘤分类等)、与回归的区别(分类预测离散类别,回归预测连续数值)。分类通常采用监督学习方法,如决策树、贝叶斯方法和K-NN,而回归则涉及连续变量的预测,如线性回归、非线性回归和逻辑回归。 **分类过程**: - 数据预处理:将数据集划分为训练集和测试集,以便评估模型性能。 - 模型构建:使用训练集构建分类模型,如决策树,学习特征与类别之间的关系。 - 模型评估:在测试集上应用模型,通过准确率或其他性能指标评价模型性能。 - 应用模型:当新数据的类标号未知时,使用高准确度的模型进行预测。 **举例**: 分类过程中的一个实例展示了四个特征(name、age、income、Loan_decision)用于预测个人贷款的风险等级,通过训练集学习决策树或规则,然后应用于测试数据,评估模型的准确性。 本节内容深入介绍了K-NN算法在实际中的应用,并将其置于分类算法的大背景下,突出了其在数据挖掘中的地位和与其他方法(如决策树、回归)的区别。通过这个实例,读者能够理解如何在实际项目中运用K-NN算法进行分类预测。