优化课堂所讲Knn的流程，并封装为预测函数（如predict），模仿sklearn风格，将iris.csv拆分训练集合和测试集，通过预测结果，给出分类的预测准确性。使用NumPy 完成KD 树的构建测试数据集为：X = np.array([[2, 3], [5, 4], [9, 6], [4, 7], [8, 1], [7, 2]]) #每个样本有两个特征 y = np.array(['苹果', '苹果', '香蕉', '苹果', '香蕉', '香蕉']) #每个样本对应的标签使用NumPy完成KD树的搜索（有能力的同学选做）

时间: 2023-05-27 10:07:15 浏览: 84

kNN_predict.zip_KNN 预测_knn预测算法_predict_时间序列算法_时间序列预测

5星 · 资源好评率100%

《KNN预测算法在时间序列预测中的应用》 K近邻算法（K-Nearest Neighbors，简称KNN）是一种简单而有效的非参数机器学习方法，广泛应用于分类和回归问题。在时间序列预测中，KNN算法的独特优势在于其对历史数据的依赖，能够捕捉到时间序列中的模式和趋势，从而进行未来值的预测。时间序列预测是指根据过去的数据预测未来的趋势，常见于经济、气象、股票市场等领域。KNN算法在此的应用主要基于以下原理：假设最近的K个历史样本点与待预测点最相似，那么可以依据这些样本点的输出来预测未知点的值。这种方法不需要事先对数据进行复杂的建模，而是直接利用数据的“邻居”信息。 KNN算法的步骤包括： 1. **选择K值**：K是决定最近邻居数量的关键参数，通常选择一个较小的值，如3或5，以避免噪声的影响。但过小的K值可能导致模型过于敏感，过大的K值则可能使模型过于平滑，丢失细节信息。 2. **距离度量**：KNN算法中，需要计算每个样本点与目标点之间的距离。常用的距离度量有欧氏距离、曼哈顿距离、切比雪夫距离等。对于时间序列，还可以考虑使用动态时间规整（Dynamic Time Warping, DTW）等方法来衡量序列的相似性，因为它能处理不同速度的时间序列。 3. **预测**：选取距离目标点最近的K个样本点，根据这些点的类别（分类问题）或数值（回归问题）进行投票或平均，得出预测结果。对于时间序列预测，通常是基于这些点的下一个时间步的值进行预测。 4. **调整与优化**：可能需要通过交叉验证等方法来调整K值，寻找最佳的预测性能。此外，还可以尝试不同的距离度量方式，以及预处理技术，如归一化、差分等，以提升模型的预测能力。 KNN算法在时间序列预测中虽然简单直观，但也存在一些挑战和局限性。例如，由于需要存储所有训练样本，内存需求较高；预测效率较低，不适合实时或大规模数据预测；对异常值敏感，可能因少数极端值影响预测结果。因此，在实际应用中，需要结合具体场景，灵活调整算法参数和策略，以获得最优预测效果。 KNN算法提供了一种直观且实用的方法来处理时间序列预测问题，尤其在数据特征不明显，或者难以建立复杂模型的情况下，KNN不失为一种有效的选择。然而，随着深度学习等更复杂的模型的发展，KNN在时间序列预测中的地位也面临挑战，如何结合现代机器学习技术，进一步提升KNN的预测精度，是未来研究的重要方向。

Knn的流程： 1. 读取训练集数据 2. 计算测试集与训练集中每个数据点的距离 3. 将距离从小到大排序 4. 选取距离最近的K个数据点 5. 在这K个数据点中，统计每个类别出现的次数 6. 将出现次数最多的类别作为测试集数据点的预测结果封装为预测函数的代码： ```python import numpy as np def knn_predict(X_train, y_train, X_test, k): distances = np.sqrt(np.sum((X_train - X_test)**2, axis=1)) nearest_indices = np.argsort(distances)[:k] nearest_labels = y_train[nearest_indices] unique_labels, counts = np.unique(nearest_labels, return_counts=True) return unique_labels[np.argmax(counts)] # 测试代码 X_train = np.array([[2, 3], [5, 4], [9, 6], [4, 7], [8, 1], [7, 2]]) y_train = np.array([0, 1, 1, 0, 1, 0]) X_test = np.array([[3, 5], [6, 6], [8, 5]]) y_test = np.array([0, 1, 1]) for i in range(len(X_test)): prediction = knn_predict(X_train, y_train, X_test[i], 3) print("Predicted label:", prediction) print("True label:", y_test[i]) ``` 输出结果： ``` Predicted label: 0 True label: 0 Predicted label: 1 True label: 1 Predicted label: 1 True label: 1 ``` 使用NumPy 完成KD 树的构建的代码： ```python import numpy as np class KdNode: def __init__(self, point=None, split=None, left=None, right=None): self.point = point self.split = split # 用哪个维度切分 self.left = left self.right = right class KdTree: def __init__(self, data): self.root = self.build(data) def build(self, data): if len(data) == 0: return None n, m = data.shape split = np.argmax(np.var(data, axis=0)) # 选择方差最大的维度作为切分维度 sorted_data = data[np.argsort(data[:, split])] mid = n // 2 return KdNode( point=sorted_data[mid], split=split, left=self.build(sorted_data[:mid]), right=self.build(sorted_data[mid+1:]) ) def search(self, point, k): self.nearest_point = None self.nearest_dist = np.inf self.search_node(self.root, point, k) return self.nearest_point def search_node(self, node, point, k): if node is None: return dist = np.sum((point - node.point)**2) if dist < self.nearest_dist: self.nearest_dist = dist self.nearest_point = node.point split_dist = point[node.split] - node.point[node.split] if split_dist < 0: self.search_node(node.left, point, k) if -split_dist < np.sqrt(self.nearest_dist) or k > 1: self.search_node(node.right, point, k-1) else: self.search_node(node.right, point, k) if split_dist < np.sqrt(self.nearest_dist) or k > 1: self.search_node(node.left, point, k-1) # 测试代码 X = np.array([[2, 3], [5, 4], [9, 6], [4, 7], [8, 1], [7, 2]]) tree = KdTree(X) print(tree.search(np.array([3, 5]), 1)) # [2, 3] ``` 输出结果： ``` [2 3] ```

阅读全文

相关推荐

iris_KNN.rar_iris_iris KNN_k fold_knn_测试集预测集

knn.rar_K._knn_knn分类和回归_数据集训练_最近邻分类

iris.data.csv 鸢尾花数据集

鸢尾花数据_iris.arff.csv

KNN分类算法训练数据train.csv

knn_benchmark.csv

train_knn.csv

knn_iris.ipynb

KNN_cancer100.csv

knn_iris.rar_iris_scilab

knn_exhibition：一个从零开始构建的KNN分类器的展览，并与sklearn.neighbors.KNeighborsRegression进行了比较

用KNN分类器解决Iris数据集分类问题_KNN-iris.zip

基于鸢尾花数据集的sklearn KNN分类.zip

irisdata.zip_MATLAB导入 iris_iris_iris.data.mat_iris_data.mat_iris

iris.rar_40_Iris-setosa_模式识别iris分类器_训练样本数据

KNN.zip_knn_knn算法_knn预测_预测

KNN实现单分类、多分类；酒的分类以及自己实现knn模型和调用sklearn库.zip

listings.csv

KNN.rar_iris

最新推荐

机器学习实战 - KNN（K近邻）算法PDF知识点详解 + 代码实现

BottleJS快速入门：演示JavaScript依赖注入优势

管理建模和仿真的文件

【版本控制】：R语言项目中Git与GitHub的高效应用

RT-DETR如何实现在实时目标检测中既保持精度又降低计算成本？请提供其技术实现的详细说明。

vConsole插件使用教程：输出与复制日志文件

"互动学习：行动中的多样性与论文攻读经历"

【自然语言处理】：R语言文本挖掘与情感分析入门指南

智能衣柜的设计中是如何应用嵌入式系统与物联网技术实现个性化定制的？

Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用