写Knn脚本代码实现,并解释
时间: 2023-03-20 14:00:35 浏览: 41
下面是一个基本的KNN(K-最近邻)算法的Python脚本代码实现:
```python
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 创建KNN分类器
knn = KNeighborsClassifier(n_neighbors=3)
# 训练模型
knn.fit(X_train, y_train)
# 预测测试集
y_pred = knn.predict(X_test)
# 输出预测结果
print(y_pred)
```
在这个脚本中,我们首先使用`load_iris()`函数加载了一个经典的鸢尾花数据集,这个数据集包含150个样本,每个样本有四个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。我们把这些特征存储在X变量中,把对应的分类标签(三种不同的鸢尾花类型)存储在y变量中。
然后,我们使用`train_test_split()`函数将数据集分为训练集和测试集,其中测试集占总样本数的30%。
接着,我们创建了一个KNN分类器,指定了K值为3,即在进行预测时,找到最近的三个邻居,并根据它们的分类标签来进行预测。然后,我们使用`fit()`函数训练模型,将训练集的特征和对应的分类标签传入该函数。接下来,我们使用`predict()`函数对测试集进行预测,并将结果存储在`y_pred`变量中。
最后,我们输出了预测结果。可以看到,输出的结果是一个包含了测试集中每个样本对应的分类标签的一维数组。
KNN算法的基本思想是通过计算测试样本与每个训练样本之间的距离,找到K个最近邻居,并根据它们的分类标签来预测测试样本的分类。在这个实现中,我们使用了Scikit-learn库中的KNeighborsClassifier类来实现KNN算法。该类中的`n_neighbors`参数用来指定K值,即在进行预测时,找到最近的K个邻居。在训练过程中,KNN算法不需要显式地拟合一个模型,只需要存储训练集的特征和对应的分类标签。在预测过程中,KNN算法会计算测试样本与每个训练样本之间的距离,并找到K个最近邻居。然后,KNN算法会根