k近邻算法python
时间: 2023-10-24 19:23:33 浏览: 60
k近邻算法是一种常见的机器学习算法,用于分类和回归。在Python中,我们可以使用scikit-learn库来实现k近邻算法。
下面是一个简单的例子:
```python
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
# 创建分类器
knn = KNeighborsClassifier(n_neighbors=3)
# 训练模型
knn.fit(X_train, y_train)
# 预测测试集
y_pred = knn.predict(X_test)
# 输出准确率
print("Accuracy:", knn.score(X_test, y_test))
```
在这个例子中,我们使用了鸢尾花数据集来训练和测试k近邻算法。首先,我们加载数据集并将其分为训练集和测试集。然后,我们创建一个k近邻分类器,并使用训练数据对其进行拟合。最后,我们用测试数据进行预测,并输出模型的准确率。
相关问题
k近邻算法Python实现
k近邻算法(k-Nearest Neighbor,k-NN)是一种基本的分类和回归方法,它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
以下是一个简单的k近邻算法Python实现:
```python
import numpy as np
from collections import Counter
def knn(X_train, y_train, x, k):
distances = [np.sqrt(np.sum((x - x_train) ** 2)) for x_train in X_train]
nearest = np.argsort(distances)
top_k = [y_train[i] for i in nearest[:k]]
votes = Counter(top_k)
return votes.most_common(1)
# 示例
X_train = np.array([[1, 2], [1, 4], [2, 1], [4, 2], [4, 4]])
y_train = ['A', 'A', 'B', 'B', 'B']
x = np.array([3, 2.5])
print(knn(X_train, y_train, x, k=3))
```
在上述代码中,`X_train`是训练集数据,`y_train`是训练集标签,`x`是待分类的数据点,`k`表示选取的最近邻个数。
函数首先计算待分类数据点与训练集中所有数据点的距离,并将距离从小到大排序。然后选择距离最小的前k个数据点,并统计它们所属的类别。最后返回出现次数最多的类别作为预测结果。
k近邻算法python代码
以下是k近邻算法的Python代码:
```python
import numpy as np
from collections import Counter
class KNN:
def __init__(self, k):
self.k = k
def fit(self, X, y):
self.X_train = X
self.y_train = y
def euclidean_distance(self, X):
return np.sqrt(np.sum((self.X_train - X)**2, axis=1))
def predict(self, X):
distances = self.euclidean_distance(X)
k_nearest = np.argsort(distances)[:self.k]
k_nearest_labels = self.y_train[k_nearest]
most_common = Counter(k_nearest_labels).most_common(1)
return most_common[0][0]
```
其中,`fit`方法用于训练模型,`predict`方法用于预测数据。`euclidean_distance`方法用于计算欧几里得距离,并且`Counter`用于计算最近的k个样本中出现最多的标签。