k近邻算法python代码
时间: 2023-08-18 11:06:09 浏览: 74
以下是k近邻算法的Python代码实现:
```python
import numpy as np
from collections import Counter
def knn(X_train, y_train, X_test, k):
"""
:param X_train: 训练集特征
:param y_train: 训练集标签
:param X_test: 测试集特征
:param k: k值
:return: 预测结果
"""
# 计算测试数据与每个训练数据之间的距离
distances = np.sqrt(np.sum(np.square(X_test - X_train), axis=1))
# 对距离进行排序
sorted_distance_indices = np.argsort(distances)
# 统计距离最近的k个训练数据的标签
k_nearest_labels = [y_train[i] for i in sorted_distance_indices[:k]]
# 返回出现次数最多的标签作为预测结果
return Counter(k_nearest_labels).most_common(1)[0][0]
```
其中,X_train是训练集特征,y_train是训练集标签,X_test是测试集特征,k是k值。函数返回预测结果。
相关问题
k近邻算法python
K近邻算法(K-Nearest Neighbors, KNN)是一种基本的分类和回归算法,它的核心思想是通过训练数据中与目标数据最近的k个样本的类别,来确定目标数据的类别。在Python中,可以使用scikit-learn库来实现KNN算法。下面是一个简单的KNN算法的Python代码实现:
```python
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
# 训练KNN分类器
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
# 预测测试集
y_pred = knn.predict(X_test)
# 计算分类器准确率
accuracy = knn.score(X_test, y_test)
print("Accuracy:", accuracy)
```
在这个例子中,我们使用了iris数据集作为训练数据,然后使用KNeighborsClassifier类来训练KNN分类器,并且使用train_test_split函数将数据集划分为训练集和测试集。接着,我们通过调用predict方法来预测测试集,并且通过调用score方法来计算分类器的准确率。
k近邻算法Python实现
k近邻算法(k-Nearest Neighbor,k-NN)是一种基本的分类和回归方法,它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
以下是一个简单的k近邻算法Python实现:
```python
import numpy as np
from collections import Counter
def knn(X_train, y_train, x, k):
distances = [np.sqrt(np.sum((x - x_train) ** 2)) for x_train in X_train]
nearest = np.argsort(distances)
top_k = [y_train[i] for i in nearest[:k]]
votes = Counter(top_k)
return votes.most_common(1)
# 示例
X_train = np.array([[1, 2], [1, 4], [2, 1], [4, 2], [4, 4]])
y_train = ['A', 'A', 'B', 'B', 'B']
x = np.array([3, 2.5])
print(knn(X_train, y_train, x, k=3))
```
在上述代码中,`X_train`是训练集数据,`y_train`是训练集标签,`x`是待分类的数据点,`k`表示选取的最近邻个数。
函数首先计算待分类数据点与训练集中所有数据点的距离,并将距离从小到大排序。然后选择距离最小的前k个数据点,并统计它们所属的类别。最后返回出现次数最多的类别作为预测结果。
阅读全文