K近邻法及Python实现
时间: 2023-11-05 14:07:25 浏览: 91
K近邻法是一种基于实例的学习方法,它的主要思想是通过计算待分类样本与训练样本之间的距离来确定待分类样本所属的类别。具体来说,对于一个未知类别的样本,首先计算它与训练集中每个样本之间的距离,然后选取距离最近的K个训练样本,并统计它们所属类别的出现次数,最后将该未知样本归为出现次数最多的类别。
下面是一个简单的K近邻法的Python实现:
```python
import numpy as np
from collections import Counter
class KNN:
def __init__(self, k=3):
self.k = k
def fit(self, X, y):
self.X_train = X
self.y_train = y
def predict(self, X):
y_pred = []
for x in X:
distances = np.sqrt(np.sum((x - self.X_train) ** 2, axis=1))
indices = np.argsort(distances)[:self.k]
closest_labels = [self.y_train[i] for i in indices]
c = Counter(closest_labels)
y_pred.append(c.most_common()[0][0])
return np.array(y_pred)
```
这里的 `fit` 方法用于训练模型,接受训练集的特征向量 `X` 和标签 `y` 作为输入;`predict` 方法用于预测新的样本,接受待分类样本的特征向量 `X` 作为输入,并返回预测的标签。
在使用K近邻法时,需要注意选择合适的K值,一般来说,K值越小,模型越复杂,容易出现过拟合;K值越大,模型越简单,容易出现欠拟合。因此需要通过交叉验证等方法来确定最优的K值。
阅读全文