sklearn 乳腺癌数据集knn
时间: 2023-09-06 19:10:14 浏览: 109
sklearn中自带的乳腺癌数据集是经典的二分类问题,可以使用knn算法进行分类。
首先,我们需要导入相关的库和数据集:
```python
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
# 导入数据集
data = load_breast_cancer()
X = data.data
y = data.target
```
然后,我们将数据集分成训练集和测试集:
```python
# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
接着,我们可以使用knn算法进行训练和测试:
```python
# 创建knn分类器对象
knn = KNeighborsClassifier(n_neighbors=5)
# 在训练集上训练knn分类器
knn.fit(X_train, y_train)
# 在测试集上测试knn分类器
y_pred = knn.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
```
最后,我们可以输出分类器的准确率。如果准确率较高,则说明knn算法在这个数据集上表现不错。
阅读全文