用python实现数据挖掘案例
时间: 2024-09-17 10:00:14 浏览: 34
Python是一种流行的编程语言,特别适合用于数据挖掘。以下是使用Python实现数据挖掘的一个简单案例——基于iris数据集的分类:
1. **导入必要的库**:首先,你需要导入pandas(处理数据),numpy(数值计算),以及scikit-learn(机器学习库)等。
```python
import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
```
2. **加载数据**:sklearn提供了一些内置的数据集,如iris数据集,它包含了鸢尾花的测量数据,可以作为示例数据。
```python
iris = datasets.load_iris()
data = iris.data
labels = iris.target
```
3. **数据预处理**:对数据进行标准化处理,以便于某些算法的运行。
```python
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)
```
4. **划分训练集和测试集**:将数据分为训练集和测试集,通常采用80%的数据用于训练,剩下的20%用于评估模型性能。
```python
X_train, X_test, y_train, y_test = train_test_split(data_scaled, labels, test_size=0.2, random_state=42)
```
5. **选择模型和训练**:这里我们选择K近邻(KNN)作为分类模型,然后训练它。
```python
knn = KNeighborsClassifier(n_neighbors=3) # 使用3个最近邻居
knn.fit(X_train, y_train)
```
6. **预测与评估**:用训练好的模型对测试集进行预测,并计算准确率。
```python
y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
```
阅读全文