数据挖掘项目实战例子代码
时间: 2023-08-29 11:10:07 浏览: 373
数据挖掘源代码(仅供学习)
5星 · 资源好评率100%
以下是一个简单的数据挖掘项目实战例子代码:
```python
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
# 读取数据
data = pd.read_csv('data.csv')
# 数据探索
print(data.head()) # 查看前5行数据
print(data.info()) # 查看数据集基本信息
print(data.describe()) # 查看数据集统计信息
# 数据清洗
data = data.dropna() # 删除缺失值
# 特征选择
X = data.drop('target', axis=1) # 提取特征变量
y = data['target'] # 提取目标变量
# 特征缩放
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# 模型训练
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)
# 模型评估
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))
# 可视化
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
plt.scatter(X_pca[:,0], X_pca[:,1], c=y)
plt.xlabel('PCA1')
plt.ylabel('PCA2')
plt.title('Data Visualization')
plt.show()
```
这个例子包含了数据探索、数据清洗、特征选择、特征缩放、模型训练、模型评估和可视化等步骤。其中,我们使用了逻辑回归作为分类器,使用了PCA进行数据可视化。
阅读全文