写一段基于python的数据挖掘代码
时间: 2023-12-15 14:06:42 浏览: 24
以下是一个基于Python的数据挖掘代码示例,使用Pandas库和Scikit-learn库来进行数据分析和建模:
# 导入所需的库
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
# 加载数据集
data = pd.read_csv('data.csv')
# 数据预处理
data = data.dropna() # 删除缺失值
X = data[['feature1', 'feature2', 'feature3']] # 选择特征
y = data['target'] # 选择目标变量
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 建立线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)
# 预测测试集结果
y_pred = model.predict(X_test)
# 模型评估
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print('均方误差: ', mse)
print('R平方值: ', r2)
# 可视化结果
import matplotlib.pyplot as plt
plt.scatter(y_test, y_pred)
plt.xlabel('实际值')
plt.ylabel('预测值')
plt.show()
以上代码实现了一次简单的数据挖掘过程,包括数据预处理、模型建立、模型评估和结果可视化。可以通过修改数据集、模型类型等来适应不同的数据挖掘任务。