python分析数据脚本
时间: 2023-05-26 18:02:05 浏览: 191
以下是一个示例Python分析数据脚本,包括读取数据、数据可视化、统计分析和模型建立等基础操作:
```python
import pandas as pd
import matplotlib.pyplot as plt
from scipy.stats import ttest_ind
from sklearn.linear_model import LinearRegression
# 读取数据
df = pd.read_csv("data.csv")
# 数据可视化
plt.figure(figsize=(8, 6))
plt.scatter(df['x'], df['y'], s=10, alpha=0.5)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Scatter plot of x and y')
plt.show()
# 统计分析
mean_x = df['x'].mean()
mean_y = df['y'].mean()
sigma_x = df['x'].std()
sigma_y = df['y'].std()
corr = df['x'].corr(df['y'])
t_stat, p_val = ttest_ind(df['x'], df['y'])
print("Mean of x is", mean_x)
print("Mean of y is", mean_y)
print("Standard deviation of x is", sigma_x)
print("Standard deviation of y is", sigma_y)
print("Correlation between x and y is", corr)
print("T-test statistic is", t_stat)
print("P-value is", p_val)
# 模型建立
model = LinearRegression()
model.fit(df[['x']], df['y'])
y_pred = model.predict(df[['x']])
# 可视化模型拟合结果
plt.figure(figsize=(8, 6))
plt.scatter(df['x'], df['y'], s=10, alpha=0.5)
plt.plot(df['x'], y_pred, color='red')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Linear regression of x and y')
plt.show()
```
该脚本使用了Pandas库读取CSV格式的数据文件,Matplotlib库进行数据可视化,Scipy库计算统计指标如均值、标准差、相关系数和T检验等,以及Sklearn库建立线性回归模型并可视化模型拟合结果。
用户可以根据自己数据集的具体情况修改脚本中的变量名、分析方法和可视化参数等,以达到自己的分析目的。
阅读全文