jupyter数据分析实例
时间: 2023-07-03 19:14:37 浏览: 187
jupyter示例
好的,以下是一个使用 Jupyter Notebook 进行数据分析的实例:
我们将使用一个名为 "iris" 的数据集,该数据集包含了3种不同的鸢尾花品种(setosa、versicolor、virginica),以及它们的花萼长度、花萼宽度、花瓣长度和花瓣宽度。首先,我们需要导入所需的Python库,包括 Pandas、Matplotlib 和 Scikit-learn(用于数据预处理和可视化)。
```
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
```
接下来,我们将加载我们的数据集并进行一些基本的数据探索。
```
# 加载数据集
df = pd.read_csv('iris.csv')
# 显示前5行
df.head()
# 显示数据集的基本信息
df.info()
# 显示数据集的统计信息
df.describe()
```
接下来,我们将进行数据预处理,包括标准化和降维。
```
# 标准化数据
X = df.drop('species', axis=1)
X = StandardScaler().fit_transform(X)
# 应用PCA进行降维
pca = PCA(n_components=2)
principalComponents = pca.fit_transform(X)
principalDf = pd.DataFrame(data = principalComponents, columns = ['principal component 1', 'principal component 2'])
finalDf = pd.concat([principalDf, df['species']], axis = 1)
```
最后,我们将使用 Matplotlib 进行数据可视化,以便更好地理解我们的数据集。
```
# 创建散点图
fig = plt.figure(figsize = (8,8))
ax = fig.add_subplot(1,1,1)
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)
species = ['setosa', 'versicolor', 'virginica']
colors = ['r', 'g', 'b']
for species, color in zip(species,colors):
indicesToKeep = finalDf['species'] == species
ax.scatter(finalDf.loc[indicesToKeep, 'principal component 1']
, finalDf.loc[indicesToKeep, 'principal component 2']
, c = color
, s = 50)
ax.legend(species)
ax.grid()
plt.show()
```
以上就是一个简单的使用 Jupyter Notebook 进行数据分析的实例。
阅读全文