使用鸢尾花数据集,计算并输出样本数量、特征数量,选取其中两个特征进行标准化并进行可视化。python代码
时间: 2024-09-19 09:07:08 浏览: 78
鸢尾花数据集操作指导
在Python中,我们可以使用sklearn库中的Iris数据集进行操作。首先,我们需要导入必要的模块,如pandas用于数据处理,numpy用于数值计算,matplotlib和seaborn用于数据可视化,以及scikit-learn的数据集和preprocessing模块来进行样本数量、特征数量的获取以及特征的标准化。
```python
import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns
# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data # 特征
y = iris.target # 标签
# 计算样本数量和特征数量
sample_count = X.shape[0]
feature_count = X.shape[1]
print(f"样本数量:{sample_count}")
print(f"特征数量:{feature_count}")
# 选取前两个特征进行标准化
selected_features = X[:, :2] # 我们通常选择前两列作为示例,对应花瓣长度和宽度
scaler = StandardScaler() # 创建标准化对象
scaled_features = scaler.fit_transform(selected_features) # 对选定的特征进行标准化
# 可视化标准化后的数据
plt.figure(figsize=(8, 6))
sns.scatterplot(x=scaled_features[:, 0], y=scaled_features[:, 1], hue=y)
plt.title("标准化后的鸢尾花特征")
plt.xlabel("标准化后的特征1")
plt.ylabel("标准化后的特征2")
plt.legend(title="类别")
plt.show()
阅读全文