利用Python将Iris数据集输出得到条形图，不同特征用不同的颜色区分，对每个数据集的单个特征做 min-max 归一化，以类别名称为横坐标，以各个类别的特征的平均值为纵坐标，并标注每个类别中区分最大的两个特征的取值

在Python中，我们可以使用matplotlib和pandas库来创建这样的条形图。首先，我们需要导入必要的库，读取Iris数据集（通常使用sklearn库中的load_iris函数），然后进行数据预处理，包括归一化和计算平均值。以下是实现这个过程的一个步骤： ```python # 导入所需库 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.preprocessing import MinMaxScaler # 加载Iris数据集 iris = load_iris() data = pd.DataFrame(data=np.c_[iris['data'], iris['target']], columns=iris.feature_names + ['class']) # 对特定特征进行min-max归一化 scaler = MinMaxScaler() data[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']] = scaler.fit_transform(data[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']]) # 计算每个类别的平均值 grouped_data = data.groupby('class').mean() # 创建条形图，类别名作为x轴，平均值作为y轴 plt.figure(figsize=(10,6)) for feature in grouped_data.columns[:-1]: # 不绘制类别列 x = grouped_data.index.values y = grouped_data[feature] plt.bar(x, y, label=feature, color=plt.cm.get_cmap('tab10', len(iris.target_names))([i for i in range(len(iris.target_names))])) # 使用不同的颜色 # 添加最大最小值的标注 max_values = data.groupby(['class'])[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']].max().reset_index() for i, row in max_values.iterrows(): for feature, value in zip(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'], row[-4:].tolist()): plt.annotate(f'Max {value} for {row["class"]}: {feature}', xy=(i, value), textcoords='offset points') # 设置标题、标签、图例等 plt.title("Average Feature Values of Iris Classes") plt.xlabel('Class') plt.ylabel('Normalized Value') plt.xticks(range(4), iris.target_names) plt.legend(title="Features", loc='upper right') plt.show() ```

阅读全文

利用Python将Iris数据集输出得到条形图，不同特征用不同的颜色区分，对每个数据集的单个特征做 min-max 归一化，以类别名称为横坐标，以各个类别的特征的平均值为纵坐标，并标注每个类别中区分最大的两个特征的取值

相关推荐

Python数据处理技巧：揭秘高效AI项目数据集准备术

Python数据分析：bin函数在数据处理中的实战应用

Python数据结构可视化：【实战指南】

【Python数据分析师必学】：精通Plotly图表制作技巧

【Python数据处理与可视化的桥梁】：整合pandas与Plotly图表

自动化特征工程：R语言利用randomForest进行高效特征筛选

【Python算法可视化扩展应用】

特征工程的艺术：提升随机森林性能的秘诀

随机森林模型深度评估：误差估计与特征重要性

【理论基础】：构建决策树模型的特征选择坚固基石

R语言动态图表制作：用plotly与shiny打造数据互动盛宴

数据挖掘实践：YRC1000数据记录与分析优化指南

Altair中的数据聚合与分组：挖掘数据模式的高效方法

【可解释AI视角】：深入探讨K-近邻算法的解释性问题！

高级图表定制术：Bokeh探索复杂数据视觉表现

从基础到进阶：Seaborn绘图参数详解

数据探秘：randomForest包在R语言中的案例分析大全

【数据科学加速器】：NumPy高级索引技巧，效率倍增术

【数据挖掘案例分析】：实际项目中的模型验证必知

Origin教程009所需练习数据

最新推荐

Origin教程009所需练习数据

大模型的稀疏激活方法及其高效推理应用研究：基于dReLU激活函数

STM32F103+PWM+DMA精准控制输出脉冲的数量和频率 源程序

白色大气风格的商务团队公司模板下载.zip

2023-04-06-项目笔记 - 第三百五十八阶段 - 4.4.2.356全局变量的作用域-356 -2025.12.25

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅

STM32F103+PWM+DMA精准控制输出脉冲的数量和频率源程序