读取iris.csv文件中鸢尾花的数据,并对花瓣长度(Petal.Length)进行排序、去重,并求出和、均值、标准差、方差、最小值和最大值。 1. 读取数据 2. 数据清理:去掉编号 3. 数据统计
时间: 2024-10-18 18:05:21 浏览: 14
首先,我们需要使用Python的数据分析库pandas来完成这个任务。假设`iris.csv`是一个CSV文件,包含鸢尾花的数据。
```python
import pandas as pd
# 1. 读取数据
data = pd.read_csv('iris.csv')
# 确保"Id"列不是我们要处理的主要数据,所以先删除它
data = data.drop('Id', axis=1) # axis=1表示按列操作
# 2. 数据清理:去掉编号
data = data.drop_duplicates(subset='Petal.Length') # 使用Petal.Length列去重
# 对花瓣长度进行排序
sorted_data = data.sort_values('Petal.Length')
# 3. 数据统计
stats = {
'sum': sorted_data['Petal.Length'].sum(), # 和
'mean': sorted_data['Petal.Length'].mean(), # 均值
'std': sorted_data['Petal.Length'].std(), # 标准差
'variance': sorted_data['Petal.Length'].var(), # 方差
'min': sorted_data['Petal.Length'].min(), # 最小值
'max': sorted_data['Petal.Length'].max() # 最大值
}
print("统计数据:")
for key, value in stats.items():
print(f"{key}: {value}")
```
在这个例子中,我们首先加载了数据,然后删除了'Id'列,接着通过`drop_duplicates()`函数去除了Petal.Length列的重复值,然后按照Petal.Length列进行了排序。最后,我们计算并打印了Petal.Length的统计量。
阅读全文