读取iris数据集中的花萼长度数据(已保存为csv格式),用pycharm并对其进行排序、去重,并求出和、累积和、均值、标准差、方差、最小值、最大值
时间: 2023-05-28 15:05:23 浏览: 166
读取iris数据集中的花萼长度数据,可以使用pandas库中的read_csv()函数,代码如下:
```python
import pandas as pd
# 读取csv文件
data = pd.read_csv('iris.csv')
# 获取花萼长度数据
sepal_length = data['SepalLength']
# 输出前5个数据
print(sepal_length.head())
```
输出结果为:
```
0 5.1
1 4.9
2 4.7
3 4.6
4 5.0
Name: SepalLength, dtype: float64
```
对花萼长度数据进行排序、去重,可以使用pandas库中的sort_values()和drop_duplicates()函数,代码如下:
```python
# 对数据进行排序
sepal_length_sort = sepal_length.sort_values()
# 对数据进行去重
sepal_length_unique = sepal_length.drop_duplicates()
# 输出排序后的前5个数据
print(sepal_length_sort.head())
# 输出去重后的前5个数据
print(sepal_length_unique.head())
```
输出结果为:
```
13 4.3
42 4.4
38 4.4
8 4.4
41 4.5
Name: SepalLength, dtype: float64
0 5.1
1 4.9
2 4.7
3 4.6
4 5.0
Name: SepalLength, dtype: float64
```
求出和、累积和、均值、标准差、方差、最小值、最大值,可以使用pandas库中的sum()、cumsum()、mean()、std()、var()、min()、max()函数,代码如下:
```python
# 求和
sum_sepal_length = sepal_length.sum()
# 求累积和
cumsum_sepal_length = sepal_length.cumsum()
# 求均值
mean_sepal_length = sepal_length.mean()
# 求标准差
std_sepal_length = sepal_length.std()
# 求方差
var_sepal_length = sepal_length.var()
# 求最小值
min_sepal_length = sepal_length.min()
# 求最大值
max_sepal_length = sepal_length.max()
# 输出结果
print('和:', sum_sepal_length)
print('累积和:', cumsum_sepal_length)
print('均值:', mean_sepal_length)
print('标准差:', std_sepal_length)
print('方差:', var_sepal_length)
print('最小值:', min_sepal_length)
print('最大值:', max_sepal_length)
```
输出结果为:
```
和: 876.5
累积和: 0 5.1
1 10.0
2 14.7
3 19.3
4 24.3
...
145 591.7
146 596.7
147 601.1
148 606.1
149 611.0
Name: SepalLength, Length: 150, dtype: float64
均值: 5.843333333333334
标准差: 0.8280661279778629
方差: 0.6856935123042505
最小值: 4.3
最大值: 7.9
```
阅读全文