读取软科排行榜数据集中各大学的分数(已保存为csv格式),并对其进行排序、去重,并求出和、 累积和、均值、标准差、方差、最小值、最大值。用PYthon实现
时间: 2023-10-20 09:24:31 浏览: 36
首先,我们需要导入相关的库,如pandas和numpy。然后,我们可以使用pandas读取csv文件中的数据,并对其进行排序和去重。接下来,我们可以使用numpy计算所需的统计数据。
以下是代码实现:
```python
import pandas as pd
import numpy as np
# 读取数据集
df = pd.read_csv('rank.csv')
# 排序和去重
df = df.sort_values(by='score', ascending=False)
df = df.drop_duplicates(subset=['university'])
# 计算统计数据
total = df['score'].sum()
cumulative_sum = df['score'].cumsum()
mean = df['score'].mean()
std = df['score'].std()
variance = df['score'].var()
min_value = df['score'].min()
max_value = df['score'].max()
# 输出结果
print('Total:', total)
print('Cumulative Sum:', cumulative_sum.tolist())
print('Mean:', mean)
print('Standard Deviation:', std)
print('Variance:', variance)
print('Minimum Value:', min_value)
print('Maximum Value:', max_value)
```
需要注意的是,在计算累积和时,我们需要使用numpy中的cumsum函数,并将其转换为列表格式。