import pandas as pd import matplotlib.pyplot as plt #数据预处理 data = pd.read_csv('icpc-full.csv') #去除多余数据 data = data.drop(['Date','Host','City','Venue','Team','Contestant 1','Contestant 2','Contestant 3','Score','Total'],axis = 1) #排名前15 data1 = data[data['Rank'] <15] #计数 good = data1['University'].value_counts().to_dict() #筛选出排名前十 top_team = good.nlargest(n=10) #将字典拆分成两个列表 names = list(top_team.keys()) counts = list(top_team.values()) #绘制 plt.bar(names, counts) #设置图形属性 plt.xlabel('Names') plt.ylabel('Counts') plt.title('Top 10 Name Counts') plt.show() #显示
时间: 2023-09-22 18:06:52 浏览: 135
这段代码是一个使用Python的Pandas和Matplotlib库进行数据处理和可视化的程序。它首先从名为'icpc-full.csv'的CSV文件中读取数据,并删除了一些不必要的数据列。然后,它筛选出排名前15的数据,并通过Pandas的value_counts()方法计数每个大学出现的次数,将结果存储在一个字典中。接下来,它选出排名前十的大学,并将它们的名称和计数值分别存储在两个列表中。最后,它使用Matplotlib的bar()方法将数据绘制成柱状图,并设置图形的属性,如X轴和Y轴的标签、标题等,最终显示图形。
相关问题
以STU为数据绘制折线图
要绘制上海交通大学队伍的排名折线图,我们需要用到 Matplotlib 库。可以将代码修改如下:
```python
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('icpc-full.csv')
# 数据预处理
data = data.drop(['Date', 'Host', 'City', 'Venue', 'Team', 'Contestant 1', 'Contestant 2', 'Contestant 3', 'Score', 'Total'], axis=1)
# 选取上海交通大学队伍的信息
stu = data[data['University'] == 'Shanghai Jiao Tong University'][['Rank', 'Year']]
# 绘制折线图
plt.plot(stu['Year'], stu['Rank'], marker='o')
plt.xlabel('Year')
plt.ylabel('Rank')
plt.title('Rank of Shanghai Jiao Tong University')
plt.show()
```
这样就可以绘制出上海交通大学队伍的排名折线图了。其中,我们使用 `plt.plot()` 函数来绘制折线图,指定 x 轴数据为年份,y 轴数据为排名,同时指定了点的样式为圆点。另外,我们还使用 `plt.xlabel()`、`plt.ylabel()` 和 `plt.title()` 函数来为图表添加轴标签和标题。最后,使用 `plt.show()` 函数来显示图表。
帮我用python分析近20年icpcWF的比赛数据
好的,我们可以使用Python中的Pandas和Matplotlib库来进行数据分析和可视化。以下是一些可能有用的步骤:
1. 首先,我们需要获取ICPC WF比赛数据。你可以从ICPC官方网站上找到历届比赛的数据集,也可以通过网络搜索找到其他来源的数据集。
2. 读取数据集并将其加载到Pandas DataFrame中。例如,如果你的数据集是以CSV格式保存的,可以使用Pandas的read_csv函数来读取数据集。
```python
import pandas as pd
df = pd.read_csv('icpc_wf_data.csv')
```
3. 探索性数据分析。我们可以使用Pandas的一些内置函数来快速了解数据集的基本信息,如数据集的维度、列名、数据类型、缺失值和基本统计信息。
```python
# 查看数据集的前5行
print(df.head())
# 获取数据集的维度
print(df.shape)
# 获取数据集的列名
print(df.columns)
# 获取数据类型
print(df.dtypes)
# 检查缺失值
print(df.isnull().sum())
# 基本统计信息
print(df.describe())
```
4. 进一步的数据清洗。在这一步,我们可以删除不需要的列、处理缺失值和异常值等。
```python
# 删除不需要的列
df.drop(['column1', 'column2'], axis=1, inplace=True)
# 处理缺失值
df.fillna(value=0, inplace=True)
# 处理异常值
df = df[df['column1'] > 0]
```
5. 数据可视化。使用Matplotlib库,我们可以绘制各种图表来探索数据集中的模式和趋势,如直方图、散点图、线图等。
```python
import matplotlib.pyplot as plt
# 绘制直方图
plt.hist(df['column1'], bins=10)
plt.xlabel('Column1')
plt.ylabel('Frequency')
plt.title('Histogram of Column1')
# 绘制散点图
plt.scatter(df['column1'], df['column2'])
plt.xlabel('Column1')
plt.ylabel('Column2')
plt.title('Scatter Plot of Column1 vs Column2')
# 绘制线图
plt.plot(df['column1'], df['column2'])
plt.xlabel('Column1')
plt.ylabel('Column2')
plt.title('Line Plot of Column1 vs Column2')
plt.show()
```
这些步骤只是数据分析和可视化的基础,具体的步骤和技术取决于你的数据集和分析目标。希望这可以给你提供一些起点,祝你好运!
阅读全文