编写一段python程序,题目如下:1、请下载新冠肺炎确诊病例数据:time_series_covid19_confirmed_global.csv 完成数据预处理、数据转换操作。 (1) 对数据进行缺失值处理、重复值处理,在数据预处理阶段,需要查看数据的行与列。 (2) 数据转换 对数据进行数据规范化和连续属性离散化,可以把无关的属性从数据集中删除,便于后续分析。
时间: 2024-02-19 20:01:28 浏览: 80
好的,以下是Python程序,实现了对新冠肺炎确诊病例数据的预处理和转换:
```python
import pandas as pd
import numpy as np
# 读取数据
df = pd.read_csv('time_series_covid19_confirmed_global.csv')
# 查看数据的行与列
print("数据行数:", df.shape[0])
print("数据列数:", df.shape[1])
# 处理缺失值和重复值
df.drop_duplicates(inplace=True)
df.dropna(inplace=True)
# 删除无关属性
df.drop(['Province/State', 'Lat', 'Long'], axis=1, inplace=True)
# 数据规范化
df_norm = (df - df.min()) / (df.max() - df.min())
# 连续属性离散化
bins = [-1, 0.2, 0.4, 0.6, 0.8, 1]
df_discrete = pd.cut(df_norm['3/23/20'], bins, labels=[0, 1, 2, 3, 4])
# 输出结果
print("规范化后的数据:\n", df_norm)
print("离散化后的数据:\n", df_discrete)
```
这段程序首先使用Pandas库读取了CSV文件中的数据,并使用`shape`函数查看数据的行数和列数。接着,使用`drop_duplicates`函数和`dropna`函数处理了数据中的重复值和缺失值,并使用`drop`函数删除了无关属性。然后,对数据进行了规范化和离散化操作,其中规范化使用了最小-最大规范化方法,离散化使用了Pandas库的`cut`函数。最后,输出了规范化和离散化后的数据。
阅读全文