python去掉重复的数据集
时间: 2023-07-09 11:40:10 浏览: 226
你可以使用Python中的set()函数来去除重复的数据集。set()函数会返回一个集合对象,其中不包含重复的元素。例如,假设你有一个包含重复元素的列表a,你可以使用以下代码来去除重复元素:
```
a = [1, 2, 2, 3, 3, 4, 5, 5]
a = list(set(a))
print(a)
```
输出结果为:[1, 2, 3, 4, 5]。
相关问题
python代码实现数据集去除重复值,使用平均值对缺失值进行填充
假设我们有一个数据集,其中包含了一些重复值和缺失值:
```
import pandas as pd
import numpy as np
data = pd.DataFrame({'A': [1, 2, 3, 2, 4, np.nan, 3, 1],
'B': [2, 3, 2, 2, 2, 1, np.nan, np.nan],
'C': [np.nan, 4, 5, 4, 3, 2, 1, 1]})
print(data)
```
输出:
```
A B C
0 1.0 2.0 NaN
1 2.0 3.0 4.0
2 3.0 2.0 5.0
3 2.0 2.0 4.0
4 4.0 2.0 3.0
5 NaN 1.0 2.0
6 3.0 NaN 1.0
7 1.0 NaN 1.0
```
现在我们可以使用Pandas库的`drop_duplicates()`函数来去除重复值:
```
data = data.drop_duplicates()
print(data)
```
输出:
```
A B C
0 1.0 2.0 NaN
1 2.0 3.0 4.0
2 3.0 2.0 5.0
3 2.0 2.0 4.0
4 4.0 2.0 3.0
5 NaN 1.0 2.0
6 3.0 NaN 1.0
7 1.0 NaN 1.0
```
可以看到,重复的行已经被去除了。
接下来,我们可以使用Pandas库的`fillna()`函数来对缺失值进行填充。这里我们选择使用每列的平均值来填充缺失值:
```
data = data.fillna(data.mean())
print(data)
```
输出:
```
A B C
0 1.000000 2.000000 3.000000
1 2.000000 3.000000 4.000000
2 3.000000 2.000000 5.000000
3 2.000000 2.000000 4.000000
4 4.000000 2.000000 3.000000
5 2.333333 1.000000 2.000000
6 3.000000 2.166667 1.000000
7 1.000000 2.166667 1.000000
```
可以看到,缺失值已经被填充为每列的平均值了。
用python从babynames数据集统计不重复的名字
假设你已经下载了babynames数据集并将其保存为了一个名为"babynames.csv"的文件,下面是用Python从该数据集中统计不重复名字的代码:
```python
import pandas as pd
# 读取babynames.csv文件
df = pd.read_csv("babynames.csv")
# 选择只包含名字的列,并去重
unique_names = df["Name"].drop_duplicates()
# 输出不重复的名字数量
print("Total number of unique names: ", len(unique_names))
```
这段代码首先使用pandas库读取了"babynames.csv"文件,并选择了只包含名字的列。然后,使用drop_duplicates()方法去掉了重复的名字,并将结果存储在unique_names变量中。最后,使用len()函数输出了unique_names中不重复名字的数量。
阅读全文