pandas库统计某一列重复值
时间: 2023-10-18 10:08:45 浏览: 52
可以使用pandas库中的value_counts()函数来统计某一列的重复值。
例如,假设有一个名为df的DataFrame,其中包含一列名为“color”的颜色名称。要统计每种颜色出现的次数,可以使用以下代码:
```
counts = df['color'].value_counts()
print(counts)
```
该代码将输出每种颜色出现的次数,以及它们在数据中的百分比。例如,输出可能如下所示:
```
red 5
green 3
blue 2
yellow 1
Name: color, dtype: int64
```
这表示红色出现了5次,绿色出现了3次,蓝色出现了2次,黄色出现了1次。
相关问题
pandas库查看某一列是否用重复值,有多少
个重复值
可以使用pandas库的duplicated()和sum()方法来查看某一列是否有重复值,并统计重复值的数量。
示例代码如下:
```python
import pandas as pd
# 创建一个DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'B': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'],
'C': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]})
# 查看B列是否有重复值
print(df['B'].duplicated())
# 统计B列中重复值的数量
print(df['B'].duplicated().sum())
```
输出结果如下:
```
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
Name: B, dtype: bool
0
```
可以看到,B列中没有重复值,重复值的数量为0。
pandas dataframe 统计一列中各个值出现的次数
可以使用`value_counts()`方法来统计一列中各个值出现的次数,示例如下:
```python
import pandas as pd
# 创建一个包含重复值的DataFrame
df = pd.DataFrame({'fruit': ['apple', 'banana', 'apple', 'orange', 'banana', 'banana']})
# 统计'fruit'列中各个值出现的次数
counts = df['fruit'].value_counts()
print(counts)
```
输出结果为:
```
banana 3
apple 2
orange 1
Name: fruit, dtype: int64
```
其中,索引为各个出现过的值,值为出现的次数。