python dataframe 一列包含有很多相通数据和不同数据混合,想统计相同有多少个,不同有多少种,怎么实现
时间: 2024-11-25 08:16:51 浏览: 4
使用Python向DataFrame中指定位置添加一列或多列的方法
4星 · 用户满意度95%
在Python的pandas DataFrame中,如果你有一列数据,其中既有大量重复值也有不同值,并希望分别统计相同的数据出现次数和独特数据的数量,你可以按照以下步骤操作:
1. 首先,你需要对这一列进行去重并计算每个唯一值的出现次数,这可以使用`value_counts()`函数完成。例如,假设列名为`data_column`:
```python
value_counts = df['data_column'].value_counts()
```
2. 这将返回一个Series,其中索引是唯一的值,值是它们在原列中出现的次数。你可以获取总共有多少个不同值(唯一计数):
```python
unique_values_count = len(value_counts)
```
3. 对于重复值,你可以减去唯一值的数量,得到重复值的数量:
```python
duplicate_values_count = df['data_column'].count() - unique_values_count
```
4. 如果你想把结果整合到一个新的DataFrame或者字典中以便更清晰地展示,可以这样做:
```python
result = pd.DataFrame({'unique': [unique_values_count], 'duplicates': [duplicate_values_count]})
```
现在,`result` DataFrame会包含相同和不同的统计数据。
阅读全文