python统计表格某一列中重复值并保留重复值大于100的数据
时间: 2024-05-07 11:18:34 浏览: 132
Pandas-获取列数据-python数据分析与自然语言处理
可以使用pandas库来完成这个任务。
首先,读取表格数据到 pandas 的 DataFrame 中,例如表格文件名为 data.xlsx,可以使用以下代码:
```python
import pandas as pd
df = pd.read_excel('data.xlsx')
```
然后,选择需要统计的列,假设列名为 "column_name",可以使用以下代码:
```python
counts = df['column_name'].value_counts()
```
这会返回一个 pandas Series 对象,其中包含每个值的计数。现在,我们可以使用以下代码来过滤掉计数小于 100 的值:
```python
result = counts[counts >= 100]
```
这将返回一个包含重复值大于等于 100 的值的 Series 对象。
最后,可以将结果保存到另一个表格文件中,例如 result.xlsx,可以使用以下代码:
```python
result.to_excel('result.xlsx')
```
完整代码如下:
```python
import pandas as pd
df = pd.read_excel('data.xlsx')
counts = df['column_name'].value_counts()
result = counts[counts >= 100]
result.to_excel('result.xlsx')
```
阅读全文