python 读取文件夹所有csv,并按照属性剔除重复值,统计每个文件剩余的数目
时间: 2024-03-14 11:43:28 浏览: 88
moxing_python数据清洗_读取csv文件_数据清洗_
5星 · 资源好评率100%
好的,我可以帮你解决这个问题。首先,你需要使用 Python 的 os 模块来读取文件夹中所有的 csv 文件。然后,你可以使用 pandas 库读取每个 csv 文件,并将每个文件中的重复值删除。最后,你可以统计每个文件中剩余的数目。
以下是代码示例:
```python
import os
import pandas as pd
# 定义文件夹路径
folder_path = "/path/to/folder"
# 获取文件夹中所有的 csv 文件
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]
# 遍历每个 csv 文件
for file in csv_files:
# 读取 csv 文件
df = pd.read_csv(os.path.join(folder_path, file))
# 剔除重复值
df.drop_duplicates(subset=['属性'], inplace=True)
# 统计剩余的数目并输出
print(f"{file}: {len(df)}")
```
请将 `/path/to/folder` 替换为你的文件夹路径。此代码假设每个 csv 文件都有一个名为 “属性” 的列,你需要将其替换为你的列名。
阅读全文