Python读取一个文件夹里所有的CSV文件并去除所有CSV文件中的中文,用OS模块
时间: 2024-10-15 17:30:18 浏览: 33
merge_csv:将文件夹中的所有 CSV 文件合并为一个的 python 脚本
Python中可以使用os模块配合pandas库来遍历文件夹里的CSV文件,并使用openpyxl或chardet等工具处理中文字符。以下是简单的步骤:
首先,你需要导入所需的库:
```python
import os
import pandas as pd
import chardet
```
然后创建一个函数,用于检查和处理CSV文件:
```python
def process_csv_in_folder(folder_path):
for filename in os.listdir(folder_path):
if filename.endswith(".csv"): # 检查是否为CSV文件
file_path = os.path.join(folder_path, filename)
with open(file_path, 'rb') as f:
data = f.read() # 读取文件内容
detected_encoding = chardet.detect(data) # 使用chardet检测编码
try:
if detected_encoding['encoding'] == 'GB2312' or detected_encoding['encoding'] == 'GBK': # 如果是常见的中文编码
with open(file_path, 'r', encoding=detected_encoding['encoding']) as f:
df = pd.read_csv(f)
# 删除含有中文的列,这里假设所有包含中文的列名都包含汉字
df = df.drop(df.columns[df.columns.str.contains('中文')], axis=1)
# 或者替换为其他处理方式,比如清空中文列
df = df.fillna('')
df.to_csv(file_path, index=False) # 保存处理后的文件
else:
print(f"Skipped file {file_path} due to unrecognized encoding: {detected_encoding['encoding']}")
except Exception as e:
print(f"Error processing file {file_path}: {e}")
# 调用函数,传入需要处理的文件夹路径
process_csv_in_folder('/path/to/your/folder')
```
阅读全文