python 批量过滤txt中的非中文字符
时间: 2023-10-23 19:33:05 浏览: 21
可以使用正则表达式来过滤非中文字符。以下是一个简单的 Python 示例代码:
```python
import re
def filter_chinese(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
text = f.read()
pattern = re.compile(r'[^\u4e00-\u9fa5]+')
filtered_text = re.sub(pattern, '', text)
with open(file_path, 'w', encoding='utf-8') as f:
f.write(filtered_text)
```
该函数接受一个文件路径作为参数,将文件中的非中文字符过滤掉,并将结果重新写回到文件中。调用该函数即可完成批量过滤。
相关问题
Python txt文件中删除非中文字符
可以使用正则表达式来删除非中文字符。以下是一个示例代码:
```python
import re
# 打开文件并读取内容
with open('filename.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 使用正则表达式删除非中文字符
content = re.sub('[^\u4e00-\u9fa5]+', '', content)
# 将处理后的内容写回文件
with open('filename.txt', 'w', encoding='utf-8') as f:
f.write(content)
```
这段代码首先打开指定的文件并读取其中的内容,然后使用正则表达式 `[^\u4e00-\u9fa5]+` 删除非中文字符,最后将处理后的内容写回文件中。请将 `filename.txt` 替换为你要处理的文件名。
python实现文件过滤非中文字符
可以使用正则表达式来实现。以下是一个简单的 Python 函数,可以从文件中读取内容,过滤非中文字符,并返回过滤后的结果:
```python
import re
def filter_chinese(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
pattern = re.compile(r'[^\u4e00-\u9fa5]') # 匹配非中文字符
filtered_content = re.sub(pattern, '', content) # 过滤非中文字符
return filtered_content
```
其中,`file_path` 参数是待处理文件的路径,函数将返回过滤后的中文字符串。