Python 清除文件中的中文标点符号,只保留中文,英文,数字等字符,将结果输出到文件clean.txt中
时间: 2024-03-16 07:41:34 浏览: 350
可以使用正则表达式来实现这个功能。下面是一个 Python 代码示例:
```python
import re
# 打开原始文件和清理后的文件
with open('original.txt', 'r', encoding='utf-8') as f1, open('clean.txt', 'w', encoding='utf-8') as f2:
# 读取原始文件中的所有内容
text = f1.read()
# 使用正则表达式清除中文标点符号
cleaned_text = re.sub('[^\u4e00-\u9fa5a-zA-Z0-9\n\s]', '', text)
# 将清理后的内容写入到清理后的文件中
f2.write(cleaned_text)
```
这段代码将会打开名为 `original.txt` 的文件,将其中的中文标点符号清除,并将结果输出到名为 `clean.txt` 的文件中。你可以修改文件名和路径来适应你的需要。
相关问题
python去除中文标点符号
可以使用正则表达式来去除中文标点符号,示例代码如下:
```python
import re
text = "这是一段包含中文标点符号的文本。!?。"
clean_text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*():;《)《》“”()»〔〕[]【】〖〗_—+]", "", text)
print(clean_text)
```
输出结果为:`这是一段包含中文标点符号的文本`。
该正则表达式可以匹配中文标点符号以及常见的英文标点符号,并用空字符串替换掉。
Python移除中文标点符号
可以使用正则表达式来移除中文标点符号,代码示例如下:
```python
import re
text = "这是一段包含中文标点符号的文本。"
clean_text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*():;《》【】“”‘’]+", "", text)
print(clean_text)
```
输出结果:
```
这是一段包含中文标点符号的文本
```
其中,正则表达式 `[\s+\.\!\/_,$%^*(+\"\')+|[+——!,。?、~@#¥%……&*():;《》【】“”‘’]+` 匹配了所有中文标点符号,`re.sub()` 函数将其替换为空字符串。
阅读全文