在文件夹中实现文本去标签
时间: 2024-05-04 11:21:34 浏览: 35
python 递归获取子文件夹下的文件名 和文件类别标签
文本去标签可以使用正则表达式来实现。具体步骤如下:
1. 读取文本文件内容。
2. 使用正则表达式去掉文本中的标签。
3. 将处理后的文本保存到新的文件中。
以下是一个示例 Python 代码:
```python
import re
# 读取文件内容
with open('input.txt', 'r') as f:
content = f.read()
# 去掉标签
pattern = re.compile(r'<.*?>')
content = re.sub(pattern, '', content)
# 保存处理后的文本到新文件
with open('output.txt', 'w') as f:
f.write(content)
```
在这个示例中,我们首先使用 `open` 函数读取了名为 `input.txt` 的文件的内容,并将其存储在 `content` 变量中。然后,我们使用正则表达式模块 `re` 创建了一个模式对象,用于匹配所有的标签。接着,我们使用 `re.sub` 函数将文本中的所有标签替换成空字符串,最终得到处理后的文本。最后,我们使用 `open` 函数创建一个新的文件 `output.txt`,并将处理后的文本写入该文件中。
阅读全文