在文件夹中实现文本去标签
时间: 2024-05-15 18:13:10 浏览: 37
python 递归获取子文件夹下的文件名 和文件类别标签
文本去标签是指将文本中的HTML或XML标签去掉,只保留文本内容。可以使用Python的正则表达式来实现。
下面是一个简单的Python代码示例:
```python
import re
def remove_tags(text):
# 定义正则表达式
tag_re = re.compile(r'<[^>]+>')
# 使用正则表达式去掉标签
text = tag_re.sub('', text)
return text
```
这个函数接受一个文本字符串作为输入,然后使用正则表达式去掉HTML或XML标签,并返回处理后的文本字符串。
可以将这个函数保存为一个独立的Python文件,例如"remove_tags.py",然后在需要使用的地方导入它并调用即可:
```python
from remove_tags import remove_tags
text = '<p>Hello, <strong>world!</strong></p>'
text = remove_tags(text)
print(text) # 输出: "Hello, world!"
```
需要注意的是,这个方法只能去掉HTML或XML标签,对于其他类型的标记语言可能不适用。
阅读全文