编写函数remove_tag(html),用于使用正则表达式将html中的所有标签去除,保留并返回剩余的文本内容 例如: <a href="#">链接标题</a><div>另外的文本</div>,调用该函数后,将移除所有的 <a></a>和<div></div>的标签部分,只留下不含标签的纯文本链接标题另外的文本 输出描述 由系统自动调用remove_tag()函数,输出函数的执行结果。
时间: 2023-08-14 08:35:56 浏览: 96
正则表达式清除html标签
5星 · 资源好评率100%
好的,以下是 Python 代码实现,使用了正则表达式去除 HTML 标签:
```python
import re
def remove_tag(html):
# 使用正则表达式去除 HTML 标签
pattern = re.compile(r'<[^>]+>', re.S)
result = pattern.sub('', html)
return result
# 调用示例
html = '<a href="#">链接标题</a><div>另外的文本</div>'
text = remove_tag(html)
print(text) # 输出:链接标题另外的文本
```
该函数的实现思路是使用正则表达式匹配 HTML 标签,然后将其替换为空字符串。这里使用 `re.compile()` 函数编译正则表达式,并使用 `re.S` 标志让 `.` 匹配任意字符,包括换行符。然后使用 `pattern.sub()` 方法将匹配到的标签替换为空字符串,得到去除标签后的纯文本。
阅读全文