python去除html代码
时间: 2023-07-23 13:22:42 浏览: 63
可以使用Python中的re模块来去除HTML标签。以下是一个示例代码:
```python
import re
html = "<p>This is a <strong>paragraph</strong> with <a href='https://www.google.com'>a link</a>.</p>"
clean = re.compile('<.*?>')
text = re.sub(clean, '', html)
print(text)
```
输出结果为:
```
This is a paragraph with a link.
```
其中,`html`变量存储了要去除HTML代码的字符串,`clean`变量是一个正则表达式,用于匹配所有的HTML标签,`re.sub()`方法将匹配到的所有标签替换为空字符串。
相关问题
python去除html注释
你可以使用正则表达式来去除HTML注释。以下是一个示例代码:
```python
import re
html = "<!-- This is a comment --> <p>This is some text.</p>"
# Remove HTML comments
clean_html = re.sub(r"<!--.*?-->", "", html)
print(clean_html)
# Output: " <p>This is some text.</p>"
```
该代码首先导入了Python的正则表达式模块`re`,然后使用`re.sub()`函数将HTML注释替换为空字符串。正则表达式`<!--.*?-->`会匹配任何包含在`<!--`和`-->`之间的内容,并使用空字符串进行替换。
字符串去掉HTML标签的python代码
可以使用正则表达式来去掉HTML标签,示例代码如下:
```python
import re
def remove_html_tags(text):
clean = re.compile('<.*?>')
return re.sub(clean, '', text)
text_with_html = '<p>这是一段带有HTML标签的文本</p>'
text_without_html = remove_html_tags(text_with_html)
print(text_without_html) # 输出: 这是一段带有HTML标签的文本
```
阅读全文