python去除html代码
时间: 2023-07-23 18:22:42 浏览: 64
可以使用Python中的re模块来去除HTML标签。以下是一个示例代码:
```python
import re
html = "<p>This is a <strong>paragraph</strong> with <a href='https://www.google.com'>a link</a>.</p>"
clean = re.compile('<.*?>')
text = re.sub(clean, '', html)
print(text)
```
输出结果为:
```
This is a paragraph with a link.
```
其中,`html`变量存储了要去除HTML代码的字符串,`clean`变量是一个正则表达式,用于匹配所有的HTML标签,`re.sub()`方法将匹配到的所有标签替换为空字符串。
相关问题
python去除html注释
你可以使用正则表达式来去除HTML注释。以下是一个示例代码:
```python
import re
html = "<!-- This is a comment --> <p>This is some text.</p>"
# Remove HTML comments
clean_html = re.sub(r"<!--.*?-->", "", html)
print(clean_html)
# Output: " <p>This is some text.</p>"
```
该代码首先导入了Python的正则表达式模块`re`,然后使用`re.sub()`函数将HTML注释替换为空字符串。正则表达式`<!--.*?-->`会匹配任何包含在`<!--`和`-->`之间的内容,并使用空字符串进行替换。
python 去掉html 收尾空白
可以使用Python的BeautifulSoup库来去掉HTML标签,并使用strip()方法去掉字符串的收尾空白。
示例代码:
```python
from bs4 import BeautifulSoup
html = '<p> This is a paragraph. </p>'
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text().strip()
print(text)
```
输出结果:
```
This is a paragraph.
```
在上面的代码中,首先使用BeautifulSoup解析HTML字符串,然后使用get_text()方法获取纯文本,最后使用strip()方法去掉收尾空白。
阅读全文