字符串去掉HTML标签的python代码
时间: 2023-03-24 17:03:19 浏览: 76
可以使用正则表达式来去掉HTML标签,示例代码如下:
```python
import re
def remove_html_tags(text):
clean = re.compile('<.*?>')
return re.sub(clean, '', text)
text_with_html = '<p>这是一段带有HTML标签的文本</p>'
text_without_html = remove_html_tags(text_with_html)
print(text_without_html) # 输出: 这是一段带有HTML标签的文本
```
相关问题
python 去掉html 收尾空白
可以使用Python的BeautifulSoup库来去掉HTML标签,并使用strip()方法去掉字符串的收尾空白。
示例代码:
```python
from bs4 import BeautifulSoup
html = '<p> This is a paragraph. </p>'
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text().strip()
print(text)
```
输出结果:
```
This is a paragraph.
```
在上面的代码中,首先使用BeautifulSoup解析HTML字符串,然后使用get_text()方法获取纯文本,最后使用strip()方法去掉收尾空白。
去掉html中的span标签
同样地,可以使用 Python 中的正则表达式来去掉字符串中的 HTML 标签。具体而言,可以使用 re.sub() 函数,将字符串中的所有 span 标签替换为空字符串。
以下是一个示例代码:
```python
import re
html = '<html><head><title>Test</title></head><body><p>这是一个测试<span class=""test"">span标签</span></p></body></html>'
# 利用正则表达式去掉 span 标签
html_without_span = re.sub(r'<span[^>]*>', '', html)
html_without_span = re.sub(r'</span>', '', html_without_span)
print(html_without_span) # 输出结果:<html><head><title>Test</title></head><body><p>这是一个测试span标签</p></body></html>
```
在上述代码中,使用了 `<span[^>]*>` 和 `</span>` 的正则表达式,分别代表匹配以 `<span` 开头的字符(即 span 标签),以及匹配 `</span>` 字符,将其替换为空字符串。需要注意的是,这里使用了两次 re.sub() 函数,分别去掉起始标签和结束标签。