python 去掉html 收尾空白
时间: 2023-10-26 17:08:37 浏览: 23
可以使用Python的BeautifulSoup库来去掉HTML标签,并使用strip()方法去掉字符串的收尾空白。
示例代码:
```python
from bs4 import BeautifulSoup
html = '<p> This is a paragraph. </p>'
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text().strip()
print(text)
```
输出结果:
```
This is a paragraph.
```
在上面的代码中,首先使用BeautifulSoup解析HTML字符串,然后使用get_text()方法获取纯文本,最后使用strip()方法去掉收尾空白。
相关问题
去掉html 收尾空白
以下是Python的示例代码,它可以去除HTML标记的开头和结尾的空白:
```python
import re
def strip_html_tags(text):
"""
去除HTML标记的开头和结尾的空白
"""
# 去除HTML标记
text = re.sub('<[^<]+?>', '', text)
# 去除开头和结尾的空白
text = text.strip()
return text
```
这个函数使用正则表达式`<[^<]+?>`来匹配HTML标记,并使用`re.sub()`函数将它们替换为空字符串。然后,使用`strip()`函数去除开头和结尾的空白。
正则去掉html 收尾空白
可以使用以下正则表达式来去掉HTML标签和收尾空白:
```python
import re
html = "<p>这是一段 <b>HTML</b> 文本。</p> "
cleaned = re.sub(r'<[^>]*>', '', html).strip()
print(cleaned)
```
输出:
```
这是一段 HTML 文本。
```
解释:
- `<[^>]*>`:匹配任何以 `<` 开始、以 `>` 结束的字符序列,这里表示匹配所有HTML标签。
- `re.sub()` 函数用来替换匹配的文本,第一个参数是正则表达式,第二个参数是替换的文本(这里是空字符串)。
- `strip()` 函数用来去掉字符串两端的空白。