python爬虫去标签
时间: 2023-10-08 17:13:39 浏览: 89
python去除所有html标签的方法
如果你想在 Python 中使用爬虫去掉 HTML 标签,可以使用 BeautifulSoup 库。以下是一个示例代码:
```python
from bs4 import BeautifulSoup
html = "<p>这是一段带有 <strong>标签</strong> 的文本。</p>"
soup = BeautifulSoup(html, "html.parser")
text = soup.get_text()
print(text)
```
这段代码首先使用 `BeautifulSoup` 函数将 HTML 文本转换为 BeautifulSoup 对象,然后使用 `get_text()` 方法获取文本内容,去除了所有 HTML 标签。输出结果为:
```
这是一段带有 标签 的文本。
```
你可以根据需要修改 HTML 文本和解析器类型。注意,如果 HTML 文本中包含 JavaScript 或 CSS 代码,这些代码也会被解析并返回。
阅读全文