python爬虫去标签
时间: 2023-10-08 19:13:39 浏览: 51
如果你想在 Python 中使用爬虫去掉 HTML 标签,可以使用 BeautifulSoup 库。以下是一个示例代码:
```python
from bs4 import BeautifulSoup
html = "<p>这是一段带有 <strong>标签</strong> 的文本。</p>"
soup = BeautifulSoup(html, "html.parser")
text = soup.get_text()
print(text)
```
这段代码首先使用 `BeautifulSoup` 函数将 HTML 文本转换为 BeautifulSoup 对象,然后使用 `get_text()` 方法获取文本内容,去除了所有 HTML 标签。输出结果为:
```
这是一段带有 标签 的文本。
```
你可以根据需要修改 HTML 文本和解析器类型。注意,如果 HTML 文本中包含 JavaScript 或 CSS 代码,这些代码也会被解析并返回。
相关问题
python 爬虫找标签
以下是使用Python爬虫库BeautifulSoup找标签的方法:
```python
# 导入requests模块
import requests
# 导入BeautifulSoup模块
from bs4 import BeautifulSoup
# 发送请求
url = 'http://www.example.com'
response = requests.get(url)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的a标签
a_tags = soup.find_all('a')
# 打印所有a标签的href属性
for a in a_tags:
print(a.get('href'))
```
上述代码中,我们首先使用requests模块发送请求,然后使用BeautifulSoup模块解析HTML。接着,我们使用find_all()方法找到所有的a标签,并使用get()方法获取每个a标签的href属性。
python 爬虫获取标签类名
以下是使用Python爬虫获取标签类名的示例代码:
```python
from bs4 import BeautifulSoup
import requests
# 发送请求获取HTML页面
url = 'http://example.com'
response = requests.get(url)
html = response.content
# 解析HTML页面
soup = BeautifulSoup(html, 'html.parser')
# 获取所有标签
tags = soup.find_all()
# 遍历标签并输出类名
for tag in tags:
if tag.has_attr('class'):
class_list = tag['class']
for class_name in class_list:
print(class_name)
```
该代码使用了Python的requests库发送请求获取HTML页面,然后使用BeautifulSoup库解析HTML页面。接着,使用find_all()方法获取所有标签,遍历标签并输出类名。