python 爬虫获取标签类名
时间: 2023-12-09 19:37:05 浏览: 116
以下是使用Python爬虫获取标签类名的示例代码:
```python
from bs4 import BeautifulSoup
import requests
# 发送请求获取HTML页面
url = 'http://example.com'
response = requests.get(url)
html = response.content
# 解析HTML页面
soup = BeautifulSoup(html, 'html.parser')
# 获取所有标签
tags = soup.find_all()
# 遍历标签并输出类名
for tag in tags:
if tag.has_attr('class'):
class_list = tag['class']
for class_name in class_list:
print(class_name)
```
该代码使用了Python的requests库发送请求获取HTML页面,然后使用BeautifulSoup库解析HTML页面。接着,使用find_all()方法获取所有标签,遍历标签并输出类名。
相关问题
python 爬虫获取标签内容
要获取网页中的标签内容,可以使用 Python 的 requests 库和 BeautifulSoup 库。
首先,使用 requests 库发送 HTTP 请求获取网页的 HTML 内容,例如:
```python
import requests
url = 'https://example.com'
response = requests.get(url)
html_content = response.content
```
然后,使用 BeautifulSoup 库解析 HTML 内容,并使用标签名或 CSS 类名等方式获取标签内容,例如:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
tag_content = soup.find('tag_name').text
class_content = soup.find(class_='class_name').text
```
其中,`find()` 方法用于查找单个标签,`text` 属性用于获取标签的文本内容。你可以根据网页的具体情况,使用不同的查找方式来获取标签内容。
用python爬虫获取豆瓣评论
您可以使用Python的requests库和BeautifulSoup库来爬取豆瓣评论。以下是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
def crawl_comments(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
comments = soup.find_all('span', class_='short')
for comment in comments:
print(comment.text)
url = 'https://movie.douban.com/subject/27619748/comments?status=P'
crawl_comments(url)
```
这段代码使用requests库发送GET请求,然后使用BeautifulSoup解析HTML页面。通过查看豆瓣电影评论页面的HTML结构,可以找到评论内容所在的标签和类名(这里使用的是`<span class="short">`),然后通过`find_all`方法找到所有评论的标签,并逐个打印出来。
请注意,为了模拟浏览器行为,我们在headers中设置了User-Agent。另外,豆瓣的网页结构可能会有变化,所以在实际使用时可能需要根据实际情况进行调整。
阅读全文