写一个爬取https://search.douban.com/book/subject_search?search_text=%E4%B8%89%E5%B2%9B%E7%94%B1%E7%BA%AA%E5%A4%AB&cat=1001的代码
时间: 2023-12-25 10:03:26 浏览: 71
一个爬虫代码
5星 · 资源好评率100%
好的,以下是爬取豆瓣图书搜索页面的Python代码:
```python
import requests
from bs4 import BeautifulSoup
url = "https://search.douban.com/book/subject_search?search_text=%E4%B8%89%E5%B2%9B%E7%94%B1%E7%BA%AA%E5%A4%AB&cat=1001"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all(class_="item-root")
for item in items:
title = item.find(class_="title-text").text.strip()
author = item.find(class_="author").text.strip()
rating = item.find(class_="rating_nums").text.strip()
print(title, author, rating)
```
这份代码使用了Python的requests库来发送HTTP请求,并使用了BeautifulSoup库来解析HTML页面。我们首先发送一个GET请求到豆瓣图书搜索页面,然后使用BeautifulSoup库解析得到的页面内容。接下来,我们使用find_all方法查找所有class属性为"item-root"的元素,然后遍历每个元素,从中提取出书名、作者和评分信息。最后将这些信息打印出来。
阅读全文