python爬取豆瓣读书Top250
时间: 2023-09-27 19:11:38 浏览: 119
python爬取豆瓣top250
5星 · 资源好评率100%
好的,以下是一个爬取豆瓣读书Top250的Python代码示例:
```
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/top250?start='
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
book_list = []
for i in range(0, 10):
start_num = str(i * 25)
req = requests.get(url + start_num, headers=headers)
soup = BeautifulSoup(req.text, 'html.parser')
books = soup.find_all('div', {'class': 'pl2'})
for book in books:
book_name = book.find('a')['title']
book_url = book.find('a')['href']
book_list.append(book_name)
print(book_list)
```
首先,我们定义了URL和headers。我们将使用requests库来获取网页内容,并使用BeautifulSoup库来解析HTML。然后我们定义了一个空列表,用于存储书籍名称。
接下来,我们循环遍历Top250的所有页面,每页显示25本书。我们使用requests库来获取页面内容,并使用BeautifulSoup库将其解析为HTML。
我们找到了每个书籍的div列表项,并从中提取书名和URL。我们将书名添加到我们之前定义的空列表中。
最后,我们输出整个书籍列表。
希望这可以帮助到你。
阅读全文