python爬取豆瓣图书信息
时间: 2023-09-21 16:09:56 浏览: 133
Python爬取豆瓣图书信息
以下是一个基本的Python爬取豆瓣图书信息的代码示例:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
def get_books(url):
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
books = soup.select('div#content > div > div.article > div > table > tbody > tr')
for book in books:
name = book.select('td:nth-child(2) > div.pl2 > a')[0].text.strip()
author = book.select('td:nth-child(2) > div.pl2 > p')[0].text.strip().split('/')[0]
score = book.select('td:nth-child(2) > div.star.clearfix > span.rating_nums')[0].text.strip()
print(name, author, score)
for page in range(0, 250, 25):
get_books(url + '?start=' + str(page))
```
这个代码使用requests和BeautifulSoup库来获取和解析豆瓣图书排行榜的网页,并提取书籍的名称、作者和评分信息。它通过循环遍历不同的页面来获取所有的书籍信息。你可以在代码中修改headers和url来适应你所需要爬取的页面。
阅读全文