爬虫爬取豆瓣图书top250代码
时间: 2024-09-03 15:02:56 浏览: 105
编写爬虫抓取豆瓣图书Top250的代码通常涉及到Python的网络请求库,如`requests`、`BeautifulSoup`或更现代的`Scrapy`框架。以下是一个简单的示例,展示如何使用`requests`和`beautifulsoup4`库来获取数据:
```python
import requests
from bs4 import BeautifulSoup
def get_douban_books():
base_url = 'https://book.douban.com/top250'
# 发送GET请求
response = requests.get(base_url)
# 检查请求是否成功
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'lxml') # 解析HTML内容
# 找到书籍列表元素
books_list = soup.find('ol', class_='grid_view')
# 提取每本书的信息,这里仅提取书名和评分
book_items = books_list.find_all('li', class_='item')
for item in book_items:
title = item.h2.a.text.strip()
rating = float(item.find('span', class_='rating_num').text)
print(f"书名: {title}, 评分: {rating}")
else:
print("请求失败")
get_douban_books()
```
这个脚本会打印出豆瓣图书Top250的一些基本信息,包括书名和评分。注意实际运行时,由于网站可能会有反爬虫策略或动态加载内容,你可能需要处理登录、cookies、延迟访问等问题。
阅读全文