python爬取豆瓣图书
时间: 2023-09-23 10:13:33 浏览: 35
好的,以下给出一个简单的例子,使用Python爬取豆瓣图书:
```python
import requests
from bs4 import BeautifulSoup
# 目标网址
url = 'https://book.douban.com/top250'
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发起请求
response = requests.get(url, headers=headers)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
book_list = soup.find_all('div', class_='pl2')
# 遍历书籍列表
for book in book_list:
book_name = book.find('a')['title'] # 书名
book_url = book.find('a')['href'] # 书籍详情页链接
book_author = book.find('span', class_='pl').string.strip() # 作者
book_rating = book.find('span', class_='rating_nums').string.strip() # 评分
book_intro = book.find('p', class_='quote').string.strip() # 简介
print('书名:', book_name)
print('链接:', book_url)
print('作者:', book_author)
print('评分:', book_rating)
print('简介:', book_intro)
print('---------------------------------------')
```
这个例子中,我们使用requests库发起HTTP请求,并使用BeautifulSoup库解析HTML,找到页面中所有书籍的信息,输出到控制台上。这是一个简单的例子,如果需要更深入的了解,还需要考虑反爬虫策略、页面结构变化等问题。