python爬取豆瓣图书信息
时间: 2023-11-08 18:57:44 浏览: 109
以下是一个简单的Python爬取豆瓣图书信息的示例:
``` python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
book_list = soup.find_all('div', class_='pl2')
for book in book_list:
book_name = book.a['title']
book_url = book.a['href']
author_info = book.p.get_text()
print(book_name, book_url, author_info)
```
首先,我们导入了必要的包:requests和BeautifulSoup。然后,我们定义了要爬取的URL和一个User-Agent头,用于模拟浏览器访问。接着,我们使用requests库向URL发出GET请求,并将响应对象传递给BeautifulSoup对象进行解析。我们使用class为“pl2”的div元素来获取每本书的相关信息。对于每本书,我们提取标题、URL和作者信息,并打印到控制台上。
需要注意的是,由于豆瓣图书网页源代码中含有大量JavaScript代码,因此我们需要使用Selenium等工具来模拟JavaScript的执行,以便获取完整的页面内容。
阅读全文