首页python爬取豆瓣图书

python爬取豆瓣图书

时间: 2023-09-23 10:13:33 浏览: 35

好的，以下给出一个简单的例子，使用Python爬取豆瓣图书： ```python import requests from bs4 import BeautifulSoup # 目标网址 url = 'https://book.douban.com/top250' # 请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 发起请求 response = requests.get(url, headers=headers) # 解析HTML soup = BeautifulSoup(response.text, 'html.parser') book_list = soup.find_all('div', class_='pl2') # 遍历书籍列表 for book in book_list: book_name = book.find('a')['title'] # 书名 book_url = book.find('a')['href'] # 书籍详情页链接 book_author = book.find('span', class_='pl').string.strip() # 作者 book_rating = book.find('span', class_='rating_nums').string.strip() # 评分 book_intro = book.find('p', class_='quote').string.strip() # 简介 print('书名：', book_name) print('链接：', book_url) print('作者：', book_author) print('评分：', book_rating) print('简介：', book_intro) print('---------------------------------------') ``` 这个例子中，我们使用requests库发起HTTP请求，并使用BeautifulSoup库解析HTML，找到页面中所有书籍的信息，输出到控制台上。这是一个简单的例子，如果需要更深入的了解，还需要考虑反爬虫策略、页面结构变化等问题。