python爬取豆瓣图书信息
时间: 2023-09-20 20:07:24 浏览: 184
以下是一份简单的Python代码,用于爬取豆瓣图书信息:
```python
import requests
from bs4 import BeautifulSoup
def get_book_info(url):
# 发送请求并解析页面
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
# 获取书名、作者、出版社、出版日期、价格、评分和评论数
book_name = soup.select_one('h1 > span').text
author = soup.select_one('.info > span:nth-child(1) > a').text
publisher = soup.select_one('.info > span:nth-child(2)').text.strip()
pub_date = soup.select_one('.info > span:nth-child(3)').text.strip()
price = soup.select_one('.info > span:nth-child(4)').text.strip()
rating = soup.select_one('.rating_num').text.strip()
comments = soup.select_one('.rating_sum > a').text.strip()
# 打印结果
print('书名:', book_name)
print('作者:', author)
print('出版社:', publisher)
print('出版日期:', pub_date)
print('价格:', price)
print('评分:', rating)
print('评论数:', comments)
if __name__ == '__main__':
url = 'https://book.douban.com/subject/1084336/'
get_book_info(url)
```
在上面的代码中,我们使用了Python中的requests库和BeautifulSoup库。requests库用于发送HTTP请求,获取网页内容,而BeautifulSoup库则用于解析HTML页面,提取我们需要的信息。
在get_book_info函数中,我们首先发送了一个HTTP GET请求,获取了豆瓣图书的页面内容。然后,我们使用BeautifulSoup库解析页面,通过CSS选择器选择需要的元素,并使用.text属性获取文本内容。
最后,我们打印了获取到的图书信息。您可以将上面的代码复制到您的Python环境中并运行,以查看结果。
阅读全文