pycharm抓取图书网站
时间: 2023-08-07 07:11:17 浏览: 100
Python 爬虫源码,抓取豆瓣网图书信息
5星 · 资源好评率100%
抓取图书网站的数据与抓取其他网站数据的方法大致相同。以下是一个简单的示例代码:
``` python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/subject/30293801/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 打印书籍信息
print(soup.h1.text) # 标题
print(soup.find('span', {'class': 'rating_num'}).text) # 评分
print(soup.find('span', {'class': 'pl'}).text) # 评价人数
print(soup.find('span', {'class': 'inq'}).text) # 引言
# 打印书籍简介
intro = soup.find('div', {'class': 'intro'}).text.strip()
print(intro)
```
在这个示例中,我们抓取了豆瓣图书网站上《人性的优点》这本书的信息,包括书名、评分、评价人数、引言和书籍简介。你可以根据自己需要抓取其他图书网站的数据。不过需要注意的是,有些网站可能会对爬虫进行限制或反爬虫处理。
阅读全文