python爬虫豆瓣大作业-Python爬虫案例:抓取豆瓣编程类高评分书籍
时间: 2023-06-29 18:19:03 浏览: 166
好的,以下是抓取豆瓣编程类高评分书籍的Python代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/tag/%E7%BC%96%E7%A8%8B'
books = []
for i in range(0, 100, 20):
r = requests.get(url + '?start=' + str(i))
soup = BeautifulSoup(r.text, 'html.parser')
items = soup.find_all(class_='subject-item')
for item in items:
title = item.find(class_='info').find('a')['title']
rating = item.find(class_='rating_nums').get_text()
if float(rating) >= 8.0:
books.append(title)
for i, book in enumerate(books):
print(str(i+1) + '. ' + book)
```
这段代码会抓取豆瓣编程类标签下评分高于8.0的书籍名称,并以列表形式输出。请注意,在实际应用中需要注意合适的爬虫策略,以避免对豆瓣网站造成不必要的干扰。
相关问题
Python爬虫案例:抓取豆瓣编程类高评分书籍
好的,您的问题是关于Python爬虫的。以下是一个简单的Python爬虫案例,用于抓取豆瓣编程类高评分书籍:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/tag/%E7%BC%96%E7%A8%8B'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
book_list = soup.find_all('li', class_='subject-item')
for book in book_list:
title = book.find('div', class_='info').a.get_text().strip()
rating = book.find('span', class_='rating_nums').get_text().strip()
print(title, rating)
```
以上代码使用requests库获取网页内容,使用BeautifulSoup库解析网页内容并查找书籍信息。在此基础上,我们可以通过修改url参数来抓取不同类型的书籍。
python爬虫抓取豆瓣评论
好的,这是一个比较常见的需求,下面是一个简单的Python爬虫抓取豆瓣电影评论的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 豆瓣电影评论页面URL
url = 'https://movie.douban.com/subject/26794435/comments?start=0&limit=20&sort=new_score&status=P'
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求获取页面内容
response = requests.get(url, headers=headers)
# 解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')
# 获取评论内容
comments = soup.find_all('span', {'class': 'short'})
# 打印评论内容
for comment in comments:
print(comment.text.strip())
```
以上代码会输出豆瓣电影《摔跤吧!爸爸》的前20条评论。你可以根据自己的需求修改URL和抓取评论的数量。另外请注意不要过度频繁地爬取同一网站,遵守相关法律法规和道德规范。
阅读全文