抓取豆瓣读书Top250并以列表形式返回
时间: 2023-07-11 17:13:27 浏览: 45
好的,以下是抓取豆瓣读书Top250并以列表形式返回的Python代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/top250?start='
books = []
for i in range(0, 250, 25):
r = requests.get(url + str(i))
soup = BeautifulSoup(r.text, 'html.parser')
items = soup.find_all(class_='pl2')
for item in items:
book = item.find('a')['title']
books.append(book)
return books
```
这段代码会抓取豆瓣读书Top250的书籍名称,并以列表形式返回。请注意,豆瓣网站可能会对爬虫进行限制,所以在实际应用中需要注意合适的爬虫策略。
相关问题
抓取豆瓣读书Top250,并以列表形式打印
好的,以下是抓取豆瓣读书Top250的Python代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/top250?start='
books = []
for i in range(0, 250, 25):
r = requests.get(url + str(i))
soup = BeautifulSoup(r.text, 'html.parser')
items = soup.find_all(class_='pl2')
for item in items:
book = item.find('a')['title']
books.append(book)
for i, book in enumerate(books):
print(str(i+1) + '. ' + book)
```
这段代码会抓取豆瓣读书Top250的书籍名称,并以列表形式输出。请注意,豆瓣网站可能会对爬虫进行限制,所以在实际应用中需要注意合适的爬虫策略。
抓取解析豆瓣读书Top250网页并以列表形式用逗号分隔返回
好的,以下是抓取并解析豆瓣读书Top250网页,并以列表形式用逗号分隔返回的Python代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/top250?start='
books = []
for i in range(0, 250, 25):
r = requests.get(url + str(i))
soup = BeautifulSoup(r.text, 'html.parser')
items = soup.find_all(class_='pl2')
for item in items:
title = item.find('a')['title']
link = item.find('a')['href']
books.append(title + ',' + link)
result = '\n'.join(books)
print(result)
```
这段代码会抓取豆瓣读书Top250的书籍名称和链接,并将结果以字符串形式返回,每个结果之间用逗号分隔。请注意,在实际应用中需要注意合适的爬虫策略,以避免对豆瓣网站造成不必要的干扰。