python爬虫第三关:爬取菜谱网站/爬取豆瓣top250
时间: 2023-10-10 09:15:16 浏览: 121
python爬取豆瓣top250
5星 · 资源好评率100%
你好!对于爬取菜谱网站,你可以使用 Python 的 requests 和 BeautifulSoup 库来实现。首先,你需要发送请求获取网页的 HTML 内容,然后使用 BeautifulSoup 解析该内容,提取出你所需的菜谱信息。
以下是一个简单的示例代码,以爬取美食天下网站(www.meishij.net)为例:
```python
import requests
from bs4 import BeautifulSoup
def get_recipe(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 在这里根据网页结构提取菜谱信息
# 例如,获取菜名和食材
recipe_name = soup.find('h1', class_='recipe-title').text.strip()
ingredients = soup.find('div', class_='particulars').ul.find_all('li')
ingredient_list = []
for ingredient in ingredients:
ingredient_list.append(ingredient.text.strip())
# 输出菜谱名称和食材列表
print("菜谱名称:", recipe_name)
print("食材列表:", ingredient_list)
# 菜谱详情页的URL
recipe_url = 'https://www.meishij.net/1'
get_recipe(recipe_url)
```
对于爬取豆瓣 Top250 电影榜单,同样可以使用 requests 和 BeautifulSoup 库来实现。以下是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
def get_top250():
url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movie_list = soup.find('ol', class_='grid_view').find_all('li')
for movie in movie_list:
# 获取电影排名、名称和评分
rank = movie.find('em').text
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
# 输出电影信息
print("排名:", rank)
print("名称:", title)
print("评分:", rating)
print()
get_top250()
```
以上代码只是一个简单示例,你可以根据具体的网页结构和需求进行相应的修改和扩展。希望能对你有所帮助!
阅读全文