如何用Python爬取数据
时间: 2024-03-11 21:49:35 浏览: 86
使用Python进行数据爬取的基本步骤如下:
1. 导入所需库,如requests、BeautifulSoup等。
2. 发送网络请求,获取网页源代码。
3. 解析网页源代码,提取所需信息。可以使用BeautifulSoup库进行HTML解析,使用正则表达式进行数据提取。
4. 存储数据,可以将数据存储到本地文件或数据库中。
以下是一个简单的示例代码,用于爬取豆瓣电影信息:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movies = []
for item in soup.find_all('div', class_='item'):
title = item.find('span', class_='title').get_text()
rating = item.find('span', class_='rating_num').get_text()
movies.append({'title': title, 'rating': rating})
for movie in movies:
print(movie['title'], movie['rating'])
```
这段代码首先发送网络请求,获取豆瓣电影Top250页面的源代码。然后使用BeautifulSoup解析HTML,提取电影名称和评分,并将提取到的信息存储到一个列表中。最后,遍历列表,输出每部电影的名称和评分。
阅读全文