python网络爬虫爬取数据
时间: 2023-09-24 07:09:06 浏览: 125
Python 是一个非常适合网络爬虫的编程语言,它提供了丰富的第三方库来帮助我们实现网络爬虫。以下是一些常用的库:
1. Requests:发送 HTTP 请求并获取响应。
2. BeautifulSoup:用于解析 HTML 和 XML 文档。
3. Scrapy:一个基于 Python 的高级网络爬虫框架,可用于从网站中提取结构化数据。
4. Selenium:用于自动化 Web 浏览器操作,可以模拟人工操作浏览器。
下面是一个简单的示例,使用 Requests 和 BeautifulSoup 爬取豆瓣电影 Top250 的电影名称和评分:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='hd')
for movie in movies:
title = movie.a.span.text.strip()
print(title)
ratings = soup.find_all('span', class_='rating_num')
for rating in ratings:
score = rating.text.strip()
print(score)
```
这段代码首先使用 Requests 库发送 HTTP 请求并获取响应,然后使用 BeautifulSoup 库解析响应的 HTML 代码。接下来,使用 find_all 方法查找电影名称和评分的标签,并打印结果。
阅读全文