python 爬虫爬多个网页
时间: 2023-12-17 18:59:39 浏览: 300
python爬虫,爬取页面
要使用 Python 进行爬取多个网页,你可以使用 requests 和 beautifulsoup 库来发送 HTTP 请求并解析 HTML。以下是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 定义要爬取的网页列表
urls = ['https://example.com/page1', 'https://example.com/page2', 'https://example.com/page3']
for url in urls:
# 发送请求并获取网页内容
response = requests.get(url)
html = response.text
# 使用 BeautifulSoup 解析网页
soup = BeautifulSoup(html, 'html.parser')
# 在这里进行你想要的数据提取或其他处理操作
# 例如,查找特定标签或类名的元素
data = soup.find_all('a', class_='link')
# 打印或保存数据
for item in data:
print(item.text)
```
这个示例代码会依次访问 `urls` 列表中的每个网址,发送 HTTP 请求并获取对应的网页内容。然后,你可以使用 BeautifulSoup 进行解析和数据提取操作。在此示例中,我们查找所有带有 `class="link"` 的 `<a>` 标签,并打印它们的文本内容。
你可以根据自己的需求修改代码来适应不同的网页爬取任务。记得要遵守网站的爬取规则,并使用适当的延时等策略以避免给服务器带来过大的负载。
阅读全文