python 爬虫返回Response [200]时,如何修改程序以爬取网页
时间: 2024-06-10 14:06:43 浏览: 102
python爬虫,爬取页面
可以使用 requests 库进行爬取,当返回 Response [200] 时,表示请求成功,可以通过 response.content 或 response.text 获取网页源代码。例如:
```
import requests
url = 'https://www.example.com'
response = requests.get(url)
if response.status_code == 200:
content = response.content # 或者 response.text
# 处理网页内容
else:
print('请求失败')
```
注意,爬虫要遵守网站的 robots.txt 规则,不要对网站进行过于频繁的访问,以免被封禁 IP 或者触发反爬虫机制。
阅读全文