python爬虫入门爬取图片
时间: 2023-10-03 17:03:06 浏览: 131
python爬虫学习系列一源码.zip
Python爬虫是一种可以自动从网页上获取数据的程序。以下是使用Python编写简单的爬虫程序来爬取图片的基本过程:
1. 准备工作:导入所需的库,例如requests和re。设置请求头,以模拟浏览器发送请求。创建一个文件夹来存储下载的图片。
2. 发送请求并获取响应:使用requests库发送GET请求,传入目标网址和请求头。获取响应内容。
3. 解析响应内容:使用正则表达式找到所有图片的URL。正则表达式的模式可以根据具体的网页结构进行调整。
4. 遍历图片URL并下载:使用循环遍历每个图片URL,发送请求并获取响应。将响应内容保存到文件中,命名为图片的标题加上图片的后缀。
下面是一个简单的爬虫程序示例:
```python
import requests
import re
import os
image_folder = '表情包' # 设置保存图片的文件夹名称
if not os.path.exists(image_folder):
os.mkdir(image_folder)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
}
response = requests.get('https://qq.yh31.com/zjbq/', headers=headers)
response.encoding = 'utf-8'
t = r'<img src="(.*?)" alt="(.*?)" width="160" height="120">'
result = re.findall(t, response.text)
for img in result:
res = requests.get(img[0])
s = img[0].split('.')[-1]
with open(image_folder + '/' + img[1] + '.' + s, mode='wb') as file:
file.write(res.content)
```
请注意,根据不同的网站和页面结构,代码中的正则表达式模式和其他部分可能需要进行适当的调整。
阅读全文