2. 爬取 https://authserver.hnca.edu.cn/authserver/login 页面所有img标签图片,保存到当前python代码的工作目录下面。 部分业务逻辑代码: soup = BeautifulSoup(html, "lxml") # 将html对象转换为BeautifulSoup对象 i = 0 # 定义i用于给下载的图片命名 for img in soup.select('img'): # 获取所有img标签对象 if img.has_attr('src'): # 判断img对象是否有src属性 with open(str(i) + ".jpg", "wb") as fd: # 以写入方式打开二进制文件 # 组装图片绝对路径,访问并写入文件 response = requests.get("https://authserver.hnca.edu.cn" + img.attrs['src']) fd.write(response.content) print('图片', i, "保存成功\n") i += 1 # i加1 else: print('写入文件成功!')
时间: 2024-02-14 10:24:20 浏览: 82
可以爬取某一个站点的图片,然后存储与指定文件夹
这段代码也可以用来实现相同的功能,使用了BeautifulSoup的select方法来选择所有的img标签,然后遍历每个img标签,判断其是否有src属性,如果有则下载图片并保存到本地。以下是示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://authserver.hnca.edu.cn/authserver/login'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'lxml')
i = 0
for img in soup.select('img'):
if img.has_attr('src'):
with open(str(i) + '.jpg', 'wb') as fd:
img_url = 'https://authserver.hnca.edu.cn' + img.attrs['src']
img_response = requests.get(img_url)
fd.write(img_response.content)
print(f'图片{i}保存成功')
i += 1
else:
print('该img标签没有src属性')
print('所有图片保存完成')
```
这段代码与之前的代码实现类似,只是使用了select方法来选择img标签。需要注意的是,这段代码中的图片保存路径是当前工作目录,可以根据需要修改。
阅读全文