批量下载网络图片：关键词搜索与分类

需积分: 31 87 浏览量更新于2024-09-07 2 收藏 2KB TXT 举报

"爬虫爬取网络上的图片，通过关键字搜索并分类存储" 该代码示例展示了一个基于Python的简单网络图片爬虫程序，用于抓取百度图片搜索结果中的图片。程序主要分为两个核心函数：`get_onepage_urls` 和 `down_pic`。 1. **`get_onepage_urls` 函数**：这个函数负责获取指定网页（onepageurl）上的所有图片URL（objURL）以及下一页的链接（fanye_url）。首先，它发送一个GET请求到给定的网页地址，获取HTML源代码。如果请求失败，将捕获异常并打印错误信息。然后，使用正则表达式查找包含图片URL的字符串模式，并将找到的URL添加到列表`pic_urls`中。同时，提取出下一页的链接，如果存在的话，添加到`fanye_url`变量中。 2. **正则表达式**：在`get_onepage_urls`函数中，使用了两次正则表达式来解析HTML文本。第一次用于查找所有图片URL，使用模式`'"objURL":"(.*?)"'`，匹配以`"objURL":"`开头，`"`结尾的任意字符序列。第二次用于查找下一页链接，使用模式`'<a href="(.*?)" class="n">下一页</a>'`，匹配以`<a href="`开头，`class="n">下一页</a>`结尾的链接。 3. **`down_pic` 函数**：这个函数接收一个图片URL列表，然后依次下载每个图片并保存到本地。对于每个图片URL，它尝试发送GET请求获取图片内容，设置超时时间为15秒。如果请求成功，将图片内容写入到一个名为`<序号>.jpg`的文件中，同时打印出下载成功的消息。如果在下载过程中发生错误，如网络超时或文件写入失败，会捕获异常并打印错误信息，然后继续处理下一个图片URL。 4. **主程序**：主程序部分定义了关键字`keyword`（在这个例子中是'风景'），然后构建了百度图片搜索的初始URL。调用`get_onepage_urls`获取第一页面的图片URL和下一页链接，接着调用`down_pic`下载并保存图片。这个程序可以作为一个基础框架，扩展以支持多线程、分页爬取更多图片，或者增加更复杂的错误处理和图片质量检测。 5. **Python库的使用**：该代码使用了以下Python库： - `requests`：用于发送HTTP请求，获取网页内容。 - `re`：进行正则表达式匹配和查找。 - `urllib`：虽然在提供的代码中没有直接使用，但在实际的爬虫项目中，可能会用到`urllib`库进行URL编码或解码等操作。这个简单的爬虫程序展示了如何利用Python进行网页抓取和图片下载，但请注意，实际使用时应遵循网站的robots.txt协议，尊重网站的版权，避免对服务器造成过大压力。此外，根据具体需求，可能需要进行更复杂的网页解析、异常处理和用户代理设置等。

# coding=utf-8
"""根据搜索词下载百度图片"""
import re
import sys
import urllib

import requests

def get_onepage_urls(onepageurl):
"""获取单个翻页的所有图片的urls+当前翻页的下一翻页的url"""
if not onepageurl:
print('已到最后一页, 结束')
return [], ''
try:
html = requests.get(onepageurl).text
except Exception as e:
print(e)
pic_urls = []
fanye_url = ''
return pic_urls, fanye_url
pic_urls = re.findall('"objURL":"(.*?)",', html, re.S)
fanye_urls = re.findall(re.compile(r'<a href="(.*)" class="n">下一页</a>'), html, flags=0)
fanye_url = 'http://image.baidu.com' + fanye_urls[0] if fanye_urls else ''
return pic_urls, fanye_url

def down_pic(pic_urls):
"""给出图片链接列表, 下载所有图片"""
for i, pic_url in enumerate(pic_urls):

下载后可阅读完整内容，剩余1页未读，立即下载

weixin_42662989

粉丝: 0
资源: 1

批量下载网络图片：关键词搜索与分类

爬虫爬取图片

万能图片爬虫（文件格式后缀丢失，请改成1.zip查看）

Python爬虫—爬取彼岸图库高清图片

python爬虫爬虫贴吧图片的实例

java 爬虫 爬福利图片

C#爬虫.ZIP_C# 图片爬虫_C#爬取_c#爬虫和python_c＃ 爬虫_图片爬虫

python爬虫：淘宝图片爬虫

爬虫图片_爬虫图片_爬虫_python3_rulek71_

爬虫爬去百度图片

爬虫爬图库关键字图片

最新资源

java 爬虫爬福利图片

C#爬虫.ZIP_C# 图片爬虫_C#爬取_c#爬虫和python_c＃爬虫_图片爬虫