python爬虫，根据输入内容爬取相应图片，并显示相关进度，时间

Python爬虫结合了requests库用于发送HTTP请求获取网页内容，BeautifulSoup或 lxml 库解析HTML，以及PIL或io库处理下载图片。为了实现按输入内容抓取并显示进度和时间，你可以采用以下步骤： 1. **设置目标网站**：首先确定你要爬取的网站，了解其图片URL结构。 2. **用户输入处理**：创建一个函数接受用户输入的内容作为关键词，然后搜索该关键词在网页中的图片链接。 3. **爬虫逻辑**： - 使用`requests.get()`获取网页源码。 - 使用BeautifulSoup解析HTML，找到包含图片的标签，如`<img>`元素，从中提取src属性作为链接。 - 对每个找到的链接，检查是否包含用户输入的关键字，如果匹配则保存到待下载列表中。 4. **下载图片并显示进度**： - 可以利用`concurrent.futures`模块并发下载图片，提高效率。 - 创建一个计数器记录已下载的图片数，同时计算下载速度和总耗时。 - 每当下载完一张图片，更新进度信息，并显示当前时间和已用时间。 5. **进度展示**： - 使用`time`模块来记录开始和结束时间，以及每次下载后的更新。 - 可以通过控制台输出或者GUI界面显示进度百分比、已经下载的图片数等信息。 6. **异常处理**：添加适当的错误处理，比如网络连接失败、下载中断等情况。示例代码片段如下： ```python import requests from bs4 import BeautifulSoup import time from concurrent.futures import ThreadPoolExecutor import os def find_images(keyword): url = 'http://example.com' # 替换为你想爬取的网站 response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') images = soup.find_all('img', src=True) # 这里只是一个简化例子，实际需要根据网站结构调整 filtered_images = [img['src'] for img in images if keyword in img['src']] return filtered_images def download_image(image_url, output_dir): try: response = requests.get(image_url, stream=True) filename = os.path.join(output_dir, os.path.basename(image_url)) with open(filename, 'wb') as f: for chunk in response.iter_content(1024): f.write(chunk) except Exception as e: print(f"Download failed: {e}") def main(keyword, num_threads=5): start_time = time.time() images = find_images(keyword) total_images = len(images) output_dir = 'downloaded_images' os.makedirs(output_dir, exist_ok=True) with ThreadPoolExecutor(max_workers=num_threads) as executor: future_to_url = {executor.submit(download_image, image, output_dir): image for image in images} for future in concurrent.futures.as_completed(future_to_url): try: img_url = future_to_url[future] percentage = (future.done() * 100) / total_images print(f"Downloaded {percentage:.2f}% | Image URL: {img_url} | Elapsed Time: {time.strftime('%H:%M:%S', time.gmtime(time.time() - start_time))}") except Exception as exc: print(f"Error occurred: {exc}") if __name__ == "__main__": input_keyword = input("Enter the keyword to search for images: ") main(input_keyword) ```

阅读全文

python爬虫，根据输入内容爬取相应图片，并显示相关进度，时间

相关推荐

python根据用户需求输入想爬取的内容及页数爬取图片方法详解

python爬虫爬取网上图片

python爬虫 爬取超清壁纸代码实例

python 爬虫 网课数据爬取+可视化.zip

python 爬虫开发-爬取小视频之实时打印文件下载速度demo源码.zip

Python 爬虫爬取指定博客的所有文章

python学习，爬虫，网站爬取，课程设计

python利用urllib实现爬取京东网站商品图片的爬虫实例

python爬虫爬取百度文库（带图形化界面）

通过python爬取网页图片

爬虫学习笔记：爬取古诗文网

[python练习实例源码]爬取B站小视频之实时打印文件下载进度.zip

pythonDjango实现爬取图片网站图片.zip

Python网络爬虫设计教程：爬取4K壁纸

用Python爬虫实时显示B站视频下载进度教程

Python爬虫分布式爬虫：大规模爬取数据的利器，应对海量数据挑战

Python爬虫分布式爬取：海量数据抓取利器，让爬虫应对自如

mobilenet模型-基于人工智能的卷积网络训练识别自驾旅行路标-不含数据集图片-含逐行注释和说明文档.zip

【超强组合】基于VMD-混沌博弈优化算法CGO-Transformer-LSTM的光伏预测算研究Matlab实现.rar

最新推荐

爬虫学习笔记：爬取古诗文网

mobilenet模型-基于人工智能的卷积网络训练识别自驾旅行路标-不含数据集图片-含逐行注释和说明文档.zip

【超强组合】基于VMD-混沌博弈优化算法CGO-Transformer-LSTM的光伏预测算研究Matlab实现.rar

探索数据转换实验平台在设备装置中的应用

管理建模和仿真的文件

ggflags包的国际化问题：多语言标签处理与显示的权威指南

如何使用MATLAB实现电力系统潮流计算中的节点导纳矩阵构建和阻抗矩阵转换，并解释这两种矩阵在潮流计算中的作用和差异？

使用git-log-to-tikz.py将Git日志转换为TIKZ图形

"互动学习：行动中的多样性与论文攻读经历"

ggflags包的定制化主题与调色板：个性化数据可视化打造秘籍

python爬虫爬取超清壁纸代码实例

python 爬虫网课数据爬取+可视化.zip