python爬虫爬取一个网站上的一张照片

时间: 2024-09-30 10:06:48 浏览: 23

python爬虫系列Selenium定向爬取虎扑篮球图片详解

### Python爬虫系列：Selenium定向爬取虎扑篮球图片详解 #### 前言在互联网时代，图片是信息传播的重要载体之一。对于爱好篮球的朋友们来说，虎扑篮球论坛是一个不可多得的好去处，这里不仅有大量的篮球资讯，还有许多精美的图片资源。然而，手动下载这些图片不仅耗时费力，而且效率低下。因此，利用编程技术实现自动化图片爬取就显得尤为重要。本篇文章将详细介绍如何使用Python结合Selenium来定向爬取虎扑篮球论坛中的图片。 #### 技术选型与环境搭建本文使用的工具和技术包括： - **Python**：一种高级编程语言，以其简洁的语法和强大的库支持而闻名。 - **Selenium**：一个用于Web应用程序测试的工具，特别适合用来模拟浏览器行为。 - **Urllib2**：Python的一个模块，用于处理URLs。 - **正则表达式**：用于字符串匹配的工具，非常适合从网页中提取特定格式的信息。 - **PhantomJS**：一个无头浏览器，常用于Web页面的自动化脚本执行。 #### 环境配置为了运行本项目，你需要先安装以下软件： - **Python**：推荐使用最新版本的Python 3.x。 - **Selenium**：可以通过pip命令安装。 - **PhantomJS**：可以从官方网站下载对应版本的PhantomJS可执行文件，并确保其路径添加到系统的PATH环境变量中。 - **ChromeDriver**或**GeckoDriver**（如果使用Chrome或Firefox浏览器）：确保与浏览器版本兼容。 #### 示例代码解析下面是一个具体的示例代码，展示了如何使用Selenium和Urllib2来爬取虎扑篮球论坛上的图片。 ```python # -*- coding:utf-8 -*- """ Crawling pictures by selenium and urllib url: 虎扑马刺 http://photo.hupu.com/nba/tag/%E9%A9%AC%E5%88%BA url: 虎扑陈露 http://photo.hupu.com/nba/tag/%E9%99%88%E9%9C%B2 Created on 2015-10-24 @author: EastmountCSDN """ import time import re import os import sys import urllib.request from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.action_chains import ActionChains # 打开PhantomJS driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe") # driver = webdriver.Firefox() # 等待元素加载完成 wait = WebDriverWait(driver, 10) # 下载单张图片 def load_picture(pic_url, pic_path): pic_name = os.path.basename(pic_url) # 删除路径获取图片名字 pic_name = pic_name.replace('*', '') # 去除 '*' 防止错误 invalid mode('wb') or filename urllib.request.urlretrieve(pic_url, pic_path + pic_name) # 爬取具体图片及下一张 def get_script(elem_url, path, nums): try: count = 1 t = elem_url.find('.html') while count <= nums: html_url = elem_url[:t] + '-' + str(count) + '.html' # 采用正则表达式获取第3个<div></div>再获取图片URL进行下载 content = urllib.request.urlopen(html_url).read().decode('utf-8') start = content.find('<div class="flTab">') end = content.find('<div class="comMark" style="') content = content[start:end] div_pat = r'<div.*?>(.*?)<\/div>' div_m = re.findall(div_pat, content, re.S | re.M) link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\'\").+?(?=\')", div_m[2]) url = link_list[0] # 仅仅一条url链接 load_picture(url, path) count += 1 except Exception as e: print(e) # 主函数 if __name__ == "__main__": elem_url = "http://photo.hupu.com/nba/p29556-1.html" path = "D:\\Pictures\\Basketball\\" nums = 5 # 需要爬取的图片数量 if not os.path.exists(path): os.makedirs(path) get_script(elem_url, path, nums) driver.quit() ``` #### 代码解析 1. **导入必要的库**：首先导入了所需的Python库，如`time`、`re`、`os`等。 2. **初始化WebDriver**：使用`webdriver.PhantomJS`或`webdriver.Firefox`来初始化浏览器驱动。 3. **定义辅助函数**： - `load_picture`：负责下载并保存图片。 - `get_script`：主要逻辑函数，负责爬取指定页面范围内的图片。 4. **主程序逻辑**： - 初始化必要的变量，例如图片的URL、存储路径以及要爬取的图片数量。 - 使用正则表达式从HTML源码中提取图片链接，并调用`load_picture`函数下载图片。 - 使用异常处理来确保程序的健壮性。 #### 运行效果展示运行以上脚本后，你可以在指定的路径下查看到爬取下来的图片。根据实际需求调整参数，可以实现对不同主题和不同数量图片的爬取。 #### 总结通过上述方法，我们可以有效地利用Python和Selenium来实现对虎扑篮球论坛图片的爬取。这种方法不仅提高了数据采集的效率，还避免了手动操作的繁琐过程。此外，通过适当调整代码，这种方法还可以扩展应用于其他类型的网站和数据爬取任务。希望本教程能帮助到喜欢篮球的朋友快速获取自己感兴趣的图片资源。

Python爬虫通过requests库发送HTTP请求获取网页内容，然后使用BeautifulSoup或其他解析库（如lxml）解析HTML结构，找到图片URL。以下是简单的步骤： 1. **导入所需库**： ```python import requests from bs4 import BeautifulSoup ``` 2. **发送GET请求并获取网页源码**： ```python url = '目标图片所在的网站地址' response = requests.get(url) ``` 3. **检查响应状态码**： ```python if response.status_code == 200: # 网页成功加载 else: # 处理错误情况 ``` 4. **解析HTML获取图片链接**： ```python soup = BeautifulSoup(response.text, 'html.parser') img_tag = soup.find('img') # 找到第一个img标签 img_url = img_tag['src'] if img_tag else None ``` 5. **保存图片**： ```python if img_url: with open('下载的图片名.jpg', 'wb') as f: img_data = requests.get(img_url).content f.write(img_data) ``` 请注意，实际操作时要遵守网站的robots.txt规则，尊重版权，并且处理可能出现的反爬机制。

阅读全文

python爬虫爬取一个网站上的一张照片

相关推荐

python2爬取百度贴吧指定关键字和图片代码实例

利用python的爬虫技术爬取网上的图片

python爬虫爬取图片

python爬虫爬取彼岸网4k

使用python爬虫爬取“https://www.chzc.edu.cn/info/1024/66328.htm”中图片

python爬虫百度图片

python爬虫下载王者荣耀图片

Python3爬取贴吧图片：翻页与浏览器模拟实战

Python实现图片爬取与合成照片墙教程

python电影爬取并数据可视化

python爬虫爬一张猫图片

python爬虫，根据输入内容爬取相应图片，并显示相关进度，时间

python爬虫爬一张猫图片代码

新浪微博有反爬虫机制，编写python爬取微博图片的功能代码

帮我用python写个爬虫，内容是爬取网页上的图片，并将其储存在D盘中

命令手册 Linux常用命令

【超强组合】基于VMD-雪融优化算法SAO-Transformer-GRU的光伏预测算研究Matlab实现.rar

【超强组合】基于VMD-花朵授粉优化算法FPA-Transformer-BiLSTM的光伏预测算研究Matlab实现.rar

最新推荐

命令手册 Linux常用命令

【超强组合】基于VMD-雪融优化算法SAO-Transformer-GRU的光伏预测算研究Matlab实现.rar

【超强组合】基于VMD-花朵授粉优化算法FPA-Transformer-BiLSTM的光伏预测算研究Matlab实现.rar

基于SpringBoot+Shiro+mysql实现的个人博客前后台管理系统 【完整源码+数据库】

暴风电视刷机 T55FUA 通用ECHO 屏ST5461D07-2 机编60000AM6400 AM6700 V1.0.03版本

探索数据转换实验平台在设备装置中的应用

管理建模和仿真的文件

ggflags包的国际化问题：多语言标签处理与显示的权威指南

如何使用MATLAB实现电力系统潮流计算中的节点导纳矩阵构建和阻抗矩阵转换，并解释这两种矩阵在潮流计算中的作用和差异？

使用git-log-to-tikz.py将Git日志转换为TIKZ图形

基于SpringBoot+Shiro+mysql实现的个人博客前后台管理系统【完整源码+数据库】