用Python编写一个功能强大的爬虫,功能至少要有图片爬取等。
时间: 2024-09-20 09:18:04 浏览: 59
在Python中创建一个功能强大的爬虫通常需要结合使用requests库来发送HTTP请求获取网页内容,BeautifulSoup或lxml用于解析HTML结构,以及如PIL(Pillow)或Scrapy框架来进行图像下载。这里是一个基础的Python爬虫示例,包括图片爬取:
```python
import requests
from bs4 import BeautifulSoup
import os
def download_images(url, save_dir):
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# 查找页面内的所有图片标签
img_tags = soup.find_all('img', src=True)
for img_tag in img_tags:
# 获取图片URL
img_url = img_tag['src']
# 构建完整的图片文件路径
file_path = os.path.join(save_dir, os.path.basename(img_url))
# 下载图片并保存到指定目录
with open(file_path, 'wb') as f:
img_data = requests.get(img_url).content
f.write(img_data)
# 示例:爬取并保存某网站的所有图片
if __name__ == '__main__':
url = "https://example.com" # 替换为你想要爬取的网站地址
save_dir = "images" # 图片保存的本地目录
download_images(url, save_dir)
```
这个脚本会下载目标网页上所有的图片,并将它们保存到指定的目录下。
阅读全文