如何从text1和text2文件中分别读取cookie1和cookie2信息,然后利用这些cookies爬取相应的网页图片,并将这些图片保存为本地的image1和image2文件?python代码
时间: 2024-10-23 11:10:38 浏览: 31
设置和读取cookie的javascript代码
首先,你需要安装一些必要的库,如`requests`, `BeautifulSoup`, 和 `lxml` 来处理HTTP请求、HTML解析以及下载图片。这里是一个简单的Python脚本示例:
```python
import requests
from bs4 import BeautifulSoup
import os
# 读取文件中的cookie信息
def read_cookies(file_name):
with open(file_name, 'r') as f:
cookies = {line.strip(): "" for line in f}
return cookies
# 爬取网页图片并保存
def download_image(url, cookie_dict, image_name):
response = requests.get(url, cookies=cookie_dict)
if response.status_code == 200:
with open(image_name, 'wb') as f:
f.write(response.content)
else:
print(f"Failed to download image from {url}")
# 主函数
def main(text1_file, text2_file, output_dir):
# 读取cookie1和cookie2
cookie1 = read_cookies(text1_file)
cookie2 = read_cookies(text2_file)
# 构建对应的网站URL
url1 = "your_first_website_url"
url2 = "your_second_website_url"
# 爬取并保存图片
download_image(url1, cookie1, os.path.join(output_dir, 'image1.jpg'))
download_image(url2, cookie2, os.path.join(output_dir, 'image2.jpg'))
# 调用主函数
main('text1.txt', 'text2.txt', './images')
```
请确保替换`your_first_website_url`和`your_second_website_url`为实际需要爬取的网站地址。这个脚本假设每个文件只有一行Cookie,且格式是键值对的形式。如果实际文件内容不一样,你可能需要调整`read_cookies`函数的解析逻辑。
阅读全文