from urllib.request import urlopen from bs4 import BeautifulSoup import requests # 发送请求返回页面标签 # response = urlopen("http://wmtp.net/tupian/haokan") response=urlopen("https://www.vdm8.com/") response = response.read().decode('utf-8') # 使用BeautifulSoup截取 soup = BeautifulSoup(response, 'html.parser') # 截取所有img标签 print(soup.find_all("a")) # 文件名称 a = 0 # 遍历img标签集和 for item in soup.find_all("a"): print(item.attrs.get("data-original")) # 下载图片 # 下载图片保存的位置及名称 a += 1; fileurl = "D:/img/" + str(a) + ".png" # 写入保存 r = requests.get(item.attrs.get("data-original")) with open(fileurl, 'wb') as f: f.write(r.content) 伪装这行代码
时间: 2024-04-19 15:26:04 浏览: 162
《网络数据采集》第3章课件201911221
这段代码是用于从指定网页中提取所有img标签,并将其中的图片下载到本地的代码。如果您想要伪装这段代码,可以参考以下方法:
1. 更改User-Agent:在发送请求之前,可以设置一个自定义的User-Agent头,来伪装浏览器或其他爬虫。
```python
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get("https://www.vdm8.com/", headers=headers)
```
2. 使用代理IP:通过使用代理IP,可以隐藏真实的请求IP地址。
```python
proxies = {
'http': 'http://your-proxy-ip:your-proxy-port',
'https': 'https://your-proxy-ip:your-proxy-port'
}
response = requests.get("https://www.vdm8.com/", proxies=proxies)
```
在以上示例中,您需要将`your-proxy-ip`和`your-proxy-port`替换为实际的代理IP和端口。
请注意,爬取网站内容时需要遵守网站的使用规则和法律法规。确保您获得了合法许可并遵守网站的使用条款。
阅读全文