爬虫爬取58同城二手房图片
时间: 2023-07-07 19:41:08 浏览: 191
爬取58同城二手房的图片可以通过以下步骤实现:
1. 使用Python中的requests库发送请求,获取页面的HTML源代码;
2. 使用BeautifulSoup库解析HTML源代码,获取页面中的图片链接;
3. 使用Python中的re模块匹配图片链接中的图片地址;
4. 使用requests库发送请求,下载图片并保存到本地。
下面是一个简单的Python代码示例:
```python
import requests
from bs4 import BeautifulSoup
import re
url = 'https://bj.58.com/ershoufang/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
img_tags = soup.find_all('img', class_='lazyload')
for img in img_tags:
img_url = img['data-original']
if re.match(r'^http', img_url):
img_data = requests.get(img_url, headers=headers).content
with open('image/' + img_url.split('/')[-1], 'wb') as f:
f.write(img_data)
```
上述代码中,我们首先发送请求获取页面的HTML源代码,然后使用BeautifulSoup库解析HTML源代码,获取页面中的图片链接。接着,我们使用正则表达式匹配图片链接中的图片地址,并使用requests库发送请求,下载图片并保存到本地。
阅读全文