https://gz.ke.com/ershoufang/ 爬取网页的第一页 数据打印出来即可 和图片 保存
时间: 2024-10-20 09:12:00 浏览: 18
抓取网站https://gz.ke.com/ershoufang/(广州租房页面)的第一页内容并打印出来以及下载图片,通常涉及到HTML解析和网络请求两个步骤。你可以使用Python的BeautifulSoup库来解析HTML,requests库来发送HTTP请求,PIL库(如果需要下载图片)来处理图片。以下是简单示例:
```python
import requests
from bs4 import BeautifulSoup
import io
# 发送GET请求获取网页源码
url = "https://gz.ke.com/ershoufang/"
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 打印页面内容
print(soup.prettify()) # 输出美化后的HTML结构
# 查找并保存图片
img_tags = soup.find_all('img') # 获取所有图片标签
for img in img_tags:
img_url = img['src'] # 获取图片链接
if img_url.startswith("http"):
try:
image_response = requests.get(img_url)
with open(f'image_{img_url.split("/")[-1]}', 'wb') as f:
f.write(image_response.content)
print(f"Downloaded image: {img_url}")
except Exception as e:
print(f"Error downloading image: {e}")
else:
print(f"Failed to fetch the page. Status code: {response.status_code}")
```
注意:爬虫操作可能会受到网站的robots.txt文件规定,以及一些反爬虫技术的影响,务必遵守法律法规和网站的爬虫政策。
阅读全文