如何在房天下上获取到有关二手房、新房、租房等方面的数据信息,要求爬取20页数据
时间: 2023-12-10 14:03:30 浏览: 133
在房天下上获取有关二手房、新房、租房等方面的数据信息,你可以使用爬虫工具进行爬取。以下是一份 Python 代码示例,可以爬取房天下上北京市二手房信息的前20页数据:
```python
import requests
from bs4 import BeautifulSoup
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
url = 'https://esf.fang.com/house/i3{}/'
for i in range(1, 21):
res = requests.get(url.format(i), headers=headers)
res.encoding = 'gbk' # 中文编码
soup = BeautifulSoup(res.text, 'html.parser')
# 找到房源信息的标签
house_list = soup.select('.shop_list .floatl')
for house in house_list:
# 房源标题
title = house.select('p.title a')[0].text.strip()
# 房源详情页链接
link = house.select('p.title a')[0]['href']
# 房源价格
price = house.select('.price_right span')[0].text.strip()
# 户型
layout = house.select('.tel_shop')[0].text.strip()
# 面积
area = house.select('.area_right span')[0].text.strip()
# 楼层
floor = house.select('.flood .floatl')[0].text.strip()
# 区域
region = house.select('.add_shop a')[0].text.strip()
# 地址
address = house.select('.add_shop span')[0].text.strip()
# 将数据保存到文件或数据库中
print(title, link, price, layout, area, floor, region, address)
```
这份代码使用 requests 库来发送 HTTP 请求,使用 BeautifulSoup 库来解析 HTML 页面。它模拟了人工在浏览器中点击下一页的操作,爬取了房天下上北京市二手房信息的前20页数据,并将房源标题、房源详情页链接、房源价格、户型、面积、楼层、区域、地址等信息提取出来。你可以根据需要进行修改和扩展,例如爬取新房、租房等方面的数据信息。
阅读全文