python爬虫爬取链家苏州二手房信息400条
时间: 2023-07-11 13:00:42 浏览: 194
python 二手房信息爬虫
可以使用Python中的requests库和BeautifulSoup库实现爬取链家苏州二手房信息。以下是一个简单的爬虫示例(仅供参考)。
``` python
import requests
from bs4 import BeautifulSoup
url = 'https://su.lianjia.com/ershoufang/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
house_list = []
for i in range(1, 21): # 爬取前20页的数据,每页20条数据
params = {
'page': i
}
response = requests.get(url, headers=headers, params=params)
soup = BeautifulSoup(response.text, 'html.parser')
house_items = soup.find_all('div', class_='info clear')
for item in house_items:
house_title = item.find('div', class_='title').a.text.strip()
house_info = item.find('div', class_='address').div.text.strip()
house_price = item.find('div', class_='priceInfo').div.span.text.strip()
house_unit = item.find('div', class_='priceInfo').div.contents[-1].strip()
house_list.append([house_title, house_info, house_price, house_unit])
if len(house_list) >= 400:
break
if len(house_list) >= 400:
break
for house in house_list:
print(house)
```
这个爬虫会爬取链家苏州二手房前20页的数据,每页20条数据,总共爬取400条数据。爬下来的数据存储在一个列表中,然后逐个输出。注意,为了避免被反爬虫,我们需要设置请求头部信息,模拟正常的浏览器请求。
阅读全文