首页用python模块化爬虫安居家客深圳二手房房源列表且存储到excel中

用python模块化爬虫安居家客深圳二手房房源列表且存储到excel中

时间: 2024-03-24 11:36:29 浏览: 70

好的，这是一个很好的问题。我们可以使用Python的requests库来发送HTTP请求，并使用BeautifulSoup库来解析HTML响应。然后，我们可以使用pandas库将数据存储到Excel文件中。下面是一些示例代码： ```python import requests from bs4 import BeautifulSoup import pandas as pd # 请求URL url = 'https://sz.anjuke.com/sale/p{}/' # 定义请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299' } # 定义数据存储列表 data_list = [] # 定义函数，用于获取房源信息 def get_house_info(page): response = requests.get(url.format(page), headers=headers) soup = BeautifulSoup(response.text, 'html.parser') house_list = soup.select('.list-item') for house in house_list: title = house.select('.house-title')[0].get_text().strip() address = house.select('.address')[0].get_text().strip() price = house.select('.price-det')[0].get_text().strip() data_list.append([title, address, price]) # 循环获取房源信息 for page in range(1, 11): get_house_info(page) # 将数据存储到Excel文件中 df = pd.DataFrame(data_list, columns=['房源标题', '地址', '价格']) df.to_excel('安居客深圳二手房房源列表.xlsx', index=False) ``` 这些代码将爬取安居客深圳二手房房源列表的前10页数据，并将数据存储到名为“安居客深圳二手房房源列表.xlsx”的Excel文件中。你可以根据自己的需求修改这些代码，以适应你的数据爬取和存储要求。

阅读全文