爬取链家成都市2022和2023的租房房源数据,包括房源名称", "户型", "面向", "面积", "所属区", "地址", "价钱"

时间: 2023-10-16 16:10:35 浏览: 36
好的,这个任务需要使用爬虫技术,你需要先安装 Python 环境和相关的库,比如 requests、beautifulsoup4 和 pandas。然后,你可以使用 requests 库发送 HTTP 请求,获取链家网站的 HTML 页面,再使用 beautifulsoup4 库解析 HTML 页面,提取出需要的数据。最后,你可以使用 pandas 库将数据保存到 Excel 文件中。 以下是示例代码: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 设置请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 定义函数,用于获取指定页面的房源数据 def get_house_data(url): # 发送 HTTP 请求 response = requests.get(url, headers=headers) # 解析 HTML 页面 soup = BeautifulSoup(response.text, 'html.parser') # 获取房源列表 house_list = soup.find_all('div', class_='content__list--item--main') # 遍历房源列表,提取数据 data = [] for house in house_list: name = house.find('p', class_='content__list--item--title').text.strip() layout = house.find('p', class_='content__list--item--des').text.strip() orientation = house.find_all('p', class_='content__list--item--des')[1].text.strip() area = house.find_all('p', class_='content__list--item--des')[2].text.strip() district = house.find('p', class_='content__list--item--neighborhood').text.strip() address = house.find('p', class_='content__list--item--address').text.strip() price = house.find('span', class_='content__list--item-price').text.strip() data.append([name, layout, orientation, area, district, address, price]) return data # 定义函数,用于获取指定区域和时间段的所有房源数据 def get_all_house_data(district, start_year, end_year): # 定义 URL 模板 url_template = 'https://cd.lianjia.com/zufang/{}/pg{}{}' # 定义数据列表 data = [] # 遍历所有页面 for page in range(1, 101): # 构造 URL url = url_template.format(district, page, '/') # 获取房源数据 house_data = get_house_data(url) # 如果没有获取到数据,说明已经到达最后一页,退出循环 if not house_data: break # 将数据添加到列表中 data.extend(house_data) # 将数据转换为 DataFrame 对象 df = pd.DataFrame(data, columns=['房源名称', '户型', '面向', '面积', '所属区', '地址', '价钱']) # 添加时间列 df['时间'] = f'{start_year}-{end_year}' return df # 获取成都市锦江区2022年和2023年的所有房源数据 df1 = get_all_house_data('jinjiang', 2022, 2023) # 获取成都市武侯区2022年和2023年的所有房源数据 df2 = get_all_house_data('wuhou', 2022, 2023) # 将数据保存到 Excel 文件中 with pd.ExcelWriter('链家租房数据.xlsx') as writer: df1.to_excel(writer, sheet_name='锦江区') df2.to_excel(writer, sheet_name='武侯区') ```

相关推荐

最新推荐

(二)爬取新房销售信息——数据分析+可视化篇

pandas & matplotlib 用于数据分析和可视化 上一个任务通过requests、BeautifulSoup4两个功能强大、用法简洁的函数库已经获取到了楼盘名、地址和价格这些新房信息,并且保存为csv格式文件,csv文件可以用excel打开并...

eclipse+maven+svn+linux+easyui宜立方商城

开发环境: eclipse+maven+svn+linux+easyui 软件架构: mysql+mybatis+spring+springmvc+redis+solr 项目描述:宜立方商城是一个综合性的B2C平台,类似京东商城、天猫商城。会员可以在商城浏览商品、下订单,以及参加各种活动。宜立方商城采用分布式系统架构,子系统之间都是调用服务来实现系统之间的通信,使用http协议传递json数据方式实现。这样降低了系统之间的耦合度,提高了系统的扩展性。为了提高系统的性能使用redis做系统缓存,并使用redis实现session共享。为了保证redis的性能使用redis的集群。搜索功能使用solrCloud做搜索引擎。 image 后台管理系统:管理商品、订单、类目、商品规格属性、用户管理以及内容发布等功能。 商城门户:用户可以在前台系统中进行注册、登录、浏览商品、首页、下单等操作。 会员系统:用户可以在该系统中查询已下的订单、收藏的商品、我的优惠券、团购等信息。 订单系统:提供下单、查询订单、修改订单状态、定时处理订单。 搜索系统:提供商品的搜索功能。 单点登录系统:

Oracle数据库实用教程第三章 PL/SQL程序设计.pptx

Oracle数据库实用教程第三章 PL/SQL程序设计.pptx

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire

粒子群多目标算法matlab代码【MATLAB代码实现】定义优化问题参数

# 1. 粒子群多目标算法简介 ## 1.1 什么是粒子群算法? 粒子群算法是一种基于群体智能的优化算法,灵感来源于鸟群或鱼群等生物群体的行为。每个“粒子”代表问题空间中的一个候选解,而整个粒子群代表了候选解的一个群体。粒子在解空间中搜索最优解,通过个体的经验和群体的协作来不断调整自身位置和速度,从而逐步靠近最优解。 ## 1.2 粒子群算法在多目标优化中的应用 粒子群算法最初是针对单目标优化问题提出的,但后来被扩展应用到了多目标优化领域。与单目标优化不同,多目标优化需要考虑多个冲突的目标函数,因此粒子群算法的应用在多目标优化中具有一定的挑战性。 ## 1.3 粒子群多目标算法原理解

具体操作:你可以将 PyTorch 安装路径添加到环境变量中,或者使用 PyCharm 等集成开发环境来设置 Python 解释器。

好的,以下是具体的操作步骤: 添加 PyTorch 安装路径到环境变量中: 1. 打开计算机的属性,点击高级系统设置; 2. 在弹出的窗口中,点击环境变量; 3. 在系统变量中,找到 PATH 变量,点击编辑; 4. 在编辑系统变量窗口中,点击新建; 5. 输入 PyTorch 安装路径,例如 `C:\Program Files\PyTorch`,点击确定; 6. 点击确定,保存设置。 设置 PyCharm 的 Python 解释器: 1. 打开 PyCharm,点击 File -> Settings 进入设置界面; 2. 在设置界面中,选择 Project -> Project I

TS16949发展史及五大手册的意义.pptx

TS16949发展史及五大手册的意义.pptx

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依

粒子群多目标算法matlab代码【算法实现步骤】计算适应度函数

# 1. 粒子群多目标算法简介 ## 1.1 粒子群多目标算法概述 在多目标优化问题中,粒子群多目标算法是一种常用的元启发式优化算法。它借鉴了鸟群觅食的行为,通过不断调整粒子的位置和速度来搜索最优解空间。相比于传统的单目标优化算法,粒子群多目标算法能够有效解决多目标优化问题。 ## 1.2 算法原理与特点 粒子群多目标算法的核心原理是通过模拟群体中粒子的运动,不断更新粒子的位置和速度,以达到最优解。其特点包括易于实现、收敛速度快、对参数不敏感等。 ## 1.3 相关研究现状分析 目前,粒子群多目标算法在多目标优化领域得到了广泛应用,并在不同领域取得了一定的成果。研究者们也在不断探索

ignoring old recipe for target debug/qrc_music.cpp

这个错误通常是由于Makefile文件中的依赖关系出现问题导致的。它表明Makefile尝试编译一个旧的目标,但是该目标已经被更新或删除了,导致编译失败。 解决此问题的方法是删除旧的目标并重新编译。您可以尝试使用"make clean"命令清除旧的目标和对象文件,然后重新运行"make"命令重新编译。如果问题仍然存在,您可能需要检查Makefile文件中的依赖关系是否正确。