如何python爬取链家制成表格

要爬取链家网站并制成表格，可以按照以下步骤进行： 1. 导入所需的库，包括requests、BeautifulSoup和pandas。 ```python import requests from bs4 import BeautifulSoup import pandas as pd ``` 2. 定义要爬取的网页链接，使用requests库获取网页内容，并使用BeautifulSoup库解析网页。 ```python url = 'https://bj.lianjia.com/zufang/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') ``` 3. 使用BeautifulSoup库解析网页获取房源信息，并将信息存储在一个列表中。 ```python house_list = [] house_items = soup.find_all('div', class_='content__list--item--main') for item in house_items: title = item.find('p', class_='content__list--item--title').text.strip() price = item.find('span', class_='content__list--item-price').text.strip() area = item.find('span', class_='content__list--item--des').text.strip() house_list.append([title, price, area]) ``` 4. 将房源信息列表转换为数据框，并将数据框保存为Excel表格。 ```python df = pd.DataFrame(house_list, columns=['Title', 'Price', 'Area']) df.to_excel('lianjia.xlsx', index=False) ``` 完整代码如下： ```python import requests from bs4 import BeautifulSoup import pandas as pd url = 'https://bj.lianjia.com/zufang/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') house_list = [] house_items = soup.find_all('div', class_='content__list--item--main') for item in house_items: title = item.find('p', class_='content__list--item--title').text.strip() price = item.find('span', class_='content__list--item-price').text.strip() area = item.find('span', class_='content__list--item--des').text.strip() house_list.append([title, price, area]) df = pd.DataFrame(house_list, columns=['Title', 'Price', 'Area']) df.to_excel('lianjia.xlsx', index=False) ```

阅读全文

如何python爬取链家制成表格

相关推荐

使用python对链家的小区信息进行爬取

Python爬取表格源代码

Python多线程爬取链家房源，保存表格，实现数据可视化分析.pdf

python爬取链家新房数据

python爬取链家网租房数据

python爬取链家网二手房资料

Python爬取链家二手房信息并可视化大屏

Python 爬取链家和学堂在线的爬虫作业.zip

python爬取网页表格PDF

使用python爬取天气信息（包括历史天气数据）_python爬取天气数据-CSDN博客.html

基于Python的scrapy框架爬取链家网的上海市租房信息

Python爬取京东

python爬取音乐

python爬取猫眼

python爬取百度图片

python 爬取微信文章

使用Python爬虫技术爬取链家二手房资料

利用Python爬虫技术爬取链家新房数据教程

大家在看

TwinSAFE EL6900 安全模块基础使用指南（针对TC3.1.4020.0版本）.pdf

南京工业大学Python程序设计语言题库及答案

泊松分布MATLAB代码-RJNS3D_VER_1.1:离散断裂网络建模

Skill.wz_冒险岛079WZ_079skill.wz_冒险岛的_冒险岛Skill.wz_冒险岛服务端_

Multisim里的NPN三极管参数资料大全.docx

最新推荐

Python爬取破解无线网络wifi密码过程解析

python爬取cnvd漏洞库信息的实例

python 爬取马蜂窝景点翻页文字评论的实现

Python爬取数据并实现可视化代码解析

用python爬取网页并导出为word文档.docx

世界地图Shapefile文件解析与测试指南

Python环境监控高可用构建：可靠性增强的策略

需要在matlab当中批量导入表格数据的指令

Sqlcipher 3.4.0版本发布，优化SQLite兼容性

Python环境监控性能监控与调优：专家级技巧全集