import requests from bs4 import BeautifulSoup import pandas as pd import xlrd # 读取Excel文件中的小区名字 def read_excel(filename): data = pd.read_excel(filename) return data['小区名'].tolist() # 爬取二手房数据 def crawl_data(area): print(area) print('1') url = 'https://wx.ke.com/ershoufang/rs'+area # 无锡二手房页面 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299' } params = { 'kw': area } response = requests.get(url, headers=headers, params=params) soup = BeautifulSoup(response.text, 'html.parser') # 解析页面数据 result = [] house_list = soup.find_all('div', class_='info clear') for house in house_list: title = house.find('div', class_='title').text.strip() address = house.find('div', class_='address').text.strip() house_Info = house.find('div', class_='houseInfo').text.strip() priceInfo = house.find('div', class_='priceInfo').text.strip() followInfo = house.find('div', class_='followInfo').text.strip() result.append({ 'title': title, 'address': address, 'house_info':house_Info, 'priceInfo':priceInfo, 'followInf':followInfo }) return result # 将数据保存到Excel文件中 def save_to_excel(data, filename): df = pd.DataFrame(data) df.to_excel(filename, index=False) # 主函数 if __name__ == '__main__': areas = read_excel('小区名.xlsx') for area in areas: print('正在爬取:', area) data = crawl_data(area) save_to_excel(data, area + '.xlsx') print('爬取完成!')
时间: 2024-04-26 15:20:52 浏览: 17
这段代码是一个简单的爬虫程序,用来爬取指定小区的二手房信息,并将数据保存到 Excel 文件中。程序首先通过读取 Excel 文件中的小区名字,依次对每个小区进行爬取。爬取时,程序将小区名字作为参数拼接到目标 URL 中,然后使用 requests 库发送 GET 请求获取 HTML 页面,再使用 BeautifulSoup 库解析 HTML 页面,提取出需要的信息,并将结果保存到一个列表中。最后,程序将列表中的数据保存到 Excel 文件中。
相关问题
解释这个代码在爬虫程序的作用:import pymysql import requests import re import pandas as pd from bs4 import BeautifulSoup
这段代码是在Python中导入了pymysql、requests、re、pandas和BeautifulSoup模块。这些模块都是用于爬虫程序的核心模块。
- pymysql是Python操作MySQL数据库的模块,可以用于爬虫程序中的数据存储;
- requests是HTTP库,可以用于爬取网页数据;
- re是Python中的正则表达式模块,可以用于从HTML文本中提取数据;
- pandas是数据处理库,可以用于在爬取数据后进行数据清洗和分析;
- BeautifulSoup是HTML和XML解析库,可以用于从HTML文本中提取数据。
这段代码的作用是导入这些模块,为后续的爬虫程序提供支持。
import requests from bs4 import BeautifulSoup import xlwt import time import urllib3 import requests import json
这段代码主要是导入了requests库、BeautifulSoup库、xlwt库、urllib3库和json库。其中requests库是一个基于HTTP协议的Python库,可以用来发送HTTP请求和处理HTTP响应;BeautifulSoup库是一个HTML/XML的解析器,可以用来解析HTML/XML文档;xlwt库是一个Python库,可以用来写Excel文件;urllib3库是一个Python库,可以用来处理HTTP请求和响应;json库是一个Python库,可以用来处理JSON数据。这些库在爬虫开发中非常常用。
另外,这段代码中有重复导入requests库,可以将其中一个删除。
以下是修改后的代码:
```python
import requests
from bs4 import BeautifulSoup
import xlwt
import time
import urllib3
import json
```