import requests from bs4 import BeautifulSoup import pandas as pd import xlrd # 读取Excel文件中的小区名字 def read_excel(filename): data = pd.read_excel(filename) return data['小区名'].tolist() # 爬取二手房数据 def crawl_data(area): print(area) print('1') url = 'https://wx.ke.com/ershoufang/rs'+area # 无锡二手房页面 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299' } params = { 'kw': area } response = requests.get(url, headers=headers, params=params) soup = BeautifulSoup(response.text, 'html.parser') # 解析页面数据 result = [] house_list = soup.find_all('div', class_='info clear') for house in house_list: title = house.find('div', class_='title').text.strip() address = house.find('div', class_='address').text.strip() house_Info = house.find('div', class_='houseInfo').text.strip() priceInfo = house.find('div', class_='priceInfo').text.strip() followInfo = house.find('div', class_='followInfo').text.strip() result.append({ 'title': title, 'address': address, 'house_info':house_Info, 'priceInfo':priceInfo, 'followInf':followInfo }) return result # 将数据保存到Excel文件中 def save_to_excel(data, filename): df = pd.DataFrame(data) df.to_excel(filename, index=False) # 主函数 if __name__ == '__main__': areas = read_excel('小区名.xlsx') for area in areas: print('正在爬取：', area) data = crawl_data(area) save_to_excel(data, area + '.xlsx') print('爬取完成！')