import os from clearn import clear import pandas as pd from sklearn.cluster import KMeans import matplotlib.pyplot as plt def get_data(pa): dat = pd.read_csv(pa) dat.columns = ['职位名称', '薪资', '地点', '工作经验要求', '学历要求', '技术要求', '公司名称', '公司形式', '公司规模', '置顶', '招聘网址'] return dat file_list = [] for i in os.listdir('data/'): if i.split('.')[-1] == 'csv': i = './data/'+ i file_list.append(i) td = pd.concat([get_data(i) for i in file_list]) td = clear(td) def get_dt(): return td #职能分类 exploit = ['Java开发','Python','UI设计师','web前端','数据开发','广告设计','深度学习','游戏策划'] marketing = ['客服','市场营销','新媒体运营','游戏运营','用户研究','网络销售','商务专员'] management = ['CEO','主管','产品经理','经理','经理助理',] function = ['人力资源','行政专员','财务会计','销售顾问'] #数据分类 大类 exploit_data = pd.concat([get_data('./data/' + i + '.csv') for i in exploit]) marketing_data = pd.concat([get_data('./data/' + i + '.csv') for i in marketing]) management_data = pd.concat([get_data('./data/' + i + '.csv') for i in management]) function_data = pd.concat([get_data('./data/' + i + '.csv') for i in function])
时间: 2023-06-04 20:02:40 浏览: 112
这段代码主要是用来读取、清洗多个csv文件中的数据,并使用KMeans算法进行聚类分析。具体来说,代码中使用了pandas模块读取csv文件并转换成DataFrame格式,然后使用clearn模块进行数据清洗,最后将清洗后的数据拼接成一个大表格。get_dt函数用来返回处理好的数据。
阅读全文