def load_data(cfg_dict): # df_1 = pd.read_pickle('sample/easy_sample_pos_std.pickle') # df_1 = pd.read_pickle('sample/easy_sample_pos.pickle') df_1 = pd.DataFrame() for root, dirs, files in os.walk('sample/tmp_zq_yf_easy_sample_pos/'): files = [f for f in files if not f[0] == '.'] for file in files: print('read from => %s%s' % (root, file)) tmp = pd.read_csv('sample/tmp_zq_yf_easy_sample_pos/' + file, header=None, encoding='utf-8') df_1 = df_1.append(tmp) df_1.columns = ['号码', '用户状态', '用户星级',
时间: 2024-04-18 21:32:58 浏览: 144
这段代码是用来加载数据的函数。根据配置字典 cfg_dict 中的设置,从指定目录中读取数据文件并将其合并为一个数据框 df_1。
首先,函数创建一个空的数据框 df_1。
然后,通过 os.walk 函数遍历指定目录下的文件,获取文件列表。在遍历过程中,排除以点开头的隐藏文件。
接下来,对于每个文件,函数使用 pd.read_csv 函数读取文件内容,并将其追加到 df_1 数据框中。
最后,函数给 df_1 数据框添加列名,列名为 ['号码', '用户状态', '用户星级', ...]。
这段代码的作用是从指定目录中读取多个数据文件,并将它们合并为一个数据框。这样可以方便后续对数据进行处理和分析。
相关问题
df_1['label'] = 1 # df_1['入网时长(月)'] = data_to_month(df_1, cfg_dict) # df_0 = pd.read_pickle('sample/easy_sample_neg_std.pickle') # df_0 = pd.read_pickle('sample/easy_sample_neg.pickle') df_0 = pd.DataFrame() for root, dirs, files in os.walk('sample/tmp_zq_yf_easy_sample_neg/'): files = [f for f in files if not f[0] == '.'] for file in files: print('read from => %s%s' % (root, file)) tmp = pd.read_csv('sample/tmp_zq_yf_easy_sample_neg/' + file, header=None, encoding='utf-8') df_0 = df_0.append(tmp) df_0.columns = ['号码', '用户状态', '用户星级', '入网时长(月)', '是否历史投诉用户', '是否黑名单&免打扰', '证件性别', '证件年龄', '是否集团网用户', '是否校园用户', '是否双卡槽终端
这段代码是用来加载另一个数据集 df_0 的代码。
首先,代码给 df_1 数据框添加了一个名为 'label' 的列,并将所有行的值都设置为 1。这可能是为了标记 df_1 中的样本为正例。
接着,代码创建了一个空的数据框 df_0。
然后,通过 os.walk 函数遍历指定目录下的文件,获取文件列表。在遍历过程中,排除以点开头的隐藏文件。
对于每个文件,代码使用 pd.read_csv 函数读取文件内容,并将其追加到 df_0 数据框中。
最后,代码给 df_0 数据框添加列名,列名为 ['号码', '用户状态', '用户星级', '入网时长(月)', '是否历史投诉用户', '是否黑名单&免打扰', '证件性别', '证件年龄', '是否集团网用户', '是否校园用户', ...]。
这段代码的作用是加载另一个数据集 df_0,并为其添加列名。根据代码中的注释,df_0 数据集可能包含了负例样本。
0秒中断次数', '外呼120秒以上次数', '外呼总次数', '外呼成功率', '外呼60秒中断率', '外呼拒接率', '外呼平均时长', '外呼总时长', 'label'] df_0['label'] = 0 #df_0.drop(columns=['质心距离']) # df_0['入网时长(月)'] = data_to_month(df_0, cfg_dict) # df_9 = pd.read_pickle('sample/easy_sample_unk_std.pickle') # df_9 = pd.read_pickle('sample/easy_sample_unk.pickle') df_9 = pd.DataFrame() for root, dirs, files in os.walk('sample/tmp_zq_yf_easy_sample_unk/'): files = [f for f in files if not f[0] == '.'] for file in files: print('read from => %s%s' % (root, file)) tmp = pd.read_csv('sample/tmp_zq_yf_easy_sample_unk/' + file, header=None, encoding='utf-8') df_9 = df_9.append(tmp) df_9.columns = ['号码', '用户状态', '用户星级', '入网时长(月)', '是否历史投诉用户', '是否黑名单&免打扰', '证件性别', '证件年龄', '是否集团网用户', '是否校园用户', '是否双
这段代码是继续加载数据集的代码。
首先,代码给 df_0 数据框添加了一个名为 'label' 的列,并将所有行的值都设置为 0。这可能是为了标记 df_0 中的样本为负例。
接着,代码创建了一个空的数据框 df_9。
然后,通过 os.walk 函数遍历指定目录下的文件,获取文件列表。在遍历过程中,排除以点开头的隐藏文件。
对于每个文件,代码使用 pd.read_csv 函数读取文件内容,并将其追加到 df_9 数据框中。
最后,代码给 df_9 数据框添加列名,列名为 ['号码', '用户状态', '用户星级', '入网时长(月)', '是否历史投诉用户', '是否黑名单&免打扰', '证件性别', '证件年龄', '是否集团网用户', '是否校园用户', ...]。
这段代码的作用是加载另一个数据集 df_9,并为其添加列名。根据代码中的注释,df_9 数据集可能包含了未知样本。
阅读全文