def load_data(cfg_dict): # df_1 = pd.read_pickle('sample/easy_sample_pos_std.pickle') # df_1 = pd.read_pickle('sample/easy_sample_pos.pickle') df_1 = pd.DataFrame() for root, dirs, files in os.walk('sample/tmp_zq_yf_easy_sample_pos/'): files = [f for f in files if not f[0] == '.'] for file in files: print('read from => %s%s' % (root, file)) tmp = pd.read_csv('sample/tmp_zq_yf_easy_sample_pos/' + file, header=None, encoding='utf-8') df_1 = df_1.append(tmp) df_1.columns = ['号码', '用户状态', '用户星级',

时间: 2024-04-18 21:32:58 浏览: 144

这段代码是用来加载数据的函数。根据配置字典 cfg_dict 中的设置，从指定目录中读取数据文件并将其合并为一个数据框 df_1。首先，函数创建一个空的数据框 df_1。然后，通过 os.walk 函数遍历指定目录下的文件，获取文件列表。在遍历过程中，排除以点开头的隐藏文件。接下来，对于每个文件，函数使用 pd.read_csv 函数读取文件内容，并将其追加到 df_1 数据框中。最后，函数给 df_1 数据框添加列名，列名为 ['号码', '用户状态', '用户星级', ...]。这段代码的作用是从指定目录中读取多个数据文件，并将它们合并为一个数据框。这样可以方便后续对数据进行处理和分析。

df_1['label'] = 1 # df_1['入网时长（月）'] = data_to_month(df_1, cfg_dict) # df_0 = pd.read_pickle('sample/easy_sample_neg_std.pickle') # df_0 = pd.read_pickle('sample/easy_sample_neg.pickle') df_0 = pd.DataFrame() for root, dirs, files in os.walk('sample/tmp_zq_yf_easy_sample_neg/'): files = [f for f in files if not f[0] == '.'] for file in files: print('read from => %s%s' % (root, file)) tmp = pd.read_csv('sample/tmp_zq_yf_easy_sample_neg/' + file, header=None, encoding='utf-8') df_0 = df_0.append(tmp) df_0.columns = ['号码', '用户状态', '用户星级', '入网时长（月）', '是否历史投诉用户', '是否黑名单&免打扰', '证件性别', '证件年龄', '是否集团网用户', '是否校园用户', '是否双卡槽终端

这段代码是用来加载另一个数据集 df_0 的代码。首先，代码给 df_1 数据框添加了一个名为 'label' 的列，并将所有行的值都设置为 1。这可能是为了标记 df_1 中的样本为正例。接着，代码创建了一个空的数据框 df_0。然后，通过 os.walk 函数遍历指定目录下的文件，获取文件列表。在遍历过程中，排除以点开头的隐藏文件。对于每个文件，代码使用 pd.read_csv 函数读取文件内容，并将其追加到 df_0 数据框中。最后，代码给 df_0 数据框添加列名，列名为 ['号码', '用户状态', '用户星级', '入网时长（月）', '是否历史投诉用户', '是否黑名单&免打扰', '证件性别', '证件年龄', '是否集团网用户', '是否校园用户', ...]。这段代码的作用是加载另一个数据集 df_0，并为其添加列名。根据代码中的注释，df_0 数据集可能包含了负例样本。

0秒中断次数', '外呼120秒以上次数', '外呼总次数', '外呼成功率', '外呼60秒中断率', '外呼拒接率', '外呼平均时长', '外呼总时长', 'label'] df_0['label'] = 0 #df_0.drop(columns=['质心距离']) # df_0['入网时长（月）'] = data_to_month(df_0, cfg_dict) # df_9 = pd.read_pickle('sample/easy_sample_unk_std.pickle') # df_9 = pd.read_pickle('sample/easy_sample_unk.pickle') df_9 = pd.DataFrame() for root, dirs, files in os.walk('sample/tmp_zq_yf_easy_sample_unk/'): files = [f for f in files if not f[0] == '.'] for file in files: print('read from => %s%s' % (root, file)) tmp = pd.read_csv('sample/tmp_zq_yf_easy_sample_unk/' + file, header=None, encoding='utf-8') df_9 = df_9.append(tmp) df_9.columns = ['号码', '用户状态', '用户星级', '入网时长（月）', '是否历史投诉用户', '是否黑名单&免打扰', '证件性别', '证件年龄', '是否集团网用户', '是否校园用户', '是否双

这段代码是继续加载数据集的代码。首先，代码给 df_0 数据框添加了一个名为 'label' 的列，并将所有行的值都设置为 0。这可能是为了标记 df_0 中的样本为负例。接着，代码创建了一个空的数据框 df_9。然后，通过 os.walk 函数遍历指定目录下的文件，获取文件列表。在遍历过程中，排除以点开头的隐藏文件。对于每个文件，代码使用 pd.read_csv 函数读取文件内容，并将其追加到 df_9 数据框中。最后，代码给 df_9 数据框添加列名，列名为 ['号码', '用户状态', '用户星级', '入网时长（月）', '是否历史投诉用户', '是否黑名单&免打扰', '证件性别', '证件年龄', '是否集团网用户', '是否校园用户', ...]。这段代码的作用是加载另一个数据集 df_9，并为其添加列名。根据代码中的注释，df_9 数据集可能包含了未知样本。

阅读全文

相关推荐

UCOS-II操作系统配置文件OS_CFG.H详解与内存占用测试

U-Boot启动：lowlevel_init.S汇编解析与内存初始化

轻松扩展的配置文件解析器cfg_to_parser

ansible_fileglob_to_dict:一个像 Ansible 的 with_fileglob 一样工作的插件，但返回一个字典列表（所以你可以在目录中进行关键查找）

matlab导入excel代码-cfg_datatool:cfg_datatool-盖尔（C.Geier）

ans_pb_cfg_workstation_userl：Ansible和Shell脚本，用于使用MATE DE安装和配置Arch Linux

auto_cfg_rmqshell脚本：自动部署rocketmq阿里巴巴消息队列阿帕奇消息队列.7z

cfg-if:Rust＃[cfg]语句的类似ifelif的宏

my_csgo_config_and_autoexec:我的csgo配置和Autoexec

simple_cfg_reader：simple_cfg_reader是C ++编程语言的配置文件读取器

cqu_car_trade_web_project:重庆大学暑期小学期专业综合设计，买车网

ansible_stdout_compact_logger：Ansible Stdout紧凑型记录仪

pause_menu_header_custom:使原始暂停菜单标题自定义

MPU-6050-Register.zip_MPU6050_MPU6050 寄存器_MPU6050寄存器_site:www.pu

Hackintosh_ROG_M8G_Z170:Hackintosh ROG MAXIMUS VIII基因Z170

SEU_AUTO_REPORT_release:东南大学汽车健康报告（东南大学健康打卡）

mpp_enc_file_demo:MPP在RV1126上将YUV编码为H264测试

One_Tenth_Scale_Autonomous_Vehicle:该存储库包含用于自动控制装有slamware M1M1映射器，Nvidia Jetson Nano和IMX 160摄像头的traxxis rc车辆的控制代码。

大家在看

手机银行精准营销策略研究

微软面试100题系列之高清完整版PDF文档[带目录+标签]by_July

Cassandra数据模型设计最佳实践

seadas海洋遥感软件使用说明

TS流结构分析(PAT和PMT).doc

最新推荐

xen配置必备，xen开源虚拟机配置文档xl_cfg 中文

ssh(struts2[1].2.1+_hibernate3.6+spring3.0.5)整合配置.doc

OMAP_L138学习笔记

毕业设计基于单片机的室内有害气体检测系统源码+论文（高分毕设）

易语言例程：用易核心支持库打造功能丰富的IE浏览框

管理建模和仿真的文件

STM32F407ZG引脚功能深度剖析：掌握引脚分布与配置的秘密（全面解读）

给出文档中问题的答案代码

Docker构建与运行Next.js应用的指南

"互动学习：行动中的多样性与论文攻读经历"