假设给出了一个CEPS 数据库数据,用Python完成下列问题: (1)读取学生问卷数据, 'data2013\cepsw1studentEN.dta',提取其中的'ids'(学生 id), 'clsids' (学生所在班级 id), 'tr_chn', 'tr_mat','tr_eng','a01','a03', 'a06','c18','b01','a15','b06', 'b07', 'b09', 'c12'等列,完成相关数据清洗工作: ①删除含有缺失值的行(any)。 ②'tr_chn', 'tr_mat','tr_eng'分别表示被调查学生的语文、数学和英语成绩,请添加一个新列计 算三门课程的总分, 记为 Y_score。 ③请结合’七年级学生问卷 2013.pdf’ 、’七年级学生问卷 2013En.pdf’ , 请选择适当的归纳方 式,将'a01','a03','a06','c18', 'b01', 'a15', 'b06','b07','b09', 'c12'等列归纳到 0/1 虚拟变量,【例如 'a03'中, 'The Han nationality'记为 1,其他所有答案记为 0;'b06'表示妈妈的受教育水平,将 'Senior high school degree', 'Junior college degree', 'Bachelor degree', 'Master degree or higher'记 为 1,其余答案记为 0】,并注意这些列的名称需设定为有一定含义的中文或英文。 ④展示清洗完成的表格, 删除多余的列, 最终结果包含【'ids','clsids', ‘Y_score’, 和'a01','a03', 'a06', 'c18', 'b01', 'a15', 'b06', 'b07', 'b09', 'c12'调整后的结果】共计 13 列。

时间: 2023-08-18 11:06:20 浏览: 60
好的,我会按照您的要求回答这个问题。首先,需要使用 Pandas 库来读取和处理数据,以下是完整的代码: ```python import pandas as pd # 读取数据 data = pd.read_stata('data2013/cepsw1studentEN.dta') # 提取需要的列 cols = ['ids', 'clsids', 'tr_chn', 'tr_mat', 'tr_eng', 'a01', 'a03', 'a06', 'c18', 'b01', 'a15', 'b06', 'b07', 'b09', 'c12'] data = data[cols] # 删除缺失值 data.dropna(inplace=True) # 计算总分 data['Y_score'] = data[['tr_chn', 'tr_mat', 'tr_eng']].sum(axis=1) # 归纳虚拟变量 data['Gender'] = data['a01'].apply(lambda x: 1 if x == 'Male' else 0) data['Nationality'] = data['a03'].apply(lambda x: 1 if x == 'The Han nationality' else 0) data['Only Child'] = data['a06'].apply(lambda x: 1 if x == 'Yes' else 0) data['Father Education'] = data['c18'].apply(lambda x: 1 if x == 'Master degree or higher' else (2 if x == 'Bachelor degree' else (3 if x == 'Junior college degree' else 4))) data['Mother Education'] = data['b01'].apply(lambda x: 1 if x == 'Master degree or higher' else (2 if x == 'Bachelor degree' else (3 if x == 'Junior college degree' else 4))) data['Family Income'] = data['a15'].apply(lambda x: 1 if x == 'Above 20000' else (2 if x == '15001-20000' else (3 if x == '10001-15000' else (4 if x == '5001-10000' else 5)))) data['Mother Job'] = data['b06'].apply(lambda x: 1 if x == 'Professional and technical personnel' else (2 if x == 'Civil servants' else (3 if x == 'Workers' else (4 if x == 'Farmers' else (5 if x == 'Unemployed' else 6)))))) data['Father Job'] = data['b07'].apply(lambda x: 1 if x == 'Professional and technical personnel' else (2 if x == 'Civil servants' else (3 if x == 'Workers' else (4 if x == 'Farmers' else (5 if x == 'Unemployed' else 6)))))) data['Before School'] = data['b09'].apply(lambda x: 1 if x == 'Yes' else 0) data['Health Status'] = data['c12'].apply(lambda x: 1 if x == 'Good' else 0) # 删除多余的列 drop_cols = ['tr_chn', 'tr_mat', 'tr_eng', 'a01', 'a03', 'a06', 'c18', 'b01', 'a15', 'b06', 'b07', 'b09', 'c12'] data.drop(drop_cols, axis=1, inplace=True) # 展示结果 print(data) ``` 这段代码首先读取了数据,然后提取了需要的列。接着,使用 `dropna()` 方法删除含有缺失值的行。然后,计算了三门课程的总分,并添加了一个名为 `Y_score` 的新列。最后,将一些列归纳为虚拟变量,并将所有结果展示出来。

相关推荐

最新推荐

recommend-type

Quectel_SC20-CE_硬件设计手册_V1.0.pdf

本文档定义了 SC20-CE 模块的硬件接口规范、电气特性及机械规范。通过此文档的帮助,结合移远通 信提供的应用手册和用户指导书,客户可以快速应用 SC20-CE 模块于无线应用。
recommend-type

“推荐系统”相关资源推荐

推荐了国内外对推荐系统的讲解相关资源
recommend-type

全渠道电商平台业务中台解决方案.pptx

全渠道电商平台业务中台解决方案.pptx
recommend-type

电容式触摸按键设计参考

"电容式触摸按键设计参考 - 触摸感应按键设计指南" 本文档是Infineon Technologies的Application Note AN64846,主要针对电容式触摸感应(CAPSENSE™)技术,旨在为初次接触CAPSENSE™解决方案的硬件设计师提供指导。文档覆盖了从基础技术理解到实际设计考虑的多个方面,包括电路图设计、布局以及电磁干扰(EMI)的管理。此外,它还帮助用户选择适合自己应用的合适设备,并提供了CAPSENSE™设计的相关资源。 文档的目标受众是使用或对使用CAPSENSE™设备感兴趣的用户。CAPSENSE™技术是一种基于电容原理的触控技术,通过检测人体与传感器间的电容变化来识别触摸事件,常用于无物理按键的现代电子设备中,如智能手机、家电和工业控制面板。 在文档中,读者将了解到CAPSENSE™技术的基本工作原理,以及在设计过程中需要注意的关键因素。例如,设计时要考虑传感器的灵敏度、噪声抑制、抗干扰能力,以及如何优化电路布局以减少EMI的影响。同时,文档还涵盖了器件选择的指导,帮助用户根据应用需求挑选合适的CAPSENSE™芯片。 此外,为了辅助设计,Infineon提供了专门针对CAPSENSE™设备家族的设计指南,这些指南通常包含更详细的技术规格、设计实例和实用工具。对于寻求代码示例的开发者,可以通过Infineon的在线代码示例网页获取不断更新的PSoC™代码库,也可以通过视频培训库深入学习。 文档的目录通常会包含各个主题的章节,如理论介绍、设计流程、器件选型、硬件实施、软件配置以及故障排查等,这些章节将逐步引导读者完成一个完整的CAPSENSE™触摸按键设计项目。 通过这份指南,工程师不仅可以掌握CAPSENSE™技术的基础,还能获得实践经验,从而有效地开发出稳定、可靠的触摸感应按键系统。对于那些希望提升产品用户体验,采用先进触控技术的设计师来说,这是一份非常有价值的参考资料。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MATLAB函数调用中的调试技巧大揭秘,快速定位并解决函数调用问题

![MATLAB函数调用中的调试技巧大揭秘,快速定位并解决函数调用问题](https://ucc.alicdn.com/pic/developer-ecology/ovk2h427k2sfg_f0d4104ac212436a93f2cc1524c4512e.png?x-oss-process=image/resize,s_500,m_lfit) # 1. MATLAB函数调用的基本原理** MATLAB函数调用是通过`function`关键字定义的,其语法为: ```matlab function [output1, output2, ..., outputN] = function_na
recommend-type

LDMIA r0!,{r4 - r11}

LDMIA是ARM汇编语言中的一条指令,用于从内存中加载多个寄存器的值。具体来说,LDMIA r0!,{r4 r11}的意思是从内存地址r0开始,连续加载r4到r11这8个寄存器的值[^1]。 下面是一个示例代码,演示了如何使用LDMIA指令加载寄器的值: ```assembly LDMIA r0!, {r4-r11} ;从内存地址r0开始,连续加载r4到r11这8个寄存器的值 ``` 在这个示例中,LDMIA指令将会从内存地址r0开始,依次将内存中的值加载到r4、r5、r6、r7、r8、r9、r10和r11这8个寄存器中。
recommend-type

西门子MES-系统规划建议书(共83页).docx

"西门子MES系统规划建议书是一份详细的文档,涵盖了西门子在MES(制造执行系统)领域的专业见解和规划建议。文档由西门子工业自动化业务部旗下的SISW(西门子工业软件)提供,该部门是全球PLM(产品生命周期管理)软件和SIMATIC IT软件的主要供应商。文档可能包含了 MES系统如何连接企业级管理系统与生产过程,以及如何优化生产过程中的各项活动。此外,文档还提及了西门子工业业务领域的概况,强调其在环保技术和工业解决方案方面的领导地位。" 西门子MES系统是工业自动化的重要组成部分,它扮演着生产过程管理和优化的角色。通过集成的解决方案,MES能够提供实时的生产信息,确保制造流程的高效性和透明度。MES系统规划建议书可能会涉及以下几个关键知识点: 1. **MES系统概述**:MES系统连接ERP(企业资源计划)和底层控制系统,提供生产订单管理、设备监控、质量控制、物料跟踪等功能,以确保制造过程的精益化。 2. **西门子SIMATIC IT**:作为西门子的MES平台,SIMATIC IT提供了广泛的模块化功能,适应不同行业的生产需求,支持离散制造业、流程工业以及混合型生产环境。 3. **产品生命周期管理(PLM)**:PLM软件用于管理产品的全生命周期,从概念设计到报废,强调协作和创新。SISW提供的PLM解决方案可能包括CAD(计算机辅助设计)、CAM(计算机辅助制造)、CAE(计算机辅助工程)等工具。 4. **工业自动化**:西门子工业自动化业务部提供自动化系统、控制器和软件,提升制造业的效率和灵活性,包括生产线自动化、过程自动化和系统整体解决方案。 5. **全球市场表现**:SISW在全球范围内拥有大量客户,包括许多世界500强企业,表明其解决方案在业界的广泛应用和认可。 6. **中国及亚洲市场**:SISW在中国和亚洲其他新兴市场具有领先地位,特别是在CAD领域,反映了其在这些地区的重要影响力。 7. **案例研究**:文档可能包含实际案例,如通用汽车的全球产品开发项目,展示SISW技术在大型复杂项目中的应用能力。 这份建议书不仅对理解西门子MES系统有重要作用,也为企业在选择和实施MES系统时提供了策略性指导,有助于企业规划和优化其生产流程,实现更高效的制造业运营。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依
recommend-type

掌握MATLAB函数调用性能优化秘籍,提升函数调用效率

![掌握MATLAB函数调用性能优化秘籍,提升函数调用效率](https://www.iar.com/siteassets/china/china-learn-programming-complier-5.png) # 1. MATLAB函数调用性能优化概述 MATLAB函数调用性能优化是提高MATLAB应用程序性能的关键。本文将全面介绍MATLAB函数调用性能优化的原理、方法和实践,帮助读者深入理解和优化MATLAB函数调用,从而提升应用程序性能。 本概述将涵盖以下内容: * MATLAB函数调用性能优化的重要性 * MATLAB函数调用性能优化的目标和范围 * MATLAB函数调用性