用Python完成以下代码:读取家长问卷数据,'data2013\cepsw1parentEN.dta',提取其中的'ids'(学生 id), 'grade9' (孩子是否为九年级), 'ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405', 'ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706' 等列,完成相关数据清洗工作: ①删除含有缺失值的行(any)。 ②对'ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405',请根据下表,将【1.从不 2.偶尔】记 0 分, 【3.经常】记为 1 分,并添加新列,其值为 5 个问题的得分总和。③对'ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706',请根据下表,将【1.从未做过 2. 每年一次 3.每半年一次】记 0 分,【4.每个月一次 5.每周一次 6.每周一次以上】记为 1 分, 并添加新列,其值为 6 个问题的得分总和。④删除多余的列,仅保留 4 列:【'ids', 'grade9',②得到的新列,③得到的新列】,展示表格的 前 5 行和最后 5 行的拼接。(使用 concat 和 head 和 tail 函数)

时间: 2023-10-23 10:34:27 浏览: 34
以下是代码实现: ```python import pandas as pd # 读取数据 data = pd.read_stata('data2013/cepsw1parentEN.dta', convert_categoricals=False) # 提取需要的列 cols = ['ids', 'grade9', 'ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405', 'ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706'] data = data[cols] # 删除含有缺失值的行 data = data.dropna(how='any') # 处理'ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405'列 ba14_cols = ['ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405'] ba14_scores = [] for col in ba14_cols: score = data[col].replace({1: 0, 2: 0, 3: 1}) ba14_scores.append(score) data['ba14_scores'] = sum(ba14_scores) # 处理'ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706'列 ba17_cols = ['ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706'] ba17_scores = [] for col in ba17_cols: score = data[col].replace({1: 0, 2: 0, 3: 0, 4: 1, 5: 1, 6: 1}) ba17_scores.append(score) data['ba17_scores'] = sum(ba17_scores) # 删除多余的列 data = data[['ids', 'grade9', 'ba14_scores', 'ba17_scores']] # 展示前 5 行和最后 5 行的拼接 print(pd.concat([data.head(), data.tail()])) ``` 需要注意的是,这段代码中对于'ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405'和'ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706'列的处理,使用了 pandas 的 replace 函数,将原始数据中的数值映射为相应的分数。最后,使用 concat 函数将前 5 行和最后 5 行的数据拼接起来,输出结果。

相关推荐

最新推荐

recommend-type

vb+SQL车辆管理系统设计(论文+源代码).zip

vb+SQL车辆管理系统设计(论文+源代码)
recommend-type

基于C#编程实现事件总线源码+项目说明.zip

事件总线这个概念对你来说可能很陌生,但提到观察者(发布-订阅)模式,你也许就很熟悉。事件总线是对发布-订阅模式的一种实现。它是一种集中式事件处理机制,允许不同的组件之间进行彼此通信而又不需要相互依赖,达到一种解耦的目的。
recommend-type

request-validator.cpython-37

request-validator.cpython-37
recommend-type

PatchNavicat是一个用于po姐Navicat数据库管理工具的插件或工具

Navicat是一款流行的数据库前端用户界面工具,支持多种数据库系统,如MySQL、SQL Server、SQLite、Oracle和PostgreSQL等。以下是关于PatchNavicat的使用步骤和相关信息: 1. 将下载的PatchNavicat.exe文件复制到Navicat的安装目录下,确保与navicat.exe文件位于同一目录。 2. 在安装Navicat后,确保Navicat程序已经完全关闭。 3. 双击PatchNavicat.exe文件运行它。在某些情况下,可能需要选择Navicat的安装目录或navicat.exe文件作为目标进行po姐。 如果PatchNavicat运行成功并显示“Patch Success!”或类似的消息,则表示Navicat已经被成功po姐。此时,可以重新启动Navicat并检查是否需要注册或输入激活码。如果不需要,则说明po姐成功。使用po姐工具可能存在法律和道德风险。尽管许多用户选择使用po姐版软件来节省成本,但这可能违反了软件的使用协议和版权法。
recommend-type

苹果cms v8漂亮精品动漫风格网站模板

苹果CMS精品动漫风格网站模板,新春喜气自适应模板视频影视网站模板,复制文件template目录,后台设置模板为2016new目录刷新即可。
recommend-type

藏经阁-应用多活技术白皮书-40.pdf

本资源是一份关于“应用多活技术”的专业白皮书,深入探讨了在云计算环境下,企业如何应对灾难恢复和容灾需求。它首先阐述了在数字化转型过程中,容灾已成为企业上云和使用云服务的基本要求,以保障业务连续性和数据安全性。随着云计算的普及,灾备容灾虽然曾经是关键策略,但其主要依赖于数据级别的备份和恢复,存在数据延迟恢复、高成本以及扩展性受限等问题。 应用多活(Application High Availability,简称AH)作为一种以应用为中心的云原生容灾架构,被提出以克服传统灾备的局限。它强调的是业务逻辑层面的冗余和一致性,能在面对各种故障时提供快速切换,确保服务不间断。白皮书中详细介绍了应用多活的概念,包括其优势,如提高业务连续性、降低风险、减少停机时间等。 阿里巴巴作为全球领先的科技公司,分享了其在应用多活技术上的实践历程,从早期集团阶段到云化阶段的演进,展示了企业在实际操作中的策略和经验。白皮书还涵盖了不同场景下的应用多活架构,如同城、异地以及混合云环境,深入剖析了相关的技术实现、设计标准和解决方案。 技术分析部分,详细解析了应用多活所涉及的技术课题,如解决的技术问题、当前的研究状况,以及如何设计满足高可用性的系统。此外,从应用层的接入网关、微服务组件和消息组件,到数据层和云平台层面的技术原理,都进行了详尽的阐述。 管理策略方面,讨论了应用多活的投入产出比,如何平衡成本和收益,以及如何通过能力保鲜保持系统的高效运行。实践案例部分列举了不同行业的成功应用案例,以便读者了解实际应用场景的效果。 最后,白皮书展望了未来趋势,如混合云多活的重要性、应用多活作为云原生容灾新标准的地位、分布式云和AIOps对多活的推动,以及在多云多核心架构中的应用。附录则提供了必要的名词术语解释,帮助读者更好地理解全文内容。 这份白皮书为企业提供了全面而深入的应用多活技术指南,对于任何寻求在云计算时代提升业务韧性的组织来说,都是宝贵的参考资源。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MATLAB矩阵方程求解与机器学习:在机器学习算法中的应用

![matlab求解矩阵方程](https://img-blog.csdnimg.cn/041ee8c2bfa4457c985aa94731668d73.png) # 1. MATLAB矩阵方程求解基础** MATLAB中矩阵方程求解是解决线性方程组和矩阵方程的关键技术。本文将介绍MATLAB矩阵方程求解的基础知识,包括矩阵方程的定义、求解方法和MATLAB中常用的求解函数。 矩阵方程一般形式为Ax=b,其中A为系数矩阵,x为未知数向量,b为常数向量。求解矩阵方程的过程就是求解x的值。MATLAB提供了多种求解矩阵方程的函数,如solve、inv和lu等。这些函数基于不同的算法,如LU分解
recommend-type

触发el-menu-item事件获取的event对象

触发`el-menu-item`事件时,会自动传入一个`event`对象作为参数,你可以通过该对象获取触发事件的具体信息,例如触发的元素、鼠标位置、键盘按键等。具体可以通过以下方式获取该对象的属性: 1. `event.target`:获取触发事件的目标元素,即`el-menu-item`元素本身。 2. `event.currentTarget`:获取绑定事件的元素,即包含`el-menu-item`元素的`el-menu`组件。 3. `event.key`:获取触发事件时按下的键盘按键。 4. `event.clientX`和`event.clientY`:获取触发事件时鼠标的横纵坐标
recommend-type

藏经阁-阿里云计算巢加速器:让优秀的软件生于云、长于云-90.pdf

阿里云计算巢加速器是阿里云在2022年8月飞天技术峰会上推出的一项重要举措,旨在支持和服务于企业服务领域的创新企业。通过这个平台,阿里云致力于构建一个开放的生态系统,帮助软件企业实现从云端诞生并持续成长,增强其竞争力。该加速器的核心价值在于提供1对1的技术专家支持,确保ISV(独立软件供应商)合作伙伴能获得与阿里云产品同等的技术能力,从而保障用户体验的一致性。此外,入选的ISV还将享有快速在钉钉和云市场上线的绿色通道,以及与行业客户和投资机构的对接机会,以加速业务发展。 活动期间,包括百奥利盟、极智嘉、EMQ、KodeRover、MemVerge等30家企业成为首批计算巢加速器成员,与阿里云、钉钉以及投资界专家共同探讨了技术进步、产品融合、战略规划和资本市场的关键议题。通过这次合作,企业可以借助阿里云的丰富资源和深厚技术实力,应对数字化转型中的挑战,比如精准医疗中的数据处理加速、物流智慧化的升级、数字孪生的普及和云原生图数据库的构建。 阿里云计算巢加速器不仅是一个技术支持平台,也是企业成长的催化剂。它通过举办类似2023年2月的集结活动,展示了如何通过云计算生态的力量,帮助企业在激烈的竞争中找到自己的定位,实现可持续发展。参与其中的优秀企业如神策和ONES等,都在这个平台上得到了加速和赋能,共同推动了企业服务领域的创新与进步。总结来说,阿里云计算巢加速器是一个集技术、资源和生态支持于一体的全方位服务平台,旨在帮助企业软件产业在云端绽放光彩。