用Python完成以下代码：读取家长问卷数据，'data2013\cepsw1parentEN.dta'，提取其中的'ids'（学生 id）, 'grade9' （孩子是否为九年级）, 'ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405', 'ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706' 等列，完成相关数据清洗工作： ①删除含有缺失值的行（any）。 ②对'ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405'，请根据下表，将【1.从不 2.偶尔】记 0 分，【3.经常】记为 1 分，并添加新列，其值为 5 个问题的得分总和。③对'ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706'，请根据下表，将【1.从未做过 2. 每年一次 3.每半年一次】记 0 分，【4.每个月一次 5.每周一次 6.每周一次以上】记为 1 分，并添加新列，其值为 6 个问题的得分总和。④删除多余的列，仅保留 4 列：【'ids', 'grade9',②得到的新列，③得到的新列】，展示表格的前 5 行和最后 5 行的拼接。（使用 concat 和 head 和 tail 函数）

时间: 2023-10-23 21:34:27 浏览: 124

以下是代码实现： ```python import pandas as pd # 读取数据 data = pd.read_stata('data2013/cepsw1parentEN.dta', convert_categoricals=False) # 提取需要的列 cols = ['ids', 'grade9', 'ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405', 'ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706'] data = data[cols] # 删除含有缺失值的行 data = data.dropna(how='any') # 处理'ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405'列 ba14_cols = ['ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405'] ba14_scores = [] for col in ba14_cols: score = data[col].replace({1: 0, 2: 0, 3: 1}) ba14_scores.append(score) data['ba14_scores'] = sum(ba14_scores) # 处理'ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706'列 ba17_cols = ['ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706'] ba17_scores = [] for col in ba17_cols: score = data[col].replace({1: 0, 2: 0, 3: 0, 4: 1, 5: 1, 6: 1}) ba17_scores.append(score) data['ba17_scores'] = sum(ba17_scores) # 删除多余的列 data = data[['ids', 'grade9', 'ba14_scores', 'ba17_scores']] # 展示前 5 行和最后 5 行的拼接 print(pd.concat([data.head(), data.tail()])) ``` 需要注意的是，这段代码中对于'ba1401', 'ba1402', 'ba1403', 'ba1404', 'ba1405'和'ba1701', 'ba1702', 'ba1703', 'ba1704', 'ba1705', 'ba1706'列的处理，使用了 pandas 的 replace 函数，将原始数据中的数值映射为相应的分数。最后，使用 concat 函数将前 5 行和最后 5 行的数据拼接起来，输出结果。

阅读全文

相关推荐

Python包tehran_stocks：轻松获取德黑兰股市数据

Python库syngenta_digital_dta-0.0.44安装与应用解析

DEAP软件操作指南：从Excel到.dta文件的转换步骤

cepsw2studentEN.dta

数据分析常用数据集：stu1matchdata.dta

2013.dta.zip

data.dta

数据1.dta

工具变量-ESG基金持股数据数据集（dta格式）.dta

数据分析常用数据集：matchdata.dta

数据分析常用数据集：onesamplettest.dta

merge data.dta

公开整理-CQ数据集（dta格式）.dta

怎么用分块读取的方法来读取C:\Users\84050\Desktop\balancesheet.dta中前50行数据呢，代码怎么写

大家在看

伺服环修正参数-Power PMAC

天风证券_0305_风险预算与组合优化.pdf

CST画旋转体.pdf

差分GPS定位技术

Cadence Allegro16.6高级进阶教程

最新推荐

白色卡通风格响应式游戏应用商店企业网站模板.zip

掌握HTML/CSS/JS和Node.js的Web应用开发实践

管理建模和仿真的文件

计算机体系结构概述：基础概念与发展趋势

int a[][3]={{1,2},{4}}输出这个数组

勒玛算法研讨会项目：在线商店模拟与Qt界面实现

"互动学习：行动中的多样性与论文攻读经历"

【计算机组成原理精讲】：从零开始深入理解计算机硬件

vue2加载高德地图

Edge语法革新：打造WPF界面新体验

　差分GPS定位技术