广州大学软件工程3实验一：数据融合与清洗

需积分: 0 140 浏览量更新于2024-08-04 收藏 55KB DOCX 举报

本篇实验报告由广州大学计算机科学与网络工程学院软件实验室的18级软件工程3班学生李子轩于2020年11月20日完成。实验内容围绕数据处理和整合，旨在解决实际问题，即合并来自不同来源的学生数据，包括一个存储在数据库中的数据源（Stu表）和一个来自txt文件的数据源。数据源具有不同的结构和格式，如数据库中的整数类型和浮点数，以及txt文件中的字符串表示。实验的核心任务包括： 1. 数据集成：从数据库的Stu表中提取学生的ID、姓名、家乡、性别、身高、课程成绩（1-10门课程）以及体能测试成绩。而txt文件中的数据需要通过格式转换，将字符串成绩转换为数值形式。 2. 数据清洗：处理两个数据源中存在的缺失值、冗余和不一致性。这可能涉及到数据校验、去重和异常值处理。 3. 数据一致性：确保在整合过程中，学生的ID和课程成绩在两个数据源中是一致的，且遵循相同的评分标准（百分制和十分制之间的转换）。 4. 数据量化：对于文本形式的成绩，如百分比和十分制，需要将其转换为数值形式，以便进行后续的统计分析。 5. 使用工具和技术：实验主要使用Python编程语言，利用pandas库进行数据处理，如读取CSV文件（data_source1.csv和data_source2-逗号间隔.csv），数据合并（tempFile.csv），以及数据清洗和统计。此外，还使用了glob模块来管理文件操作，csv模块用于处理CSV文件格式。 6. 手动计算：由于题目限制，某些计算部分不能依赖库函数，所以需要手动编写函数来进行数值转换和统计计算。 7. 结果输出：最终，整合并清洗后的数据保存在objectFile.csv文件中，提供了全面的学生信息，可用于进一步的数据分析或报告生成。在整个实验过程中，学生需充分理解和应用数据库查询、文件处理、数据清洗和编程技能，以达到预期的项目目标。

广州大学学生实验报告

开课学院及实验室：计算机科学与网络工程学院软件实验室 2020 年 11 月 20

日

学院

计算机科学

与网络工程

学院

年级/专

业/班

18 级

软件

工程

3 班

姓名

李子轩

学号

1806300106

实验课

程名称

机器学习与数据挖掘实验

成绩

实验项

目名称

多源数据集成、清洗和统计

指导老

师

彭伟龙

实验一

一、组员信息

李子轩（小组共 1 人）

二、作业环境（文件说明，函数说明，调用的函数库以及涉及哪些技术）

文件说明：

数据源 1：一.数据源 1.xlsx

数据源 2：一.数据源 2-逗号间隔.txt

格式转换后的数据源 1：一.数据源 1.csv

格式转换后的数据源 2：一.数据源 2-逗号间隔.csv

下载后可阅读完整内容，剩余6页未读，立即下载

韩金虎

粉丝: 35
资源: 285

广州大学软件工程3实验一：数据融合与清洗

广州大学计算机网络实验报告

软件183-李子轩-实验三1

软件183-李子轩-实验二1

vue created 为什么执行六次

vue computed 使用

Python基于yolo的健身姿势检测与姿态矫正建议系统源代码+使用说明

使用谷歌地球引擎（GEE）和 Python 在孟加拉国西北部绘制基于机器学习算法的作物类型图.ipynb

【光伏预测】基于蛇群优化算法SO优化高斯过程回归GPR实现光伏多输入单输出预测附Matlab代码.rar

【光伏预测】基于鹈鹕优化算法POA优化高斯过程回归GPR实现光伏多输入单输出预测附Matlab代码.rar

深度学习图形识别点位知识

最新资源