生成一个数据集,分别进行:空值、重复值、异常值的处理。生成一个多个数据集,进行数据的堆叠实验
时间: 2024-06-11 13:06:10 浏览: 15
数据集1:学生信息表
| 学号 | 姓名 | 年龄 | 性别 | 专业 |
| ---- | ---- | ---- | ---- | ---- |
| 1001 | 张三 | 20 | 男 | 计算机 |
| 1002 | 李四 | 21 | 男 | 化学 |
| 1003 | 王五 | 19 | 女 | 英语 |
| 1004 | 赵六 | 22 | 男 | 物理 |
| 1005 | 孙七 | 20 | 女 | 数学 |
| 1006 | 刘八 | 23 | 男 | 地理 |
| 1007 | 钱九 | 21 | 女 | 生物 |
| 1008 | 周十 | 20 | 男 | 历史 |
| 1009 | 吴十一 | 22 | 男 | 政治 |
| 1010 | 郑十二 | 19 | 女 | 经济 |
空值处理:在该数据集中,没有空值存在,因此不需要进行空值处理。
重复值处理:在该数据集中,没有重复值存在,因此不需要进行重复值处理。
异常值处理:在该数据集中,年龄为0或负数是不合理的数据,需要将其处理为平均值或中位数。同时,学号为负数或0也是不合理的数据,需要将其删除或替换为正整数。
数据集2:销售订单表
| 订单号 | 客户名称 | 商品名称 | 数量 | 单价 | 总价 |
| ------ | -------- | -------- | ---- | ---- | ---- |
| 1001 | 张三 | 苹果 | 100 | 5 | 500 |
| 1002 | 李四 | 香蕉 | 200 | 3 | 600 |
| 1003 | 王五 | 葡萄 | 50 | 10 | 500 |
| 1004 | 赵六 | 西瓜 | 30 | 20 | 600 |
| 1005 | 孙七 | 菠萝 | 80 | 8 | 640 |
| 1006 | 刘八 | 香橙 | 120 | 4 | 480 |
| 1007 | 钱九 | 梨子 | 70 | 6 | 420 |
| 1008 | 周十 | 葡萄 | 100 | 10 | 1000 |
空值处理:在该数据集中,没有空值存在,因此不需要进行空值处理。
重复值处理:在该数据集中,没有重复值存在,因此不需要进行重复值处理。
异常值处理:在该数据集中,数量为0或负数是不合理的数据,需要将其删除或替换为正整数。单价为0或负数也是不合理的数据,需要将其删除或替换为正数。
数据集3:体育比赛成绩表
| 比赛名称 | 参赛队伍 | 得分 |
| -------- | -------- | ---- |
| 篮球比赛 | A队 | 80 |
| 篮球比赛 | B队 | 70 |
| 篮球比赛 | C队 | 90 |
| 篮球比赛 | D队 | 60 |
| 足球比赛 | A队 | 2 |
| 足球比赛 | B队 | 1 |
| 足球比赛 | C队 | 3 |
| 足球比赛 | D队 | 0 |
空值处理:在该数据集中,没有空值存在,因此不需要进行空值处理。
重复值处理:在该数据集中,没有重复值存在,因此不需要进行重复值处理。
异常值处理:在该数据集中,得分为负数是不合理的数据,需要将其删除或替换为0。同时,得分超出比赛规定的最大值或最小值也是不合理的数据,需要进行替换或删除。
堆叠实验:
数据集1:
| 学号 | 姓名 | 年龄 | 性别 | 专业 |
| ---- | ---- | ---- | ---- | ---- |
| 1001 | 张三 | 20 | 男 | 计算机 |
| 1002 | 李四 | 21 | 男 | 化学 |
| 1003 | 王五 | 19 | 女 | 英语 |
| 学号 | 姓名 | 年龄 | 性别 | 专业 |
| ---- | ----- | ---- | ---- | ---- |
| 1004 | 赵六 | 22 | 男 | 物理 |
| 1005 | 孙七 | 20 | 女 | 数学 |
| 1006 | 刘八 | 23 | 男 | 地理 |
| 1007 | 钱九 | 21 | 女 | 生物 |
| 1008 | 周十 | 20 | 男 | 历史 |
| 1009 | 吴十一 | 22 | 男 | 政治 |
| 1010 | 郑十二 | 19 | 女 | 经济 |
数据集2:
| 订单号 | 客户名称 | 商品名称 | 数量 | 单价 | 总价 |
| ------ | -------- | -------- | ---- | ---- | ---- |
| 1001 | 张三 | 苹果 | 100 | 5 | 500 |
| 1002 | 李四 | 香蕉 | 200 | 3 | 600 |
| 1003 | 王五 | 葡萄 | 50 | 10 | 500 |
| 订单号 | 客户名称 | 商品名称 | 数量 | 单价 | 总价 |
| ------ | -------- | -------- | ---- | ---- | ---- |
| 1004 | 赵六 | 西瓜 | 30 | 20 | 600 |
| 1005 | 孙七 | 菠萝 | 80 | 8 | 640 |
| 1006 | 刘八 | 香橙 | 120 | 4 | 480 |
| 1007 | 钱九 | 梨子 | 70 | 6 | 420 |
| 1008 | 周十 | 葡萄 | 100 | 10 | 1000 |
数据集3:
| 比赛名称 | 参赛队伍 | 得分 |
| -------- | -------- | ---- |
| 篮球比赛 | A队 | 80 |
| 篮球比赛 | B队 | 70 |
| 篮球比赛 | C队 | 90 |
| 比赛名称 | 参赛队伍 | 得分 |
| -------- | -------- | ---- |
| 篮球比赛 | D队 | 60 |
| 足球比赛 | A队 | 2 |
| 足球比赛 | B队 | 1 |
| 比赛名称 | 参赛队伍 | 得分 |
| -------- | -------- | ---- |
| 足球比赛 | C队 | 3 |
| 足球比赛 | D队 | 0 |
相关推荐
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)