![](https://csdnimg.cn/release/download_crawler_static/88941423/bg6.jpg)
4.1.1 数据清洗
数据清洗主要处理的是数据中的重复值、缺失值和异常值。对数据集进行处理,结
果如下:
1. 用户信息表:通过观察信息表中的数据,首先,发现重复的用户 id 数据,其它
字段信息完全不相同,这与实际情况矛盾,因此需删除表中所有重复数据,总计
19265 条,保留 116703 条唯一值。其次,除用户信息表的城市字段有缺失值以
外,其余字段无缺失值。由于城市字段较为特殊,不对缺失值进行插补,而是仅
研究有数据部分进行筛选,故删除了 24089 个缺失值与 399 个异常值,最终得到
92215 条数据。此外,就字段而言,APP 激活所有数据均一样,为无效字段,因
此删除该字段。
2. 用户登录表:同 1 中对用户 id 重复值的处理,删除数据总计 19201 条,保留
116416 条唯一值,无缺失值。其次,用户登录天数必须非负,故剔除登录天数和
最后登录距期末天数两字段中小于 0 的数值异常数据,总计 3589 条。另外,在
正常情况下,学习课节数必须 ≥ 完成课节数,故删除逻辑,总计 8365 条。还需
考虑学习课节数为 0,而完成课节数不为 0 的情况,故删除逻辑异常数据,总计
1167 条,最终得到 103295 条数据。而该表中的添加销售好友和进群两个字段所
有数据均一致,故仅保留添加销售好友一个字段而删除进群字段。
3. 用户访问表:同 1 中对用户 id 重复值的处理,删除数据总计 19201 条,保留
116416 条唯一值,用户 id 顺序与用户登录表一致,无缺失值;其次,通过数据观
察可以发现,有少部分用户无任何访问记录,却在用户下单表里有购买记录,因
此我们判定此类用户为刷单用户,需要剔除,总计 229 条,最终得到 116187 条
数据。对于购买按钮点击访问数字段而言,116187 条字段中仅有 2 条数据值为 1,
其余均为 0,因此为无效字段,做删除处理。
4. 用户下单表:同 1 中对用户 id 重复值的处理,删除数据总计 26 条,保留 4613
条唯一值。
4.1.2
数据集成
为便于查找数据和集中处理数据,对用户信息表、用户登录情况表、用户访问统计
表以及用户下单表进行集成。经过数据清洗后,用户信息表、用户登录情况表和用户访
问统计表已无重复冗余字段,且后两者样本数量都达到一致,但用户下单表仅有下单
用户的用户 id,因此,仅需将用户信息表、用户登录情况表和用户访问统计表进行简
单合并,并对应用户下单表,用户下单表中不存在的数据存为 0。最终集成结果为:在
用户信息-下单表中,数据共记 92215 条,下单用户 3140 个;在用户登录-访问-下单表
中,数据共记 103247 条,下单用户 3117 个;在用户信息-登录-访问-下单表中,数据共
计 81194 条,下单用户 2413 个。
4