![](https://csdnimg.cn/release/download_crawler_static/88941424/bg7.jpg)
图 4-1-3 distance_day 处理异常值前箱线图
采用相同的方法,我们发现 login_day 数据集中 login_day(登录天数)、login_diff_time
(登录间隔时间)以及 user_info 数据集中 age_month(年龄)也含有数量较多的异常值。
2)异常值处理
对于异常值主要使用随机森林和 KNN 插补方法进行填充,处理后的数据展示如下(同
样以 distance_day 为例):
图 4-1-4 distance_day 处理异常值后箱线图
从上图中,我们可以发现,处理完异常值,数据分布更加正常平稳。
4. 数据合并
紧接着,我们将前面预处理过的数据使用 pandas 库 merge 函数对 login_day、user_info、
visit_info、result 数据进行整合,具体展示如下: