第 3 页 共 17 页
二、 问题分析
2.1 问题一的分析
数据预处理是数据挖掘技术的第一步,本质是为了将原始数据转换为可以符合挖掘的格
式。因此,对数据集进行使用之前需要进行数据预处理。数据预处理的方法针对不同的任务
和数据集属性的不同而不同。本文数据来自于题目提供的用户信息表(user_info.csv),用户登
录情况表(login_day.csv),用户访问统计表(visit_info.csv),用户下单表(result.csv)。通过对数据
集的初步分析,需要对数据集 visit_info 和 login_day 合并,再匹配 user_info 数据得到最终数
据集。同时,对于数据合并后的数据集中缺失值进行分析,判断对缺失值进行何种处理。最
终得到本文建模所需要的数据集。
2.2 问题二的分析
数据可视化能够全面、形象、具体、高效地讲述数据故事,可以更容易、更快速地发现
商业问题,掌握更大的数据量帮助企业发展。Tableau 是一款可以帮助人们快速分析、可视化
并分享数据信息的工具。本文运用 Tableau 数据可视化软件,从用户各城市分布情况、用户登
陆情况(包括天数和时长)、用户年龄分布情况、APP 内容访问情况、各宣传渠道转化情况
五方面进行不同类型的可视化图像展示,并根据可视化结果分析该企业目标用户群体,用户
消费行为偏好以及企业 APP 运营情况。
2.3 问题三的分析
为有效判别该公司用户最终是否下单,本文提出了一种基于随机森林算法的预测模型。
以该公司现有用户为研究对象,利用整理后的定量数据作为判别用户下单的指标数据,并对
数据进行处理。将数据 70%用于训练,30%用于测试,对训练集抽样形成决策树并按决策树
最优特征分裂形成随机森林,进而构建随机森林模型;将测试集数据输入已训练好的随机森
林模型得到用户下单预测结果,最后运用衡量学习器优劣的一种性能指标—AUC 检验模型预
测的准确度。
2.4 问题四的分析
用户价值分析对企业优化运营有重要的参考意义,本文建立了 RFM 模型,根据用户的历
史消费行为数据,提取出代表 R(最近一次消费的时间间隔)、F(一段时间的消费频率)、
M(一段时间的消费金额)的对应特征变量:R-distance_day(最后登录距期末天数)、F-login_day
(登录天数)、M-camp_num(开课数)。由于数据中没有涉及用户消费金额,而开课数相当
于下单量,下单量越多,用户的消费金额越多,所以我们选择开课数代表用户的消费水平。
之后利用模型划分为 8 类价值用户:重要价值用户、重要保持用户、重要发展用户、重要挽留
用户、一般价值用户、一般保持用户、一般发展用户、一般挽留用户。分析不同价值用户的
行为特征,为企业营销策略制定提供可量化的参考依据。
三、 问题一的求解
本 文 采 用 的 数 据 来 自 于 题 目 提 供 的 用 户 信 息 表 (user_info.csv), 用 户 登 录 情 况 表
(login_day.csv),用户访问统计表(visit_info.csv),用户下单表(result.csv)。