1、简述数据挖掘的过程
(1)数据清洗:清除数据噪声和与挖掘主题明显无关的数据
(2)数据集成:将多个数据源中的相关数据结合到一起
(3)数据选择:根据数据挖掘的目标选择待处理的数据
(4)数据转换:将数据转换为易于进行数据挖掘的数据存储形式
(5)数据挖掘:利用智能方法挖掘数据模式或规律知识
(6)模式评估:根据一定评估标准,从挖掘结果中筛选出有意义的相关知识
(7)知识表示:利用可视化和知识表达技术,向用户展示所挖掘的相关知识
2.客户细分的步骤:
(1)商业理解:了解对客户进行细分的目的是什么
(2)数据理解:找出合适的用于细分客户的属性
(3)数据获取:获取数据并找出用于建模的合适变量
(4)数据建模:采取合适的方法建立数据模型
(5)特征刻画:用户细分完后,为细分的每一类群体进行特征刻画
(7)调研验证:验证细分的准确性
3.噪声点与离群点得区别:
噪声是测量变量的随机错误或偏差。噪声测量误差的随机部分,包含错误或孤立点值。
导致噪声产生的原因可能是数据收集的设备故障,数据录入过程中人的疏忽或者数据传输
过程中的错误。离群点是在数据集中偏离大部分数据的数据,使人怀疑这些数据的偏移并
非随机因素产生,而是产生于完全不同的机制。离群点通常作为噪音而被忽略,许多数据
挖掘算法试图降低或消除离群点的影响。
4.三种不同均值在反映数据中心方面的特点:
均值:数据集中心最常用最有效的数值度量
中位数:对于倾斜的(非对称的)数据,中位数是数据中心的一个较好度量
截断均值:均值对极端值很敏感,截断均值可以避免少量极端值影响均值
6. 数据挖掘的分类方法:
分类:分类的目的是利用已有的观测数据建立一个分类器,来预测未知对象属于哪个
预定义的目标类。分类预测输出的是离散类别值。如:预测银行中某个客户是否会流失
(分类)。
回归:回归分析反映了数据集中数据的属性值的特征,通过函数表达数据映射的关系
来发现属性值之间的依赖关系。如:在市场营销中,通过对本季度销售回归分析,对下一
季度的销售趋势作出预测并做出针对性的营销改变。
聚类分析:聚类就是将数据集划分为由若干个相似对象组成的多个组或簇的过程,使
得同一组内的对象相似度最大化,不同组内的对象相似度最小化。如:在商业领域中,聚
类分析被用来发现不同的客户群,并且通过发现客户的购买或消费模式来刻画不同的客户
群的特征。
关联分析:关联分析就是挖掘出隐藏在大型数据集中令人感兴趣的联系。如:通过关
联分析挖掘商场的销售数据,发现商品间的联系,为商场进行商品促销及摆放货架提供辅
助决策信息。
评论0