DBSCAN 具有噪声的基于密度的聚类方法 sklearn.cluster
BIRCH 综合层次聚类算法,适用于大规模数据聚类 sklearn.cluster
3.关联规则关联规则
关联规则目的:在一个数据集中,找出各项之间的关联关系。
3.1 常用关联规则算法常用关联规则算法
算法名称算法名称 算法描述算法描述
Aprior 关联规则是最常用的挖掘频繁项集的算法,核心是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集
FP-Tree 针对Aprior算法的固有的多次扫描事务数据集的缺陷,提出不产生候选频繁项集的方法。Aprior和FP-Tree都是寻找频繁项集的算法。
Eclat算法 Eclat算法是一种深度优先算法,采用垂直数据表示形式,在概念格理论基础上利用基于前缀的等价关系将搜索空间划分为较小的子空间
灰色关联法 分析和确定各因素间影响程度或是若干个子因素(子序列)对主因素(母序列)的贡献度而进行的一种分析方法
4.时序模式时序模式
4.1 时间序列算法时间序列算法
模型名称模型名称 描述描述
平滑法 平滑法用于趋势分析和预测,利用修匀技术,削弱短期随机波动对序列的的影响,使序列平滑化。
趋势拟合法 趋势拟合法把时间作为自变量,相变的序列观察值作为因变量,建立回归模型。根据序列特征,可具体分为线性拟合和曲线拟合
组合模拟
时间序列变化主要受长期趋势(T)、季节变动(S)、周期变动(C)和不规则变动(e)影响。根据序列特点,可构建:【加法模
型:xt=Tt+St+Ct+εt】【乘法模型:xt=Tt*St*Ct*εt】
AR模型
MA模型
ARMA模型
ARIMA模型
ARCH模型
GARCH模型及衍
生模型
5.离群点检测离群点检测
离群点成因:数据来源于不同的类、自然变异、数据测量、收集误差
离群点分类:
分类标准分类标准 分类名称分类名称
从数据范围 全局离群点和局部离群点
从数据类型 数值型离群点和分类型离群点
从属性个数 一维离群点和多维离群点
5.1 离群点检测方法离群点检测方法
离群点
检测方
法
方法描述 方法评估
基于统
计
大部分基于统计的离群点检测方法是:构建一个概率分布模型,并计算
对象符合该模型的概率,将具有低概率的对象视为离群点
前提是:知道数据服从何种分布,对高维数据,检验效果很差
基于邻
近度
通常可在数据对象间定义邻近性度量,把远离大部分点的对象视为离群
点
二维、三维的数据可做散点图观察,大数据不适用,对参数选择敏
感,具有全局阙值,不能处理具有不同密度区域的数据集
基于密
度
考虑数据集可能存在不同密度区域,离群点是在低密度区域中的对象
给出对象是离群点的定量度量,即使数据具有不同的区域很好处理,
大数据集不适用,参数选择比较难
基于聚
类
一种利用聚类检测离群点的方法是:丢弃远离其他簇的小簇。首先聚类
所有对象,然后评估对象属于簇的程度
基于聚类技术来发现离群点可能死高度有效的,聚类算法产生的簇的
质量对该算法产生的离群点的质量影响非常大
机器学习机器学习
吴恩达男神的机器学习王牌课程:
https://www.coursera.org/learn/machine-learning
在掌握了初级的分析方法之后,也可以尝试做一些数据分析的竞赛,比如 DataCastle 为数据分析师专门定制的三个竞赛,提交答案即可获取评分和排
名:
https://www.pkbigdata.com/common/cmptIndex.html
数据分析技能详细拆解数据分析技能详细拆解
转自:https://zhuanlan.zhihu.com/p/86779884
这是数据分析小白必备的数据分析技能图,因为包含了Python数据分析全方位的技能体系,比如数据获取、数据获取、SQL数据库、数据库、Python、统计学、数据分析核、统计学、数据分析核
心模块、可视化、报告撰写心模块、可视化、报告撰写等等都有详细拆解。
高效的学习路径是什么?就是按这样的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。
01 数据获取数据获取
一般数据获取有内部和外部两种渠道,内部数据可以通过企业数据库提取,需要掌握SQL相关的技能。