避免数据挖掘中的常见陷阱：聚类分析的关键问题和解决方法

需积分: 0 105 浏览量更新于2024-03-16 收藏 815KB PDF 举报

数据分析和挖掘是现代企业发展中不可或缺的一环，通过对海量数据进行处理和分析，可以为企业提供重要的决策支持和市场洞察。然而，在这一过程中，经常会遇到一些难以理解的问题和困惑，需要深入探讨和理解。本文将以聚类分析为切入点，讨论在数据分析和挖掘过程中的一些"大坑"，以及如何避免或解决这些问题。首先，聚类分析是数据挖掘和计算的基本任务之一，其核心思想是将大量数据集中具有相似特征的数据点或样本划分为一个类别，从而揭示数据之间的内在关系和规律。聚类分析常用于数据探索和挖掘的前期工作，可以帮助我们理清数据的结构和特征。在选择合适的聚类算法时，需要考虑数据的特点和规模，常用的算法包括K均值、DBSCAN、两步聚类、BIRCH、谱聚类等。然而，在进行聚类分析时，需要注意数据异常对聚类结果的影响，以及在处理超大数据量时应该放弃K-均值算法的问题。在聚类分析过程中，数据异常往往会对聚类结果造成较大影响，因为异常值可能会被误认为是一个独立的类别或与其他正常数据混在一起，从而导致聚类结果失真。因此，在进行聚类分析前，需要对数据进行异常值检测和处理，以确保聚类结果的准确性和稳定性。另外，在处理超大数据量时，K-均值算法可能会因为计算复杂度高而导致运算时间过长甚至无法完成计算，因此需要考虑使用其他更适合大数据量的聚类算法来提高效率和准确性。除了聚类分析外，本文还涉及了回归、分类、关联、异常检测、时间序列、路径分析、漏斗分析、归因分析、热力图分析等统计分析相关话题，并将通过Python代码实操来加深对这些话题的理解。通过深入探讨这些数据分析方法和技术，我们可以更好地理解数据之间的关系和趋势，为企业决策提供更有力的支持。综上所述，通过本文的讨论和实操，我们可以更好地认识到在数据分析和挖掘过程中可能遇到的问题和困难，以及如何通过合适的方法和技术来解决这些问题。聚类分析作为数据分析的重要工具之一，在处理数据时需要谨慎选择算法、注意数据异常和噪声的干扰，以确保分析结果的准确性和稳定性。通过不断学习和实践，我们可以提升数据分析和挖掘的能力，为企业的发展和创新提供有力的支持和指导。

8/14/2018 Notebook.md—/Users/Robin/Downloads/Notebook

http://127.0.0.1:51004/view/1690 5/23

2. 对于有分类真实结果做对照的，则可以使用真实标签与预测标签的相似、重复、完整性等度量计算，但是需要注意的是，聚类

结果的标签值与其真实类别的标签值没有关系，结果只关注数据点是否属于同一类；

3. 业务类的评估，包括不同类别间的特征是否有显著差异，类内部是否具有能代表类别的显著性特征。

回归是一种研究自变量x对因变量y影响的数据分析方法，最简单的回归模型是一元线性回归，可以表示为 Y = β0 + β1 * x +

ε，Y为因变量，x为自变量，β1为影响系数，β0为截距，ε为随机误差因子。

常用的回归算法包括线性回归、二项式回归、对数回归、指数回归、核SVM、岭回归、Lasso等。

回归的优点是数据模式和结果便于理解；在基于函数公式的业务应用中，可直接使用代入法求解。回归的缺点是只能分析少量变

量之间的相互关系，无法处理海量变量间的相互作用关系。

在应用回归模型时，应注意识别和解决自变量间的共线性问题。在第三章第7节已有介绍。

例：y = 42.738x + 169.94，其中R² = 0.5252，对两个变量进行相关性分析，得到相关系数R = 0.7246。其中42.738是自变量x的

回归系数，0.5252是该方程的判定系数，0.7246是两个变量之间的相关性系数。

回归系数：在回归方程中表示自变量x对因变量y影响大小的参数，其绝对值的高低智能说明自变量和因变量之间的联系程度和

变化量的比例；

判定系数：是自变量对因变量的方差解释程度的值，计算公式为：回归平方和与总离差平方和之比值；

相关系数：也称为解释系数，是衡量变量之间的相关程度或者密切程度的值，其本质是线性相关性的判断。

三者的相互关系：

判定系数是所有参与模型与模型中自变量的对因变量联合影响程度，而非某个自变量的影响程度。

回归系数与相关系数的关系：回归系数 > 0，相关系数取值在(0, 1]，说明二者正相关，如果系数小于0，相关系数取值在(-1, 0)，说

明二者负相关。

相关性和因果并不是一回事，相应的判定系数和因果也不是一回事。以一元线性回归方程为例：

判定系数是相关系数的平方，相关系数不是因果，但是其平方后就能成为因果。（为什么？）

判定系数的出发点是用来评估整个模型的拟合优度，就是自变量引起的变动占总变动的百分比。但是如果两者有相同的变动趋

势，也不意味着因果关系。

在应用回归模型预测时，必须研究对因变量产生影响的自变量是否产生变化，主要考察两个方面：

1. 是否有产生了新的对因变量影响更大的自变量

2. 原有自变量是否依然控制在训练模型时的范围之内

回归算法按照自变量的个数分为一元回归和多元回归，按照影响是否线性分为线性回归和非线性回归。在面对不同回归方法的选

择，需要参考如下因素：

入门的开始 --- 简单线性回归。如果以学习为主，不需要选择多么强大的模型，基于最小二乘法的普通线性回归最为合适，同

时，适合数据集本身结构简单，分布规律有明显线性关系的场景；

如果自变量数量小或者经过降维后得到了可以使用的二维变量，那么可以直接通过散点图发现自变量和因变量的相关关系，然

后选择最佳回归方法；

如果经过基本判断发现自变量之间有较强的共线性关系，那么可以使用对多重共线性能灵活处理的算法，例如岭回归；

如果数据集噪声较多，推荐使用主成分回归，主成分分析通过对参与回归的主成分合理选择，可以去噪；

如果在高维度变量下，使用正则化回顾方法效果较好或者使用逐步回归从中挑选影响显著的自变量来建立回归模型；

4.2 回归分析

4.2.1 注意回归自变量之间的共线性问题

4.2.2 相关系数、判定系数和回归系数之间的关系

4.2.3 判定系数是否意味着相应的因果关系

4.2.4 注意应用回归模型时研究自变量是否产生变化

4.2.5 如何选择回归分析算法

剩余22页未读，继续阅读

小崔个人精进录

粉丝: 39

避免数据挖掘中的常见陷阱：聚类分析的关键问题和解决方法

nodejs同步调用获取mysql数据时遇到的大坑

es6 state&props设置大坑1

Python遇到的大坑

DownloadManager之大坑

基于python+LSTM的股票数据分析，数据来源于Tushare

搞定电脑故障 识破卖家大坑

java配置GDAL库的大坑

大坑旅游资讯网.pptx

大坑传统美食首推土鸡城,15年前上大坑,游客十之八九必.pdf

数字化转型12个大坑.docx

最新资源

搞定电脑故障识破卖家大坑