大数据时代的数据挖掘：揭示隐藏规律

需积分: 42 62 浏览量更新于2024-07-15 收藏 3.55MB PDF 举报

"人工智能之数据挖掘_第二章_技术篇" 在大数据时代，数据挖掘作为一项关键的技术，已经成为理解和利用海量数据的核心手段。数据挖掘是从大量数据中提取隐藏的、有价值的信息的过程，它综合了数据库技术、统计学、机器学习、信息检索、数据可视化和模式识别等多个领域的精华。通过这些技术的集成，数据挖掘能够揭示数据中非显而易见的模式和规律，从而提供对业务、科学研究乃至社会决策的深刻洞察。首先，数据挖掘涉及的关键技术包括预处理、模式发现和后处理三个阶段。预处理阶段是对原始数据进行清洗、转换和集成，目的是消除噪声、处理缺失值和不一致性，以及将数据转化为适合挖掘的格式。模式发现是数据挖掘的核心，包括分类、聚类、关联规则学习和序列模式挖掘等方法，它们分别用于预测、分组、找出项集之间的频繁模式以及时间序列数据中的模式。后处理则涉及模式评估和解释，确保发现的模式具有实用性和可理解性。例如，当我们面对如新浪微博这样的大数据源时，数据挖掘可以帮助我们理解用户行为和社会趋势。在柯洁与AlphaGo对战的事件中，通过数据描述性分析（如平均数、中位数、分位数、方差等），我们可以了解人们对“人工智能”话题的关注程度、兴趣分布以及情感倾向。更进一步，可以使用聚类算法将用户分为不同的群体，研究不同群体的特征，如年龄、性别和职业，以便进行更精确的市场定位或内容推荐。此外，数据挖掘在许多领域有广泛的应用。在商业智能中，它可以用于客户细分、销售预测和营销策略制定；在医学领域，挖掘医疗记录可以发现疾病的风险因素和治疗方案；在金融行业，信用评分模型的构建和欺诈检测都离不开数据挖掘；在社交网络分析中，它可以揭示人际关系网络、影响力传播和社区结构。机器学习在数据挖掘中扮演着重要角色，尤其是监督学习和无监督学习。监督学习如决策树、随机森林、支持向量机和神经网络，用于分类和回归任务；无监督学习如K-means、DBSCAN和谱聚类，用于数据的无标签分组。同时，半监督学习和强化学习也在特定场景下发挥着作用。数据挖掘是大数据价值实现的关键工具，它将多种技术融合，以发现隐藏在复杂数据背后的模式，为决策提供有力支持。随着技术的不断发展，深度学习、流式数据挖掘和实时分析等新兴技术正在推动数据挖掘走向新的高度，为我们的生活和工作带来更多的智能化可能。

2020/10/8 第二章技术篇

https://gitbook.cn/gitchat/geekbook/5c67b4207fa9074fde996ecd/topic/5c6c00167fa9074fde9c6265 8/41

协方差矩阵和 Pearson 相关矩阵都是对称矩阵，而且 Pearson 相关矩阵对角线为 1。当维

度为 2 时，s 被称作 X,Y 之间的协方差， r 被称作 Pearson 相关系数。这里的相关系数

和相关矩阵，反映的是两变量之间的线性相关性。直观地来讲，如果两变量同步上升同步

下降则表现出正向线性相关性；如果一个上升另一个下降，两变量朝相反方向变化，则表

现出负向线性相关性。与均值向量类似，多维数据中也有中位数向量。在相关性方面，除

了上述 Pearson 相关矩阵，还有采用秩的 Spearman 相关矩阵，对应二维情况有 Spearman

相关系数。

对于多维总体，我们也可以将一维情况下的分布函数以及概率密度函数扩展到多维情况

下，感兴趣的读者可以阅读相关书籍了解。

2.1.2 回归分析方法

相比于上节所讲的单个变量的统计分析或两个变量相关分析，在实际生产生活中存在着更

多的变量。而在多变量的数据分析过程中，我们有时候会对这些变量之间的作用关系感兴

趣。比如房价问题。在一个时间区间内，一个房子的价格会受到其空间大小、卧室数量、

卫生间数量、所处层数等数值变量的影响，还有朝向、地理位置等其它变量的影响。那

么，我们直观上会认为，越大的房间越贵，拥有更多卧室的房间会更贵一些。那么这些因

素是如何综合影响房价的呢？我们可以简单地建立这样的模型：房价Y是由空间大小 X ，

卧室数量 X ，卫生间数量 X 等 k 个变量决定的。也就是：

Y=f(X ,X ,…,X )+ε

其中 ε 是由于我们没有考虑进去的各种因素所产生的误差。特别地，当 f 是关于 X ,X ,…,X

的线性函数时，我们有：

Y=β +β X +β X +⋯+β X +ε

称作线性回归模型。其中 β ,β ,…,β 是未知参数，也称为回归参数或回归系数。我们假设 ε

是数学期望为 0 的随机误差。

对于线性回归模型，当我们有了 n（n 一般较大，n≥k）个房子的数据时，我们便可以使用

这些数据去估计未知参数。设第 i 个房子的数据为(x ,x ,…,x ) ，对应房价 y （实际上 Y 也

可以是多维变量）。采用向量的方式表示就是：

Y=Xβ+ε

12 12

2 3

1 2 k

0 1 1 2 2 k k

0 1 k

i1 i2 ik

tag=

立即购买 ¥0

(/gitchat/geekbook/5c67b4207fa9074fde996ecd)

(/gitchat/geekbook/5c67b4207fa9074fde996ecd/topic/5c6bff217fa9074fde9c6256)

(/gitchat/geekbook/5c67b

tag=

(/)

剩余40页未读，继续阅读

网迷

粉丝: 39
资源: 333

大数据时代的数据挖掘：揭示隐藏规律

《2020升级版：人工智能之数据挖掘》

人工智能与数据挖掘技术在金融市场中的应用.pdf

人工智能数据挖掘机器学习模式识别喜欢的关系

数据挖掘和人工智能的算法通用吗

数据挖掘技术生成技术的优缺点

数据挖掘技术只涉及到数据库技术和程序设计吗？

详细介绍一下数据挖掘技术

人工智能数据挖掘机器学习模式识别之间的区别和关系

图解人工智能第二章学习笔记

最新资源