数据挖掘与大数据:浙大课程详解
需积分: 12 192 浏览量
更新于2024-08-15
收藏 814KB PPT 举报
"浙大关于大数据的讲解,涵盖了数据集成、数据挖掘、数据仓库以及数据库技术的演进。"
数据集成是大数据处理中的关键步骤,它涉及到将来自不同数据源的数据整合到一个统一的存储中,确保数据的一致性和完整性。在这一过程中,模式集成尤为重要,因为它需要解决不同数据源中的元数据整合问题。实体识别是数据集成中的一个重要挑战,即识别并匹配来自不同数据源的相同现实世界实体,例如,通过A.cust-id与B.customer_no来识别同一个客户。此外,数据集成还需要处理数据值的冲突,因为同一实体在不同数据源中可能会有不同的属性值,这可能是由于数据表示方式的不同、度量标准的差异等原因造成的。
数据挖掘是大数据分析的核心,由主讲教师王灿教授讲解。王灿教授推荐了两本教材:《数据挖掘:概念与技术》和《数据挖掘原理》。数据挖掘的目标是从海量数据中提取出有价值、新颖、实用且易于理解的模式或知识。其发展动力主要源于数据爆炸问题,随着自动数据收集工具和成熟数据库技术的进步,大量数据被收集并存储,但如何从中获取有用信息成为新的挑战。因此,数据仓库技术和数据挖掘技术应运而生,前者用于集中和组织数据,后者则在数据仓库基础上进行深入分析。
数据库技术历经了从文件系统、层次和网状数据库、关系数据库管理系统,到高级数据库系统、数据挖掘和数据仓库的演变。21世纪初,随着流数据管理和各种应用的数据挖掘,以及XML数据库和信息系统整合的兴起,数据管理技术进一步发展。
数据挖掘不仅限于数据本身,还包括知识的发现过程,如KDD(知识发现于数据库)、模式分析等。它广泛应用于数据分析和决策支持,包括市场分析、客户关系管理、风险分析、欺诈检测等领域,帮助企业做出更明智的商业决策,提升运营效率,同时防范潜在风险。
2023-11-12 上传
2022-04-17 上传
点击了解资源详情
点击了解资源详情
2018-06-30 上传
2011-10-05 上传
2010-03-13 上传
2017-12-22 上传
Pa1nk1LLeR
- 粉丝: 66
- 资源: 2万+
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍