数据挖掘与大数据:浙大课程详解

需积分: 12 2 下载量 192 浏览量 更新于2024-08-15 收藏 814KB PPT 举报
"浙大关于大数据的讲解,涵盖了数据集成、数据挖掘、数据仓库以及数据库技术的演进。" 数据集成是大数据处理中的关键步骤,它涉及到将来自不同数据源的数据整合到一个统一的存储中,确保数据的一致性和完整性。在这一过程中,模式集成尤为重要,因为它需要解决不同数据源中的元数据整合问题。实体识别是数据集成中的一个重要挑战,即识别并匹配来自不同数据源的相同现实世界实体,例如,通过A.cust-id与B.customer_no来识别同一个客户。此外,数据集成还需要处理数据值的冲突,因为同一实体在不同数据源中可能会有不同的属性值,这可能是由于数据表示方式的不同、度量标准的差异等原因造成的。 数据挖掘是大数据分析的核心,由主讲教师王灿教授讲解。王灿教授推荐了两本教材:《数据挖掘:概念与技术》和《数据挖掘原理》。数据挖掘的目标是从海量数据中提取出有价值、新颖、实用且易于理解的模式或知识。其发展动力主要源于数据爆炸问题,随着自动数据收集工具和成熟数据库技术的进步,大量数据被收集并存储,但如何从中获取有用信息成为新的挑战。因此,数据仓库技术和数据挖掘技术应运而生,前者用于集中和组织数据,后者则在数据仓库基础上进行深入分析。 数据库技术历经了从文件系统、层次和网状数据库、关系数据库管理系统,到高级数据库系统、数据挖掘和数据仓库的演变。21世纪初,随着流数据管理和各种应用的数据挖掘,以及XML数据库和信息系统整合的兴起,数据管理技术进一步发展。 数据挖掘不仅限于数据本身,还包括知识的发现过程,如KDD(知识发现于数据库)、模式分析等。它广泛应用于数据分析和决策支持,包括市场分析、客户关系管理、风险分析、欺诈检测等领域,帮助企业做出更明智的商业决策,提升运营效率,同时防范潜在风险。