数据挖掘与冗余数据处理——王灿教授讲解

大数据算法

需积分: 12 44 浏览量更新于2024-08-15 收藏 814KB PPT 举报

身份认证购VIP最低享 7 折!

30元优惠券

本资源主要探讨了数据集成过程中冗余数据的处理，以及大数据背景下的数据挖掘相关知识。浙江大学的一堂课介绍了如何在大数据环境中有效管理数据，并提高数据挖掘的效率和质量。首先，数据集成是将来自不同来源的数据库合并到一起，但这个过程常常伴随着冗余数据的问题。冗余数据可能导致不一致性和存储效率低下，因为同一属性可能在不同的数据库中以不同的字段名称存在。例如，一个用户的“年薪”信息可能在员工表和薪酬表中都有记录。通过精心的数据集成策略，可以减少这种冗余，从而提高数据挖掘的速度和准确性。课程还提到了数据预处理作为数据挖掘的重要步骤，它包括数据清洗、转换和规约，以确保数据的质量和一致性。此外，课程讲师王灿强调了数据挖掘的发展动力，主要源于日益增长的数据量和对有用信息的需求。传统的数据库技术已经无法满足这一需求，因此出现了数据仓库和数据挖掘技术，如在线分析处理(OLAP)，用于在海量数据中提取有价值的知识。数据库技术经历了从文件系统到现在的数据挖掘和数据仓库的演变。数据挖掘不仅是从数据中找出模式，还包括知识发现(KDD)、模式分析等过程。它在多个领域有着广泛的应用，如市场分析、风险管理、欺诈检测等，为企业决策提供支持。数据挖掘的主要任务包括分类、聚类、关联规则学习、序列模式挖掘、异常检测等。这些任务帮助揭示隐藏在数据中的模式，为业务决策提供依据。例如，在市场分析中，数据挖掘可以帮助识别目标市场、进行客户细分，以及优化客户关系管理。此外，课程推荐了两本书作为学习资料，一本是《数据挖掘：概念与技术》，另一本是《数据挖掘原理》。这两本书分别由Jiawei Han和Micheline Kamber以及David Hand等人撰写，它们深入浅出地介绍了数据挖掘的基本概念和技术。这门课程关注的是如何在大数据环境下有效地管理和分析数据，特别是处理冗余数据，以提高数据挖掘的质量和效率，为企业决策提供强有力的支持。通过学习，学生将能够掌握数据预处理、数据仓库、OLAP技术以及数据挖掘的各种方法，提升在实际工作中的数据分析能力。

资源推荐