数据挖掘与大数据:从数据质量到知识发现

需积分: 12 2 下载量 134 浏览量 更新于2024-08-15 收藏 814KB PPT 举报
"数据质量的多维度量-浙大关于大数据的讲解" 在大数据领域,数据质量是确保有效分析和决策的关键因素。本资源详细介绍了数据质量的多个衡量维度,这些维度包括: 1. 精确度:数据的准确性,确保数值、文本或日期等信息无误,与真实情况相符。 2. 完整度:数据的全面性,指数据集是否包含了进行分析所需的所有必要信息,缺失值的比例。 3. 一致性:数据的一致性确保不同来源或时间点的数据具有一致的格式和定义,避免冲突和矛盾。 4. 合乎时机(Timeliness):数据的及时性,即数据在需要时能够被快速获取和处理。 5. 可信度:数据的可靠性,衡量数据源的信誉以及数据收集和处理过程的正确性。 6. 附加价值:数据对业务或分析的贡献程度,例如能否产生新的见解或改善决策。 7. 可访问性:数据的易用性,包括数据是否易于获取、处理和理解。 8. 与数据本身的含义相关的:数据的语义正确性,确保数据的含义符合预期。 9. 内在的、上下文的、表象的:这可能指的是数据的内在属性,如结构、含义,以及其在特定上下文中的意义和表现形式。 课程由王灿教授主讲,涉及数据挖掘的主题。数据挖掘是从大量数据中发现有价值知识的过程,它不仅包括数据本身,还涵盖了从数据中提取模式、规则和知识的技术。王灿教授推荐了两本书作为参考教材:《数据挖掘:概念与技术》和《数据挖掘原理》。 数据挖掘的发展源于对海量数据的处理需求,自动数据收集工具和数据库技术的进步使得数据量急剧增加。尽管我们拥有大量的数据,但如何从中提取有用信息成为挑战,这就催生了数据仓库技术和数据挖掘技术的发展。数据仓库用于集中和整合数据以供分析,而OLAP(在线分析处理)则提供了高效的数据探索和分析手段。 数据库技术随着时间不断演进,从早期的文件系统到层次和网状数据库,再到关系数据库管理系统(RDBMS),以及后来的高级数据库系统和面向应用的数据库。21世纪以来,数据挖掘、数据仓库、流数据管理和XML数据库成为主流,服务于各种应用场景,如市场分析、风险管理、欺诈检测等。 数据挖掘不仅仅是简单的数据处理,它涉及到知识发现的过程,可以替代称为知识发现(KDD)、模式分析等。应用领域广泛,如市场营销、风险管理、客户关系管理等,帮助企业做出更明智的决策并识别潜在问题。在实际操作中,数据挖掘需要区分于查询处理、专家系统和简单的数学计算,因为它专注于从大量复杂数据中提取隐藏的、有价值的信息。