数据挖掘:概念与技术——度量的分类解析

需积分: 12 2 下载量 107 浏览量 更新于2024-08-15 收藏 814KB PPT 举报
"度量的分类-浙大关于大数据的讲解" 在大数据领域,度量是分析和理解数据的关键组成部分。根据所使用的聚集函数,度量可以分为三类:分布的、代数的和整体的。 1. **分布的度量**:这类度量包括count(), sum(), min(), max()等,它们具有分布性质,即对n个数据点应用这些函数与对整个数据集应用函数结果相同。这意味着这些度量可以逐个元素地计算,然后汇总,而不必考虑数据的全局结构。 2. **代数的度量**:例如avg(),min_N(),standard_deviation()等,它们可以通过分布的聚集函数结合代数运算来计算。这意味着这些度量可以表示为有限数量的分布度量的组合,允许我们在不考虑整个数据集的情况下进行部分计算。 3. **整体的度量**:像median(),mode(),rank()等,它们无法通过简单的分布或代数操作得到,因为它们通常需要对整个数据集进行排序或考虑所有元素的相对位置。这类度量通常需要更多的存储空间,并且计算复杂度更高。 数据挖掘是处理大量数据并从中提取有价值信息的过程。浙江大学的课程涵盖了数据挖掘的基础知识,如数据仓库和在线分析处理(OLAP)技术。数据仓库是为分析目的设计的集成数据库,而OLAP技术则支持多维数据分析,便于用户从不同角度快速浏览和理解数据。 数据挖掘的出现主要源于数据爆炸性增长带来的挑战。随着自动数据收集工具的发展和数据库技术的进步,海量数据被积累,但如何从中获取有用信息成为问题。为了解决这个问题,数据仓库技术和数据挖掘技术应运而生。数据挖掘不仅仅局限于数据本身,而是寻找隐藏的模式、规则和趋势,以支持决策和洞察。 数据挖掘的过程涉及多个阶段,包括数据预处理、模式发现和模式评估。预处理阶段包括数据清洗、转换和规范化,以便于后续的分析。模式发现则是在大量数据中寻找潜在关联和规律,而模式评估则评估这些发现的实用性和重要性。 数据挖掘的应用广泛,包括市场分析、风险管理、欺诈检测等多个领域。例如,在市场营销中,数据挖掘可以帮助确定目标市场、管理客户关系、分析市场占有率;在风险管理中,它可用于预测风险、提高客户保留率以及改进保险业务。 此外,数据库技术随着时间的推移不断演变,从早期的文件系统到现代的数据仓库、数据挖掘、流数据管理和XML数据库。每一代新技术都旨在更好地管理和利用数据,以满足日益复杂的业务需求和分析挑战。因此,理解和掌握数据的度量分类以及数据挖掘的方法对于理解和驾驭大数据时代至关重要。