2021大数据挖掘入门:关键知识点与流程详解

版权申诉
0 下载量 73 浏览量 更新于2024-09-07 收藏 21KB DOCX 举报
在2021年的零基础学习资料中,关于大数据挖掘的学习要点被系统地整理。首先,数据、信息和知识被定义为数据的不同呈现形式,体现了数据处理的层次递进。理解了这些概念后,我们进入主要的知识模式类型,包括广义知识、关联知识、类知识、预测型知识和特异型知识,这些都是挖掘过程中识别和利用的关键。 web挖掘是大数据领域的一个重要分支,主要研究流派涵盖了Web结构挖掘、Web使用挖掘和Web内容挖掘,这有助于揭示网络行为和信息的深层次模式。KDD(知识发现与数据挖掘)是一个多步骤的过程,涉及问题定义、数据抽取、预处理、挖掘和模式评估,这些步骤构成了完整的数据分析循环。 在数据库知识发现处理中,常见的模型包括阶梯处理过程、螺旋处理过程、用户中心模型、联机KDD模型以及支持多源多模式的KDD处理模型,反映出不同阶段对效率和灵活性的需求。 分类模型如决策树是挖掘的重要工具,它分为决策树生成和修剪两个步骤,决策树分类方法则是基于数据的特征进行分类决策。分类方法还可细分为基于距离的、决策树的、贝叶斯的和规则归纳的方法,展示了多样性。 关联规则挖掘是大数据挖掘的核心部分,分为频繁项目集的发现和关联规则的生成,通过用户设定的支持度和置信度阈值来筛选规则。有效性评估则强调规则的准确性、实用性和新颖性,以确保其价值。 约束在关联规则挖掘中起着关键作用,例如单调性、反单调性、可转变性和简洁性等,它们帮助筛选出有意义的规则。根据规则涉及的粒度,规则可以分为同层关联规则和层间关联规则,展示了挖掘的深度和复杂性。 聚类分析是另一个核心领域,主要的聚类方法包括划分法,如k-means、k-modes和k-prototypes等,这些方法通过数据的分组和相似性度量实现无监督学习。 2021年的零基础大数据挖掘学习资料覆盖了数据理解、知识模式、web挖掘、KDD过程、分类与规则挖掘、有效性评估以及约束和聚类分析等多个重要知识点,为初学者提供了全面且系统的指导框架。学习者可以通过这些学问点逐步掌握大数据挖掘的基本原理和实践技巧。