大数据学问挖掘详解

版权申诉
0 下载量 63 浏览量 更新于2024-07-13 收藏 36KB DOCX 举报
"大数据学问点梳理" 大数据是一个涵盖了多种技术和应用领域的综合概念,它涉及到从海量、高速、多样化的信息资产中发现价值的过程。在这个文档中,主要梳理了关于大数据的一些核心知识点,包括数据挖掘、学问发现过程、可挖掘的数据类型以及可挖掘的模式。 1. 数据挖掘 数据挖掘是对大量数据进行深度探索,以揭示隐藏的、有用的信息和知识的过程。它不仅限于简单的统计分析,而是运用复杂的算法和智能方法来发现模式和规律。数据挖掘不仅是数据科学的重要组成部分,也是大数据分析的核心。 2. 学问发现过程 学问发现的过程是一个系统性的步骤,包括: - 数据清理:去除噪声和不完整数据,确保数据质量。 - 数据集成:整合来自不同来源的数据,消除数据孤岛。 - 数据选择:挑选与分析目标相关的数据。 - 数据变换:对数据进行预处理,如汇总、聚类,使之适应挖掘需求。 - 数据挖掘:运用算法寻找模式。 - 模式评估:评估找到的模式的重要性,剔除噪音和非显著模式。 - 学问表示:将发现的模式以用户友好的方式呈现。 3. 可挖掘的数据类型 数据挖掘可以应用于各种类型的数据: - 数据库数据:包括关系型数据库,由表组成,每个表有唯一名称,包含属性和记录。 - 数据仓库:集中存储多个源的汇总信息,以支持决策,常以数据立方体形式表示。 - 事务数据:记录单一业务操作,如购物交易。 4. 可挖掘的模式 数据挖掘的目标可以是描述性和猜测性模式: - 描述性挖掘:总结数据的总体特征,如平均值、频率分布等。 - 猜测性挖掘:基于现有数据进行预测,如分类、回归、关联规则学习。 描述性挖掘包括类/概念描述,例如,找出某一类数据的共同特征。而猜测性挖掘则用于建立预测模型,如决策树、神经网络等,用于未来事件的预测。 大数据学问点梳理涵盖了数据挖掘的基础概念、流程、适用数据类型和目标模式,为理解大数据的价值和应用提供了基础框架。通过深入理解和应用这些知识,可以在商业决策、科学研究、社会问题解决等领域创造巨大的价值。