"国科大人工智能学院大数据课程笔记总结:结构化与非结构化数据处理及数据挖掘分析"

需积分: 0 0 下载量 146 浏览量 更新于2023-12-18 收藏 3.06MB DOCX 举报
国科大人工智能学院的大数据课程笔记总结了课程的核心内容,重点强调了结构化数据和非结构化数据的概念以及大数据的预处理工作。根据课程ppt中的重要部分进行了高亮,并详细阐述了一些关键概念和方法。 首先,在第一章中,学院介绍了结构化数据和非结构化数据的区别。结构化数据是可以用二维表结构来逻辑表达实现,并可存储在数据库中的数据。而非结构化数据则是指那些无法通过预先定义的数据模型表述或无法存入关系型数据库表中的数据。这个概念的理解对于后续的数据处理工作非常重要。 接下来,学院强调了大数据的预处理的重要性。在进行数据挖掘之前,需要对原始数据进行清洗、集成和变换的一系列处理工作。大数据挖掘分析往往容易受到噪声、缺失值和不一致数据的干扰,因此对于缺失数据的处理是一个关键步骤。课程笔记给出了三种常见的缺失数据处理方法:使用常量填充缺失值、使用属性的中心度量填充缺失值和使用最可能的值填充缺失值。此外,还介绍了使用给定元组属于同一类的所有样本的属性均值或中位数来填充缺失值的方法。 此外,学院还介绍了数据集成和数据变换的概念和作用。数据集成是将数据由多个数据源合并成一个一致的数据存储的过程,它有助于减少结果数据集的冗余和不一致,提高挖掘的准确性和速度。而数据变换的目的是将数据变换或统一成适合挖掘的形式。这些步骤对于后续的数据分析和挖掘工作起到了关键作用。 此外,课程还介绍了布尔检索模型和评价指标。布尔检索模型是一种最早的信息检索模型,通过逻辑表达式来检索相关的文档。而评价指标中,正确率和召回率是两个非常重要的指标。正确率是返回结果中真正和信息需求相关的文档所占的百分比,召回率是所有和信息需求真正相关的文档中被检索系统返回的百分比。这些指标对于评价检索系统的性能非常重要。 最后,课程还介绍了倒排索引的概念和作用。倒排索引是一种用于加快文本搜索速度的数据结构。它由词项词典和倒排记录表组成,可以根据关键词快速找到包含该关键词的文档。倒排索引在信息检索和搜索引擎等领域有着广泛的应用。 综上所述,国科大人工智能学院的大数据课程笔记主要讲解了大数据的预处理工作,包括缺失数据处理、数据集成和数据变换等概念和方法。课程还介绍了布尔检索模型、评价指标和倒排索引等相关内容。这些内容对于理解和应用大数据分析和挖掘技术非常有帮助。