数据科学导论复习笔记:大数据、数据存储与预处理

需积分: 0 15 下载量 37 浏览量 更新于2024-06-27 4 收藏 1.43MB PDF 举报
"这是一份山东大学软件学院数据科学导论的复习笔记,主要涵盖了大数据的4V特征、数据采集整理的ETL过程、数据存储的类型与数据库系统组成、关系型与非关系型数据库的对比,以及数据预处理的重要性和方法。这份笔记特别强调了在大数据背景下NoSQL数据库的使用场景,并提供了数据清洗和数据相似度计算的概述。笔记适用于2023年软件工程专业的学生复习使用。" 详细说明: 1. **大数据的4V特征**: - 数据量巨大(Volume):指数据的规模,可能达到PB级别。 - 高实时性(Velocity):数据生成和处理的速度要求非常高。 - 数据类型多(Variety):包括结构化、半结构化和非结构化的各种数据类型。 - 价值巨大但价值密度低(Value):大量数据中蕴含的有用信息比例较低,需要高效挖掘。 2. **数据采集整理(ETL过程)**: - Extract:从不同源系统抽取数据。 - Transform:对抽取的数据进行清洗、转换,使其符合目标系统的要求。 - Load:将转换后的数据加载到目标系统(如数据仓库)。 3. **数据预准备**: - 包括数据特征化、数据清洗和数据集成,涉及数据的传输、序列化和反序列化操作。 4. **数据格式**: - JSON、XML、HTML是常见的数据交换格式,其中JSON和XML常用于数据传输,HTML则用于网页内容。 5. **数据存储形态**: - 结构化数据:如关系型数据库中的数据,有固定模式。 - 半结构化数据:如XML和JSON,包含相关标记但结构灵活。 - 非结构化数据:如文本、图片、视频,没有固定结构。 6. **数据库系统**: - 包括DB(数据库)、DBMS(数据库管理系统)、应用系统和数据库管理员,RDBMS在大数据面前面临挑战。 7. **NoSQL与SQL的对比**: - NoSQL适应大规模、分布式和非结构化数据存储,适合快速迭代的开发需求。 - SQL适用于结构化数据和事务一致性要求高的场景。 8. **数据预处理**: - 数据预处理是消除数据质量差的问题,如缺失值、噪声数据、不一致性,以便进行有效分析和建模。 - 数据清洗方法包括填充缺失值、去除噪声、一致性校验和数据整理。 - 数据规范化用于不同尺度数据的比较,通过缩放使之具有可比性。 9. **数据相似度计算**: - SMC(Simple Matching Coefficient)和Jaccard系数用于衡量集合的相似性。 - 余弦相似性衡量向量之间的角度,常用于文本相似度计算。 这些知识点是数据科学导论的基础,对于理解和处理大数据问题至关重要。在实际应用中,理解并掌握这些概念可以帮助学生更好地进行数据分析和决策。