数据科学导论复习笔记:大数据、数据存储与预处理
需积分: 0 37 浏览量
更新于2024-06-27
4
收藏 1.43MB PDF 举报
"这是一份山东大学软件学院数据科学导论的复习笔记,主要涵盖了大数据的4V特征、数据采集整理的ETL过程、数据存储的类型与数据库系统组成、关系型与非关系型数据库的对比,以及数据预处理的重要性和方法。这份笔记特别强调了在大数据背景下NoSQL数据库的使用场景,并提供了数据清洗和数据相似度计算的概述。笔记适用于2023年软件工程专业的学生复习使用。"
详细说明:
1. **大数据的4V特征**:
- 数据量巨大(Volume):指数据的规模,可能达到PB级别。
- 高实时性(Velocity):数据生成和处理的速度要求非常高。
- 数据类型多(Variety):包括结构化、半结构化和非结构化的各种数据类型。
- 价值巨大但价值密度低(Value):大量数据中蕴含的有用信息比例较低,需要高效挖掘。
2. **数据采集整理(ETL过程)**:
- Extract:从不同源系统抽取数据。
- Transform:对抽取的数据进行清洗、转换,使其符合目标系统的要求。
- Load:将转换后的数据加载到目标系统(如数据仓库)。
3. **数据预准备**:
- 包括数据特征化、数据清洗和数据集成,涉及数据的传输、序列化和反序列化操作。
4. **数据格式**:
- JSON、XML、HTML是常见的数据交换格式,其中JSON和XML常用于数据传输,HTML则用于网页内容。
5. **数据存储形态**:
- 结构化数据:如关系型数据库中的数据,有固定模式。
- 半结构化数据:如XML和JSON,包含相关标记但结构灵活。
- 非结构化数据:如文本、图片、视频,没有固定结构。
6. **数据库系统**:
- 包括DB(数据库)、DBMS(数据库管理系统)、应用系统和数据库管理员,RDBMS在大数据面前面临挑战。
7. **NoSQL与SQL的对比**:
- NoSQL适应大规模、分布式和非结构化数据存储,适合快速迭代的开发需求。
- SQL适用于结构化数据和事务一致性要求高的场景。
8. **数据预处理**:
- 数据预处理是消除数据质量差的问题,如缺失值、噪声数据、不一致性,以便进行有效分析和建模。
- 数据清洗方法包括填充缺失值、去除噪声、一致性校验和数据整理。
- 数据规范化用于不同尺度数据的比较,通过缩放使之具有可比性。
9. **数据相似度计算**:
- SMC(Simple Matching Coefficient)和Jaccard系数用于衡量集合的相似性。
- 余弦相似性衡量向量之间的角度,常用于文本相似度计算。
这些知识点是数据科学导论的基础,对于理解和处理大数据问题至关重要。在实际应用中,理解并掌握这些概念可以帮助学生更好地进行数据分析和决策。
2019-06-03 上传
2020-01-12 上传
2023-09-25 上传
2019-12-26 上传
点击了解资源详情
rose334
- 粉丝: 2
- 资源: 3
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章