数据分析与数据挖掘复习要点
需积分: 11 40 浏览量
更新于2024-08-11
5
收藏 989KB DOCX 举报
"这份文档是山东大学潘鹏老师提供的数据仓库和数据挖掘复习题,用于2021年5月的期末复习。涵盖了数据分析流程、大数据4V理论、数据度量尺度、相似性计算、相关性分析、数据预处理任务以及脏数据和缺失值处理等核心知识点。"
1. 数据分析的基本步骤包括:
- 明确目的和思路:定义项目目标,规划分析路径。
- 数据收集:构建数据库,获取所需数据。
- 数据处理:数据清洗,转化,提取,计算,确保数据质量。
- 数据分析:运用统计学和数据挖掘技术,探索数据内在规律。
- 数据展现:通过图表、表格等形式展示分析结果。
- 报告撰写:结构化报告,清晰呈现结论和建议。
2. 大数据的4V理论:
- Volume(规模化):数据量巨大。
- Variety(多样化):数据类型繁多,结构复杂。
- Velocity(快速化):数据生成和更新速度快。
- Value(商业价值高、价值密度低):虽然总体价值高,但单个数据点的价值密度较低。
3. 四种基本度量尺度的集中趋势和离散度量:
- 定类数据:集中趋势用众数,离散程度用异众比率。
- 定序数据:集中趋势用中位数,离散程度用四分位差。
- 定距和定比数据:集中趋势用平均数(均值),离散程度用方差和标准差。离散系数作为相对离散程度的度量。
4. 数据对象的相似性计算方法:
- 闵可夫斯基距离:包括欧式距离(p=2)和曼哈顿距离(p=1)。
- 契比雪夫距离:适用于最大差异的情况。
- 马式距离:考虑了数据的方差,适用于不同尺度的数据比较。
5. 数据属性的相关性分析:
- 斯皮尔曼等级相关系数:适用于非线性关系的等级数据。
- 皮尔森积矩相关系数:适用于线性关系的连续数据。
6. 数据预处理的主要任务及问题:
- 数据清洗:处理缺失值,识别和去除异常值,平滑噪声,修正不一致性。
- 数据集成:合并来自不同来源的数据,形成一致的数据存储。
- 数据规约:减少数据的规模,保持分析结果的相似性,包括维度规约、数值规约和数据压缩。
- 数据变换:进行规范化(如z-score标准化)和聚集(如汇总统计)。
7. 脏数据的类型及其原因:
- 不完全数据:数据缺失,可能源于数据收集不全或分析需求的变化。
- 噪声数据:包含错误或孤立点,可能由收集、录入、转换过程中的问题引起。
- 不一致数据:编码或名称差异,可能由于不同的数据源或数据更新规则导致。
8. 缺失值处理方法:
- 忽略元组:不考虑含有缺失值的记录,但可能导致信息损失。
- 手工填写:人工填补,适用于少量且关键的缺失值。
- 自动填充:使用推理方法(如贝叶斯或决策树)预测最可能的值。
9. 噪声数据定义与产生原因:
- 噪声数据是测量误差或偏差,影响分析的准确性和效果。
- 原因包括:错误的数据采集工具,数据录入错误,数据传输过程中出现问题等。
2022-05-27 上传
2023-03-30 上传
2020-06-09 上传
2024-08-13 上传

凡出
- 粉丝: 0
- 资源: 1
最新资源
- Material Design 示例:展示Android材料设计的应用
- 农产品供销服务系统设计与实现
- Java实现两个数字相加的基本代码示例
- Delphi代码生成器:模板引擎与数据库实体类
- 三菱PLC控制四台电机启动程序解析
- SSM+Vue智能停车场管理系统的实现与源码分析
- Java帮助系统代码实现与解析
- 开发台:自由职业者专用的MEAN堆栈客户端管理工具
- SSM+Vue房屋租赁系统开发实战(含源码与教程)
- Java实现最大公约数与最小公倍数算法
- 构建模块化AngularJS应用的四边形工具
- SSM+Vue抗疫医疗销售平台源码教程
- 掌握Spring Expression Language及其应用
- 20页可爱卡通手绘儿童旅游相册PPT模板
- JavaWebWidget框架:简化Web应用开发
- 深入探讨Spring Boot框架与其他组件的集成应用