山东大学数据仓库数据挖掘期末复习关键点解析
需积分: 47 138 浏览量
更新于2024-08-09
22
收藏 6.12MB DOCX 举报
"这份资料包含了山东大学数据仓库与数据挖掘课程2021年期末考试的复习题及答案,适用于山东大学软件学院的学生进行备考。内容涵盖了数据分析的基本流程、大数据的4V理论、数据度量尺度、数据相似性和相关性的度量方法、数据预处理任务、脏数据类型及其成因、缺失值处理策略、噪声数据的定义和处理方法、数据集成的概念及其解决的问题。"
数据分析的基本步骤包括六个环节:首先,明确分析目的和思路,为整个项目设定方向;其次,进行数据收集,构建数据库;接着,进行数据处理,如清洗、转化、提取和计算,确保数据质量;然后,执行数据分析,通过统计和挖掘发现规律;再后,数据展现,用图表、表格等形式呈现结果;最后,撰写报告,清晰表述分析过程和结论。
大数据的4V理论强调了其特征:Volume(大量化)指数据规模巨大;Variety(多样化)表示数据类型多样;Velocity(快速化)意味着数据生成和处理速度极快;Value(商业价值高、价值密度低)指出尽管数据总量庞大,但有价值的信息可能相对稀少。
数据对象的相似性度量方法通常有欧氏距离、曼哈顿距离、余弦相似度等,而数据属性的相关性可通过斯皮尔曼等级相关系数、皮尔森相关系数等统计方法进行衡量。
数据预处理主要包括数据清洗、数据转换、数据规约和数据整合等任务,旨在解决数据质量问题,如不一致性、不完整性、异常值和冗余等问题。
脏数据主要分为数据不完整、数据不准确、数据不一致和数据过时四种类型,其主要原因是数据收集、录入、传输过程中的错误和技术限制。
缺失值的处理方法多样,包括忽略含有缺失值的记录、人工填写(不切实际)、使用全局变量替代、根据属性中心度量填充、以及运用统计方法推断最可能的值。
噪声数据是测量误差导致的偏离真实值的数据,可能源自错误的收集工具、数据录入问题、传输问题、技术限制或命名不一致性。检测噪声数据的方法包括统计分析、3δ原则、距离检测和基于模型或密度的方法。处理噪声数据可选择删除异常记录、视作缺失值处理,或不处理(如通过分箱、回归、聚类等方法)。
数据集成是将分布在不同位置、结构各异的数据源融合在一起,让用户能统一访问。解决的主要问题有模式集成、属性冗余、实体识别、数据冗余和冲突检测,涉及数据的一致性、关联性和可访问性。
2020-11-28 上传
2024-06-21 上传
2023-10-18 上传
2024-01-11 上传
2023-07-16 上传
2023-05-03 上传
2023-12-23 上传
AmazingZeen
- 粉丝: 2
- 资源: 1
最新资源
- 火炬连体网络在MNIST的2D嵌入实现示例
- Angular插件增强Application Insights JavaScript SDK功能
- 实时三维重建:InfiniTAM的ros驱动应用
- Spring与Mybatis整合的配置与实践
- Vozy前端技术测试深入体验与模板参考
- React应用实现语音转文字功能介绍
- PHPMailer-6.6.4: PHP邮件收发类库的详细介绍
- Felineboard:为猫主人设计的交互式仪表板
- PGRFileManager:功能强大的开源Ajax文件管理器
- Pytest-Html定制测试报告与源代码封装教程
- Angular开发与部署指南:从创建到测试
- BASIC-BINARY-IPC系统:进程间通信的非阻塞接口
- LTK3D: Common Lisp中的基础3D图形实现
- Timer-Counter-Lister:官方源代码及更新发布
- Galaxia REST API:面向地球问题的解决方案
- Node.js模块:随机动物实例教程与源码解析