山东大学数据仓库数据挖掘期末复习关键点解析
需积分: 47 186 浏览量
更新于2024-08-09
22
收藏 6.12MB DOCX 举报
"这份资料包含了山东大学数据仓库与数据挖掘课程2021年期末考试的复习题及答案,适用于山东大学软件学院的学生进行备考。内容涵盖了数据分析的基本流程、大数据的4V理论、数据度量尺度、数据相似性和相关性的度量方法、数据预处理任务、脏数据类型及其成因、缺失值处理策略、噪声数据的定义和处理方法、数据集成的概念及其解决的问题。"
数据分析的基本步骤包括六个环节:首先,明确分析目的和思路,为整个项目设定方向;其次,进行数据收集,构建数据库;接着,进行数据处理,如清洗、转化、提取和计算,确保数据质量;然后,执行数据分析,通过统计和挖掘发现规律;再后,数据展现,用图表、表格等形式呈现结果;最后,撰写报告,清晰表述分析过程和结论。
大数据的4V理论强调了其特征:Volume(大量化)指数据规模巨大;Variety(多样化)表示数据类型多样;Velocity(快速化)意味着数据生成和处理速度极快;Value(商业价值高、价值密度低)指出尽管数据总量庞大,但有价值的信息可能相对稀少。
数据对象的相似性度量方法通常有欧氏距离、曼哈顿距离、余弦相似度等,而数据属性的相关性可通过斯皮尔曼等级相关系数、皮尔森相关系数等统计方法进行衡量。
数据预处理主要包括数据清洗、数据转换、数据规约和数据整合等任务,旨在解决数据质量问题,如不一致性、不完整性、异常值和冗余等问题。
脏数据主要分为数据不完整、数据不准确、数据不一致和数据过时四种类型,其主要原因是数据收集、录入、传输过程中的错误和技术限制。
缺失值的处理方法多样,包括忽略含有缺失值的记录、人工填写(不切实际)、使用全局变量替代、根据属性中心度量填充、以及运用统计方法推断最可能的值。
噪声数据是测量误差导致的偏离真实值的数据,可能源自错误的收集工具、数据录入问题、传输问题、技术限制或命名不一致性。检测噪声数据的方法包括统计分析、3δ原则、距离检测和基于模型或密度的方法。处理噪声数据可选择删除异常记录、视作缺失值处理,或不处理(如通过分箱、回归、聚类等方法)。
数据集成是将分布在不同位置、结构各异的数据源融合在一起,让用户能统一访问。解决的主要问题有模式集成、属性冗余、实体识别、数据冗余和冲突检测,涉及数据的一致性、关联性和可访问性。
2020-11-28 上传
点击了解资源详情
2024-06-21 上传
2021-03-06 上传
2016-07-13 上传
AmazingZeen
- 粉丝: 2
- 资源: 1
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜