数据挖掘:按年龄分层的第二章概述与预处理策略
需积分: 50 4 浏览量
更新于2024-08-13
收藏 2.02MB PPT 举报
"《数据挖掘原理与实践》第二讲主要聚焦于数据及数据预处理,由张巍老师讲解。这一章节首先介绍了数据挖掘的基本概念,包括数据的定义——狭义上指数字,广义上则是对象及其属性的集合,属性如特征、字段等,用于刻画对象的特性。数据集则是这些对象的集合,比如电信客户信息案例中包含了客户编号、类别、行业大类、通话级别和费用等属性。
数据类型分为分类(定性)如颜色、性别,序数如成绩等级,数值(定量)如日期、温度,以及比率和长度等。数据集的特性有维度,即属性总数,这在高维数据中可能导致维度灾难,因此数据预处理中的一个重要环节就是维归约。此外,还提到了数据的稀疏性,即数据中非零值的比例较低,这在处理文本数据时尤其重要。
文本数据集的另一个特性是分辨率(或粒度),即数据在不同细节程度下的表现不同。数据预处理涉及到清理、集成、变换和归约等一系列步骤,这些步骤旨在消除噪声、处理缺失值、统一数据格式,以及降低维度,以提高数据的质量和可用性,从而为后续的数据挖掘任务提供更准确和高效的基础。整个章节内容丰富,涵盖了数据挖掘过程中基础且关键的数据预处理技术,为读者深入理解数据挖掘提供了扎实的理论基础。"
2022-08-04 上传
2021-07-14 上传
2024-03-10 上传
2021-08-30 上传
2021-09-05 上传
2021-09-18 上传
2019-09-20 上传
2021-09-14 上传
2021-10-08 上传
欧学东
- 粉丝: 877
- 资源: 2万+
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍