首页数据预处理包括数据清洗

数据预处理包括数据清洗

时间: 2023-09-21 21:06:00 浏览: 182

抽样Sampling-数据预处理

抽样Sampling 抽样: 获得一个小的样本集s来表示整个数据集 N 允许一个挖据算法运行复杂度子线性于样本大小关键原则:选择一个有代表性的数据子集数据偏斜时简单随机抽样的性能很差发展适应抽样方法：分层抽样 Note: Sampling may not reduce database I/Os (page at a time) *

数据预处理包括数据清洗，数据集成和数据归约。数据清洗主要是删除一些数据，处理一些异常数据等工作，主要分为缺失值处理和异常值处理两种。缺失值处理是针对数据中缺失的部分进行填充或删除的操作。异常值处理是对数据中的异常值进行检测和处理的过程。数据集成是将多个数据源中的数据整合到一起，去除重复存储的数据，以节省空间。数据归约是在保持数据原貌的特征下，尽可能精简数据量的过程，该过程需要先理解挖掘任务和熟悉数据本身的内容。所以数据预处理中的数据清洗是包括在其中的一个重要环节。

阅读全文