没有合适的资源？快使用搜索试试~ 我知道了~

首页《RapidMiner数据分析与挖掘实战》第7章数据预处理

《RapidMiner数据分析与挖掘实战》第7章数据预处理

数据挖掘

Rapidminer

需积分: 41 21 下载量 152 浏览量更新于2023-03-16 评论收藏 1.45MB DOC 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

试读

25页

在数据挖掘中，海量的原始数据中存在着大量不完整（有缺失值）、不一致、有异常的数据，严重影响到数据挖掘建模的执行效率，甚至可能导致挖掘结果的偏差，所以进行数据清洗就显得尤为重要，数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理，该过程就是数据预处理。数据预处理一方面是要提高数据的质量，另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现，在数据挖掘的过程中，数据预处理工作量占到了整个过程的60%。数据预处理的主要内容包括数据清洗，数据集成，数据变换和数据规约。处理过程如图7 1所示。

资源详情

资源评论

资源推荐

《RapidMiner 数据分析与挖掘实战》第 7 章

第 7 章数据预处理

在数据挖掘中，海量的原始数据中存在着大量不完整（有缺失值）、不一致、有异常

的数据，严重影响到数据挖掘建模的执行效率，甚至可能导致挖掘结果的偏差，所以进行

数据清洗就显得尤为重要，数据清洗完成后接着进行或者同时进行数据集成、转换、规约

等一系列的处理，该过程就是数据预处理。数据预处理一方面是要提高数据的质量，另一

方面是要让数据更好地适应特定的挖掘技术或工具。统计发现，在数据挖掘的过程中，数

据预处理工作量占到了整个过程的 60%。

数据预处理的主要内容包括数据清洗，数据集成，数据变换和数据规约。处理过程如

图 7-1 所示。

图 7-1数据预处理过程示意图

《RapidMiner 数据分析与挖掘实战》第 7 章

7.1 数据清洗

数据清洗主要是删除原始数据集中的无关数据、重复数据，平滑噪声数据，筛选掉与

挖掘主题无关的数据，处理缺失值、异常值等。

7.1.1 缺失值处理

从统计上说，缺失的数据可能会产生有偏估计，从而使样本数据不能很好地代表总体，

而现实中绝大部分数据都包含缺失值，因此如何处理缺失值很很重要。

一般来说，缺失值的处理包括两个步骤，即缺失数据的识别和缺失值处理。在对是否

存在缺失值进行判断之后需要进行缺失值处理，常用的方法有删除法、替换法、插补法等。

（1）删除法

删除法是最简单缺失值处理方法，根据数据处理的不同角度可分为删除观测样本、删

除

变量两种。

（2）替换法

变量按属性可分为数值型和非数值型，二者的处理办法不同：如果缺失值所在变量为

数

值型的，一般用该变量在其他所有对象的取值的均值来替换变量的缺失值；如果为非数值

型变量，则使用该变量其他全部有效观测值的中位数或者众数进行替换。

（3）插补法

删除法虽然简单易行，但会存在信息浪费的问题且数据结构会发生变动，以致最后得

到

有偏的统计结果，替换法也有类似问题。在面对缺失值问题，常用的插补法有回归插补、

多重插补等。回归插补法利用回归模型，将需要插值补缺的变量作为因变量，其他相关变

量作为自变量，通过回归函数 lm()预测出因变量的值对缺失变量进行补缺；多重插补法的

原理是从一个包含缺失的数据集中生成一组完整的数据，进行多次，从而产生缺失值的一

个随机样本。

《RapidMiner 数据分析与挖掘实战》第 7 章

7.1.2 异常值处理

在异常值的处理之前需要对异常值进行识别，一般多采用单变量散点图或是箱形图可

以达到目的。

在数据预处理时，异常值是否剔除，需视具体情况而定，因为有些异常值可能蕴含着

有用的信息。异常值处理常用方法见表 7-1：

表 7-1 异常值处理常用方法

异常值处理方法方法描述

删除含有异常值的记录直接将含有异常值的记录删除。

视为缺失值

将异常值视为缺失值，利用缺失值处理的方法进行处

理。

平均值修正

可用前后两个观测值的平均值修正该异常值。

不处理

直接在具有异常值的数据集上进行挖掘建模。

将含有异常值的记录直接删除这种方法简单易行，但缺点也很明显，在观测值很少的

情况下，这种删除会造成样本量不足，可能会改变变量的原有分布，从而造成分析结果的

不准确。视为缺失值处理的好处是可以利用现有变量的信息，对异常值（缺失值）进行填

补。

很多情况下，要先分析异常值出现的可能原因，再判断异常值是否应该舍弃，如果是

正确的数据，可以直接在具有异常值的数据集上进行挖掘建模。

7.2 数据集成

数据挖掘需要的数据往往分布在不同的数据源中，数据集成就是将多个数据源合并存

放在一个一致的数据存储（如数据仓库）中的过程。

在数据集成时，来自多个数据源的现实世界实体的表达形式是不一样的，有可能不匹

配，要考虑实体识别问题和属性冗余问题，从而将源数据在最低层上加以转换、提炼和集

成。

7.2.1 实体识别

实体识别是从不同数据源识别出现实世界的实体，它的任务是统一不同源数据的矛盾

之处，常见的如：

《RapidMiner 数据分析与挖掘实战》第 7 章

（1）同名异义

数据源 A 中的属性 ID 和数据源 B 中的属性 ID 分别描述的是菜品编号和订单编号，即

描述的是不同的实体。

（2）异名同义

数据源 A 中的 sales_dt 和数据源 B 中的 sales_date 都是描述销售日期的，即 A. sales_dt=

B. sales_date。

（3）单位不统一

描述同一个实体分别用的是国际单位和中国传统的计量单位。

检测和解决这些冲突就是实体识别的任务。

7.2.2 冗余属性识别

数据集成往往导致数据冗余，如：

1) 同一属性多次出现

2) 同一属性命名不一致导致重复

仔细整合不同源数据能减少甚至避免数据冗余与不一致，从而提高数据挖掘的速度和

质量。对于冗余属性要先分析，检测到后再将其删除。

有些冗余属性可以用相关分析检测。给定两个数值型的属性 A 和 B，根据其属性值，

用相关系数度量一个属性在多大程度上蕴含另一个属性。

7.3 数据变换

数据变换主要是对数据进行规范化处理、连续变量的离散化以及变量属性的构造，将

数据转换成“适当的”形式，以适用于挖掘任务及算法的需要。

7.3.1 简单函数变换

简单函数变换是对原始数据进行某些数学函数变换，常用的包括平方、开方、取对数、

差分运算等，即

（7-1）

《RapidMiner 数据分析与挖掘实战》第 7 章

（7-2）

（7-3）

（7-4）

简单的函数变换常用来将不具有正态分布的数据变换成具有正态分布的数据；在时间

序列分析中，有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列。在

数据挖掘中，简单的函数变换可能更有必要，比如个人年收入的取值范围为 10000 元到 10

亿元，这是一个很大的区间，使用对数变换对其进行压缩是常用的一种变换处理。

7.3.2 规范化

数据标准化（归一化）处理是数据挖掘的一项基础工作。不同评价指标往往具有不同

的量纲，数值间的差别可能很大，不进行处理可能会影响到数据分析的结果。为了消除指

标之间的量纲和取值范围差异的影响，需要进行标准化处理，将数据按照比例进行缩放，

使之落入一个特定的区域，便于进行综合分析。如将工资收入属性值映射到 [-1,1]或者

[0,1]内。

数据规范化对于基于距离的挖掘算法尤为重要。

（1）最小-最大规范化

也称为离差标准化，是对原始数据的线性变换，将数值值映射到[0,1]之间。

转换公式如下：

（7-5）

其中为样本数据的最大值，为样本数据的最小值。为极差。离差

标准化保留了原来数据中存在的关系，是消除量纲和数据取值范围影响的最简单的方法。

这种处理方法的缺点是若数值集中某个数值很大，则规范化后各值会接近于 0，并且将会

相差不大。若将来遇到超过目前属性取值范围的时候，会引起系统出错，需要

重新确定和。

（2）零-均值规范化

剩余24页未读，继续阅读

12.1 应用场景  垃圾、邮件检测  语言种类检测  客户反馈分析、微博评论情感分析  … 12.2学习目标在学习完本章后，您应能够：  解释什么是文本挖掘、如何使用文本挖掘，以及使用文本挖掘有哪些好处。  识别文本可能采取的各种格式，以便进行文本挖掘。  连接至文本，并将其导入为文本挖掘模型的数据来源。  在 RapidMiner 中开发一个文本挖掘模型，其中包括常用的文本操作符，例如tokenization、stop word filtering等。  对文本挖掘结果应用其他数据挖掘模型，以便根据文本分析结果预测或分类。 12.3文本挖掘概览本章介绍文本分类。由于大部分交流信息以文本格式保存，文本分类是文本挖掘中的一个重要主题。我们将建立一个RapidMiner挖掘流程，来学习垃圾和我们实际想阅读的之间的区别。然后我们将应用此学习到的模型到新的中，来确定其是否为垃圾。垃圾是许多熟悉主题中的一种，自然地，我们由此就开始动手工作。用于垃圾分类的相同的技术可以在许多其他文本挖掘领域中使用。  以下为我们主要执行的挖掘步骤： – 安装文本挖掘插件 – 加载数据集到 RapidMiner中 – 检查这些文本 – 处理这些文本 – 使用 Naïve Bayes 算法构造一个文本分类模型 – 验证模型 – 应用模型到未分类的数据中

粉丝: 5
资源: 36

上传资源快速赚钱

我的内容管理收起

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

会员权益专享

《RapidMiner数据分析与挖掘实战》第7章数据预处理

评论0

会员权益专享

最新资源

《RapidMiner数据分析与挖掘实战》第7章 数据预处理

评论0

《RapidMiner数据分析与挖掘实战》第18章 异常检测

《RapidMiner数据分析与挖掘实战》第11章 决策树与神经网络

快速数据挖掘数据分析实战RapidMiner工具应用第12章 文本挖掘V1.1.pdf

rapidminer数据挖掘实例

rapidminer kmeans分析

数据挖掘工具rapidminer

rapidminer中文手册

rapidminer使用手册

rapidminer 时间序列

rapidminer关联规则

rapidminer银行营销数据集

rapidminer回归预测

rapidminer多元回归的流程

rapidminer相关分析算子

rapidminer 修改异常值

rapidminer下载后无法启动java

rapidminer 银行客户特征分析及流失预测

在RapidMiner中使用决策树来预测泰坦尼克号的生存情况。

免费的数据挖掘工具，可对PDF文本进行分析挖掘

rapidminer CRF-learn++

会员权益专享

最新资源

《RapidMiner数据分析与挖掘实战》第7章数据预处理

《RapidMiner数据分析与挖掘实战》第18章异常检测

《RapidMiner数据分析与挖掘实战》第11章决策树与神经网络

快速数据挖掘数据分析实战RapidMiner工具应用第12章文本挖掘V1.1.pdf