Clementine教程：中文版资料挖掘全指南

需积分: 50 153 浏览量更新于2024-07-29 收藏 6.99MB PDF 举报

Clementine是一款强大的数据挖掘工具，它采用图形化界面让用户通过一系列节点构建数据流，进行数据分析和挖掘过程。这个教程将详细介绍如何在Clementine中创建和管理数据流，以及各个节点的功能和应用。首先，Clementine的核心是数据流（stream），它由一系列节点组成，每个节点代表一个特定的数据处理操作，如从数据源读取（变量文件节点）、计算新字段（导出节点）、筛选数据（选择节点）和展示结果（表节点）。这种设计使得用户可以通过直观地连接节点，形成一个可视化的数据处理流程，类似于脚本，便于重复使用和跨数据集应用。在Clementine中，建立数据流的步骤包括：添加节点到数据流区域、连接节点形成逻辑顺序、设置节点选项以指定操作细节，以及执行整个数据流。数据流区域显示了节点之间的关系，帮助用户理解分析过程。节点选项板是Clementine的重要组成部分，它包含多个子面板，如来源（Sources）用于导入数据，记录选项（RecordOps）处理记录级别的操作，如选择和合并；字段选项（Fieldops）负责数据域的修改，如过滤和导出新字段；图（Graphs）提供可视化工具，如图表和评估图表；以及建模面板，展示了诸如神经网络、决策树等建模算法。为了个性化使用，用户还可以自定义“Favorites”项目，收藏常用的节点组合，比如针对特定类型数据（如时间序列）的快速访问设置。这样可以显著提高工作效率。在实际操作中，向数据流中添加数据流节点是从节点选项板中选取所需功能，然后将其拖放到数据流区域中的适当位置，通过连线将它们串联起来。每一步操作都应清晰明确，确保数据处理流程的有效性和准确性。 Clementine教程强调了其图形化界面的易用性，以及如何利用节点和选项板灵活设计和执行数据挖掘任务。通过掌握这些核心概念和技术，用户可以在Clementine中高效地进行数据探索、清洗、建模和可视化，从而深入理解并提取有价值的信息。

●方向（Direction）：用来告知模型节点是否该字段将被

Input（预测字段）还是被 Output（被预测字段）。

Both 和 None 都是可用方向。

●遗漏值（Missing value）：指定哪种变量值将当作空

格（blanks）。

●变量值检查（Value checking）：在 Check 一栏中，使用

者可以设置选项来保证字段值在一定的指定范围内。

●实例化选项（Instantiation options）：在 Value 一栏中，

图 4-18 遗漏值

使用者可以设置选项，是从数据集中读取数据值，还

是点击 Specify 来打开另一个对话框设置变量值。

图 4-18 实例化选项

●Ignore Unique Fields：将自动忽略只有一个值的字段。图 4-18

●Ignore Large Sets：将自动忽略有很多成员的集合。

●使用工具菜单按钮，使用者可以建立一个 Filter 节点以丢弃已选字段。

(更多细节，参考“字段操作节点”章中的“在类型节点中设置数据类型”。)

在来源节点中设置数据类型

在来源节点中使用 Types 项目可以指定字段的一些重要属性：

●类型（Type）。用来描述给定字段的资料性质。如果一个字段的所有性质都是已知的，就被称为充分实例化（fully

instantiated）。字段的类型和字段的存储是不同的，字段类型是指资料是否被存储为字符串型、整数型、实数型、日

期型还是时间型。

●方向（Direction）。用来告知模型节点是否该字段将被 Input（预测字段）还是被 Output（被预测字段）。Both 和 None

都是可用方向。

●遗漏值（Missing value）。指定哪种变量值将当作空格（blanks）。

●变量值检查（Value checking）。使用者可以设置选项来保证字段值在一定的指定范围内。

●实例化选项（Instantiation options）。在 Value 一栏中，使用者可以设置选项，是从数据集中读取数据值，还是点击

Specify 来打开另一个对话框设置变量值。

图 6－19 从源中过滤字段图 6-20 类型卷标选项

4.9.2 在来源节点处过滤栏位

●栏位（Field）。展示目前连接的资料来源中的输入栏位。

●过滤（Filter）。展示所有输入栏位的过滤状态。过滤栏位包括在这个列中的一个红色的 X，表明这个栏位元在流

程的下游不能通过。点击 Filter 列来控制一个已选栏位的过滤开关。使用者也可以按住 shift 键，同时设置多个栏位。

●栏位（Field）。展示离开 Filter 节点时的栏位。副本栏位名称以红色显示。使用者可以点击这一列，键入一个新名

称。或者使用者可以点击 Filter 列，使栏位副本失效，删除该栏位。

*点击列的表头，在上表显示所有列均可被存储。

●查看目前栏位（View current fields）该选项是为了更方便灵活的查看连接到过滤节点的资料集，它预设是选中的，

并且这是最为普遍的过滤节点的使用方法。

●查看未使用的栏位设置（View unused field settings）选择该选项来查看曾经与过滤节点相连的资料集的栏位（但不

再使用）。在从一个流程到另一个流程复制过滤节点，或存储和重载过滤节点时，这个选项相当有用。

5. 记录操作节点

5.1 记录操作概述

记录操作节点用于在记录层次修改资料集。这些操作在资料采矿的资料理解和资料准备阶段很重要。

记录操作选项板包括以下节点：

●选择（select）

●样本（sample）

●均衡（balance）

●聚合（aggregate）

●排序（sort）

●合并（merge）

●附加（append）

●区分（distinct）

图 5－1 记录操作

5.2 选择节点

●使用者可以使用选择节点根据具体条件从资料流程中选择或排除某一记录子集，如符合“Class＝¨Drink〃〃条件

的记录子集。

●选择节点也用于选择一定比例的记录，使用者可以使用选择节点来创建自己的条件。例如，使用者可以创建如下

条件：

Class="Drink"and random(10)<=4 这一条件将从 Class 为“Drink”的记录中，选择大约

40％，并向流程的下游下传（downstream）这些记录以用于进一步分析。

●Mode（模式）

include（包含）：选择以便在流程中包含符合选择条件

的记录。

discard（排除）：选择以便将符合选择条件的记录排除出流。

●Condition（条件）:用于检验每一条记录的选择条件，选

使用者可以在视窗中输入运算式，也可以点击视窗右边运

算式构造（Expression Builder）按钮来构造条件。

图 5－2 选择节点设置

5.3 抽样节点

使用者可以使用抽样节点来明确限制通过流的记录数或排除一定比例的记录。由于各种原因，使用者需要对原

资料进行抽样，如：

提高资料采矿工具的性能。

大量削减（Paring down）一个大型的资料集，比如拥有上百万记录的资料集。使用抽样节点，使用者可以通过

随机抽样来生成模型，该模型通常和从整个资料集中导出的模型一样精确。

训练类神经网络。使用者应该为训练和测试各保留一个样本。

5.3.1 抽样节点选项

●Mode（模式）：为以下模式选择是否通过（包含）或丢弃

（排除）记录。

●最大样本容量：确定通过流程的最大样本量。如果想在选择

1-in-n 选项或 Random％抽样选项中不使用该

选项，可将最大样本量数目设置为超出数据

集容量。

●抽样（Sample）通过以下选项选择抽样方法：

First：选择使用连续资料抽样法。例如，如果最大样本量设为

10，000，则前 10，000 个记录将通过流（如果模式为

pass sample）或被丢弃（如果模式为 discard sample）。

图 5－2 抽样节点设置

1-in-n：选择资料抽样法为每 n 个通过或丢弃一个记录。

例如，如果 n 设置为 5，则每五个记录将有一个记录根据上述模式通过或丢弃。

random％：选择随机抽取数据集一定百分比的样本。例如，如果把百分比设置为 20，那么资料集有 20％的记录

将会根据上述模式设置通过流或丢弃。

5.4 均衡节点

使用者可以使用均衡节点来修正资料集中的不均匀性，以便能够符合特定的测试原则。

均衡是根据指定的条件复制记录后丢弃记录。不受任何条件限制的记录会一直通过流程。由于这一过程通过复

制并且/或者丢弃记录，因而资料的原始顺序将在资料下传（downstream）过程中流失。一定要在将均衡节点加到流

程之前导出一个和顺序有关的值。

注：均衡节点可以从资料分布图和直方图中自动生成。

5.4.1 均衡节点的设置选项

●记录均衡指令（Record balancing directives）：

列出目前的均衡指令。每一指令都包括一个因子和一个条件，使软件在条件为真时，根据指定的因子，提高记录

的比率。列出目前因子小于 1.0 意味着记录的比率将会减少。

●生成条件（Create conditions）

●删除指令（Delete directives）：使用红色的删除按钮。

●对指令排序（Sort directives）:使用上下箭头按钮

图 5－3 均衡节点设置图 5－4 聚合节点设置

5.5 聚合节点

可以使用聚合节点，把一系列输入记录变换成总括性的、聚合的输出记录

5.5.1 聚合节点的设置选项

●关键字段相邻（Keys are contiguous ）：若关键字段值出现在相邻记录中，该选项按相同值处理。

●关键字段（Key field）：列出可用于聚合的关键字段。如果所选关键字段不止一个，则所有值将组合起来生成聚合

记录的关键字段。

●聚合字段（Aggregate fields）：列出将按照所选聚合模式聚合的数值型字段。

●预设模式（Defaut mode）：指定对新添加的字段所使用的预设聚合模式、如果频繁使用同样的聚合方式，此处可

选择一个或以上的模式，使用右边的 Apply to All 按钮将所选模式应用于以上列出的所有字段。

●在 Clementine 中可以使用以下聚合模式：

总和 Sum:选择返回关键字段的每一组合的值的和。

平均值 Mean:选择返回关键字段的每一组合的值的平均。

最小值 Min:选择返回关键字段的每一组合的最小值。

最大值 Max:选择返回关键字段的每一组合的最大值。

标准差 Sdev:选择返回关键字段的每一组合的标准方差。

●新字段扩展名（New field name extension):选择添加后缀(suffix)或前缀(prefix)，以复制聚合字段。比如，如果选择

了后缀选项，并规定“1〃为扩展名，则对字段 Age 的最小值聚合结果会产生成名为 Age_Min_1 的字段名。

●Include record count in field（字段中包括记录数）：选择在每个输出记录中包括一个名为 record_count 的额外预设

字段。这一字段表明有多少输入记录被用于形成每一聚合字段。

5.6 排序节点

可以使用排序节点根据一个或多个字段值对记录进行升序或降序排列。

排序节点经常用于浏览和选择带有最常见资料值的记录，有助于探索分析资料并作出决策，比如选择前十名最

好的顾客的记录。

5.6.1 排序节点设置

●按……排序（Sort by）：所有被选为排序关键字段的字段都显示在一张表格中。用作排序的关键字段最好是数值型

字段。

添加字段（Add fields）：使用对话框右边的 Field Chooser 按钮把字段添加到列表中。

选择顺序（Select an order）：通过顺序（order）栏中点选 Ascending(升序)或 Descending（降序）来选择顺序。

删除字段（Delete fields）：使用红色的删除按钮。

排列指令（Sort directives）：使用上下箭头按钮。

●预设排列顺序（Default sort order）：选择 Ascending

(升序)或者 Descending（降序）作为以上新添加的字段

的预设排序顺序。

5.7 合并节点图 5－5 排序节点设置

合并节点的功能是接受多重输入记录，并生成包含部分或全部输入字段元的单一输出记录，这一操作在合并来

自不同资料来源的资料时很有用。

5.7.1 合并节点设置

●按照顺序合并（merge by order）：按照输入顺序连接来自所有数据库的对应记录，直至最小的资料源输入完毕。

在使用这一选项时有必要先使用排序节点对数据进行排序。

●按照关键字段合并（merge using a key field）：使用诸如使用者 ID 号等作为关键字段，以指定来自某一数据库的

资料在合并时如何与来自其它数据库的资料匹配。

注：系统遗漏值 null 并不认为相等，不参与合并。

●可能的关键字段 (Possible keys)：列出所有输入资料来源中

的所有字段。从列表中选择一个字段，然后使用箭头按钮将

其添加为合并记录的关键字段。

●合并的关键字段（Keys for merge）：列出用于合并所有输入

资料源的记录的关键字段。

●合并重复关键字段（Combine duplicate key fields）：当选择

了不止一个关键字段时，这一选项确保一个关键字段名只有

一个输出字段。

●只包括匹配记录（内部合并）（Including only matching

图 5－6 合并节点设置

records(inner join)）：选择只合并完整的记录。

●包括匹配和不匹配记录（完全外部合并）（Include matching and nonmatching records(full order join)）：选择执行

“完全外部合并”。表示如果某一关键字段存在于其中的一个资源，而在其它的资料来源中存在，则不完整的记录仍

然保留着。未定义值（$null$）被添加到关键字段中并包含在输出记录中

从合并节点过滤字段

合并节点能够方便的过滤或者重命名由于合并多重资料来源

引起的重复字段。点击对话框中的 Filter 以进行过滤选择。

●Field（字段）：显示目前连接资料源的输入字段，重复的字段

用红色显示。

●Tag（卷标）：列出与资料源连接相关的 Tag 名。点击 INPUTS

栏以改变合并节点的目前连接。

●Source node（来源节点）：显示目前合并资料的来源节点。

●connected node（连接节点）：显示与合并节点连接的节点名称。

设置输入顺序并加上卷标

图 5－6 从合并节点过滤字段

●使用合并节点和附加节点对话框的 inputs，可以规定输入资料来源的顺序，并可任意修改每一资料来源的卷标。

●tag（卷标）：列出每个输入资料源的目前卷标名。可以在 Tag 单元键入新的卷标名以改变预设卷标名

图 5－7 合并节点设置输入顺序并加标签图 5－8 附加节点设置

5.8 附加节点

使用附加节点将记录集串联起来。

与合并节点中将不同资料来源中的记录连接起来不同，附加节点读取并下传（downstream）来自同一资料来源

的所有记录直至该资料来源不再有记录为止，然后使用与读取首个输入资料来源记录相同的数据结构（记录和字段

数目等）读取下一个资料来源的记录。如果最初的资料来源的字段比另一个输入资料来源多，系统将对任意不完整

值使用字符串（$null$）补充。

附加节点用于合并有相似结构而资料不同的资料集，假定它们具有同样的数据结构（同样的字段，同样的顺序），

附加节点将会它们合并成一个大的档，随后使用者可以对这个档进行分析。

剩余107页未读，继续阅读

kelvindzd

粉丝: 0
资源: 1

Clementine教程：中文版资料挖掘全指南

Clementine完整教程

Clementine完整教程.pdf

clementine应用实务.rar

clementine中文教程

clementine 中文教程

clementine详细教程

clementine12.0教程

clementine教程

Clementine中文教程与使用经典实例

数据挖掘软件clementine中文教程.ppt

最新资源