没有合适的资源?快使用搜索试试~ 我知道了~
首页Clementine教程:数据流驱动的资料挖掘详解
Clementine教程:数据流驱动的资料挖掘详解
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 32 浏览量
更新于2024-07-03
3
收藏 7MB PDF 举报
Clementine完整教程是一份详尽的教程文档,它介绍了Clementine系统,一种专注于通过数据流方式进行资料处理的工具。Clementine的工作原理是通过一系列节点构成数据流,每个节点代表一个操作,如从资料源读取、数据转换、选择记录和展示结果。用户可以通过以下几个关键步骤创建数据流: 1. 建立数据流:用户首先在数据流区域中添加节点,然后连接这些节点以定义操作顺序,节点间的连线表示数据流动的方向。数据流类似于脚本,可被保存和跨多个数据文件复用。 2. 节点操作:工作区域中的节点具有特定功能,如来源节点负责导入数据,记录选项节点进行数据记录操作,如选择和合并,而字段选项节点则处理数据域,如过滤和字段导出。此外,还提供了图节点用于资料可视化,如图表、直方图等,以及建模节点,如神经网络、决策树等算法用于数据分析和预测。 3. 节点选项板:教程详细介绍了位于Clementine系统底部的节点选项板,它是构建数据流的基础。该面板包含多个子项目,如来源、记录选项、字段选项、建模和定制常用项,以满足不同阶段的数据处理需求。 4. 定制常用项:用户可以根据个人需求将常用节点自定义为“收藏夹”,方便快速访问,比如针对时间序列分析经常使用的数据库来源和序列建模节点。 5. 添加节点:从节点选项板中拖拽并放置所需的节点到数据流区域,然后配置其属性和连接,完成数据流的创建和执行。 通过这份教程,学习者可以全面了解如何利用Clementine系统进行高效、灵活的数据处理和分析,提升数据挖掘和处理能力。无论是初学者还是经验丰富的数据分析师,都能从中找到适用的指导和实践案例。
资源详情
资源推荐
●方向(Direction):用来告知模型节点是否该字段将被
Input(预测字段)还是被 Output(被预测字段)。
Both 和 None 都是可用方向。
●遗漏值(Missing value):指定哪种变量值将当作空
格(blanks)。
●变量值检查(Value checking):在 Check 一栏中,使用
者可以设置选项来保证字段值在一定的指定范围内。
●实例化选项(Instantiation options):在 Value 一栏中,
图 4-18 遗漏值
使用者可以设置选项,是从数据集中读取数据值,还
是点击 Specify 来打开另一个对话框设置变量值。
图 4-18 实例化选项
●Ignore Unique Fields:将自动忽略只有一个值的字段。 图 4-18
●Ignore Large Sets:将自动忽略有很多成员的集合。
●使用工具菜单按钮,使用者可以建立一个 Filter 节点以丢弃已选字段。
(更多细节,参考“字段操作节点”章中的“在类型节点中设置数据类型”。)
在来源节点中设置数据类型
在来源节点中使用 Types 项目可以指定字段的一些重要属性:
●类型(Type)。用来描述给定字段的资料性质。如果一个字段的所有性质都是已知的,就被称为充分实例化(fully
instantiated)。字段的类型和字段的存储是不同的,字段类型是指资料是否被存储为字符串型、整数型、实数型、日
期型还是时间型。
●方向(Direction)。用来告知模型节点是否该字段将被 Input(预测字段)还是被 Output(被预测字段)。Both 和 None
都是可用方向。
●遗漏值(Missing value)。指定哪种变量值将当作空格(blanks)。
●变量值检查(Value checking)。使用者可以设置选项来保证字段值在一定的指定范围内。
●实例化选项(Instantiation options)。在 Value 一栏中,使用者可以设置选项,是从数据集中读取数据值,还是点击
Specify 来打开另一个对话框设置变量值。
图 6-19 从源中过滤字段 图 6-20 类型卷标选项
16
4.9.2 在来源节点处过滤栏位
●栏位(Field)。展示目前连接的资料来源中的输入栏位。
●过滤(Filter)。 展示所有输入栏位的过滤状态。过滤栏位包括在这个列中的一个红色的 X,表明这个栏位元在流
程的下游不能通过。点击 Filter 列来控制一个已选栏位的过滤开关。使用者也可以按住 shift 键,同时设置多个栏位。
●栏位(Field)。展示离开 Filter 节点时的栏位。副本栏位名称以红色显示。使用者可以点击这一列,键入一个新名
称。或者使用者可以点击 Filter 列,使栏位副本失效,删除该栏位。
*点击列的表头,在上表显示所有列均可被存储。
●查看目前栏位(View current fields) 该选项是为了更方便灵活的查看连接到过滤节点的资料集,它预设是选中的,
并且这是最为普遍的过滤节点的使用方法。
●查看未使用的栏位设置(View unused field settings) 选择该选项来查看曾经与过滤节点相连的资料集的栏位(但不
再使用)。在从一个流程到另一个流程复制过滤节点,或存储和重载过滤节点时,这个选项相当有用。
5. 记录操作节点
5.1 记录操作概述
记录操作节点用于在记录层次修改资料集。这些操作在资料采矿的资料理解和资料准备阶段很重要。
记录操作选项板包括以下节点:
●选择(select)
●样本(sample)
●均衡(balance)
●聚合(aggregate)
●排序(sort)
●合并(merge)
●附加(append)
●区分(distinct)
图 5-1 记录操作
5.2 选择节点
●使用者可以使用选择节点根据具体条件从资料流程中选择或排除某一记录子集,如符合“Class=¨Drink〃〃条件
的记录子集。
●选择节点也用于选择一定比例的记录,使用者可以使用选择节点来创建自己的条件。例如,使用者可以创建如下
条件:
Class="Drink"and random(10)<=4 这一条件将从 Class 为“Drink”的记录中,选择大约
40%,并向流程的下游下传(downstream)这些记录以用于进一步分析。
●Mode(模式)
include(包含):选择以便在流程中包含符合选择条件
的记录。
discard(排除):选择以便将符合选择条件的记录排除出流。
●Condition(条件):用于检验每一条记录的选择条件,选
使用者可以在视窗中输入运算式,也可以点击视窗右边运
算式构造(Expression Builder)按钮来构造条件。
图 5-2 选择节点设置
17
5.3 抽样节点
使用者可以使用抽样节点来明确限制通过流的记录数或排除一定比例的记录。由于各种原因,使用者需要对原
资料进行抽样,如:
提高资料采矿工具的性能。
大量削减(Paring down)一个大型的资料集,比如拥有上百万记录的资料集。使用抽样节点,使用者可以通过
随机抽样来生成模型,该模型通常和从整个资料集中导 出的模型一样精确。
训练类神经网络。使用者应该为训练和测试各保留一个样本。
5.3.1 抽样节点选项
●Mode(模式):为以下模式选择是否通过(包含)或丢弃
(排除)记录。
●最大样本容量:确定通过流程的最大样本量。如果想在选择
1-in-n 选项或 Random%抽样选项中不使用该
选项,可将最大样本量 数目设置为超出数据
集容量。
●抽样(Sample) 通过以下选项选择抽样方法:
First:选择使用连续资料抽样法。例如,如果最大样本量设为
10,000,则前 10,000 个记录将通过流(如果模式为
pass sample)或被丢弃(如果模式为 discard sample)。
图 5-2 抽样节点设置
1-in-n:选择资料抽样法为每 n 个通过或丢弃一个记录。
例如,如果 n 设置为 5,则每五个记录将有一个记录根据上述模式通过或丢弃。
random%:选择随机抽取数据集一定百分比的样本。例如,如果把百分比设置为 20,那么资料集有 20%的记录
将会根据上述模式设置通过流或丢弃。
5.4 均衡节点
使用者可以使用均衡节点来修正资料集中的不均匀性,以便能够符合特定的测试原则。
均衡是根据指定的条件复制记录后丢弃记录。不受任何条件限制的记录会一直通过流程。由于这一过程通过复
制并且/或者丢弃记录,因而资料的原始顺序将在资料下传(downstream)过程中流失。一定要在将均衡节点加到流
程之前导出一个和顺序有关的值。
注:均衡节点可以从资料分布图和直方图中自动生成。
5.4.1 均衡节点的设置选项
●记录均衡指令(Record balancing directives):
列出目前的均衡指令。每一指令都包括一个因子和一个条件,使软件在条件为真时,根据指定的因子,提高记录
的比率。列出目前因子小于 1.0 意味着记录的比率将会减少。
●生成条件(Create conditions)
●删除指令(Delete directives):使用红色的删除按钮。
●对指令排序(Sort directives):使用上下箭头按钮
图 5-3 均衡节点设置 图 5-4 聚合节点设置
5.5 聚合节点
可以使用聚合节点,把一系列输入记录变换成总括性的、聚合的输出记录
18
5.5.1 聚合节点的设置选项
●关键字段相邻(Keys are contiguous ):若关键字段值出现在相邻记录中,该选项按相同值处理。
●关键字段(Key field):列出可用于聚合的关键字段。如果所选关键字段不止一个,则所有值将组合起来生成聚合
记录的关键字段。
●聚合字段(Aggregate fields):列出将按照所选聚合模式聚合的数值型字段。
●预设模式(Defaut mode):指定对新添加的字段所使用的预设聚合模式、如果频繁使用同样的聚合方式,此处可
选择一个或以上的模式,使用右边的 Apply to All 按钮将所选模式应用于以上列出的所有字段。
●在 Clementine 中可以使用以下聚合模式:
总和 Sum:选择返回关键字段的每一组合的值的和。
平均值 Mean:选择返回关键字段的每一组合的值的平均。
最小值 Min:选择返回关键字段的每一组合的最小值。
最大值 Max:选择返回关键字段的每一组合的最大值。
标准差 Sdev:选择返回关键字段的每一组合的标准方差。
●新字段扩展名(New field name extension):选择添加后缀(suffix)或前缀(prefix),以复制聚合字段。比如,如果选择
了后缀选项,并规定“1〃为扩展名,则对字段 Age 的最小值聚合结果会产生成名为 Age_Min_1 的字段名。
●Include record count in field(字段中包括记录数):选择在每个输出记录中包括一个名为 record_count 的额外预设
字段。这一字段表明有多少输入记录被用于形成每一聚合字段。
5.6 排序节点
可以使用排序节点根据一个或多个字段值对记录进行升序或降序排列。
排序节点经常用于浏览和选择带有最常见资料值的记录,有助于探索分析资料并作出决策,比如选择前十名最
好的顾客的记录。
5.6.1 排序节点设置
●按……排序(Sort by):所有被选为排序关键字段的字段都显示在一张表格中。用作排序的关键字段最好是数值型
字段。
添加字段(Add fields):使用对话框右边的 Field Chooser 按钮把字段添加到列表中。
选择顺序(Select an order):通过顺序(order)栏中点选 Ascending(升序)或 Descending(降序)来选择顺序。
删除字段(Delete fields):使用红色的删除按钮。
排列指令(Sort directives) : 使用上下箭头按钮。
●预设排列顺序(Default sort order):选择 Ascending
(升序)或者 Descending(降序)作为以上新添加的字段
的预设排序顺序。
5.7 合并节点 图 5-5 排序节点设置
合并节点的功能是接受多重输入记录,并生成包含部分或全部输入字段元的单一输出记录,这一操作在合并来
自不同资料来源的资料时很有用。
5.7.1 合并节点设置
●按照顺序合并(merge by order):按照输入顺序连接来自所有数据库的对应记录,直至最小的资料源输入完毕。
在使用这一选项时有必要先使用排序节点对数据进行排序。
●按照关键字段合并(merge using a key field):使用诸如使用者 ID 号等作为关键字段,以指定来自某一数据库的
19
资料在合并时如何与来自其它数据库的资料匹配。
注:系统遗漏值 null 并不认为相等,不参与合并。
●可能的关键字段 (Possible keys):列出所有输入资料来源中
的所有字段。从列表中选择一个字段,然后使用箭头按钮将
其添加为合并记录的关键字段。
●合并的关键字段(Keys for merge):列出用于合并所有输入
资料源的记录的关键字段。
●合并重复关键字段(Combine duplicate key fields):当选择
了不止一个关键字段时,这一选项确保一个关键字段名只有
一个输出字段。
●只包括匹配记录(内部合 并)(Including only matching
图 5-6 合并节点设置
records(inner join)):选择只合并完整的记录。
●包括匹配和不匹配记录(完全外部合并)(Include matching and nonmatching records(full order join)):选择执行
“完全外部合并”。表示如果某一关键字段存在于其中的一个资源,而在其它的资料来源中存在,则不完整的记录仍
然保留着。未定义值($null$)被添加到关键字段中并包含在输出记录中
从合并节点过滤字段
合并节点能够方便的过滤或者重命名由于合并多重资料来源
引起的重复字段。点击对话框中的 Filter 以进行过滤选择。
●Field(字段):显示目前连接资料源的输入字段,重复的字段
用红色显示。
●Tag(卷标):列出与资料源连接相关的 Tag 名。点击 INPUTS
栏以改变合并节点的目前连接。
●Source node(来源节点):显示目前合并资料的来源节点。
●connected node(连接节点):显示与合并节点连接的节点名称。
设置输入顺序并加上卷标
图 5-6 从合并节点过滤字段
●使用合并节点和附加节点对话框的 inputs,可以规定输入资料来源的顺序,并可任意修改每一资料来源的卷标。
●tag(卷标):列出每个输入资料源的目前卷标名。可以在 Tag 单元键入新的卷标名以改变预设卷标名
图 5-7 合并节点设置输入顺序并加标签 图 5-8 附加节点设置
5.8 附加节点
使用附加节点将记录集串联起来。
与合并节点中将不同资料来源中的记录连接起来不同,附加节点读取并下传(downstream)来自同一资料来源
的所有记录直至该资料来源不再有记录为止,然后使用与读取首个输入资料来源记录相同的数据结构(记录和字段
数目等)读取下一个资料来源的记录。如果最初的资料来源的字段比另一个输入资料来源多,系统将对任意不完整
值使用字符串($null$)补充。
附加节点用于合并有相似结构而资料不同的资料集,假定它们具有同样的数据结构(同样的字段,同样的顺序),
附加节点将会它们合并成一个大的档,随后使用者可以对这个档进行分析。
20
剩余107页未读,继续阅读
智慧安全方案
- 粉丝: 3762
- 资源: 59万+
下载权益
电子书特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 计算机人脸表情动画技术发展综述
- 关系数据库的关键字搜索技术综述:模型、架构与未来趋势
- 迭代自适应逆滤波在语音情感识别中的应用
- 概念知识树在旅游领域智能分析中的应用
- 构建is-a层次与OWL本体集成:理论与算法
- 基于语义元的相似度计算方法研究:改进与有效性验证
- 网格梯度多密度聚类算法:去噪与高效聚类
- 网格服务工作流动态调度算法PGSWA研究
- 突发事件连锁反应网络模型与应急预警分析
- BA网络上的病毒营销与网站推广仿真研究
- 离散HSMM故障预测模型:有效提升系统状态预测
- 煤矿安全评价:信息融合与可拓理论的应用
- 多维度Petri网工作流模型MD_WFN:统一建模与应用研究
- 面向过程追踪的知识安全描述方法
- 基于收益的软件过程资源调度优化策略
- 多核环境下基于数据流Java的Web服务器优化实现提升性能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功