WEKA数据挖掘平台使用教程

4星 · 超过85%的资源需积分: 42 67 浏览量更新于2024-09-14 收藏 205KB DOC 举报

WEKA使用教程 WEKA全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一个功能强大且广泛使用的数据挖掘工作平台。它的源代码可以通过http://www.cs.waikato.ac.nz/ml/weka获取。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。 WEKA的主要开发者来自新西兰，而WEKA也是新西兰的一种鸟名。WEKA系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一（已有11年的发展历史）。WEKA的每月下载次数已超过万次。 WEKA使用的数据格式是ARFF（Attribute-Relation File Format）文件，这是一种ASCII文本文件。WEKA中的术语包括实例（Instance）、属性（Attribute）和关系（Relation）。实例相当于统计学中的一个样本，或者数据库中的一条记录。属性相当于统计学中的一个变量，或者数据库中的一个字段。关系则是指属性之间的一种关系。 WEKA提供了多种数据挖掘算法，包括关联规则、分类、回归、聚类等。关联规则是指从数据中发现隐含的规律，例如购物篮分析。分类和回归是指对数据进行预测和分类。聚类是指对数据进行分组和分类。在WEKA中，数据准备是非常重要的一步骤。数据准备包括数据清洁、数据转换、数据降维等步骤。数据清洁是指删除数据中的错误和缺失值。数据转换是指将数据转换为适合WEKA的格式。数据降维是指将高维度数据降低到低维度，以便于计算和分析。 WEKA还提供了可视化功能，用户可以通过WEKA的可视化界面来查看和分析数据。WEKA的可视化界面包括多种类型，例如散点图、柱状图、饼图等。 WEKA是一个功能强大且广泛使用的数据挖掘工作平台，提供了多种数据挖掘算法和可视化功能，广泛应用于数据挖掘、机器学习和人工智能领域。

rainy,70,96,FALSE,yes

rainy,68,80,FALSE,yes

rainy,65,70,TRUE,no

overcast,64,65,TRUE,yes

sunny,72,95,FALSE,no

sunny,69,70,FALSE,yes

rainy,75,80,FALSE,yes

sunny,75,70,TRUE,yes

overcast,72,90,TRUE,yes

overcast,81,75,FALSE,yes

rainy,71,91,TRUE,no

需要注意的是，在  记事本打开这个文件时，可能会因为回车符定义不一致而导致分行不正常。

推荐使用 8 这样的字符编辑软件察看 366 文件的内容。

下面我们来对这个文件的内容进行说明。

识别 366 文件的重要依据是分行，因此不能在这种文件里随意的断行。空行（或全是空格的行）将被忽

略。

以“95开始的行是注释， 将忽略这些行。如果你看到的“75文件多了或少了些“95开始

的行，是没有影响的。

除去注释后，整个 366 文件可以分为两个部分。第一部分给出了头信息（:），包括

了对关系的声明和对属性的声明。第二部分给出了数据信息（ +），即数据集中给出的

数据。从“;5标记开始，后面的就是数据信息了。

关系声明

关系名称在 366 文件的第一个有效行来定义，格式为

;<,=

<,=是一个字符串。如果这个字符串包含空格，它必须加上引号（指英文标点的单引号或

双引号）。

属性声明

属性声明用一列以“;.-5开头的语句表示。数据集中的每一个属性都有它对应的“ ;.-5语

句，来定义它的属性名称和数据类型。

这些声明语句的顺序很重要。首先它表明了该项属性在数据部分的位置。例如，“-5是第三个被

声明的属性，这说明数据部分那些被逗号分开的列中，第三列数据 %1$%1  是相应的

“-5值。其次，最后一个声明的属性被称作 " 属性，在分类或回归任务中，它是默认的目标变

量。

属性声明的格式为

;.-<.-,=<=

其中<.-,=是必须以字母开头的字符串。和关系名称一样，如果这个字符串包含空格，它

必须加上引号。

 支持的<=有四种，分别是

-",,,,,,,,,,,,,,,,,,,,,,,,,数值型

剩余12页未读，继续阅读

u011055553

粉丝: 0
资源: 3

WEKA数据挖掘平台使用教程

WEKA入门教程：数据挖掘工具详解与实战应用

WEKA入门教程：数据挖掘平台操作详解

WEKA数据挖掘教程：从入门到实践

weka使用教程

WEKA使用教程WEKA使用教程

weka使用教程数据

Weka使用教程合集

weka使用教程 挺好用的

Weka使用教程（中文）

51CTO下载-weka使用教程

最新资源

weka使用教程挺好用的