WEKA数据挖掘平台入门指南

5星 · 超过95%的资源需积分: 9 107 浏览量更新于2024-07-29 收藏 982KB PDF 举报

"本文档介绍了WEKA的基本操作，包括其作为数据挖掘实验平台的角色，数据格式，数据准备，关联规则，分类与回归，聚类分析，以及解决大数据量内存问题的方法。此外，还涵盖了如何利用WEKA编写数据挖掘算法，以及Experimenter，KnowledgeFlow和SimpleCLI的演示。" **1. WEKA简介** WEKA是新西兰怀卡托大学开发的一个开源数据挖掘工具，全称为怀卡托智能分析环境。它提供了丰富的机器学习算法，涵盖了数据预处理、分类、回归、聚类、关联规则和可视化等功能。WEKA因其易用性和广泛的算法支持，在数据挖掘领域得到了高度认可。 **2. 数据格式** WEKA使用ARFF（Attribute-Relation File Format）格式存储数据，这是一种基于ASCII的文本文件格式。数据集由实例（样本）和属性（变量）组成，每个实例对应一行，每个属性对应一列。例如，一个名为"weather"的关系可能包含14个实例和5个属性。 **3. 数据准备** 数据预处理是数据挖掘的重要步骤，包括清理、转换和规范化等。WEKA提供了数据清洗功能，可以处理缺失值、异常值，以及进行特征选择和编码。 **4. 关联规则** 关联规则通常用于购物篮分析，通过发现商品间的频繁模式来预测消费者的购买行为。WEKA中的Apriori和FP-Growth算法可用于生成这些规则。 **5. 分类与回归** WEKA支持多种分类和回归算法，如决策树（C4.5, ID3）、贝叶斯网络、支持向量机（SVM）、随机森林等。用户可以选择合适的算法，调整参数，并评估模型性能。 **6. 聚类分析** 聚类是无监督学习的一种，用于发现数据的自然群体。WEKA提供了K-means、层次聚类、DBSCAN等算法，帮助用户理解数据的内在结构。 **7. 大数据量处理** 当处理大数据时，WEKA可能会遇到内存不足的问题。可以通过设置外部内存，使用流式算法或分布式计算框架（如Hadoop）来解决。 **8. 编写数据挖掘算法** WEKA提供了API，允许用户自定义并实现新的数据挖掘算法，增强了其灵活性和扩展性。 **9. Experimenter演示** Experimenter是WEKA中的一个实验框架，用于比较不同算法在相同数据集上的表现，便于选择最佳模型。 **10. KnowledgeFlow演示** KnowledgeFlow是WEKA的图形用户界面，提供拖放式操作，方便用户构建复杂的数据挖掘流程。 **11. SimpleCLI演示** SimpleCLI是WEKA的命令行接口，适合自动化脚本和批量处理，适用于需要高效和无干扰的数据挖掘任务。 WEKA是一个强大的数据挖掘工具，无论对初学者还是专业人士，都能提供全面的功能和直观的操作体验。通过熟悉和掌握WEKA的基本操作，可以有效地进行数据探索和知识发现。

预处理

bank‐data数据各属性的含义如下：

id: auniqueidentificationnumber

age: ageofcustomerinyears(numeric)

sex: MALE/FEMALE

region: inner_city/rural/suburban/town

income: incomeofcustomer(numeric)

married: isthecustomermarried(YES/NO)

children: numberofchildren(numeric)

car: doesthecustomerownacar(YES/NO)

save_act: doesthecustomerhaveasavi ngaccount

(YES/NO)

current_act:doesthecustomerhaveacurrentaccount(YES/NO)

mortgage: doesthecustomerhaveamortgage(YES/NO)

pep: didthecustomerbuyaPEP(PersonalEquityPlan，个人

参股计划)afterthelastmailing(YES/NO)

(2)去除无用属性

通常对于数据挖掘任务来说，ID这样的信息是无用的，我们将

之删除。在区域5勾选属性“id”，并点击“Remove”。将新的数据

集保存一次，重新打开。

(3)离散化

我们知道，有些算法(如关联规则)，只能处理所有的属性都是

分类型的情况。这时候我们就需要对数值型的属性进行离散化。

在这个数据集中有3个变量是数值型的，分别是“age ”，“income”

和“children”。

其中“children”只有4个取值：0，1，2，3。这时我们直接修改

ARFF文件，把

@attributechildrennumeric

改为

@attributechildren{0,1,2,3}

就可以了。

在“Explorer”中重新打开“bank‐data.arff”，看看选中“children”属

性后，区域6那里显示的“Type” 变成“Nominal ”了。

“age”和“income”的离散化可借助WEKA中名为“Discretize”的

Filter来完成。在区域2中点“Choos e”，出现一棵“Filter树”，逐

级找到“weka.filters.unsuper vised.attribute.Discretize”，点击。

现在“Choose”旁边的文本框应该显示“Discretize‐B10‐M‐0.1‐R

first‐last”。点击这个文本框会弹出新窗口以修改离散化的参数。

我们不打算对所有的属性离散化，只是针对对第1个和第4个属

性（见区域5属性名左边的数字），故把attributeIndices右边改

成“1,4”。计划把这两个属性都分成3段，于是把“bins”改成“3”。

其它框里不用更改。点“OK”回到“Explorer”，可以看到“age”和

“income”已经被离散化成分类型的属性。若想放弃离散化可以

点区域2的“Undo”。还可用“替换”功能将离散化后的值替换使之

更具可读性。

经过上述操作得到的数据集我们保存为bank‐data‐final.arff。

(4)属性类型转换

NominalToBinary过滤器将所有nominal类型的属性转为

binary(0,1二值)属性，一个可取k个值的nominal类型的属

性转为k个二值属性，这样可将数据中所有属性转为数值

(numeric)属性。以下是weather.arff轮换后的结果。

(5)采样

Resample对整个数据集进行分层的采样(stratifiedsubsample

，采样所得数据仍保持原来的类分布)。以下命令从

soybean.arff中采样了5%的数据，并将采样后的数据集命名为

soybean_5.arff，保存在weka子目录下。

javaweka.filters.supervised.instance.Resample‐if:\Weka‐3‐

5\data\soybean.arff‐osoybean_5.arff‐clast‐Z5

以下命令则进行不分层的采样，即与类信息无关。

javaweka.filters.unsupervised.instance.Resample‐i

data\soybean.arff‐osoybean‐5%.arff‐Z5

(6)增加一个表达式属性

y AddExpression:Aninstancefilterthatcreatesanew

attributebyapplyingamathematicalexpressionto

existingattributes.Theexpressioncancontain

attributereferencesandnumericconstants.

Supportedoperatorsare:+,‐,*,/,^,log,abs,cos,exp,

sqrt,floor,ceil,rint,tan,sin,(,)

y Attributesarespecifiedbyprefixingwith'a',eg.a7is

attributenumber7(startingfrom1).

y Exampleexpression:a1^2*a5/log(a7*4.0).

y 以下命令增加了一个h/w属性，其值为第一个属性除

以第二个属性的值。

AddExpression–Ea1/a2–Nh/w

剩余16页未读，继续阅读

Angel_juan2011

粉丝: 0
资源: 2

WEKA数据挖掘平台入门指南

数据挖掘实验报告_ 实验1_ Weka基础操作.pdf

数据挖掘实验报告_ 实验1_ Weka基础操作.docx

Weka 界面操作实例

Weka操作手册

idea环境下Weka API操作

weka基础数据集

WEKA基础教程(适合初学者)

Weka基础教程V1.1(贵州大学)

weka算法库以及操作的详细说明

weka manual

最新资源