数据挖掘实践：Weka工具与分类算法探索

4星 · 超过85%的资源需积分: 34 56 浏览量更新于2024-09-13 1 收藏 1.17MB PPT 举报

"清华大学数据挖掘课程的第二次作业，要求学生使用Weka工具进行数据挖掘实践。作业主要包括手写体识别、文本分类和购物篮分析，目的是熟悉Weka的使用，理解不同分类算法的特性和参数优化，以及进行关联规则挖掘。" 在本次作业中，学生需要完成以下三个主要任务： 1. 手写体识别：学生被要求对MNIST数据集进行分类，这是一个广泛使用的手写数字识别数据集。他们需要用10重交叉验证方法尝试至少三种分类器，如贝叶斯、最近邻(KNN)和Boost等，并记录实验结果、步骤及参数设置，以达到尽可能高的准确率。MNIST数据集可在提供的链接中获取，已转换为ARFF文件格式。 2. 文本分类：使用20Newsgroups数据集进行文本分类，同样需要尝试至少三种分类器并进行10重交叉验证。与手写体识别任务相同，学生需详细记录实验过程、结果和参数，以确保实验可复现。20Newsgroups数据集可以从指定链接下载。 3. 购物篮分析：进行关联规则挖掘，利用marketbasket.csv提供的购物篮数据。学生需要展示实验结果，提供具体的参数设置，以便他人能重复实验，并对挖掘出的关联规则进行分析。作业中强调，学生必须选择每类分类器的至少一个具体实现（例如，对于贝叶斯分类，可能选择Naive Bayes），并详细记录所有参数设置，包括对数据的预处理和Weka的配置。这样，教师在检查作业时可以复现实验，确保结果的可靠性。这个作业不仅要求学生掌握Weka工具的操作，还要求他们深入理解不同分类算法的优缺点，以及如何通过参数调整来优化模型性能。同时，关联规则挖掘部分则让学生接触到预测和发现数据中隐藏模式的实际应用。通过这个作业，学生将全面提高他们在数据挖掘领域的实践能力。

数据挖掘第二次大作业

2012.11.16

卞乃文

bnwivy@gmail.com

伍健

wuwja@foxmail.com

下载后可阅读完整内容，剩余9页未读，立即下载

death_knight_luzj

粉丝: 0
资源: 11

数据挖掘实践：Weka工具与分类算法探索

清华大学数据挖掘上课课件

清华大学精品数据挖掘&机器学习学习全套PPT课件 共6个章节.rar

清华大学数据挖掘homework2：Weka实战与评估

清华大学数据挖掘知识点

清华大学精品数据挖掘学习PPT课件（31页）含练习题 第1章 数据挖掘概念介绍.rar

数据挖掘与OLAP理论与实务_----清华大学版的数据挖掘教材

清华大学精品数据挖掘&机器学习学习PPT课件（31页）含练习题 第1章 数据挖掘概念介绍.pptx

清华大学精品数据挖掘&机器学习学习PPT课件（38页）含练习题 第6章 数据挖掘应用案例 电力分析 银行信贷 指数预测 客户分群

清华大学精品数据挖掘&机器学习学习PPT课件（38页）含练习题 第6章 数据挖掘应用案例 电力分析 银行信贷 指数预测 客户分群营销 房屋估价.pptx

清华大学精品数据挖掘&机器学习学习PPT课件（34页）含练习题 第2章 分类 Bayes贝叶斯 SVM支持向量机分类算法.rar

最新资源

清华大学精品数据挖掘&机器学习学习全套PPT课件共6个章节.rar

清华大学精品数据挖掘学习PPT课件（31页）含练习题第1章数据挖掘概念介绍.rar

清华大学精品数据挖掘&机器学习学习PPT课件（31页）含练习题第1章数据挖掘概念介绍.pptx

清华大学精品数据挖掘&机器学习学习PPT课件（38页）含练习题第6章数据挖掘应用案例电力分析银行信贷指数预测客户分群

清华大学精品数据挖掘&机器学习学习PPT课件（38页）含练习题第6章数据挖掘应用案例电力分析银行信贷指数预测客户分群营销房屋估价.pptx

清华大学精品数据挖掘&机器学习学习PPT课件（34页）含练习题第2章分类 Bayes贝叶斯 SVM支持向量机分类算法.rar