清华大学数据挖掘homework2：Weka实战与评估

需积分: 34 69 浏览量更新于2024-08-21 收藏 1.17MB PPT 举报

本次清华大学数据挖掘homework2Wweka作业旨在提升学生在数据挖掘领域的实践能力，涉及多个关键知识点。以下是详细说明： 1. 分类方法选择：学生必须使用课程限定的分类器进行实验，如贝叶斯、最近邻（KNN）、Boost等，这是作业评分的重要依据。在Weka工具中，需了解并应用不同类型的贝叶斯分类器，如朴素贝叶斯、多项式贝叶斯等。 2. 实验任务与目标： - 数据处理与特征工程：学生需要熟悉数据预处理流程，包括数据清洗、特征抽取和特征选择，这对于后续分类至关重要。 - 分类器学习与比较：通过实验，学生需理解并比较不同分类器的特性、优点和缺点，以及如何优化参数以提高分类精度。 - 关联规则挖掘：对于购物篮分析，学生需要应用关联规则挖掘算法，发现商品之间的频繁模式，同时提供详细的参数和实验步骤以便复现。 3. 具体实例： - 手写体识别（MNIST）：使用10重交叉验证对MNIST数据集进行分类，至少尝试三种分类器，目标是达到较高的识别准确率。学生需报告实验结果、步骤和参数设置，以确保结果可复制。 - 文本分类（20NewsGroup）：对原始20NewsGroup数据集进行文本分类，同样采用10重交叉验证，至少尝试三种分类器，追求高正确率。 4. 作业提交要求： - 提交一份PDF格式的报告，限制在15页内。课程班同学需从指定邮箱下载数据和相关资料，密码为"datamining2012"，并将作业发送到助教邮箱，邮件主题包含学号、姓名和作业名称。 5. 评估标准：作业将根据分类器的选择、实验设计、结果准确性、参数调整以及报告的清晰度进行评分，强调的是实际操作能力和理论理解的结合。通过这次作业，学生不仅可以掌握Weka工具的使用，还能深入了解数据挖掘的基本方法和技巧，为未来在数据科学领域进一步发展打下坚实基础。

ServeRobotics

粉丝: 36
资源: 2万+

清华大学数据挖掘homework2：Weka实战与评估

清华大学数据挖掘homework2Wweka

清华大学精品数据挖掘&机器学习学习全套PPT课件 共6个章节.rar

清华大学数据挖掘上课课件

数据挖掘与OLAP理论与实务_----清华大学版的数据挖掘教材

高等数学竞赛试卷----清华大学

matlab基础教程---清华大学

树和森林--清华大学课程讲义-数据结构(PPT).ppt

数据结构 - C语言- 清华大学出版

数据结构-清华大学-严蔚敏

研究生课程---数据挖掘课件

最新资源

清华大学精品数据挖掘&机器学习学习全套PPT课件共6个章节.rar