"基于sklearn的数据分类挖掘实训报告：Iris和Digits数据集分析"

版权申诉

54 浏览量更新于2024-02-27 收藏 674KB PDF 举报

本数据挖掘实训报告主要是基于sklearn进行数据分类挖掘的项目任务。首先，我们学习了sklearn数据挖掘的基本功能，然后利用朴素贝叶斯、KNN、决策树C4.5、SVM算法进行了数据分类分析。在项目环境及条件方面，我们使用了sklearn-0.18.0、python-2.7.13、numpy-1.11.3 mkl-cp27-cp27m-win_amd64、scipy-0.19.0-cp27-cp27m-win_amd64、matplotlib-1.5.3-cp27-cp27m-win_amd64等工具。在实验数据方面，我们使用了Iris数据集和Digits数据集。Iris数据集是由Fisher在1936年收集整理的，包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性，可以通过花萼长度、花萼宽度、花瓣长度、花瓣宽度这4个属性预测鸢尾花卉属于三个种类中的哪一类（Setosa、Versicolour、Virginica）。Digits数据集是美国著名数据集NIST的子集，属于模式识别常用实验数据集，图像是灰度图像，分辨率为8x8。在项目内容及过程中，我们按照任务要求，首先对数据集进行了预处理，包括数据清洗、数据标准化等工作。然后，我们分别运用朴素贝叶斯、KNN、决策树C4.5、SVM算法进行了数据分类分析，对结果进行了比较和评估。通过对结果的比较和评估，可以得出使用不同算法进行数据分类的效果不同，对于不同类型的数据集，需要选择合适的算法来进行分类分析。最终，我们得出了结论并总结了经验教训。通过本次数据挖掘实训项目，我们不仅熟悉了sklearn数据挖掘的基本功能，并且掌握了多种分类算法的使用方法，也学习了如何对实验数据进行预处理，并且学会了如何对分类结果进行评估和比较。这些对于我们进一步的数据挖掘研究和实践具有重要的意义。希望通过本次实训项目的学习和实践，我们可以更好地应用数据挖掘技术进行实际问题的解决，为实际应用提供更多有益的信息和决策支持。

3.使用 KNN 和 SVM 对 digits 测试集分类

引用 sklearn 的 svm.SVC 和 neighbors.KNeighborsClassifier 模块调用算法，使用

classification_report 查看预测结果的准确率和召回率

from sklearn

。

metrics import classification_report

from sklearn import neighbors

clf = neighbors

。

KNeighborsClassifier()

clf

。

fit(x_train

，

y_train

）

y_pred=clf.predict(x_test

）

print classification_report

（

y_test

，

y_pred

）

from sklearn.svm import SVC

clf = SVC

（）

clf

。

fit(x_train

，

y_train)

y_pred=clf

。

predict(x_test)

print classification_report(y_test

，

y_pred

）

剩余14页未读，继续阅读

春哥111

粉丝: 1w+
资源: 5万+

"基于sklearn的数据分类挖掘实训报告：Iris和Digits数据集分析"

《数据仓库与数据挖掘》课程设计方案报告模板.pdf

数据挖掘与分析实训报告.pdf

大数据一体化教学实训平台简介.pdf

open-source-greenplum-db-6.19.1-rhel7-x86_64.rpm

国家信息安全中心-智慧工地的应用与实践-2021.1-75页.pdf

数据挖掘工具---spark使用练习---ml(二)

kettle pdi-ce-9.3.0.0-428.zip 阿里云盘

python数据分析与挖掘实训玻璃类别

ibm spss modeler 18.0数据挖掘权威指南.pdf

军工企业信息系统大数据挖掘实例分析.pdf

最新资源