从http://odds.cs.stonybrook.edu/上爬取相关数据,分析采集过程中各模块的设计思路。结合One-class SVM算法对其中的ForestCover、Optdigits、Letter Recognition三个数据集进行异常值检测,要求说明所选择模型的必要性和适应性。
时间: 2023-02-11 14:47:05 浏览: 162
关联规则和组合数据分析:对大数据的影响-研究论文
爬取数据的模块可以使用Python爬虫框架,如Scrapy,爬取http://odds.cs.stonybrook.edu/ 网站上的相关数据。在分析过程中,可以使用数据清洗模块来处理爬取的数据,使其符合分析的要求。接着,可以使用可视化模块来对数据进行可视化,帮助我们更好的理解数据。
对于异常值检测,可以使用One-class SVM算法. One-class SVM是一种非监督学习算法,它的优点在于只需要一个类别的数据就可以进行训练,并且可以检测出新样本是否属于该类别. 在这里,可以使用ForestCover、Optdigits、Letter Recognition三个数据集来检测异常值.这三个数据集可以用来检测异常值,因为它们都是已知类别,并且每一类都有足够的样本数据。
阅读全文