使用Relief算法对鸢尾花卉数据集进行特征选择

需积分: 0 58 浏览量更新于2024-08-05 收藏 487KB PDF 举报

"这篇上机实践报告主要介绍了刘鹏同学在2018年使用Relief算法对鸢尾花卉数据集进行特征选择的过程。实验旨在学习R语言中的变量选择技术，利用Windows10和Visual Studio 2017 Enterprise环境进行。鸢尾花卉数据集是一个经典的多变量分析数据，由安德森采集并由费雪用于判别分析，包含了山鸢尾、杂色鸢尾和维吉尼亚鸢尾三个种类，每类50个样本，每个样本有4个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。Relief算法是一种基于特征权重的特征选择方法，适用于分类问题，最初由Kira提出。" 在这次实验中，刘鹏同学的目标是掌握如何使用R语言进行特征选择，这一过程对于数据挖掘和决策支持至关重要。他选用的鸢尾花卉数据集是数据分析领域一个非常著名的案例，源自1936年埃德加·安德森的研究，后来由罗纳德·费雪进一步用于统计分析。这个数据集包含150个样本，分别属于山鸢尾、杂色鸢尾和维吉尼亚鸢尾三个类别，每个样本有4个数值特征，即花萼和花瓣的长度与宽度。 Relief算法是特征选择的一种有效方法，它通过计算特征对实例近邻的区分能力来评估特征的重要性。在分类问题中，算法会随机选取一个样本，查找与其最近的同类样本（近似样本）和不同类样本（误分类样本），然后根据特征值的差异来更新特征的权重。特征权重的更新考虑了特征值对实例分类的影响，高权重特征通常对分类更具有区分度。在实验中，刘鹏同学可能会首先加载数据，然后实现或调用R语言中的Relief算法库，对鸢尾花卉数据集的4个特征进行评估，最终找出最具区分力的特征进行后续的分析和建模。这样的特征选择可以帮助减少模型复杂度，提高分类准确性，同时也有助于理解数据的主要驱动因素。在实验平台上，刘鹏使用的是Windows 10 Pro 1803操作系统，配合Microsoft Visual Studio 2017 Enterprise进行开发工作，而R语言环境则是RStudio，这是一款流行的R语言集成开发环境，提供了友好的界面和强大的数据处理功能。这次实验是一个结合理论与实践的典型示例，通过Relief算法对鸢尾花卉数据集的特征选择，不仅锻炼了刘鹏同学的编程能力和数据分析技能，也加深了他对特征重要性和数据挖掘方法的理解。

云南大学数学与统计学院

《数据挖掘与决策支持实验》上机实践报告

课程名称

：运筹学数据挖掘与决策支持实验

年级

：

2015

级

上机实践成绩

：

指导教师

：彭程

姓名

：刘鹏

专业：

信息与计算科学

上机实践名称

：用

Relief

算法对

iris

数据进行特征选择

学号

：

20151910042

上机实践日期

：

2018-07-04

上机实践编号

：02

组号

：

一. 实验目的

学习使用 R 语言进行变量选择。

二. 实验内容

三. 实验平台

Windows 10 Pro 1803；

Microsoft

Visual Studio 2017 Enterprise。

四. 算法设计

数据预分析：安德森鸢尾花卉数据集（英文：Anderson's Iris data set），也称鸢尾花卉数据集（英文：

Iris flower data set）或费雪鸢尾花卉数据集（英文：Fisher's Iris data set），是一类多重变量分析的数据集。

它最初是埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据，后由罗纳德·费雪

作为判别分析的一个例子，运用到统计学中。

其数据集包含了 150 个样本，都属于鸢尾属下的三个亚属，分别是山鸢尾、杂色鸢尾和维吉尼亚鸢尾，

每类 50 个数据，每个数据包含 4 个特征。4 个特征被用作样本的定量分析，它们分别是花萼和花瓣的长度

和宽度。基于这四个特征的集合，费雪发展了一个线性判别分析以确定其属种。

Iris 数据集是常用的分类实验数据集。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度 4 个属性预测

鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

该数据集包含了 5 个属性：

Sepal.Length（花萼长度），单位是 cm

Sepal.Width（花萼宽度），单位是 cm

下载后可阅读完整内容，剩余5页未读，立即下载

莉雯Liwen

粉丝: 30
资源: 305

使用Relief算法对鸢尾花卉数据集进行特征选择

20151910042-刘鹏-DM实验04-对iris数据进行贝叶斯分类1

20151910042-刘鹏-DM实验05-对乳腺癌数据进行决策树分析1

20151910042-刘鹏-DM实验01-对机器生产数据进行特征选择1

20151910042-刘鹏-DM实验06-对心脏病数据进行决策树分析1

20151910042-刘鹏-DM实验03-实现基于主成分分析的特征提取1

20151910042-刘鹏-IT实验3-UDC判断算法编程实验1

20151910042-刘鹏-DSA实验03-算法分析1

20151910042-刘鹏-AG实验01-图搜索算法1

20151910042-刘鹏-C实验02-选择结构程序设计1

20151910042-刘鹏-CN实验02-候选平台预备实验1

最新资源