R语言实现：基于熵度量的无监督特征选择进行数据维归约

需积分: 0 64 浏览量更新于2024-08-05 收藏 215KB PDF 举报

"刘鹏同学在云南大学数学与统计学院的《数据挖掘与决策支持实验》中进行了名为'对机器生产数据进行特征选择'的上机实践，该实验旨在通过R语言进行变量选择，实现数据的维归约。实验采用了一种基于熵度量的无监督特征选择方法，以减少数据集的维度，同时保持数据质量不降低。实验平台为Windows10 Pro 1803，使用Microsoft Visual Studio 2017 Enterprise和RStudio进行开发。" 在这个实验中，刘鹏同学面临的问题是处理一个包含产品加工与产品良率的数据集。数据集共有四列自变量（产品编号、第一阶段加工时间、第一阶段机台类型、第二阶段加工时间、第二阶段机台类型）和一列因变量（良率）。加工时间是连续数值型数据，而机台类型则是离散的分类数据。数据规约的目标是通过删除列、删除行或减少列中值的数量来简化数据，这有助于去除冗余或无关信息，同时保持数据的关键特征。数据规约的重要性在于，它可以提高数据处理效率，降低存储需求，并可能提升后续数据分析的精度。理想的归约算法应具备可测性，即能准确评估近似结果的质量；可解释性，使得简化后的模型仍能清晰理解；以及稳健性，即使在数据存在噪声或异常值时也能保持稳定性能。此外，无监督特征选择方法，如基于熵度量的方法，通常用于检测变量之间的相关性和信息含量，帮助识别对目标变量影响最大的特征。在刘鹏同学的实验中，他可能采用了熵作为衡量信息量的指标，熵是一种衡量随机变量不确定性的度量，常用于信息理论和数据挖掘中。通过计算每个特征对整体熵的贡献，可以判断哪些特征对良率的影响最大。在实际操作中，可能会先计算每个特征的条件熵，然后比较不同特征去除后对总熵的影响，选择降低熵最多的特征进行保留。实验的最后部分可能涉及编写R代码，执行特征选择过程，并分析结果。通过比较维归约前后的模型性能，如预测准确率、模型复杂度等，来验证维归约的有效性。这个过程不仅锻炼了刘鹏同学的数据处理能力，也为后续的数据挖掘任务提供了优化的数据基础。

云南大学数学与统计学院

《数据挖掘与决策支持实验》上机实践报告

课程名称

：运筹学数据挖掘与决策支持实验

年级

：

2015

级

上机实践成绩

：

指导教师

：彭程

姓名

：刘鹏

专业：

信息与计算科学

上机实践名称

：对机器生产数据进行特征选择

学号

：

20151910042

上机实践日期

：

2018-07-04

上机实践编号

：01

组号

：

一、实验目的

学习使用 R 语言进行变量选择。

二、实验内容

如下表：

表格 1 产品加工与产品良率

产品编号加工时间

机台类型加工时间

机台类型良率

A01

B03

0.53

A01

B03

0.62

A03

B21

0.84

A02

B02

0.91

A02

B03

0.85

A01

B03

0.68

A02

B01

0.83

A03

B02

0.69

A02

B01

0.88

A03

B03

0.92

请将给定数据进行变量选择，从而实现维归约。要求使用一种基于熵度量的无监督特征选择方法减少

数据集的维度。

三、实验平台

Windows 10 Pro 1803；

Microsoft

Visual Studio 2017 Enterprise。

四、算法设计

数据预分析：如表格 1 产品加工与产品良率所示，表格中有四列自变量，一列因变量。其中，因为

每种产品都需要进行两个阶段的加工，所以有加工时间与对应的机台类型。可以观察到，加工时间是属于

有顺序关系的数值型数据，而机台类型是属于分类型数据。

下载后可阅读完整内容，剩余4页未读，立即下载

KerstinTongxi

粉丝: 25
资源: 277

R语言实现：基于熵度量的无监督特征选择进行数据维归约

20151910042-刘鹏-DM实验05-对乳腺癌数据进行决策树分析1

20151910042-刘鹏-DM实验02-用Relief算法对iris数据进行特征选择1

20151910042-刘鹏-DM实验04-对iris数据进行贝叶斯分类1

20151910042-刘鹏-DM实验06-对心脏病数据进行决策树分析1

20151910042-刘鹏-DM实验03-实现基于主成分分析的特征提取1

20151910042-刘鹏-CN实验01-计算机网络平台预备实验1

20151910042-刘鹏-DSA实验01-高级语言基本编程实验1

20151910042-刘鹏-MM实验01-MATLAB基础实验1

20151910042-刘鹏-MC实验01-编程平台实验1

20151910042-刘鹏-DSA实验12-排序与选择实验1

最新资源