数据挖掘简答题解析：过拟合、特征选择与聚类分类对比

需积分: 0 41 浏览量更新于2024-08-05 收藏 568KB PDF 举报

"数据挖掘期末简答题1" 1. 过拟合与泛化性的概念：过拟合（Overfitting）是指在模型训练过程中，模型过度适应了训练数据，以至于在新数据上的表现不佳。这通常是因为模型过于复杂，对训练数据中的噪声和异常点过于敏感。泛化性（Generalization）则指的是模型在未见过的数据上的表现能力，一个好的模型应该具有较强的泛化能力，即能够在新的、独立的数据集上也能准确预测结果。 2. 特征选择与特征提取的区别：特征选择是选择最有用的特征子集，它从原始特征中剔除不相关或冗余的特征，目的是减少计算复杂度并防止过拟合。特征选择后的特征仍然是原始特征的一部分。而特征提取则是通过数学变换生成新的特征，这些新特征可能是原始特征的线性或非线性组合，如PCA和LDA。特征提取可以降低数据维度，提高模型性能，但可能失去部分原始信息。 3. 回归与分类的区别：回归是预测连续值问题，例如预测房价或股票价格，目标变量是一个实数值。常见的回归算法有线性回归、决策树回归等。而分类是预测离散类别问题，如判断一封邮件是否为垃圾邮件，目标变量是有限的离散类别。常见的分类算法包括逻辑回归、朴素贝叶斯、决策树、支持向量机等。 4. 有监督学习、无监督学习与半监督学习的区别和联系：有监督学习需要带标签的训练数据，模型通过学习这些数据的特征和对应的标签来构建预测模型。无监督学习则不依赖于标签，它尝试从数据中发现内在的结构或模式，如聚类。半监督学习是介于两者之间，利用少量的标记数据和大量的未标记数据进行学习，通常在标注数据稀缺的情况下使用。 5. PCA与LDA的对比：主成分分析（PCA）是一种无监督的降维技术，通过最大化方差保留数据的主要信息，而不考虑类别信息。线性判别分析（LDA）是有监督的，它寻找最佳投影方向，使同类样本间的距离最小，异类样本间距离最大，适用于分类问题，但可能因过分依赖类别而导致过拟合。 6. 聚类与分类的区别：聚类是无监督学习，它根据数据的相似性或差异性将数据分为不同的群体，不需要预先知道类别。分类是有监督学习，依赖已知的类别标签训练模型，然后用于预测新样本的类别。聚类用于发现数据的自然分组，而分类则是预测新数据的已知类别。

1、比较 PCA 和 LDA 的区别

PCA 和 LDA 都是经典的降维算法，都假设数据是符合高斯分布，也利用了矩阵特

征分解的思想，但他们还是有一定的区别：

1）PCA 是无监督的，也就是训练样本不需要标签；LDA 是有监督的，也就是训练

样本需要标签。

2）PCA 是去掉原始数据冗余的维度，LDA 是选择一个最佳的投影方向，使得投影

后相同类别的数据分布紧凑，不同类别的数据尽量相互远离；

3）LDA 可能会过拟合数据。

2、请分析特征选择和特征提取有何区别

特征提取和特征选择是降维的两种方法，针对于维灾难，都可以达到降维的目

的，但是这两个有所不同：特征选择定义为从有 N 个特征的集合中选出具有 M 个特征

的子集，并满足条件 M≤N。特征选择能够为特定的应用在不失去数据原有价值的基础

上选择最小的属性子集，去除不相关的和冗余的属性。

特征提取广义上指的是一种变换，将处于高维空间的样本通过映射或变换的方式

转换到低维空间，达到降维的目的。它可以从一组特征中去除冗余或不相关的特征来

降维

特征提取

1:特征抽取后的新特征是原来特征的一个映射

2:将机器学习算法不能识别的原始数据转化为算法可以识别的特征的过程

特征选择

1:特征选择后的特征是原来特征的一个子集

2:特征选择是从所有的特征中选择一个最好的特征子集

3、聚类和分类有什么区别和联系?

分类和聚类都是常用的数据挖掘的方法，分类可以更精确、有效的挖掘出信息，

从训练集中得到模型，之后对未知类标号的数据样本进行分类，在许多实际的应用领

域中，由于缺少形成类别的先验知识，收集或者存储的数据集样本没有类标号，对于

这类数据集常采用聚类分析分析方法

区别：

1）对象所属类别是否为事先。分类是把某个对象划分到某个具体的已经定义

的类别当中，而聚类是把一些对象按照具体特征组织到若干个类别里

2）分类算法的基本功能是做预测，而聚类算法的功能是降维。

3）分类是有监督的学习，而聚类是无监督的学习。有监督的算法并不是实时

的，需要给定一些数据对模型进行训练，有了模型就能预测。分类算法中，对象所属

的类别取决于训练出来的模型，间接地取决于训练集中的数据。而聚类算法中，对象

所属的类别，则取决于待分析的其他数据对象。

4）典型的分类算法有：决策树，神经网络，支持向量机模型，Logistic 回归

分析，以及核估计等等。聚类的方法有，基于链接关系的聚类算法，基于中心度的聚

类算法，基于统计分布的聚类算法以及基于密度的聚类算法等等

4、 TF.IDF 算法是什么，有什么实际意义?

TF—IDF 是自然语言处理中的一个简单的模型。TF 代表 term frequency，也就是

词频，而 IDF 代表着 inverse document frequency，叫做逆文档频率，这两个属性都

下载后可阅读完整内容，剩余6页未读，立即下载

高中化学孙环宇

粉丝: 15
资源: 338

数据挖掘简答题解析：过拟合、特征选择与聚类分类对比

数据挖掘测试题（简答题）-含答案

数据挖掘期末题 选择填空简答

2020-2021数据挖掘期末试题1

物联网期末简答题（河大软院）

python数据挖掘期末考试题库

spark分布式计算期末简答题

python大数据与挖掘技术期末考试习题

数据挖掘复习题

市场调查与预测期末考试题：名词解释和简答.pdf

GDUFS 数据挖掘（第2版） 期末复习资料

最新资源

数据挖掘期末题选择填空简答

GDUFS 数据挖掘（第2版）期末复习资料