数据挖掘简答题解析:过拟合、特征选择与聚类分类对比

需积分: 0 7 下载量 41 浏览量 更新于2024-08-05 收藏 568KB PDF 举报
"数据挖掘期末简答题1" 1. 过拟合与泛化性的概念: 过拟合(Overfitting)是指在模型训练过程中,模型过度适应了训练数据,以至于在新数据上的表现不佳。这通常是因为模型过于复杂,对训练数据中的噪声和异常点过于敏感。泛化性(Generalization)则指的是模型在未见过的数据上的表现能力,一个好的模型应该具有较强的泛化能力,即能够在新的、独立的数据集上也能准确预测结果。 2. 特征选择与特征提取的区别: 特征选择是选择最有用的特征子集,它从原始特征中剔除不相关或冗余的特征,目的是减少计算复杂度并防止过拟合。特征选择后的特征仍然是原始特征的一部分。而特征提取则是通过数学变换生成新的特征,这些新特征可能是原始特征的线性或非线性组合,如PCA和LDA。特征提取可以降低数据维度,提高模型性能,但可能失去部分原始信息。 3. 回归与分类的区别: 回归是预测连续值问题,例如预测房价或股票价格,目标变量是一个实数值。常见的回归算法有线性回归、决策树回归等。而分类是预测离散类别问题,如判断一封邮件是否为垃圾邮件,目标变量是有限的离散类别。常见的分类算法包括逻辑回归、朴素贝叶斯、决策树、支持向量机等。 4. 有监督学习、无监督学习与半监督学习的区别和联系: 有监督学习需要带标签的训练数据,模型通过学习这些数据的特征和对应的标签来构建预测模型。无监督学习则不依赖于标签,它尝试从数据中发现内在的结构或模式,如聚类。半监督学习是介于两者之间,利用少量的标记数据和大量的未标记数据进行学习,通常在标注数据稀缺的情况下使用。 5. PCA与LDA的对比: 主成分分析(PCA)是一种无监督的降维技术,通过最大化方差保留数据的主要信息,而不考虑类别信息。线性判别分析(LDA)是有监督的,它寻找最佳投影方向,使同类样本间的距离最小,异类样本间距离最大,适用于分类问题,但可能因过分依赖类别而导致过拟合。 6. 聚类与分类的区别: 聚类是无监督学习,它根据数据的相似性或差异性将数据分为不同的群体,不需要预先知道类别。分类是有监督学习,依赖已知的类别标签训练模型,然后用于预测新样本的类别。聚类用于发现数据的自然分组,而分类则是预测新数据的已知类别。