一、简要说明:误差、泛化误差、训练误差、测试误差之前的区别与联系 二、什么是欠拟合,什么是过拟合,并举例说明过拟合和欠拟合 三、简述p次留出法的基本思想 四、简述p次k-折交叉验证的基本思想 五、简述自助法的基本思想 六、简述留出法、交叉验证法、自助法各自算法的特点及应用场合 七、什么是查准率,什么是查全率;并举例分别说明查准率、查全率实际应用场合 八、什么是错误率,什么是代价敏感错误率? 并举实例说明为什么使用代价敏感错误率? 九、简述泛化误差与期望泛化误差的关系? 十、简述偏差、方差、噪音?并简述他们之间的关系?
时间: 2023-09-03 13:07:41 浏览: 114
矿井通风系统阻力测定方法及误差分析
一、误差是指预测值与真实值之间的差异,泛化误差是指模型在新数据上的误差,训练误差是指模型在训练数据上的误差,测试误差是指模型在测试数据上的误差。训练误差和测试误差都是衡量模型表现的指标,泛化误差是衡量模型泛化能力的指标。训练误差和测试误差的差距越小,说明模型越能够泛化到新的数据上,泛化误差也就越小。
二、欠拟合指模型在训练数据上表现不佳,无法很好地拟合数据,通常是模型过于简单或特征不够丰富造成的。过拟合指模型在训练数据上表现很好,但在新数据上表现较差,通常是模型过于复杂或训练数据过少造成的。举例来说,一个线性回归模型在处理非线性数据时可能会出现欠拟合问题;一个高阶多项式回归模型在处理少量数据时可能会出现过拟合问题。
三、p次留出法的基本思想是将数据集划分为训练集和验证集两部分,重复p次,每次随机选择不同的训练集和验证集来进行训练和测试,最后取p次实验的平均值作为模型的性能指标。
四、p次k-折交叉验证的基本思想是将数据集分为k个子集,每次选择其中一个子集作为验证集,其余k-1个子集作为训练集进行训练和测试,重复p次,最后取p次实验的平均值作为模型的性能指标。
五、自助法的基本思想是从原始数据集中有放回地随机抽取n个样本,重复m次,每次抽取的样本集合作为训练集,未被抽到的样本作为测试集,最后取m次实验的平均值作为模型的性能指标。
六、留出法适用于数据集较大的情况,但是需要有足够的数据才能保证训练集和测试集的大小;交叉验证法适用于数据集较小的情况,但是需要进行多次模型训练和测试,计算复杂度较高;自助法适用于数据集较小或难以划分训练集和测试集的情况,但是会产生训练集和测试集重叠的问题。
七、查准率是指分类器预测为正例的样本中实际为正例的比例,查全率是指实际为正例的样本中被分类器预测为正例的比例。举例来说,医生对患者进行癌症筛查时,查准率是指检测出的患者中确实有癌症的比例,查全率是指实际患有癌症的患者中被检测出来的比例。
八、错误率是指分类错误的样本比例,代价敏感错误率是指不同类型错误所对应的代价不同的情况下,分类错误的总代价。举例来说,银行对信用卡申请人进行审核时,将一个信用良好的申请人误判为不良,所产生的代价可能比将一个信用不良的申请人误判为良好所产生的代价更高。
九、泛化误差是模型在新数据上的误差,期望泛化误差是指模型在所有可能的数据集上的泛化误差的期望值。期望泛化误差是衡量模型泛化能力的指标,越小越好。
十、偏差是指模型在训练数据上的误差,方差是指模型在不同数据上预测结果的变化程度,噪音是指数据中存在的随机误差。偏差和方差构成了模型的泛化误差,模型的泛化能力取决于偏差和方差的平衡。当模型过于简单时,会出现高偏差低方差的情况,即欠拟合;当模型过于复杂时,会出现低偏差高方差的情况,即过拟合。
阅读全文