5-1 简述机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点等。
1)C4.5 算法:
ID3 算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的
归纳分类。ID3 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测
试属性。
C4.5 算法核心思想是 ID3 算法,是 ID3 算法的改进,改进方面有:
1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的
不足;
2)在树构造过程中进行剪枝
3)能处理非离散的数据
4)能处理不完整的数据
C4.5 算法优点:产生的分类规则易于理解,准确率较高。
缺点:
1)在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致
算法的低效。
2)C4.5 只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时
程序无法运行。
2)K means 算法:
是一个简单的聚类算法,把 n 的对象根据他们的属性分为 k 个分割,k < n。 算法的核
心就是要优化失真函数 J,使其收敛到局部最小值但不是全局最小值。