原型
现在寻找最佳超平面这个问题就变成了在(1)这个约束条件下最小化|w|.这是一个二次規劃
QP(quadratic programming)最优化中的问题。
更清楚的,它可以表示如下:
最小化 , 满足 。
1/2 这个因子是为了数学上表达的方便加上的。
对偶型(Dual Form)
把原型的分类规则写作对偶型,可以看到分类器其实是一个关于支持向量(即那些在间隔区
边缘的训练样本点)的函数。
支持向量机的对偶型如下: 并满足 αi > = 0
软间隔
1995 年, Corinna Cortes 与 Vapnik 提出了一种改进的最大间隔区方法,这种方法可以处理标
记错误的样本。如果可区分正负例的超平面不存在,则―软边界‖将选择一个超平面尽可能清
晰地区分样本,同时使其与分界最清晰的样本的距离最大化。这一成果使术语―支持向量机‖
(或―SVM‖)得到推广。这种方法引入了松驰参数 ξi 以衡量对数据 xi 的误分类度。
。
随后,将目标函数与一个针对非 0ξi 的惩罚函数相加,在增大间距和缩小错误惩罚两大目标
之间进行权衡优化。如果惩罚函数是一个线性函数,则等式(3)变形为
数据挖掘十大经典算法(4)Apriori
Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集
思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持
度大于最小支持度的项集称为频繁项集,简称频集。
Apriori 演算法所使用的前置统计量包括了:
最大规则物件数:规则中物件组所包含的最大物件数量
最小支援:规则中物件或是物件组必顸符合的最低案例数
最小信心水准:计算规则所必须符合的最低信心水准门槛
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支
持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后
使用第 1 步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则
的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用
户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
可能产生大量的候选集,以及可能需要重复扫描数据库,是 Apriori 算法的两大缺点。
数据挖掘十大经典算法(5) EM