对于分类问题,当叶节点中只有一个类,那么这个类就作为叶节点所属的类,
若节点中有多个类中的样本存在,根据叶节点中样本最多的那个类来确定节点所
属的类别;对于回归问题,则取其数量值的平均值。很明显,一棵很大的树可能
过分拟合数据,但较小的树又可能无法捕获重要的结构。树的最佳大小是控制模
型复杂性的调整参数,它应该由数据自适应的选择。一种可取的策略是增长一棵
较大的树 T0,仅当达到最小节点大小(比如 5)时才停止分裂过程。然后利用剪枝
策略和 5 折或 10 折交叉验证相结合的方法来修剪这棵树,从而将一些噪声和干
扰数据排除,获得最优树。
1.2.2 人工神经网络
人工神经网络提供了一种普遍而且实用的方法,来从样例中学习值为实数、
离散或向量的函数。ANN 学习对于训练数据中的拟合效果很好,且已经成功地
涉及到医学、生理学、哲学、信息学、计算机科学等众多学科领域,这些领域互
相结合、相互渗透并相互推动。不同领域的科学家从各自学科的特点出发,提出
问题并进行了研究。
ANN 的研究始于 1943 年,心理学家 W.Mcculloch 和数理逻辑学家 W.Pitts
首先提出了神经元的数学模型。此模型直接影响着这一领域研究的进展。 1948
年,冯·诺依曼在研究中提出了以简单神经元构成的再生自动机网络结构;20 世
纪 50 年代末,F.Rosenblatt 设计制作了“感知机”,它是一种多层的神经网络,这
项工作首次把人工神经网络的研究从理论探讨付诸工程实践; 60 年代初期,
Widrow 提出了自适应线性元件网络,这是一种连续取值的线性加权求和阈值网
络,在此基础上发展了非线性多层自适应网络。这些实际上就是一种 ANN 模型;
80 年代初期,美国物理学家 Hopfield 发表了两篇关于 ANN 研究的论文,引起了
巨大的反响。人们重新认识到神经网络的威力以及付诸应用的现实性。随即,研
究人员围绕着 Hop-field 提出的方法展开了进一步的研究工作,形成了 80 年代中
期以来 ANN 的研究热潮。
人工神经网络的研究在一定程度上受到了生物学的启发,因为生物的学习系
统是由相互连接的神经元(Neuron)组成的异常复杂的网络。而人工神经网络与此
大体相似,它是由一系列简单单元相互密集连接构成,其中每一个单元有一定数