![](https://csdnimg.cn/release/download_crawler_static/88125664/bg6.jpg)
在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定
救治方案,挽救病人的生命;在因特网筛选中,分类方法可以协助网络工作人员将正常邮件
和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生
活。
7、分类问题使用的数据集格式
(1)描述属性可以是连续型属性,也可以是离散型属性;而类别属性必须是离散型属性。
(2)连续型属性是指在某一个区间或者无穷区间内该属性的取值是连续的 ,例如属性“Age”
(3)离散型属性是指该属性的取值是不连续的 ,例如属性“Salary”和“Class”
8、分类的过程
(1)获取数据:输入数据、对数据进行量化
(2)预处理:去除噪声数据、对空缺值进行处理;数据集成或者变换
(3)分类器设计:划分数据集、分类器构造、分类器测试
(4)分类决策:对未知类标号的数据样本进行分类
9、决策树的优点:进行分类器设计时,决策树分类方法所需时间相对较少;决策树的分类
模型是树状结构,简单直观,比较符合人类的理解方式;可以将决策树中到达每个叶节点的
路径转换为 IF—THEN 形式的分类规则,这种形式更有利于理解
10、决策树的基本概念:适用于离散值属性、连续值属性;采用自顶向下的递归方式产生
一个类似于流程图的树结构;在根节点和各内部节点上选择合适的描述属性,并且根据该属
性的不同取值向下建立分枝
11、决策树剪枝:决策树剪枝过程试图检测和去掉多余的分枝,以提高对未知类标号的数
据进行分类时的准确性。
a) 先剪枝方法:在生成决策树的过程中对树进行剪枝
b) 后剪枝方法:在生成决策树之后对树进行剪枝
第六章
1、聚类分析包括连续型、二值离散型、多值离散型和混合类型 4 种类型描述属性的相似度
计算方法。
2、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。
3、划分聚类方法对数据集进行聚类时包含三个要点:选种某种距离作为数据样本减的相似
性度量、选择评价聚类性能的准则函数和选择某个初始分类,之后用迭代的方法得到聚类结
果,使得评价聚类的准则函数取得最优值。
4、层次聚类方法包括凝聚型和分解型两中层次聚类方法。
5、什么是聚类分析?聚类分析的应用领域有哪些?书 p131
聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别
中任意两个数据样本之间具有较高的相似度,不同类别的数据样本之间具有较低的相似度。
6、数据挖掘技术对聚类分析的要求:
(1)可伸缩性 (适用于增长的大数据集)
(2)处理不同类型属性的能力 (支持多种类型属性的数据集)
(3)发现任意形状聚类的能力 (除了球形聚类外,能划分出任意形状聚类)
(4)减小对先验知识和用户自定义参数的依赖性
(5)处理噪声数据的能力(对孤立点、缺失值、错误数据等噪声数据的抗干扰性)
(6)可解释性和实用性 (降维,可视化显示)
7、通常聚类算法可以分为以下几类:
(1)划分聚类方法
选择适当的初始代表点将数据样本进行初始聚类,之后通过迭代过程对聚类的结果进行不断
的调整,直到使评价性能的准则函数的值达到最优为止。
(2)层次聚类方法 (3)基于密度的聚类方法 (4)基于网格的聚类方法
第十章
1、遗传算法(Genetic Algorithms,GA)是一种有效的全局搜索方法,是一种基于达
尔文自然选择和遗传变异等生物进化机制而发展起来的仿生算法。
2、例 1 利用遗传算法求解区间[0,31]上的二次函数 y=x2 的最大值。
解 (1) 设定种群规模,编码染色体,产生初始种群。