![](https://csdnimg.cn/release/download_crawler_static/87247264/bg5.jpg)
3.3 使用习题 2.4 给出的 age 数据回答下列问题:
(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为 3。解释你的环节。 评述对于给定
的数据,该技术的效果。
(b) 如何拟定数据中的离群点?
(c) 对于数据光滑,尚有哪些其他方法?
解答:
(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为 3。解释你的环节。评述对于给定
的数据,该技术的效果。
用箱深度为 3 的分箱均值光滑对以上数据进行光滑需要以下环节:
环节 1:对数据排序。(由于数据已被排序,所以此时不需要该环节。)
环节 2:将数据划分到大小为 3 的等频箱中。
箱 1:13,15,16 箱 2:16,19,20 箱 3:20,21,22
箱 4:22,25,25 箱 5:25,25,30 箱 6:33,33,35
箱 7:35,35,35 箱 8:36,40,45 箱 9:46,52,70
环节 3:计算每个等频箱的算数均值。
环节 4:用各箱计算出的算数均值替换每箱中的每个值。
箱 1:44/3,44/3,44/3 箱 2:55/3,55/3,55/3 箱 3:21,21,21
箱 4:24,24,24 箱 5: 80/3 ,80/3, 80/3 箱 6: 101/3,101/3, 101/3
箱 7:35,35,35 箱 8:121/3,121/3,121/3 箱 9:56,56,56
(b) 如何拟定数据中的离群点?
聚类的方法可用来将相似的点提成组或“簇”,并检测离群点。落到簇的集外的值可以被视
为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区
分也许的离群点。这些也许的离群点能被用人工轻松的检查,而不必检查整个数据集。
(c) 对于数据光滑,尚有哪些其他方法?
其它可用来数据光滑的方法涉及别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,
等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以
使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分
层,这是通过将低档概念上卷到高级概念来光滑数据。
3.5 如下规范化方法的值域是什么?
答:
(a) min-max 规范化。