现次数为 13;价格在 11—20 之间出现的次数为 24;价格在 21—30 之间出现的次数
为 13。
(2)等高方法:划分为 2 个数据集,每个数据集的高度为出现的次数 4。出现次数 1—4
之间的价格为 1、8、10、12、14、21、28、30,共 8 个数据;出现次数 5—8 之间
的价格为 5、15、18、20、25,共 5 个数据。
2.9 讨论数据聚合需要考虑的问题。
答:数据聚合需要考虑的问题有:
(1)模式识别:这主要是实体识别问题;
(2)冗余:一个属性是冗余的,即它能由另一个表导出,如果属性或维的命名不一致,
也可能导致冗余,可以用相关分析来检测;
(3)数据值冲突的检测与处理:有些属性因表示比例或编码不同,会导致属性不同。
2.10 假定我们对一个比率属性 x 使用平方根变换,得到一个新属性 x*。作为分析的一部分,
你识别出区间(a, b),在该区间内,x*与另一个属性 y 具有线性关系。
(a)换算成 x, (a, b)的对应区间是什么?
(b)给出 y 关联 x 的方程。
答:(a)(a^2,b^2);
(b)Y=kx^0.5 +C (k, C 是常数)。
2.11 讨论使用抽样减少需要显示的数据对象个数的优缺点。简单随机抽样(无放回)是一种
好的抽样方法吗?为什么是,为什么不是?
答:抽样减少需要显示的数据对象个数的优点是减少处理数据的费用和时间。缺点是不能利
用总体的已知信息和代表总体数据的信息。简单随机抽样(无放回)不是一种好的抽样方
法,不能充分地代表不太频繁出现的对象类型和每个对象被选中的概率不一样。
2.12 给定 m 个对象的集合,这些对象划分成 K 组,其中第 i 组的大小为 m
i
。如果目标是得
到容量为 n<m 的样本,下面两种抽样方案有什么区别?(假定使用有放回抽样)
(a)从每组随机地选择 n×m
i
/m 个元素。
(b)从数据集中随机地选择 n 个元素,而不管对象属于哪个组。
答:(a)组保证了可以在每个组里面得到等比例的样本,而(b)组在每个组里面抽取的样本的
个数是随机的,不能保证每个组都能抽到样本。
2.13 一个地方公司的销售主管与你联系,他相信他已经设计出了一种评估顾客满意度的方
法。他这样解释他的方案:“这太简单了,我简直不敢相信,以前竟然没有人想到,我
只是记录顾客对每种产品的抱怨次数,我在数据挖掘的书中读到计数具有比率属性,因
此,我的产品满意度度量必定具有比率属性。但是,当我根据我的顾客满意度度量评估
产品并拿给老板看时,他说我忽略了显而易见的东西,说我的度量毫无价值。我想,他
简直是疯了,因为我们的畅销产品满意度最差,因为对它的抱怨最多。你能帮助我摆平
他吗?”
(a)谁是对的,销售主管还是他的老板?如果你的答案是他的老板,你做些什么来修正
满意度度量?
(b)对于原来的产品满意度度量的属性类型,你能说些什么?
答: (a) 老板是对的。更好的衡量方法应该如下: