简答题 1. 什么是二元属性?什么是序数属性?请举例说明。 2. 什么是数据中的噪声?处理噪声数据主要有哪些方法? 3. 数据仓库除了具有时变的特征外,还具有哪些主要特征?请逐一说明。 4. 已知数据集DB={<a1,a2,…a10>,<a1,a2,…a20>},min_sup=1.试用闭模式和极大模式的定义找出其中的闭模式和极大模式。 5. 什么是挖掘空间的单调约束?假设S是一个项集,min(S.Price) <= v和min(S.Price) >= v哪个是单调约束,请根据单调约束的定义进行说明。
时间: 2024-03-11 13:43:45 浏览: 11
1. 二元属性是指仅具有两个取值的属性,例如“性别”属性可以取值为“男”或“女”。序数属性是指具有有序取值的属性,例如“血型”属性可以取值为“A型”、“B型”、“AB型”、“O型”,并且这些取值具有一定的大小关系。
2. 数据中的噪声是指数据集中存在不符合实际情况或者异常的数据点。处理噪声数据的方法包括删除、替换、平滑等。删除是指将噪声数据直接从数据集中删除;替换是指用其他的数值替换噪声数据;平滑是指采用一些平滑算法,对数据进行平滑处理。
3. 数据仓库的主要特征包括:面向主题、集成、相对稳定、反映历史、随时间变化、非易失性、主数据、元数据等。面向主题是指数据仓库的数据是按照主题进行组织的;集成是指数据仓库中的数据来自不同的数据源;相对稳定是指数据仓库中的数据相对稳定,不容易改变;反映历史是指数据仓库中的数据反映了历史的发展过程;随时间变化是指数据仓库中的数据随着时间的推移而发生变化;非易失性是指数据仓库中的数据不易丢失;主数据是指数据仓库中的数据是企业中的重要数据;元数据是指数据仓库中的数据的描述信息。
4. 首先计算每个项的支持度,得到:sup({a1})=2,sup({a2})=2,sup({a1,a2})=2。因为支持度满足先验性,即一个项集的子集的支持度不能高于该项集的支持度,所以只需要判断项集{a1,a2}是否为闭模式和极大模式。由于{a1,a2}的支持度为2,且不存在真包含{a1,a2}的项集,因此{a1,a2}是闭模式和极大模式。
5. 挖掘空间的单调约束是指对于一个数据挖掘问题,如果将问题的解空间中的一个解按照一定的顺序组织,那么这个组织方式应该满足单调性质。例如,对于S是一个项集,min(S.Price) <= v是一个单调约束,因为如果项集S的Price属性的最小值min(S.Price)小于等于v,那么S的子集的Price属性的最小值也一定小于等于v。同样的道理,如果min(S.Price) >= v,也是一个单调约束,因为如果项集S的Price属性的最小值min(S.Price)大于等于v,那么S的超集的Price属性的最小值也一定大于等于v。