Mining Multiple-Level Association Rules • Items often form hierarchies • Flexible support settings • Items at the lower level are expected to have lower support • Exploration of shared multi-level mining (Srikant & Agrawal@VLDB’95, Han & Fu@VLDB’95)翻译解释
时间: 2024-04-01 12:31:44 浏览: 15
挖掘多层次关联规则 • 项经常形成层次结构 • 灵活的支持度设置 • 低层次的项被期望具有较低的支持度 • 探索共享的多层次挖掘(Srikant & Agrawal@VLDB’95, Han & Fu@VLDB’95)
在数据挖掘中,多层次关联规则挖掘是一种重要的技术,它可以帮助我们从数据集中挖掘出不同层次之间的关联规则。在这个过程中,我们通常会发现项之间存在一定的层次关系,即有些项在层次结构中处于较低的位置,而有些项则处于较高的位置。因此,为了更准确地挖掘这些关联规则,我们需要采用灵活的支持度设置方法,以适应不同层次的项的支持度变化。同时,由于低层次的项在数据集中通常具有较低的支持度,因此我们需要对这些项进行特殊处理,以确保我们可以挖掘到他们之间的有效关联规则。
此外,为了更好地挖掘多层次关联规则,一些研究人员提出了共享的多层次挖掘方法,即在不同层次之间共享挖掘结果,以提高挖掘效率和准确性。这些方法包括Srikant和Agrawal在VLDB’95上提出的方法,以及Han和Fu在VLDB’95上提出的方法。这些方法为多层次关联规则挖掘提供了更有效的解决方案,可以应用于各种实际应用中。
相关问题
multi-core cache hierarchies
多核缓存层次结构是指在多核处理器中的缓存分层结构。现代计算机系统中,多核处理器已经成为主流的架构,它们具有多个核心来执行并行任务。为了提高多核处理器的性能,缓存层次结构被引入,它有助于减少内存访问的延迟并提高数据的局部性。
多核缓存层次结构通常由多级缓存组成,每一级缓存有不同的大小、延迟和访问频率。最靠近处理核心的是一级缓存或L1缓存,它通常是分为指令缓存和数据缓存。其次是二级缓存或L2缓存,它的容量更大但访问延迟也更高。还可能存在更高级别的缓存,如L3缓存或LLC(最后级缓存),它的容量更大但访问延迟更高。
多核缓存层次结构的主要目标是提供更快的数据访问和减少内存带宽压力。当一个核心访问内存时,它首先检查最近的缓存层,如果数据在缓存中,则称为缓存命中(cache hit),可以直接从缓存中读取数据,而不需要访问内存。如果数据不在缓存中,则称为缓存未命中(cache miss),需要从内存中读取数据并将其存储到缓存中。每次缓存未命中将会增加访问延迟。
多核缓存层次结构还可以提供更好的数据局部性。当一个核心访问数据时,它通常会访问附近的数据,这被称为时间局部性。如果附近的数据也被其他核心访问,它们可以从共享缓存中读取数据,而不需要访问内存。这可以减少内存带宽压力,并提高整个系统的性能。
综上所述,多核缓存层次结构是一种在多核处理器中广泛采用的技术,它通过提供更快的数据访问和减少内存带宽压力的方式来提高系统的性能。它通过多级缓存和数据局部性提高了系统的效率,并在现代计算机系统中扮演着重要的角色。
Mining Quantitative Associations Techniques can be categorized by how numerical attributes, such as age or salary are treated 1. Static discretization based on predefined concept hierarchies (data cube methods) 2. Dynamic discretization based on data distribution (quantitative rules, e.g., Srikant & Agrawal@SIGMOD’96) 3. Clustering: Distance-based association (e.g., Miller & Yang@SIGMOD’97) • One dimensional clustering then association 4. Deviation: (such as Aumann & Lindell@KDD’99) Gender = female => Wage: mean=$7/hr (overall mean = $9) Z检验(或t检验)翻译解释
这段话讨论了挖掘定量关联的技术,根据如何处理数字属性(如年龄或工资)可以分为以下几种类型:
1. 基于预定义概念层次结构的静态离散化方法(数据立方体方法);
2. 基于数据分布的动态离散化方法(定量规则),例如Srikant & Agrawal在SIGMOD'96上提出的方法;
3. 聚类方法:基于距离的关联方法,例如Miller & Yang在SIGMOD'97上提出的方法,可以先进行一维聚类,然后进行关联;
4. 偏差方法:例如Aumann & Lindell在KDD'99上提出的方法,可以根据性别为女性的人的平均工资和总体平均工资进行比较,使用Z检验(或t检验)来检查两者之间的差异。
其中,Z检验是一种用于检验样本均值与总体均值之间是否存在显著差异的统计方法,适用于样本容量较大的情况;t检验则适用于样本容量较小的情况。