Multi-level Association: Flexible Support and Redundancy filtering • Flexible min-support thresholds: Some items are more valuable but less frequent • Use non-uniform, group-based min-support • E.g., {diamond, watch, camera}: 0.05%; {bread, milk}: 5%; … • Redundancy Filtering: Some rules may be redundant due to “ancestor” relationships between items • milk ⇒ wheat bread [support = 8%, confidence = 70%] • 2% milk ⇒ wheat bread [support = 2%, confidence = 72%] The first rule is an ancestor of the second rule • A rule is redundant if its support is close to the “expected” value, based on the rule’s ancestor翻译解释
时间: 2024-04-01 11:31:40 浏览: 16
多层次关联规则:灵活的支持度和冗余过滤 • 灵活的最小支持度阈值:某些项更有价值但不太频繁 • 使用非均匀、基于组的最小支持度 • 例如,{钻石、手表、相机}:0.05%;{面包、牛奶}:5%;… • 冗余过滤:一些规则可能由于项之间的“祖先”关系而变得冗余 • 牛奶 ⇒ 小麦面包[支持度=8%,置信度=70%] • 2% 牛奶 ⇒ 小麦面包[支持度=2%,置信度=72%]第一个规则是第二个规则的祖先 • 如果一条规则的支持度接近其祖先规则的“预期”值,则该规则被认为是冗余的。
在多层次关联规则挖掘中,为了更好地挖掘不同层次之间的关联规则,我们需要采用灵活的支持度设置方法。这些方法通常包括使用非均匀、基于组的最小支持度阈值,以便更好地适应不同层次的项的支持度变化。例如,如果我们挖掘的是{钻石、手表、相机}这样较高层次的项集,则我们可以将其对应的最小支持度设置为0.05%;而对于较低层次的项集如{面包、牛奶},我们可以设置相对较高的最小支持度,比如5%。
此外,在挖掘多层次关联规则的过程中,我们还需要考虑冗余过滤的问题。由于不同层次之间的项之间存在“祖先”关系,因此有些规则可能会被其祖先规则覆盖或者被认为是冗余的。例如,如果我们已经挖掘出了牛奶 ⇒ 小麦面包这条规则,那么2% 牛奶 ⇒ 小麦面包这条规则就可以被认为是冗余的,因为前者已经包含了后者的信息。因此,我们需要对挖掘出的规则进行冗余过滤,以提高规则的准确性和可解释性。
相关问题
校验多项式采用:CRC-16;
CRC-16(Cyclic Redundancy Check,循环冗余校验码)是一种广泛使用的校验码,常用于数据通信领域中的差错控制。它采用16位二进制数作为校验码,能够检测出多达2个字节的差错。 CRC-16的计算方法是将待校验数据与生成多项式进行数值运算,将运算结果作为校验码附加在数据后面,接收方同样使用该多项式对接收到的数据进行计算,如果计算结果与附加在数据后面的校验码一致,则认为数据传输正确,否则认为数据传输出现错误。常用的CRC-16多项式有:CRC-16-CCITT、CRC-16-XMODEM、CRC-16-IBM等。
Frequent patterns can be partitioned into subsets according to F-list • F-list = f-c-a-b-m-p • Patterns containing p • Patterns having m but no p • … • Patterns having c but no a nor b, m, p • Pattern f • Completeness and non-redundancy翻译解释
频繁模式可以根据F-list划分为不同的子集。F-list是按照支持度从高到低排序的频繁模式列表。例如,如果F-list是f-c-a-b-m-p,那么我们可以将频繁模式划分为如下子集:
1. 包含p的频繁模式
2. 同时包含m但不包含p的频繁模式
3. 只包含c但不包含a、b、m、p的频繁模式
4. 单独的频繁模式f
在划分出这些子集后,我们可以对每个子集进行进一步的处理,例如,对每个子集中的频繁模式进行关联规则挖掘等。
另外,F-list的一个重要特性是它可以用来保证频繁模式的完整性和非冗余性。如果一个频繁模式被包含在F-list中,则它一定是频繁的,并且它不会被其他频繁模式所覆盖或包含。这样可以避免在挖掘频繁模式时产生重复或遗漏的情况。