时态数据库非数值属性周期挖掘及关联规则

需积分: 9 0 下载量 41 浏览量 更新于2024-08-08 收藏 799KB PDF 举报
"这篇论文是2008年由孙晓川、梁晓蕾和洪晓光共同撰写的,探讨了时态数据库中非数值型属性周期规律的研究。文章提出了一种改进的Apriori算法,旨在提取时态数据库中的带有时间信息的关联规则,并计算非数值型属性的周期。通过选取不同时间粒度,对时间区间进行两次划分和标记,以此计算属性周期和获取带时态信息的频繁项集。这种方法提高了算法效率,尤其在处理非数值型数据的周期挖掘上有所创新。" 文章的核心知识点包括: 1. **时间属性的重要性**:时间作为数据固有的属性,加入到关联规则中可以提供更深入的数据洞察。这强调了在分析数据时考虑时间因素的必要性。 2. **时态数据库**:这是一种特殊类型的数据库,能够存储和处理具有时间戳的数据,它允许对数据随时间的变化进行跟踪和分析。 3. **关联规则**:关联规则是数据挖掘中的一个重要概念,用于发现数据集中不同项集之间的关系。经典的Apriori算法用于寻找频繁项集和强关联规则。 4. **非数值型属性周期计算**:论文提出了一个方法来计算非数值型属性(如类别或标签)的周期性,这是在传统关联规则挖掘基础上的扩展,通常这些方法更多地应用于数值型数据。 5. **时间粒度**:在处理时间序列数据时,时间粒度指的是时间的单位,例如小时、天或季度。论文中选取了两个不同的时间粒度来分析数据。 6. **时间区间划分与标记**:为了解决周期计算和关联规则提取,文章提出了两次划分和标记时间区间的方法。第一次是为了计算周期,第二次是为了离散化时间并创建标记集合,以简化计算。 7. **标记集合求交**:这种方法用于快速计算频繁项集,通过标记集合的交集来代表时间区间的重叠,从而提高算法的收敛速度和效率。 8. **Apriori算法的改进**:传统的Apriori算法被改造以适应时态数据库和非数值型属性,通过标记集合求交技术优化了算法执行,减少了迭代次数。 9. **周期规律挖掘**:论文不仅关注于关联规则的发现,还特别关注非数值型属性的周期性模式,这对于理解数据随时间的变化趋势至关重要。 10. **与现有研究的对比**:文中提到了文献[2]和[3]的相关工作,指出其在时间约束和周期规律挖掘上的不足,并阐述了本文提出的方案如何克服这些问题,提升了效率。 这篇论文为时态数据库中的非数值型属性周期规律研究提供了新的视角和方法,为时态数据的关联规则挖掘提供了有价值的理论和技术支持。