基于压缩数据库的高效数据挖掘算法探索

版权申诉

13 浏览量更新于2024-07-02 收藏 3.01MB PDF 举报

随着科技的飞速发展，大数据时代的到来使得各行各业积累了海量的数据，尤其是在科学与统计领域，这些数据包含了实验结果、地理信息、人口普查等多类型的信息，且数据量庞大且相对稳定，传统的数据库技术在处理这类静态、稀疏、聚集和重复性强的数据时，面临着巨大的I/O传输挑战。为了降低查询、计算和分析的复杂性，提高效率，压缩数据库成为了研究热点。本文主要探讨了在压缩数据库环境下进行高效数据挖掘的技术。首先，针对科学与统计数据库的特点，作者提出了一种创新的基于Block的数据库压缩算法。该算法理论分析了其压缩比，相较于其他算法，显示出在减少存储空间需求方面的优势，特别是在科学与统计数据的压缩上表现突出。在关联规则挖掘方面，文章引入了名为CAPriori的算法，这是专为基于Block压缩方法的数据库设计的挖掘策略。与经典的Apriori算法相比，CAPriori在运行时间上有所优化，实验证明了在压缩后的数据集上，它能提供更好的性能。针对聚类挖掘，本文提出了C-kmeans算法，这是一种针对压缩数据库的改进版K-means算法。由于原始K-means算法的运行时间与数据记录数量成正比，而C-kmeans则通过直接操作压缩数据，避免了I/O传输的瓶颈，显著减少了计算时间。针对频繁模式挖掘在事务数据库中遇到的性能瓶颈，尤其是大量tidset交集运算导致的外存读写频繁问题，作者提出了CONVTV压缩算法。该算法通过采用两种不同的垂直数据格式存储，显著提高了数据压缩率，减轻了中间结果处理的负担。本文的研究工作集中在提升在压缩数据库环境下数据挖掘的效率和性能，包括压缩算法的设计、关联规则和聚类挖掘算法的优化，以及针对特定场景（如事务数据库）的定制解决方案。这些研究成果对于大规模数据管理及分析具有实际意义，为后续的数据库技术和数据挖掘领域的研究提供了有价值的方向。

哈尔滨工业大学工学硕士学位论文

它也有很好的性能。它使用了一种数据库垂直表示的格式，并且通过对 tids

进行交集运算来计算项集的支持度。然而，因为使用深度优先的搜索策略，在

Apriori 算法中所使用的剪枝策略并不适用于此算法的候选项集的产生过程。

VIPER

[24]

算法和

Mafia

[25]

算法也使用了垂直表示的数据库和交集运算得到了

很好的性能。唯一的不同点是它们使用了压缩后的位图来表示每个项集的事务

列表。然而，当事务列表是均匀分布时，它们的压缩算法会有很大的局限性。

Zaki

和

Gouda

根据数据库的垂直表示提出了一种名为

dEclat

[26]

的挖掘算法。

它使用

difset

结构来保存候选

项集和它的前缀频繁

k-1

项集

tids

链表的不同。

dEclat 算法通过将 k 项集的前缀的 k-1 项集的支持度减去 difset 的基数来计算

当前项集的支持度。此算法最终在性能上相对于 Eclat 算法得到了很大的提高。

然而，当需要处理稀疏数据库时，difset 就会失去它所拥有的优势。Qian Wan

等人通过将事务数据库压缩为一种 CT-tree 的结构从而得到了更高效的挖掘算

法

[27]

。

1.2.3 聚类挖掘

数据库存储着越来越多的数据，这就需要我们提出有效的数据分析方法去

揭示隐藏在数据后面的有价值的信息。在数据分析中最重要的一个方法就是聚

类挖掘。聚类挖掘的最终目标是将数据库中的数据元组划分到不相交的子集

中。

聚类的最终结果是相似的数据元组被划分到同一类别中，而相异的元组被

划分到不同的类别中。聚类挖掘在各个研究领域中都是被广泛研究的一个话

题，包括知识发现和数据挖掘

[28]

，数据压缩和向量量化

[29]

，模式识别和模式

分类

[30]

。现有的聚类算法可以划分为层次聚类算法，密度聚类算法和划分聚

类算法。

其中

Single-Link

聚类方法是一个被广泛应用的层次聚类算法

[31]

。在开始

阶段，将所有数据元组划分到同一个聚类中，之后的每次迭代过程中两个最接

近的聚类被合并，直到所有的点都被划分在同一个聚类中。另一个层次聚类算

法是

CURE

算法

[32]

。该方法使用不同聚类中的多个点来计算聚类间的距离，

这样可以得到任意形状的聚类。

基于密度的聚类算法假设数据库中的数据元组所属于的聚类是拥有不同

密度的分布

[33]

。DBSCAN 算法可以在稀疏数据库中挖掘得到任意形状的聚类

[34]

。该算法是通过验证每个数据元组邻近的点的数量是否大于一定的阈值，

来找出在一定密度范围内的所有聚类的点。AUTOCLASS 算法是一种可以发现

万方数据

哈尔滨工业大学工学硕士学位论文

多种分布类型的聚类算法

[35]

。其他被广泛使用的基于密度的聚类算法包括：

SNOB 算法

[36]

，MCLUST 算法

[37]

。

基于划分的聚类算法通过初始时将不同的数据元组划分到不同的聚类中，

然而通过改变聚类中所包含的数据元组来获得满足标准的最优聚类。聚类过程

中所要满足的衡量标准主要包括内部准则和外部准则，在本文之后的章节将会

对本文所用到的聚类好坏的评判标准进行详细地介绍。往往这类的聚类算法都

需要用户事先定义最终需要得到的聚类数量。如果要得到最终聚类结果的全局

最优解，那么就需要枚举所有可能的划分聚类，这样做的时间复杂度是不能接

受的。所以基于划分的聚类算法通常采用启发式的算法。基于划分的聚类算法

主要包括 k-mean 聚类算法， k-modes 聚类算法和 k-medoids 聚类算法。在

k-means

[38]

聚类算法中，通过一个聚类中所有数据元组的平均值来代表这个聚

类，并在算法的初始阶段选定几个初始聚类的中心点，在之后的每次迭代过程

中，将所有数据元组分配到距离其最近的聚类中，然而重新计算每个聚类的中

心点，直到聚类结果不再发生变化时，算法停止迭代。K-modes

[39]

算法对

k-means 算法进行了扩展，使其可以运行在分类属性上。对于 k-medoid

[40]

算法，

每个聚类的中心点是选取最靠近聚类形心的那个数据元组作为这个聚类的中

心点。然而当在海量数据进行聚类时，这些数据的规模往往是 TB 级别的，串

行的聚类算法对于如此规模的数据量是束手无策的。因此在近几年，提出了许

多并行聚类算法，这些算法大多是在串行算法上进行改进而得到的。Dhilion

[41]

提出了一个基于 K-means 算法的并行算法，同时基于通信模型，对算法的传

输规模也进行了分析，并且给出了算法的加速比。Zhenghua 等人

[42]

给出了在

压缩后的海量数据上进行聚类的一个理论模型，该模型给出了在压缩后的数据

上进行聚类挖掘相比于压缩前的聚类挖掘，在时间性能上得到了提升，同时作

者也在文章中对并行机器上的任务分配给出了一个量化的分析。

结合关联规则挖掘和聚类挖掘的研究现状可以看出，目前的挖掘算法基本

上都是运行在传统数据库上，随着数据规模的爆炸式增长，

I/O

传输所带来的

时间上的消耗成为了一个非常严重的问题。本文认为如果能在压缩数据库上进

行操作和数据挖掘，将会减少大量的 I/O 传输，从而相比运算在传统数据库上

的算法将会减少大量的运行时间。然而如何在压缩数据库上进行无解压操作的

研究在目前研究中几乎没有。

1.3 本文的主要研究内容

本文主要研究了一种新的适合于数据库随机存取模式的数据库压缩算法，

万方数据

哈尔滨工业大学工学硕士学位论文

此算法可以满足直接在压缩数据上进行关联规则挖掘和聚类分析的相关操作，

而无需对压缩数据进行解压缩操作。在给出的数据库压缩算法的基础上，本文

提出了在压缩数据库上直接进行关联规则挖掘的改进 Apriori 算法，同时提出

了在压缩数据库上直接进行聚类挖掘的改进

Kmeans

算法，并且通过实验对比

了改进后的算法与原算法相比在性能上的提升。

在垂直数据布局的关联规则挖掘算法进行操作时，会对当前层的事务标识

集进行交集操作，并找出不同项之间的事务标识的交集，然后利用这些事务标

识集得出下一层频繁项集的支持度。面对稠密数据集，会导致大量的中间结果

的产生，当垂直事务标识集超出了内存容量时，算法性能会显著下降。本文针

对此问题提出了针对垂直表示的数据库的压缩方法，并且与现有的压缩算法进

行了对比实验。

1.4 本文内容安排

第一章：绪论。本章主要介绍了课题的研究目的和意义，同时介绍了当前

国内外在相关领域的研究现状，最后概括叙述了本文所研究的主要内容和研究

成果。

第二章：本章主要介绍了本文提出的基于 Block 的统计数据库压缩算法。

此压缩算法主要包括了两个阶段，第一阶段为数据预处理，第二阶段为数据库

压缩。本章分别对这两个阶段进行了详细的阐述。最后使用了美国

1990

年和

2010

人口统计数据进行了实验，并与现有压缩算法进行了对比。

第三章：本章首先介绍了关联规则挖掘问题的形式化定义，然后介绍了在

统计数据库上进行关联规则挖掘属于量化关联规则挖掘的范畴。在量化关联规

则的挖掘基础上，文中给出了改进后的 CApriori 算法，此算法可以直接运行

在压缩后的统计数据库上，并通过实验与 Apriori 算法进行了对比。

第四章：本章首先介绍了聚类挖掘问题的形式化定义，同时给出了对每次

迭代结果的判定准则，在此基础上，给出

CKmeans

挖掘算法，此算法可以直

接运行在压缩后的统计数据库上，无需解压缩操作，最终通过实验与改进前的

Kmeans

算法进行了对比。

第五章：本章针对基于垂直数据布局的关联规则挖掘算法中存在的中间数

据所占内存过大的问题，提出了一种新的对垂直数据布局进行压缩的

CONVTV 压缩算法，该算法针对 VTV 格式的数据进行压缩。然后文章介绍了

该算法的具体步骤，最终通过实验与现有的压缩算法进行了对比。

万方数据

哈尔滨工业大学工学硕士学位论文

第 2 章基于 Block 的数据库压缩算法

2.1 引言

海量数据库的存储需要很大的硬盘空间，同时对海量数据库的管理也需要

大量的系统资源。数据库压缩技术能有效地减少数据存储空间，同时也能支持

数据库的随机存取的特点。现实世界中以科学数据库和统计数据库为代表的一

类数据库是普遍存在的，这类数据库往往是由人口统计数据，科学实验数据，

地理统计数据，环境数据和经济统计数据构成的。此类数据库通常具有以下特

点：

（

）信息量大例如人口统计往往是一次人口普查数据的统计结果，

现实中人口数量通常都是上亿的规模，同时在人口普查过程中会涉及到对人口

各项信息的统计，所以数据库的规模是十分巨大的。

（2）静态性此类数据库的数据当第一次录入后，根据规则进行校正

后，基本不会再进行修改，数据信息是静态存储的。相比与传统数据库，此类

数据库的数据保存更加稳定。同时数据库中的信息不会被删除，需要被无限期

的保存下去，而且数据库的规模只会随着新录入的数据而持续增长。

（

）数据格式简单数据库往往是存储为

ASCII

编码的字符保存在一

个或多个文件中。每条数据占据着独立的一行，其余的数据也都按照这个格式

保存。此特点为算法获取原始数据提供了很大的方便，因为算法并不需要去解

析大规模复杂的数据。

（4）数据聚集此类数据的数据往往会存在着聚集的特性，很多相邻

的数据记录在固定的几个属性上值都是相同的。同时由于此类数据库的特点，

数据记录中往往会存在着大量的 0，例如在一次物理实验中，噪声通常都会被

记录为 0，同时低于某一阈值的数值也会被记录为 0，当两次物理实验间隔时

间较长时，自动记录装置会因此记录大量的 0.

（5）属性数目固定此类数据与传统数据库相似，都具有固定数量的

属性数目。同时每个属性的值域都是固定大小的，因为每个属性通常都是对一

次实验结果或者调查问题选项的记录，所以属性的值域都是具体的，并且大小

也是事先已知的。

由于此类数据库信息量大，所以压缩数据库的操作是很有必要的。又因为

特点 4 中，数据存在着聚集，有大量的 0 的特点，可以看出此类数据库有很高

万方数据

剩余65页未读，继续阅读

programyp

粉丝: 90
资源: 9323

基于压缩数据库的高效数据挖掘算法探索

人工智能-数据挖掘-数据挖掘中关联规则算法及应用的研究.pdf

人工智能-数据挖掘-数据挖掘中关联规则算法研究.pdf

基于决策树的数据挖掘算法研究.pdf

基于云计算的数据挖掘聚类算法研究.pdf

一种自适应混合压缩的数据挖掘算法.pdf

试论基于数据挖掘Apriori算法实现与应用.pdf

基于数据挖掘的关联规则研究.pdf

基于WEB的多媒体数据挖掘的研究.pdf

电信行业项目技术规范书-湖南移动2021年基于AI算法的风冷精密空调通信机房管理及节能项目技术规范书.pdf

基于数据挖掘的计算机网络流量控制策略.pdf

最新资源