大数据处理中的图压缩方法：加权完全图与最小生成树

157 浏览量更新于2024-06-18 收藏 745KB PDF 举报

"理论计算机科学电子笔记354：基于图的数据压缩方法在大数据处理中的应用" 在当前的大数据时代，理论计算机科学领域的研究者们正在不断探索如何有效地处理和存储海量数据。这篇论文关注的是利用基于图的数据压缩方法在大数据处理中的应用。作者A.Guzmán-Ponce、J.Raymundo Marcial-Romero、R.M.Valdovinos-Rosas和J.S.Sánchez-Garreta来自不同的学术机构，他们在文章中提出了两种新的压缩策略，这些策略针对的是那些数据量超过处理能力的场景。文章首先强调了图论在解决现实世界问题中的重要性，尤其是在工业应用、化学模型和社会网络分析等领域。在这些应用中，问题往往可以转化为图的顶点和边的问题。然而，随着数据量的爆炸式增长，传统的处理方法可能无法应对，这就需要创新的数据压缩方法。论文提出的第一种方法是通过构建一个带权的完全图，该图由数据集中的所有元素构成，并根据某种关系或相似度度量分配权重。这种完全图可以视为数据的一种紧凑表示，有助于减少存储需求。第二种方法则涉及到从数据集中提取一个导出子图或者一棵最小生成树。最小生成树是一种经典的图理论概念，它能够保留图的主要结构，同时显著减少边的数量，从而实现数据压缩。为了验证这两种方法的有效性，研究人员进行了详尽的实验，使用了24个基准的真实数据集，涵盖了多种类型的数据。这些数据集被用于训练1NN（最近邻）、C4.5决策树和SVM（支持向量机）分类器。实验结果表明，提出的压缩方法能够在保持分类器性能不变甚至提升的情况下，显著减小数据集的大小。文章的关键词包括加权图、导出子图、最小生成树、凝聚数据和数据科学，这些术语揭示了研究的核心内容。通过这些技术，数据科学家可以更有效地处理大规模数据集，提高计算效率，同时也为未来的数据处理和分析提供了新的思路。这篇论文为大数据处理提供了一种新的视角，即利用图论和数据压缩技术来应对数据量的挑战。这种方法不仅减少了存储需求，还保证了数据分析的质量，对于数据科学领域的发展具有重要的理论和实践意义。

古兹曼

庞塞等人

理论计算机科学电子笔记

354

（

2020

）

的权重 w（e）在其边缘上。具有最小值的某类子图 (or最大）权重，是一个

图，其中最小（或最大）权重的路径连接两个指定的顶点u

和v

。

最小生成树

是一

个导出子图，它的边集连接所有顶点，没有任何圈，且它的边权和最小。

建议的压缩数据集

在本节中，我们将介绍两种基于图的数据压缩方法。该建议首先将具有n

个

实例的

两类数据集划分为两个子集，表示为C

−

和C

，分别来自负类和正类的实例。C

通常

是最重要的类，它与另一个或多个类的代表性较低。我们的建议只适用于否定类，

以减少它的基数，直到它可以类似于C

。为此，在生成导出子图或最小生成树之

前，从

−

中包含的数据中构建加权完全图，其目的是分别获得负类的边界线或核

算法 1 描述了一般过程。这些建议构建了一个加权的完全图（算法 1 中的

GraphProcedure

）来生成一个归纳子图（第

3.1

节）或一个最小生成树（第

3.2

节）。注意，

IRm

是期望的不平衡比率，即，正类大小与负类大小的期望比率。

算法

压缩数据

要求：

DS=

，

...

，

，IRm

确保：

1：将DS分成两个子集

−

和

。

2：

′−

←GraphProcedure（C

−

，IRm，

）

3：DS

′

′−

给定由具有

个特征的

个实例

形成的数据集

，每个实例

是元组（

，

...

，

），其中，

是实例

p n

的第

个特征

的值

。这个实例属于一个类

。图被用来模拟实际问题并获得最优解，因此我们的建议使用基于图的方法来获

得子集C

−

。我们把集合C

−

看作一个加权完全图，记为G

，它的构造如下：

•

V（G）={\displaystyle {\pi

}

∈C

−

|i∈V（G）}是顶点的集合。

•

E（G）

{{

，

}|v

，

∈

V（G）

}

是边的集合

•

其中

（

，

）是

和

之间的欧氏距离

3.1

诱导图欠采样（

IG-US

）

IG-US

是一种得到导出子图的方法，其目的是保持边界实例，即彼此距离较远的实

例。算法

中描述的

IG-US

建议通过以下方式压缩负类

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

大数据处理中的图压缩方法：加权完全图与最小生成树

哈工大数据结构考验笔记

很好的计算机考研笔记

数字信号处理精华总结笔记

计算机科学导论学习笔记

计算机体系结构量化研究方法附录a 笔记

处理大量数据的笔记本电脑

ECX334的数据手册和应用笔记

基于hadoop与python的笔记本数据分析可视化

大数据技术与应用学习笔记

最新资源