分形理论与量化误差结合的高效无监督聚类算法

需积分: 3 174 浏览量更新于2024-09-07 收藏 1.91MB PDF 举报

"基于量化误差与分形理论的高计算效率无监督聚类研究" 本文针对传统矢量聚类算法在处理大数据集特别是多维数据时性能下降的问题，提出了一种结合量化误差与分形理论的新颖无监督聚类算法。在大数据分析中，无监督聚类是一种广泛应用的技术，用于发现数据集中的自然群体或结构，而无需预先标记的数据。然而，对于高维度和大规模数据，现有算法往往需要大量的计算资源，并且效果可能不尽如人意。该研究的核心在于构建量化误差的参数化模型。量化误差是聚类过程中不可避免的现象，它衡量了数据点被分配到聚类中心的不精确度。通过这个模型，可以更准确地理解数据集的空间结构，从而得到率失真曲线。率失真曲线是信息论中的一个概念，它描述了数据压缩与信息损失之间的关系。在这个背景下，率失真曲线提供了数据复杂性的度量，有助于确定数据的有效维度，即保持大部分信息所需的最少维度。论文中，研究人员通过对率失真曲线进行估计，来确定数据空间的有效维度。有效维度的获取对于降低计算复杂性和提高聚类效率至关重要，因为它可以帮助减少不必要的计算负担。随后，研究者运用分形理论，分形理论是一种描述自然界中复杂自相似结构的数学工具。在此场景下，分形理论被用来寻找数据集的最佳量化模型参数，进而估算出最优的类簇数量。实验结果证明了该量化误差参数化模型在估算数据集有效维度上的有效性，并且提出的算法在数值型数据集的最优类簇估算和计算效率上优于传统的矢量聚类方法。这意味着新算法不仅能够更准确地识别数据的内在结构，而且能够在计算资源有限的情况下，更快地完成聚类任务。这篇研究工作为无监督聚类提供了一个新的视角，将量化误差与分形理论相结合，提高了算法在处理多维大数据集时的计算效率和聚类质量。这一方法对于大数据分析、机器学习以及图像处理等领域具有重要的实践意义，特别是对于那些需要高效处理大量复杂数据的应用。

收稿日期：２０１５０６２３；修回日期：２０１５０８１１　　基金项目：浙江省自然科学基金资助项目（Ｙ１０９０４１６）；浙江省自然科学基金资助项目

（Ｙ１０９１０８４）

作者简介：胡国生（１９６６），男，江西新建人，副教授，博士研究生，主要研究方向为图像处理、数据处理、机器人视觉（ｈｕｇｕｏ＿ｓｈｅｎｇ＠１６３．ｃｏｍ）；

杨海涛（１９６７），男，重庆丰都人，教授，博士研究生，主要研究方向为非线性分析、偏微分方程及其应用．

基于量化误差与分形理论的

高计算效率无监督聚类研究



胡国生

１

，杨海涛

２

（１．广东食品药品职业学院软件学院，广州５１０５２０；２．浙江大学数学学院，杭州３１００２７）

摘　要：已有的矢量聚类算法需学习较多的复杂数据方可获得较好的聚类效果，而对于多维的大数据性能较

弱，为此提出一种基于量化误差与分形理论的高计算效率无监督聚类算法。首先，为数据集建立量化误差的参

数化模型，基于数据集的空间结构获得数据集的率失真曲线；然后通过对率失真曲线的估算，获得数据空间的有

效维度；最终利用分形理论，通过搜索数据集的量化模型参数获得目标数据集的最优类簇数量。实验结果表明，

该量化误差参数化模型可较好地估算数据集的有效维度，同时，本算法对数值型数据集的最优类簇估算与计算

效率优于已有的矢量聚类算法。

关键词：分形理论；量化误差；率失真曲线；无监督聚类；多维数据

中图分类号：ＴＰ３０１６　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１６）１０２９１９０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．１０．００９

Ｑｕａｎｔｉｚａｔｉｏｎｅｒｒｏｒａｎｄｆｒａｃｔａｌｔｈｅｏｒｙｂａｓｅｄｈｉｇｈｃｏｍｐｕｔａｔｉｏｎ

ｅｆｆｉｃｉｅｎｃｙｕｎｓｕｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ

ＨｕＧｕｏｓｈｅｎｇ

１

，ＹａｎｇＨａｉｔａｏ

２

（１．ＳｃｈｏｏｌｏｆＳｏｆｔｗａｒｅ，ＧｕａｎｇｄｏｎｇＦｏｏｄ＆ＤｒｕｇＶｏｃａｔｉｏｎａｌＣｏｌｌｅｇｅ，Ｇｕａｎｇｚｈｏｕ５１０５２０，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃｓ，ＺｈｅｊｉａｎｇＵｎｉ

ｖｅｒｓｉｔｙ

，Ｈａｎｇｚｈｏｕ３１００２７，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｅｅｘｉｓｔｉｎｇｖｅｃｔｏｒｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｎｅｅｄｔｏｌｅａｒｎａｌｏｔｏｆｃｏｍｐｌｅｘｄａｔａｉｎｏｒｄｅｒｔｏｇｅｔａｇｏｏｄｐｅｒｆｏｒｍａｎｃｅｆｏｒ

ｃｌｕｓｔｅｒｉｎｇ

，ａｎｄｉｔｄｏｅｓｎｏｔｈａｖｅｇｏｏｄｐｅｒｆｏｒｍａｎｃｅｆｏｒｂｉｇｄａｔａ．Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｑｕａｎｔｉｚａｔｉｏｎｅｒｒｏｒａｎｄｆｒａｃｔａｌｔｈｅｏｒｙｂａｓｅｄ

ｈｉｇｈｃｏｍｐｕｔａｔｉｏｎｅｆｆｉｃｉｅｎｃｙｕｎｓｕｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｔｏｓｏｌｖｅｔｈａｔｐｒｏｂｌｅｍ．Ｆｉｒｓｔｌｙ，ｉｔｃｏｎｓｔｒｕｃｔｅｄａｐａｒａｍｅｔｒｉｃｍｏｄｅｌ

ｉｎｇｏｆｔｈｅｑｕａｎｔｉｚａｔｉｏｎｅｒｒｏｒｆｏｒｄａｔａｓｅｔ，ｇｏｔｔｈｅｒａｔｅｄｉｓｔｏｒｔｉｏｎｃｕｒｖｅｂａｓｅｄｏｎｔｈｅｓｐａｃｅｓｔｒｕｃｔｕｒｅｏｆｔｈｅｄａｔａｓｅｔ．Ｔｈｅｎ，ｉｔｃｏｍ

ｐｕｔｅｄｔｈｅｅｆｆｉｃｉｅｎｔｄｉｍｅｎｓｉｏｎａｌｉｔｙｏｆｔｈｅｄａｔａｓｅｔｂｙｅｓｔｉｍａｔｉｏｎｏｆｔｈｅｒａｔｅｄｉｓｔｏｒｔｉｏｎｃｕｒｖｅ．Ｌａｓｔｌｙ，ｉｔｏｂｔａｉｎｅｄｔｈｅｏｐｔｉｍａｌｃｌｕｓｔｅ

ｒｉｎｇｎｕｍｂｅｒｏｆｔｈｅｔａｒｇｅｔｄａｔａｓｅｔｂｙｆｒａｃｔａｌｔｈｅｏｒｙ．Ｅｘｐｅｒｉｍｅｎｔｓｒｅｓｕｌｔｓｈｏｗｓｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｑｕａｎｔｉｚａｔｉｏｎｅｒｒｏｒｍｏｄｅｌｉｎｇｃａｎ

ｅｓｔｉｍａｔｅｔｈｅｑｕａｎｔｉｚａｔｉｏｎｅｒｒｏｒｖｅｒｙｗｅｌｌａｎｄｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｈａｓｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｉｎｓｅａｒｃｈｔｈｅｂｅｓｔｃｌｕｓｔｅｒｉｎｇｎｕｍｂｅｒ

ａｎｄｃｏｍｐｕｔａｔｉｏｎｅｆｆｉｃｉｅｎｃｙｔｈａｎｔｈｅｅｘｉｓｔｉｎｇｖｅｃｔｏｒｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ．

Ｋｅｙｗｏｒｄｓ：ｆｒａｃｔａｌｔｈｅｏｒｙ；ｑｕａｎｔｉｚａｔｉｏｎｅｒｒｏｒ；ｒａｔｅｄｉｓｔｏｒｔｉｏｎｃｕｒｖｅ；ｕｎｓｕｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇ；ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌｄａｔａ

　引言

矢量量化

［１］

是一种简单高效的无监督学习

［２］

方法，矢量

量化聚类算法是一种自适应数据分类算法，学习的速度是其一

大优势。可将聚类分析定义为：使用较少数量的数据点（质

心）来代表一个较大数量数据集的问题。聚类过程中，计算数

据集的最优类簇数量是聚类分析的一个重要部分

［３，４］

，若类簇

数量过小，则无法保留与数据集结构的相关信息；若类簇数量

过大，则学习低关联性的数据需浪费较多的资源。目前已有一

些针对矢量量化聚类算法的改进研究，文献［５］针对矢量量化

（

ＬＶＱ）聚类算法对初值敏感的问题，将免疫克隆算法用于优

化ＬＶＱ聚类算法的初值，并将改进得到的聚类算法用于对Ｉｒｉｓ

数据集进行分类，提高了矢量量化聚类算法的稳定性。文献

［６］提出了一种基于矢量量化的近似谱聚类算法，该算法结合

了谱聚类对于无监督聚类的明显效果，并使用神经网络成功地

对大数据进行量化，且失真极小，最终获得了较高的聚类准确

率。文献［７］提出一种利用斜变换的矢量量化聚类算法，该算

法结合Ｋｅｄｒｅ旋转矢量误差模型，使用误差向量分割类簇，该

算法对于图像压缩的码书生成具有较好的效果。文献［

８］为

矢量量化聚类提出一个新的目标方程，该方程考虑了对显著特

征的搜索效率以及无监督学习过程的充足性，该算法对复杂数

据具有较好的聚类效果。文献［９］提出一种基于率失真曲线

的参数化模型，并基于该模型设计了一个乘法的成本函数，通

过求解目标成本函数的最优解实现了最优聚类。

上述研究都获得了较好的效果，但仍然具有不足之处。文

献［

５］对数据集的初始化类簇进行了改进，而文献［６，７］则对

矢量量化模型进行了改进，文献［５～７］均需要学习较多的特

征数据点，计算效率较低。文献［８，９］则综合考虑计算效率与

聚类准确率，设计了目标成本函数，虽然相较于文献［５～７］，

第３３卷第１０期

２０１６年１０月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３３Ｎｏ１０

Ｏｃｔ．２０１６

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_39840924

粉丝: 495
资源: 1万+

分形理论与量化误差结合的高效无监督聚类算法

论文研究-基于改进k-均值聚类的快速分形编码算法 .pdf

论文研究-基于相似膨胀的分形图像检索.pdf

论文研究-基于HSI模型和分形的遥感图像分割方法 .pdf

论文研究-自适应的三维分形地形重建算法研究.pdf

论文研究-生态工业系统的分形生长模型 .pdf

论文研究-局域网流量的多重分形谱分析及关联性研究.pdf

论文研究-一种基于趋势分形维数的股指时间序列相似性分析方法.pdf

论文研究-粗糙表面Cantor集分形对温度场影响分析.pdf

论文研究-一维时间序列分形维数算法对比分析.pdf

活垃圾治理-java-基于springBoot的乡村生活垃圾治理问题中运输地图的设计与实现

最新资源