基于图嵌入的高斯混合变分自编码器用于深度聚类

8 浏览量更新于2023-10-16 收藏 12.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Linxiao Yang∗1,2, Ngai-Man Cheung‡1, Jiaying Li1, and Jun Fang2tasks of unsupervised learning. A number of methods havebeen proposed [38, 19, 8].Based on the approaches tomodel the space structure, most clustering methods can beclassiﬁed into two categories, namely, model based meth-ods and similarity based methods. The model based meth-ods, such as the Gaussian mixture model [4] and subspaceclustering[1, 36], focus on the global structure of the dataspace. They put assumptions on the whole data space andﬁt the data using some speciﬁc models. An advantage ofmodel based methods is their good generalization ability.Once trained, new samples can be readily clustered usingthe learnt model parameters.However, it is challengingfor these methods to deal with data with complex spread.Different from model based methods, the similarity basedmethods emphasize the local structure of the data. Thesemethods formulate the local structures using some similar-ities or distances between the samples. Spectral clustering[33, 26], a popular similarity-based method, constructs agraph using the sample similarities, and treats the smoothestsignals on the graph as the features of the data. With mildassumption, similarity-based methods achieve tremendoussuccess [25].Many similarity-based methods, however,suffer from high computational complexity. Spectral clus-tering, for instance, requires to perform a singular value de-composition when computing features, which is prohibitivefor large datasets. To address this issue, a lot of effortshave been made and many methods have been proposed[5, 10, 22, 39].64400利用图嵌入的高斯混合变分自编码器进行深度聚类01 新加坡科技与设计大学（SUTD） 2 中国电子科技大学0‡ 通讯作者：ngaiman_cheung@sutd.edu.sg0摘要0我们提出了DGG：通过高斯混合变分自编码器（VAE）和图嵌入进行深度聚类。为了促进聚类，我们在VAE中应用了高斯混合模型（GMM）作为先验。为了处理具有复杂分布的数据，我们应用了图嵌入。我们的想法是，图信息捕捉到了局部数据结构，是深度GMM的极好补充。将它们结合起来有助于网络学习符合全局模型和局部结构约束的强大表示。因此，我们的方法将基于模型和基于相似性的聚类方法统一起来。为了将图嵌入与概率深度GMM相结合，我们提出了一种新颖的图嵌入的随机扩展：我们将样本视为图上的节点，并最小化它们的后验分布之间的加权距离。我们将Jenson-Shannon散度作为距离。我们将最小化散度与深度GMM的对数似然最大化相结合。我们推导出了一种获得统一目标的公式，使得同时进行深度表示学习和聚类成为可能。我们的实验结果表明，我们提出的DGG优于最近的深度高斯混合方法（基于模型）和深度谱聚类（基于相似性）。我们的结果突出了在本文中提出的将基于模型和基于相似性的聚类方法相结合的优势。我们的代码发布在这里：https://github.com/dodoyang0929/DGG.git01. 引言0深度聚类。最近先进的深度学习技术为聚类提供了新的机会[24]。深度学习具有学习非线性映射的强大能力，为特征学习提供了有希望的框架[41, 37,42]。一些研究考虑将基于模型的聚类方法与深度学习相结合，在特征空间上强加全局假设[17,7]。这些方法共同训练网络以64410学习更好的特征，并使用聚类结果来指导网络训练。这些方法利用深度神经网络的优秀特征学习能力，大大超越了传统的聚类方法。还提出了几种方法[21,31]将深度学习与基于相似性的聚类方法相结合，以解决泛化和可扩展性的限制。例如，SpectralNet[31]是一种最近的方法，它使用深度神经网络将数据映射到它们的谱嵌入中。该网络使用小批量随机梯度下降进行训练，以确保该方法适用于大规模数据集。同时，一旦训练完成，可以通过网络的前向传递获得新样本的嵌入。因此，该模型易于泛化。然而，该方法仍然需要在每个时期执行Cholesky分解。我们的贡献。尽管现有聚类方法取得了成功，但其中很少有方法考虑将基于模型和基于相似性的方法结合起来。由于基于模型和基于相似性的方法分别关注数据的全局和局部结构，它们的结合可能导致强大的聚类表示。出于这个动机，在这项工作中，我们提出了一个将基于模型和基于相似性方法结合的框架。正如将讨论的那样，我们的工作可以被视为改进了一个具有复杂分布数据的基于模型的方法，加入了局部结构约束。或者，我们的工作也可以被视为改进了一个基于相似性的方法，在潜在空间中明确地施加了一个全局模型。我们的模型基于变分自动编码器[18]，并将潜在特征的先验分布设置为高斯混合分布。为了将图嵌入与这个概率深度GMM相结合，我们提出了一种随机扩展的图嵌入：我们将数据视为样本相似性图的节点，并最小化它们的后验分布之间的加权距离以利用相似性信息。我们提出使用Jenson-Shannon (JS)散度作为距离。然后，我们将其放松到其变分上界。经过一些公式化，我们将随机图嵌入的损失与深度GMM的目标函数相结合，最终得到一个统一的损失函数，可以使用已建立的重参数化技巧和梯度下降进行优化。为了说明所提方法的优越性，我们在合成数据和真实数据上进行实验证明。02. 相关工作0最近基于深度学习的聚类方法的主要思想是使用深度神经网络学习训练数据的潜在特征。然后，应用传统的聚类方法计算聚类分配。为了在特征空间中保留一些结构，额外的约束被应用。0在网络中通常包含约束。具体而言，DCN[41]在自动编码器的损失函数中引入聚类损失，以共同改进潜在特征和聚类分配。DEC[37]训练自动编码器学习特征，并对其施加软分配约束。DEPICT[7]由卷积自动编码器和单层分类器组成，分别学习潜在特征和聚类分配的分布。神经网络通过最小化重构误差和聚类分配及其先验之间的相对熵来进行优化。为了使网络更加鲁棒，清晰和噪声图像被共同训练。IMSAT[14]使用网络学习离散潜在特征，通过最大化训练图像与其潜在特征之间的互信息。为了进一步提高性能，IMAST通过添加训练样本的排列来增加数据集，并假设网络生成的潜在特征对它们是不变的。SpectralNet[31]是一种基于谱聚类思想的方法。它试图学习一个将训练数据映射到图拉普拉斯矩阵的特征空间的网络。他们应用连体网络学习图节点之间的权重，并使用k-means进行最终聚类。除了这些方法，还提出了几种基于生成模型的方法。其中大部分基于变分自动编码器框架，但是将潜在变量的先验替换为某些特定分布，如高斯混合分布。具体而言，VaDE[17]和GMVAE[7]假设潜在变量遵循高斯混合分布，其中高斯分量的均值和方差是可训练的。LTVAE[23]假设潜在变量遵循树结构模型，并迭代更新结构以捕捉数据的方面。与我们的工作最相关的工作是VaDE。VaDE和我们的工作都学习了潜在特征的高斯混合模型。然而，差异是明显而显著的：我们的方法应用图嵌入来保留数据的局部结构。具体而言，在VaDE中，潜在特征的分布是独立学习的。另一方面，在我们提出的方法中，如果训练样本在样本相似性图上相连，则推动训练样本的潜在分布彼此接近。在图的帮助下，我们提出的方法能够学习强大的表示并处理具有复杂分布的数据。实验结果表明，我们提出的方法优于VaDE。03. 提出的方法0在本节中，我们首先讨论深度GMM作为方法的基础。然后，我们讨论我们的主要贡献：将图嵌入与深度生成模型相结合。我们讨论了我们提出的将随机图嵌入正则化与深度GMM的损失相结合的公式。我们还讨论了参数的更新和图的相似性矩阵的构建。p(c; π) =πckk(1)pθ(x|z) =3.1.2Inference modelqφ1(z|x) = N(˜µ, diag(˜σ2))(4)˜π = f2(z; φ2)(7)N(1064420给定一组 D 维训练样本 { x n } N n =1 ，我们的目标是将它们聚类成 K类。对于每个训练样本 x ，我们为其学习一个潜在特征 z ∈ R M × 1。我们假设潜在特征遵循高斯混合分布。我们引入一个二进制向量 c ∈ { 0 , 1 } k× 1 ，用于指示潜在特征 z 属于哪个高斯分量。03.1. 深度高斯混合模型0在我们的模型中，我们假设数据是从高斯混合分布中抽取的。具体而言，对于一个样本 x，我们将其生成过程建模如下：03.1.1 生成模型0K �0� 如果 x 是二进制，则 Ber ( µ x ) ，如果 x 是实值，则 N ( µ x , λ I ) (3)03.1.2 推断模型0其中 c k 和 π k 分别表示 c 的第 k 个元素和 π 的第 k个元素，π k 满足 � K k =1 π k = 1 ，µ k 和 σ 2 k分别表示第 k 个高斯分量的均值和方差，µ x = g ( z n ; θ) ，I 表示单位矩阵，λ 是预定义参数，g 是具有可训练参数θ 的神经网络。0直接求解生成模型，即找到潜在变量的最大后验概率（MAP）和参数的最大似然估计（MLE），是困难的。为了解决这个问题，我们使用一个新的分布 q φ ( z , c | x )来近似后验分布 p θ ( z , c | x )，该分布是从特定类别中抽取的，并由可训练参数 φ参数化。具体而言，我们假设 q φ ( z , c | x ) 可以被分解为q φ 1 ( z | x ) q φ 2 ( c | z ) 。然后我们定义0q φ 2 ( c | z ) = 多项式分布 ( ˜ π ) (5)0其中0[ ˜ µ , log( ˜ σ 2 )] = f 1 ( x ; φ 1 ) (6)0这里的 f 1 和 f 2 分别表示具有参数 φ 1 和 φ 2的神经网络。该模型包含两个神经网络。第一个网络 f 1从中学习潜在分布0训练样本，第二个网络 f 2计算潜在特征属于哪个高斯分量的概率。通过生成模型和推断模型的框架，可以通过最大化对数似然函数来估计参数，即0maxφ,θ0i = 1 时， ln p θ ( x i ) (8)0问题（8）通常通过最大化对数似然函数的证据下界（ELBO）来解决，使用重参数化技巧[18]。我们注意到提出的模型由三个网络组成，即 g ， f 1 和 f 2 。我们将 g 和 f 1分别称为解码器和编码器，因为它们构成了一个变分自编码器（VAE）。我们将 f 2称为分类器，因为它将潜在特征分类为 K 类之一。03.2. 使用图嵌入的VAE0图嵌入[40, 28, 2, 13, 16, 29,27]旨在找到保持样本相似性图中顶点对之间相似关系的低维特征。通常情况下，在图嵌入中，训练样本 { x n }被视为相似图的顶点，该图由相似性矩阵 W表示。最优特征 { z � n } 通过以下方式找到 [40]0{z�n} = arg min ZZT = I0N个0i =10j =1 wij ∥zi − zj∥22 (9)0其中Z = [z1,...,zN]，wij表示W的(i,j)元素。约束ZZT =I用于避免平凡解。从(9)可以看出，如果样本在图上相连，则它们的特征将彼此接近。这启发我们，如果两个样本在图上相连，则它们应该具有相似的潜在特征和聚类分配。正如我们所讨论的，在我们的模型中，潜在特征和聚类分配是随机变量。因此，我们提出测量后验分布之间距离的方法。为此，我们提出在问题(8)中添加约束，并得到0maxφ,θ0N个0i =10�0� ln pθ(xi) −0j =1 wij d(qφ(z,c|xi),qφ(z,c|xj))0�0�0其中d(∙,∙)是衡量两个分布之间距离的度量。为了平衡每个训练样本的权重，我们进一步要求0j wij = 1.注意(10)在精神上与(9)相似，但是以随机方式制定特征之间的关系。此外，我们对特征之间的关系施加了约束(11)++64430图嵌入约束不仅适用于特征，还适用于聚类分配。这使得聚类结果相对于图具有平滑性。注意，与需要额外约束的传统方法不同，我们的模型通过强制特征能够重构原始数据来自动避免平凡解。选择d(∙,∙)对于所提出的方法起着关键作用。我们注意到选择合适的d(∙,∙)并不是一件容易的事情：潜在特征z和聚类分配c是相关的，并且它们的联合分布没有解析表达式，这使得大多数散度难以应用。在本文中，我们选择Jenson-Shannon (JS) 散度[9]，即0maxφ,θ0N个0i =10�0� ln pθ(xi) −0j =1 wij JS(qφ(z,c|xi),qφ(z,c|xj))0�0�0我们将展示在适当的放松后，(11)可以被解决。03.2.1 学习算法0在本小节中，我们讨论如何解决(11)。需要注意的是，qφ(z,c|xi)和qφ(z,c|xj)之间的JS散度没有闭式解。因此，最小化JS散度必须借助重参数化技巧，这将导致估计方差较大，因为后验qφ(z,c|x)与所有K个高斯分量相关。为了克服困难，我们不是直接最小化JS散度，而是最小化其变分上界。我们定义0G(φ,θ,xi,xj) = 102 KL(qφ(z,c|xi)||pθ(z,c|xi))02 KL(qφ(z,c|xj)||pθ(z,c|xi)) (12)0并注意到0G(φ,θ,xi,xj)0= JS(qφ(z,c|xi)||qφ(z,c|xj)) + KL(M||pθ(z,c|xi)) ≥JS(qφ(z,c|xi)||qφ(z,c|xj)) (13)0当 M = 12(qφ(z,c|xi)+qφ(z,c|xj)) 时，方程成立，当 M =pθ(z,c|xi) 时，方程也成立。我们得出结论，G(φ,θ,xi,xj) 是qφ(z,c|xi) 和 qφ(z,c|xj)之间JS散度的上界。因此，我们可以通过交替地最小化φ和θ来最小化上界G(φ,θ,xi,xj)，以减小JS散度和其上界之间的差距。具体来说，我们首先最小化G(φ,θ,xi,xj)关于θ的部分，以减小JS散度和其上界之间的差距。然后我们固定θ并最小化0G(φ, θ, xi,xj)相对于φ的梯度，以减小JS散度的值。接下来，我们将展示G(φ, θ, xi,xj)可以被吸收到对数似然函数中。对于训练样本xi，它的对数似然ln pθ(xi)可以分解为[4]0ln pθ(xi) = KL(qφ(z, c | xi) || pθ(z, c | xi))0+ Eqφ(z, c | xi)0� ln pθ(xi, z, c)0qφ(z, c | xi)0� (14)0令人惊讶的是，如果我们用qφ(z, c | xj)替换qφ(z, c |xi)（见补充材料中的推导），上述方程仍然成立，即0ln pθ(xi) = KL(qφ(z, c | xj) || pθ(z, c | xi))0+ Eqφ(z, c | xj)0� ln pθ(xi, z, c)0qφ(z, c | xj)0� (15)0对方程(14)和(15)求平均，我们有0ln pθ(xi) = G(φ, θ, xi, xj)02(L(θ, φ; xi) + L(θ, φ; xi, xj))(16)0其中0L(θ, φ; xi) = Eqφ(z, c | xi)0� ln pθ(xi, z, c)0qφ(z, c | xi)0� (17)0L(θ, φ; xi, xj) = Eqφ(z, c | xj)0� ln pθ(xi, z, c)0qφ(z, c | xj)0� (18)0j wij = 1，我们可以将目标函数重写为0maxφ,θ 1 20N �0i =10j =1 wij(L(θ, φ; xi) + L(θ, φ; xi, xj))(19)0目标函数(19)的直观解释是：对于样本xi，它不仅应该由自身的特征重构，还应该由xj的特征重构。这证实了[6, 30,32]的成功，其中使用了类似的策略，但没有提供解释。现在，我们根据提出的推断和生成模型评估目标函数(19)。根据变量的依赖关系，L(θ, φ; xi)可以重写为0L(θ, φ; xi)0= Eqφ(z | xi) qφ(c | z)0� ln pθ(xi | z) p(z | c)p(c)0qφ(z | xi) qφ(c | z)0� (20)0将(4)、(5)、(1)、(2)、(3)代入(20)，并应用+=Eqφ(z|xj)qφ(c|z)�ln pθ(xi|z)p(z|c)p(c)qφ(z|xj)qφ(c|z)�(25)≈D−K�k=1γjk)+Mπ∗i =argmax�Kk=1 πik=1�j∈Ωiwij(K̸�1∥xi64440通过重参数化技巧，L(θ, φ; xi)可以表示为0L(θ, φ; xi)0≈0d =1 xid log µxi | d + (1 − xid) log(1 −µxi | d)0−0k =1 γik0m =1 (log σ2k | m + ˜σ2i0σ2k | m + (˜µi | m − µk | m)20σ2k | m)0k =1 γik log πik0γik + 10m =1 (1 + log ˜σ2i | m)(21)0其中D是x的维度，µxi,xid是xi的第d个元素，�|m表示�的第m个元素，γik简化表示为q(ck = 1 | zi)。这里0µxi = g(zi; θ)(22)0zi = ˜µi + ˜σi ◦ � (23)0[˜µi, log(˜σ2i)] = f(xi, φ)(24)0其中 �是一个向量，其所有元素都是从正态分布中独立抽取的，并且“◦”表示逐元素乘积。类似地，L(θ, φ; xi, xj)可以重写为0L ( θ , φ ; x i , x j )0最终通过以下方式进行评估0L ( θ , φ ; x i , x j )0d =1 x i d log µ x j | d + (1 − x i d ) log(1− µ x j | d )0m =1 (log σ 2 k | m + ˜ σ0σ 2 k | m + ( ˜ µ j | m − µ k | m ) 20k =1 γ jk log π i0γ jk + 10m =1 (1 + log ˜ σ 2 j | m ) (26)0其中0µ x j = g ( z j ; θ ) (27)0z j = ˜ µ j + ˜ σ j ◦ � (28)0[ ˜ µ j , log( ˜ σ 2 j )] = f ( x j , φ ) (29)03.2.2 参数的更新0我们讨论了模型中参数的更新。参数{µk，σk}Kk =1使用小批量随机梯度下降进行更新，因为它们与所有的训练样本相关。0对于参数{πi}Ni =1，我们通过最大化（19）来优化它们。接下来，我们讨论πi的更新。将（21）和（26）代入（19），去除与πi无关的项，得到最优的πi如下0k =1 ( γ ik + γ jk ) ln π ik )(30)0其中πik表示πi的第k个元素，Ωi表示集合{j | wij ≠0}。使用拉格朗日乘子法[3]，可以更新πik如下0π ik =0j ∈ Ωi wij (γik + γjk) (31)03.3. 亲和矩阵的构建0与其他图嵌入方法类似，构建一个适当的亲和矩阵非常重要。一个典型的亲和矩阵选择是找到给定数据点的一组最近邻，并使用预定义的核函数计算它们的相似度。例如，使用高斯核函数，亲和矩阵的元素定义为0w ij =00，否则（32）0其中si是预定义的标量，N(xi)表示由xi的N个最近邻组成的集合，ai是使得�0为了使所提出的方法对不同数据集更加鲁棒，我们训练了一个Siamese网络[11,31]来衡量数据点之间的相似度。Siamese网络的详细信息可以在附录中找到。总之，我们引入了一种基于深度图嵌入的高斯混合变分自编码器用于聚类。我们在算法1中总结了我们提出的方法。04. 实验0我们进行实验来展示所提出方法的优越性。在我们的实验中，我们使用以下步骤初始化网络。首先，我们以去噪自编码器的贪婪逐层训练方式进行初始化，然后将它们堆叠成深度自编码器。然后，网络被训练为变分自编码器。在我们预训练网络之后，我们收集预训练网络学到的表示。我们使用K-means对这些表示进行聚类并生成伪标签，然后用这些伪标签训练分类器网络f2。高斯混合模型的均值使用K-means确定的聚类中心进行初始化，方差使用其无偏估计器进行初始化。64450图1.提出的方法和VaDE在具有不同聚类距离的2D示例上的结果。从左到右：欧氏空间中的训练数据，VaDE学到的潜在特征，VaDE的聚类结果，DGG（我们提出的方法）学到的潜在特征，DGG的聚类结果。与VaDE（基于模型）相比，将模型和相似性结合起来的我们的DGG有明显的改进。0算法1输入：训练样本{x_n}N_n=1，期望的聚类数K，批量大小m。输出：聚类索引{c_n}N_n=1和GMM的参数{µ_k,σ_k}K_k=1。1：根据欧氏距离或Siamese距离构建有向图，计算相似矩阵并形成训练元组； 2：while未收敛 do3：抽取一个小批量的训练元组{x_i, {x_j}j∈Ω_i}；4：计算q(z|x_i)和{q(z|x_j)}j∈Ω_i；5：根据(23)和(28)生成样本z_i和{z_i}j∈Ω_i。06：使用生成的样本评估(21)和(26)的目标函数。7：更新网络参数和{µ_k, σ_k}K_k=1；8：通过(31)更新π_i； 9：end while04.1. 合成数据0我们首先展示了所提出方法在合成数据上的有效性。我们生成了两类二维训练样本。每个类别包含2000个点，在数据空间中形成一个半圆。我们使用所提出的方法和VaDE对这些点进行聚类。对于所提出的方法，我们使用了编码器的网络结构为2-20-20-2，解码器的网络结构为2-20-20-2，分类器的网络结构为2-2。所有层都是全连接的。激活函数为ReLU。我们根据(32)选择了40个最近邻来构建相似矩阵。我们使用Adam优化器，初始学习率设为0.02，每10个epoch衰减因子为0.9。需要注意的是，为了公平比较，VaDE的网络架构和训练设置与我们提出的方法相同。图1显示了聚类结果和学到的潜在特征（均值）。0在具有不同类间距离的样本上，我们比较了各种方法的条件概率分布q(z|x)。从图1可以看出，我们提出的方法对于不同类间距离的情况都产生了有希望的聚类结果。另一方面，VaDE不能正确地对两个类进行聚类。在图形信息的辅助下，我们提出的方法即使两个聚类非常接近也能表现良好。从图1还可以观察到，我们提出的方法学到的潜在特征与坐标轴对齐。这是因为通过网络设计，潜在特征的后验分布被强制具有对角协方差矩阵。如果两个潜在分布（高斯分布）与坐标轴对齐，JS散度会减小。这个特性有助于学习训练样本的解耦表示。04.2. 真实世界数据0我们在真实数据上进行实验，评估了所提出的方法。我们使用了几个广为人知的数据集，包括MNIST、STL-10、Reuters和HHAR，其中MNIST和STL-10是图像数据集，Reuters是由单词的TF-IDF特征组成的数据集，而HHAR是一个传感器信号数据集。我们对MNIST中的图像进行向量化处理，并使用预训练的ResNet-50[12]对STL-10的特征进行减法处理。预处理后，MNIST包含10个类别的786维训练样本和每个类别7000个样本，STL-10包含10个类别的2048维训练样本和每个类别1300个样本，Reuters包含4个类别的2000维训练样本和总共10000个样本，HHAR包含10个类别的561维训练样本和总共10200个样本。我们将我们的方法与几种基于深度学习的聚类方法进行了比较，包括AE+GMM、DEC、IMSAT、VaDE、SpectralNet和LTVAE。对于我们提出的方法，我们使用了D-500-500-的网络结构。64460表1. 各种方法的聚类准确性0方法 MNIST STL-10 Reuters HHAR0AE+GMM 82.18 79.83 70.98 77.670DEC [37] 84.3 80.64 74.32 79.860IMSAT [14] 98.4 ± 0.4 94.1 ± 0.4 71.0 ± 4.9 -0VaDE [17] 94.46 84.45 79.83 84.460SpectralNet [31] 97.1 ± 0.1 - 80.3 ± 0.6 -0LTVAE [23] 86.30 90.00 80.96 85.000DGG (提出的方法) 97.58 ± 0.1 90.59 ± 0.2 82.3 ± 1.2 89.04 ± 0.10图2. 由提出的模型生成的图像和GMM中组件的估计方差。所有四个子图都是类似生成的。我们以左上角的子图为例。左边部分：通过从学习的GMM的一个高斯分量中对潜在编码进行采样生成的图像。第 i 行第 j列的图像是通过将 µ + 4 a j ( e i ◦ σ ) 输入解码器生成的，其中 µ 和 σ 是学习的高斯分量的均值和标准差，e i 是一个长度为 10 的向量，其所有元素都等于 0，但第 i 个元素等于 1，a j = -1 + ( j - 1) /7。右边部分：从上到下：第 i 行的条形图表示 σ 2 的第 i 个元素的振幅02000-10 用于编码器，10-2000-500-500-D用于解码器，10-L (L = 10) 或 10-L-L (L < 10)用于分类器，其中 D 表示训练样本的维度，L表示类别的数量。所有层都是全连接层，激活函数使用ReLU。我们通过从Siamese网络生成的100个最近邻中随机选择20个来使用(32)构建仿射矩阵。使用Adam优化器，初始学习率设置为0.02，每10个epoch衰减因子为0.9。参数λ分别设置为10、10、0.01，用于STL-10、Reuters和HHAR。我们注意到，提出的方法中使用的网络架构与VaDE和LT-VAE相同，以进行公平比较。我们使用聚类准确性来衡量各种方法的性能，即0定义为0ACC = max m0N n 1 { l n ) }0N (33)0其中 l n 和 c n 分别表示样本 x n的真实标签和算法生成的簇分配。m尝试所有可能的标签和簇之间的一对一映射。我们在表1中展示了各种方法在聚类准确性上的结果，并突出显示了前两个准确性得分。从表1中我们得到以下观察结果。1）对于MNIST和STL-10数据集，IM-SAT表现最好，而提出的方法产生了有竞争力的聚类准确性。对于路透社数据集，Ns013102030ACC94.8296.9897.3397.5297.5897.4964470提出的方法实现了最高的聚类准确性，并且大幅超过了IMAST。2）提出的方法明显优于VaDE。这支持我们的观点，即虽然提出的方法和VaDE都基于高斯混合模型框架，但提出的方法还利用了额外的图信息，因此优于VaDE。3）提出的方法优于SpectralNet，后者也利用了图信息。这是因为SpectralNet是一个两阶段的方法，首先使用具有相似性信息的网络学习潜在特征，然后使用k-means进行聚类。然而，我们提出的方法同时学习潜在特征并使用GMM进行聚类，使其优于SpectralNet。04.3. 生成样本0提出的方法的另一个优点是它可以自然地用于生成逼真的图像。更令人惊讶的是，如上所分析的，提出的方法学到的潜在特征趋向于与坐标对齐，这导致了高斯分量的某些坐标的方差收缩为零。这是因为GMM中高斯分量的协方差矩阵被强制为对角矩阵，因此方差 σ k的元素捕捉了相应坐标上潜在特征的扩展宽度。由于潜在特征被约束为能够重构原始样本，方差较小的坐标携带的聚类信息较少，而方差较大的坐标捕捉了聚类中图像的变化趋势。这为使用高斯分量的方差估计控制图像的因素数量提供了机会。为此，我们在MNIST数据集上训练我们的模型，并使用学到的高斯分量生成样本。我们在图2中绘制了我们模型的解码器生成的图像以及高斯分量的学习方差。从图2中，我们可以看到学习到的高斯分量的方差向量 σ k是稀疏的或近似稀疏的，这证实了我们的观点，即学到的特征与坐标对齐。从图2左上角的图像中，我们可以看到对于数字“1”，只有两个因素影响图像，即细度和旋转程度，而通过相同的坐标，这些因素也影响数字“0”、“7”和“8”。但除了细度和旋转程度之外，高斯分量的方差还反映了控制这些数字图像的其他因素，例如数字的宽度和高度。此外，该模型还能够识别图像的一些特定因素，例如数字“7”的角的锐度、数字“8”的上下圆的大小比例。这种能力在学习一个0表2. 不同邻居数量的聚类准确率0解缠表示.04.4. 邻居数量的影响0我们进一步研究了邻居数量对构建相似度矩阵的影响.相似度矩阵对于我们的模型至关重要.更多的邻居将涉及到额外的信息，有助于聚类，但也会增加包含不一致邻居的概率，这可能会误导聚类.表2显示了在MNIST上使用不同邻居数量（由N s表示）的提出方法的平均性能.从表2中我们可以看出，一旦涉及到图信息，提出的方法的性能立即显著提高，即使只涉及到少数邻居.同时，随着邻居数量的增加，聚类准确率不断提高，直到包含太多邻居为止.05. 结论0我们提出了一种用于聚类的图嵌入变分GMM.我们提出了随机图嵌入来对连接在图上的样本对施加正则化，以使它们具有类似的后验分布.相似性通过Jenson-Shannon(JS)散度来衡量，并推导出一个上界以实现高效学习.提出的方法优于基于深度模型的聚类和基于深度谱聚类.未来的工作将探索与GAN鉴别器的扩展[20, 34, 35].0致谢0本研究得到了新加坡国家研究基金会在其AI新加坡计划（奖项编号：AISG-100E-2018-005）的支持.该工作还得到了STElectronics和新加坡国家研究基金会（NRF）总理办公室的支持，该支持是在大学企业实验室计划下进行的（项目名称：STEE Infosec - SUTD企业实验室）.本工作得到了中国国家自然科学基金（Grant61871091）的部分支持. LinxiaoYang得到了中国国家留学基金委员会的支持.0参考文献0[1] Rakesh Agrawal, Johannes Gehrke, DimitriosGunopulos和Prabhakar Raghavan.高维数据的自动子空间聚类用于数据挖掘应用, 卷27. ACM, 1998.64480[2] Mikhail Belkin和Partha Niyogi.用于降维和数据表示的拉普拉斯特征映射. 神经计算,15(6):1373–1396, 2003. [3] Dimitri P Bertsekas.约束优化和拉格朗日乘子方法. 学术出版社, 2014. [4] ChristopherM Bishop. 模式识别和机器学习. springer, 2006. [5] DengCai和Xinlei Chen. 基于地标稀疏表示的大规模谱聚类.IEEE交易的网络, 45(8):1669–1680, 2015. [6] Dongdong Chen,Jiancheng Lv和Yi Zhang. 通过学习深度表示的无监督多流形聚类.在第31届AAAI人工智能大会的研讨会上, 2017. [7] NatDilokthanakul, Pedro AM Mediano, Marta Garnelo, MatthewCH Lee, Hugh Salimbeni, Kai Arulkumaran和MurrayShanahan. 用高斯混合变分自动编码器进行深度无监督聚类.arXiv预印本arXiv:1611.02648, 2016. [8] Richard O Duda, PeterE Hart和David G Stork. 模式分类. John Wiley & Sons, 2012. [9]Dominik Maria Endres和Johannes E Schindelin.一种新的概率分布度量. IEEE信息论交易, 2003. [10] CharlessFowlkes, Serge Belongie, Fan Chung和Jitendra Malik.使用Nystrom方法的谱分组. IEEE模式分析与机器智能交易,26(2):214–225, 2004. [11] Raia Hadsell, Sumit Chopra和YannLeCun. 通过学习不变映射进行降维.在2006年IEEE计算机视觉和模式识别大会(CVPR'06)上, 卷2,页1735–1742. IEEE, 2006. [12] Kaiming He, Xiangyu Zhang,Shaoqing Ren和Jian Sun. 用于图像识别的深度残差学习.在IEEE计算机视觉和模式识别大会的论文集中, 页770–778, 2016.[13] Xiaofei He和Partha Niyogi. 保持局部投影.在神经信息处理系统的进展中, 页153–160, 2004. [14] WeihuaHu, Takeru Miyato, Seiya Tokui, Eiichi Matsumoto和MasashiSugiyama. 通过最大化信息的自我增强训练学习离散表示.在第34届国际机器学习会议论文集中, 页1558–1567. JMLR. org,2017. [15] Anil K Jain, M Narasimha Murty和Patrick J Flynn.数据聚类: 一项综述. ACM计算调查(CSUR), 31(3):264–323, 1999.[16] Bo Jiang, Chris Ding, Bio Luo和Jin Tang. 图拉普拉斯PCA:闭式解和鲁棒性. 在IEEE计算机视觉和模式识别大会的论文集中,页3492–3498, 2013. [17] Zhuxi Jiang, Yin Zheng, HuachunTan,

下载后可阅读完整内容，剩余1页未读，立即下载