CO-SNE:双曲数据降维和可视化

7 浏览量更新于2023-10-26 收藏 18.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ter hyperbolic representation quality [10, 22].However,learning with two-dimensional hyperbolic space is preva-lent [10, 22]. One of the reasons is the ease of visualiza-tion. There are several isometrically equivalent models forrepresenting hyperbolic space. The Poincar´e ball model isarguably the most widely used model in hyperbolic repre-sentation learning [8,10,22]. With the Poincar´e ball model,we can easily visualize two-dimensional hyperbolic embed-dings within a unit Euclidean circle. However, to visualizehigh-dimensional hyperbolic data is not easy, as most visu-alization methods assume the data exist in Euclidean space.Embeddings in Poincar´e ball have two notable proper-ties: 1) The embeddings have a global hierarchical struc-ture. Root nodes are in the center of the ball and leaf nodesare close to the boundary of the ball. 2) The embeddingspossess a local similarity structure. Sibling nodes should beclose in the embedding space.t-SNE [30] is a popular visualization tool for visualiz-210CO-SNE：双曲数据的降维和可视化0郭云辉郭浩然郁斯拉 UC Berkeley / ICSI0摘要0双曲空间可以自然地嵌入实际数据和语义中经常存在的层次结构。虽然高维双曲嵌入可以得到更好的表示，但由于高维双曲数据的优化和可视化非常复杂，大多数双曲模型使用低维嵌入。我们提出了CO-SNE，将欧几里得空间的可视化工具t-SNE扩展到双曲空间。与t-SNE类似，CO-SNE将数据点之间的距离转换为联合概率，并试图最小化高维数据X和低维嵌入Y之间的Kullback-Leibler散度。然而，与欧几里得空间不同，双曲空间是不均匀的：一个体积可能包含远离原点的许多点。因此，CO-SNE使用双曲正态分布来表示X，使用双曲柯西分布来表示Y，而不是t-SNE中的学生t分布，并且还寻求保持X到原点的各自距离在Y中。我们将CO-SNE应用于自然双曲数据和有监督学习的双曲特征。我们的结果表明，CO-SNE将高维双曲数据压缩到低维空间中，同时保持其双曲特性，明显优于PCA、t-SNE、UMAP和HoroPCA等流行的可视化工具，这些工具也适用于双曲数据。01. 引言0具有层次结构的数据集是无处不在的。社交网络[9]和复杂网络[1]是层次数据的典型例子。欧几里得空间无法在不失真的情况下嵌入这种层次数据中的实体。双曲空间是一种具有恒定负曲率的非欧几里得空间，因此被广泛用于嵌入层次数据，因为双曲度量可以近似树度量。因此，双曲空间已被用于词嵌入[22]（图1）和视觉输入[12, 17]的表示学习。还有一些算法直接在双曲空间上操作[5, 6,31]。更高的嵌入维度通常可以提供更好的双曲表示质量[10,22]。然而，使用二维双曲空间进行学习是普遍的[10,22]。其中一个原因是易于可视化。表示双曲空间的几个等距模型。Poincaré球模型可以说是最广泛使用的双曲表示学习模型[8, 10,22]。使用Poincaré球模型，我们可以在单位欧几里得圆内轻松可视化二维双曲嵌入。然而，要可视化高维双曲数据并不容易，因为大多数可视化方法假设数据存在于欧几里得空间中。Poincaré球中的嵌入具有两个显著特点：1）嵌入具有全局层次结构。根节点位于球的中心，叶节点靠近球的边界。2）嵌入具有局部相似性结构。兄弟节点在嵌入空间中应该靠近。t-SNE[30]是一种常用的可视化工具，用于可视化0图1.我们的CO-SNE方法在保持全局层次结构和局部相似性的同时，对高维双曲表示进行降维。我们在五维双曲空间中生成WordNet中哺乳动物子树的Poincaré嵌入[22]。我们将标准t-SNE[30]、最近提出的HoroPCA[4]和我们提出的CO-SNE方法应用于在二维欧几里得空间（在t-SNE中）或双曲空间（在HoroPCA和CO-SNE中）中可视化嵌入。CO-SNE在二维嵌入中保持了全局层次结构（根节点位于中心，叶节点靠近边界）和局部相似性（兄弟节点靠近）。220t-SNE是一种用于可视化高维欧几里得数据的常用工具。然而，t-SNE无法保持双曲嵌入的全局层次结构。HoroPCA [4 ]最近被提出作为双曲空间上PCA的扩展。然而，HoroPCA无法保持双曲嵌入的局部相似性。在本文中，我们提出了CO-SNE，它可以在低维双曲空间中保持高维双曲嵌入的全局层次结构和局部相似性（ 1 ）。在图 1中，通过Poincar´e嵌入 [ 22 ]，将WordNet [ 20 ]中的哺乳动物子树嵌入到五维双曲空间中。我们使用t-SNE[ 30 ]，HoroPCA [ 4 ]和CO-SNE将嵌入可视化到二维空间中。CO-SNE可以很好地保持数据的结构。在CO-SNE中，为了保持局部相似性结构，我们采用与标准t-SNE相同的思想，最小化高维相似性和低维相似性之间的KL散度。我们采用双曲版本的正态分布和柯西分布来计算相似性。为了保持全局层次结构，我们采用了一个距离损失函数，该函数旨在保持高维双曲嵌入到低维双曲空间中原点的个体距离。总之，我们的工作有以下贡献：0•我们提出了CO-SNE，可以在低维双曲空间中表示高维双曲数据点，同时保持局部相似性和全局层次结构。0•我们提出使用双曲柯西分布来计算低维相似性，这对于在双曲空间中产生良好的可视化结果至关重要。0•我们将CO-SNE应用于可视化合成双曲数据、分层生物数据集和由监督和无监督学习方法学习到的双曲嵌入，以更好地理解高维双曲数据。在所有情况下，CO-SNE的可视化效果都比基线方法好得多。02. 相关工作0在双曲空间中，通过将距离函数从欧几里得距离改变为双曲距离，提出了大边界分类 [ 5]。在双曲空间中，还提出了鲁棒大边界分类 [ 31]，并且对于学习双曲分类器有了第一个理论保证。双曲神经网络（HNNs）[ 6]将多项式逻辑回归（MLR）、全连接层和循环神经网络重写为双曲嵌入。0通过陀螺向量空间操作 [ 29 ]进行dings。在后续的工作中，Hyperbolic NeuralNetworks++ [ 27 ]引入了双曲卷积层。通过将注意力操作扩展到双曲空间，提出了双曲注意力网络 [ 7 ]，其方式类似于 [ 6]。通过改变图神经网络（GNNs） [ 33 ]的几何形状到双曲空间，进一步提出了双曲图神经网络 [ 16]。双曲神经网络也被用于视觉输入，并在诸如少样本分类和人物再识别等任务上取得了比欧几里得神经网络更好的结果[ 12]。最近还提出了在双曲空间中的无监督学习方法。提出了在双曲空间中嵌入单词和关系的Poincar´e嵌入 [ 22 ]。[ 21]提出了在双曲空间中称为包裹正态分布的正态分布的广义版本。所提出的包裹正态分布被用作构建双曲变分自动编码器（VAEs） [ 13 ] 的潜在空间。类似的思想也被采用在 [ 17 ]中构建Poincar´eVAEs。通过分层三元组损失在双曲空间中实现了无监督的3D分割 [ 10 ] 和实例分割 [ 32]。数据可视化是生成每个高维数据点的低维表示的过程。良好的可视化应该保持高维空间中呈现的数据的有趣结构。t-分布随机邻居嵌入（t-SNE）[ 30 ]可能是最广泛使用的数据可视化工具。t-SNE试图在低维空间中保持高维数据点的局部相似性。最近，提出了UMAP [18 ]作为一种流形学习技术，用于降维和可视化。与t-SNE相比，UMAP可以更好地保持高维数据的全局结构。降维方法也可以用于数据可视化。主成分分析（PCA [ 11 ]是一种常用的降维技术。PCA旨在在低维空间中保持最大量的信息变化。Isomap [ 28 ]是一种非线性降维方法，试图保持局部结构。LLE [ 26 ]是另一种常用的非线性降维方法，可以生成高维数据的邻域保持嵌入。值得注意的是，目前没有任何现有的数据可视化方法用于可视化高维双曲数据。我们提出的CO-SNE方法可以用于可视化高维双曲嵌入。03. CO-SNE0我们提出了CO-SNE方法，可以在低维双曲空间中忠实地表示高维双曲数据。在第3.1节中，我们重新介绍了该方法。neighbors are picked in proportion to the probability densityof a distribution centered at that point. t-SNE deﬁnes theconditional probability pj|i, the probability that the pointxi will pick a point xj as its neighbor, using a normal dis-tribution centered at the point xi. t-SNE then deﬁnes thepi j+pj i̸̸230图2.随着移动到Poincar´e球边界，欧几里得距离和双曲距离的比较。0查看双曲空间的Poincar´e球模型的基础知识。在第3.2节中，我们回顾了t-分布的随机邻域嵌入（t-SNE）。在第3.3节和第3.4节中，我们介绍了双曲版本的正态分布和学生t-分布。在第3.5节中，我们讨论了使用双曲学生t-分布计算低维相似性的问题，并提出使用双曲柯西分布。在第3.6节中，我们提出了维护全局层次结构的距离损失。在第3.7节中，我们介绍了CO-SNE的优化细节。03.1. 双曲空间的Poincar´e球模型0双曲空间是具有恒定负曲率的黎曼流形。有几种等距等价模型用于表示双曲空间。Poincar´e球模型是最常用的双曲表示学习模型之一[6,22]。n维Poincar´e球模型定义为(Bn,gx)，其中Bn={x∈Rn:∥x∥<1}，gx=(γx)2In是黎曼度量张量，γx=201−∥x∥2是共形因子，In是欧几里得度量张量。给定两个点u∈Bn和v∈Bn，它们之间的双曲距离定义为：0dBn(u,v)=arcosh(1+2∥u−v∥2)0(1−∥u∥2)(1−∥v∥2)0� (1)0其中arcosh是反双曲余弦函数，∥∙∥是通常的欧几里得范数。与欧几里得距离不同，随着点向Poincar´e球边界移动，双曲距离呈指数级增长，如图2所示。03.2. t-SNE0t-SNE[30]首先将高维数据点之间的距离映射为相似性值。相似性值是基于一个点选择另一个点作为其邻居的概率的条件或联合概率。0作为一种增加异常点成本贡献的方法，条件概率密度pj|i为：0pj|i=exp(−d(xi,xj)2/2σ2i)∑k�=iexp(−d(xi,xk)2/2σ2i) (2)0其中d(xi,xj)是xi和xj之间的距离。在低维空间中，使用学生t-分布来建模嵌入之间的联合概率分布Q，qij定义为：0qij=(1+d(yi,y0�0k�=l(1+d(yk,yl)2)−1 (3)0其中yi是xi的相应低维嵌入。在t-SNE中，为了保持局部相似性，要最小化的成本函数是概率分布P和Q之间的Kullback-Leibler散度：0C=KL(P||Q)=�0i0jpij log pij0qij (4)0t-SNE的一个直接扩展是用双曲正态分布和双曲t-分布替换欧几里得版本的正态分布和学生t-分布。我们将这样的直接扩展称为HT-SNE。在第3.3节和第3.4节中，我们展示了如何将这些分布推广到双曲空间。03.3. 双曲正态分布0为了在高维双曲空间中定义条件概率，我们需要将正态分布推广到双曲空间。一种自然的推广被称为黎曼正态分布，它是在给定期望和方差的情况下的最大熵概率分布[25]。给定Fr´echet均值µ∈Bnc和离散参数σ>0，黎曼正态分布定义为：0NBn（x |µ，σ2）= 10Z exp（−dBn（µ，02σ2）（5）0其中Z是归一化常数。在双曲线空间中还有其他正态分布的推广[17]。为了简单起见，我们使用黎曼正态分布。因此，我们将黎曼正态分布称为双曲线正态分布。f(t; t0, γ) = 1πγ [γ2dBn(t, t0)2 + γ2 ](9)where γ is the scale parameter. Notice that the Student’st-distribution is a special case of Cauchy distribution withγ = 1.0. With a small γ, Cauchy distribution has a higherpeak (Figure 3 (a)).Thus, if the high-dimensional dat-apoints are modeled with close low-dimensional embed-dings, the density value is much larger than the correspond-ing density in the high-dimensional space. This produces240a）正态分布和柯西分布b）t-SNE c）HT-SNE d）CO-SNE0图3. HT-SNE中的双曲线学生t分布不具有重尾特性，导致强烈的吸引力。a）双曲线正态分布的概率密度函数，γ = 0.1的双曲线柯西分布和γ= 1.0的双曲线柯西分布。双曲线学生t分布（γ =1.0）不具有重尾特性。b）标准t-SNE的梯度作为低维和高维欧几里得距离的函数。c）HT-SNE的梯度作为低维和高维双曲线距离的函数。d）CO-SNE的梯度作为低维和高维双曲线距离的函数。当不相似的高维数据点被投影得很近时，存在强烈的斥力。03.4. 双曲线学生t分布0定义学生t分布的一种方法是将随机变量t表示为，0t = u 0v / n（6）0其中u是从标准正态分布中采样的随机变量，v是从n自由度的χ2分布中采样的随机变量。特别地，t-SNE采用自由度为1的学生t分布，其概率密度函数定义如下，0f（t；t0）0π（1 +（t−t0）2）（7）0为了将学生t分布扩展到双曲线空间，我们推导出概率密度函数，如下所示，0fBn（t；t0）0π（1 + dBn（t，t0）2）（8）0详细信息可以在补充材料中找到。03.5. 双曲线t分布不足以解决问题0在标准t-SNE中使用学生t分布的动机是学生t分布的尾部比正态分布更重。这导致不相似的高维数据点之间存在斥力，有助于缓解“拥挤问题”[30]。然而，双曲线学生t分布并不具有重尾特性，因为双曲线距离增长得非常快。图3绘制了双曲线正态分布和双曲线学生t分布。可以注意到，双曲线学生t分布的尾部与双曲线正态分布一样快地减小。相比之下，标准欧几里得学生t分布的尾部比0正态分布。其结果是，使用双曲线学生t分布的斥力和吸引力与使用欧几里得学生t分布的行为截然不同。类似于[30]，我们绘制了两个低维嵌入yi和yj之间的梯度，作为它们在低维欧几里得（双曲线）空间中的成对欧几里得（双曲线）距离的函数，以及对应数据点在高维欧几里得（双曲线）空间中的成对欧几里得（双曲线）距离。正值表示吸引力，负值表示斥力，分别表示嵌入yi和yj之间的关系。在这里，我们只考虑所有低维嵌入都接近的初始阶段。结果如图3所示。我们有两个观察结果。首先，对于标准t-SNE，当不相似的高维数据点被投影得很近时，存在强烈的斥力。其次，在HT-SNE中，使用双曲线学生t分布时，几乎没有斥力，这导致低维嵌入倾向于聚集在一起。为了解决这个问题，我们试图将双曲线学生t分布替换为创建更多不相似高维数据点之间的斥力。考虑到双曲线柯西分布，其具有概率密度函数，MetricHigh/low-dimensional Dist.Lossest-SNEEuclideanNormal/t-distributionKL-divHT-SNEHyperbolicNormal/t-distributionKL-divCO-SNEHyperbolicNormal/CauchyKL-div + DistanceTable 1.Our CO-SNE extends t-SNE by adopting hyperbolicnormal distribution and hyperbolic Cauchy distribution.Com-pared with t-SNE, CO-SNE assumes the high-dimensional andlow-dimensional space are hyperbolic. t-SNE cannot maintain theglobal hierarchy of the hyperbolic embeddings. Compared withHT-SNE, CO-SNE adopts hyperbolic Cauchy distribution and anadditional distance loss. HT-SNE cannot push dissimilar high-dimensional points away in the low-dimensional space.a strong repulsion when dissimilar high-dimensional dat-apoints are modeled with close low-dimensional embed-dings. More details can be found in the Supplementary. Weshow the corresponding gradients in Figure 3 (d). We canobserve that there is a strong repulsion force when high-dimensional dissimilar datapoints are projected closely inCO-SNE. Such repulsion is particularly important in theinitial stage of training since all the low-dimensional em-beddings are close.3.6. Distance LossHyperbolic space can be naturally used for embeddingtree structured data. The datapoint which is close to the cen-ter of the Poincar´e ball can be viewed as the root node anddatapoints which are close to the boundary of the Poincar´eball can be viewed as leaf nodes. The criterion of t-SNEcannot preserve the tree-structure of the high-dimensionaldatapoints in the low-dimensional space. One natural wayto characterize the level of the datapoint in the underly-ing tree is the norm of the datapoint. Thus, we attemptto keep the norm invariant after the high-dimensional data-point is projected. This leads to the following loss functionwhich minimizes the difference between the norms of thehigh-dimensional datapoint xi and the corresponding low-dimensional embedding yi,H = 1mm�i=1(∥xi∥2 − ∥yi∥2)2(10)With the distance loss, we can preserve the global hierarchyof the high-dimensional hyperbolic embeddings.3.7. Optimization of CO-SNECriterion. The criterion of CO-SNE is composed of theKL-divergence for maintaining local similarity and the dis-tance loss for maintaining the global hierarchy,L = λ1C + λ2H(11)where λ1 and λ2 are hyperparameters. Table 1 shows acomparison of t-SNE, HT-SNE and CO-SNE.Gradients. The cost function is optimized by gradient de-scent with respect to the low-dimensional embeddings. Thegradient of the KL-divergence C with respect to yi is givenby,δCδyi=�jδCδdBn(yi, yj)δdBn(yi, yj)δyi= 2�j(pij − qij)(1 + dBn(yi, yj)2)−1 δdBn(yi, yj)δyi(12)The partial gradient of the distance with respect to the lowdimensional embedding yi is given byδdBn250δ yi = 40β �0γ 2 − 10� || yj || 2 − 0α 2 yi − yj0α0�0（13）其中α = 1 − || yi || 2，β = 1 − || yj || 2，γ = 1 +2αβ || yi − yj ||2。我们使用黎曼随机梯度下降[3]来计算KL散度C的梯度。距离损失H对yi的梯度计算如下，0δ H δ yi = − 4( ∥ xi ∥ 2 − ∥ yi ∥ 2 ) yi(14)0我们在每次更新后将嵌入限制在Poincar´e球上，就像[22]中一样。分阶段训练。我们发现以下训练策略在实践中有助于产生更好的可视化效果。我们仅使用局部相似性损失训练低维嵌入的前500次迭代。然后我们添加距离损失。停止准则与t-SNE[30]相同。该策略的原因是当点接近Poincar´e球的边界时，很难移动这些点。04. 实验与结果0基线。我们将CO-SNE与4个基线进行比较，0•标准t-SNE[30]：这是标准的t-SNE，它在高维空间和低维空间中使用欧氏距离计算相似性。0•主成分分析（PCA）[11]：PCA是一种常用的降维方法，试图保持数据的最大变化。然而，作为线性降维方法，PCA不能以有意义的方式将高维数据降到二维[2]。0•HoroPCA[4]：HoroPCA是最近在双曲空间上提出的PCA的扩展。HoroPCA提出了通过理想点参数化测地子空间的方法。UMAPPCAt-SNEHoroPCAHT-SNECO-SNE260Poincar´e球。HoroPCA还将PCA的投影概念和目标函数推广到双曲空间。HoroPCA既可以用作双曲数据的数据白化方法，也可以用作可视化方法。0•UMAP[18]：UMAP是一种最近提出的基于黎曼几何和拓扑的降维和可视化方法。UMAP与t-SNE竞争，并且可以更好地保持数据的全局结构。0任务。我们考虑4个数据集来验证CO-SNE的有效性：1）从混合双曲正态分布中采样的合成数据集，2）细胞分化数据，3）监督双曲嵌入和4）无监督双曲嵌入。实现细节。对于PCA和标准t-SNE，我们使用[24]中的实现。对于UMAP，我们使用[19]中的实现。对于HoroPCA，我们使用原始作者提供的https://github.com/HazyResearch/HoroPCA中的实现。我们基于t-SNE实现了CO-SNE，修改了计算相似性和优化过程的方式。超参数。对于PCA、UMAP和HoroPCA，我们使用默认的超参数。对于基于SNE的方法，我们使用均值为0.01，方差为1的正态分布初始化低维嵌入。训练遵循[24]中的标准设置。对于CO-SNE，缩放参数γ设置为0.1。超参数λ1通常设置为10.0，超参数λ2通常设置为0.01。04.1. 合成点簇0我们首先使用合成数据集来验证CO-SNE的有效性。我们在5D双曲空间中随机生成了5个包含20个点的点簇。每个点簇都遵循一个具有单位方差和位于不同轴上的均值的双曲正态分布。第一个和第二个均值接近原点，分别位于[0.1, 0, 0, 0,0]和[0, -0.2, 0, 0,0]，而第三个和第四个均值远离原点且等距离，分别位于[0,0, 0.9, 0, 0]和[0, 0, 0, -0.9,0]。最后一个均值正好位于原点[0, 0, 0, 0,0]。图4展示了这些5D点通过不同方法的2D可视化结果。与基线方法相比，CO-SNE产生了更好的可视化效果。使用CO-SNE，投影到二维双曲嵌入可以很好地保持高维数据点的局部相似性结构和全局层次结构。此外，CO-SNE可以防止高维数据点被投影得太近，这在基于欧氏距离的方法中经常发生。注意，HT-SNE没有。0图4.使用不同方法在二维空间中投影高维双曲数据点的结果。CO-SNE生成了保留高维双曲数据的层次结构和相似性的二维双曲嵌入。0没有足够的排斥力将接近的低维嵌入分开。我们对每个基准方法在可视化高维双曲数据点方面的缺点进行了详细分析。0•标准t-SNE：在高维空间中使用欧氏距离计算相似性。双曲距离增长速度比欧氏距离快得多。对于靠近Poincar´e球边界的高维双曲数据点，标准t-SNE错误地低估了它们之间的距离。因此，标准t-SNE会将不相似的高维数据点视为邻居。得到的低维嵌入会坍缩成一个点，导致可视化效果差。总之，t-SNE无法保持双曲数据的全局层次结构。0•PCA和HoroPCA：如上所述，PCA和HoroPCA是线性降维方法，通常不适用于在二维空间中进行可视化。PCA和HoroPCA都不能保持双曲数据的局部相似性。0•UMAP：UMAP与t-SNE存在相同的问题，因为在计算高维相似性时使用欧氏距离。0我们主要将CO-SNE与HoroPCA进行比较，因为HoroPCA是专门为双曲数据设计的。b) HoroPCAc) CO-SNEa) HoroPCAb) CO-SNEHyperbolic space has been used to embed hierarchicalrepresentations of symbolic data. In [22], the authors adopthyperbolic space for embedding taxonomies, in particular,the transitive closure of WordNet noun hierarchy [20]. Asshown in [22], higher-dimensional hyperbolic embeddingsoften lead to better representations, but they are harder to vi-sualize. Following [22], we embed the hypernymy relationsof the mammals subtree of WordNet in hyperbolic space.We use the open source implementation provided by [22]to train the ten-dimensional embeddings. We use HoroPCAand CO-SNE to visualize the learned embeddings in a two-dimensional hyperbolic space.Figure 6 shows that compared with HoroPCA, CO-SNEcan better preserve the hierarchical and similarity struc-ture of the high-dimensional datapoints. For example, theword feline and canine are close to canivore in the CO-SNE embeddings, which is not the case in HoroPCA. Theembeddings produced by CO-SNE also more resemble thetwo-dimensional embeddings as shown in Figure 2b of [22].270a) 经典造血细胞谱系树 [14]0图5.CO-SNE比HoroPCA更好地可视化了高维生物数据点，捕捉了数据中的层次结构和相似性。04.2. 生物数据集0生物数据可以揭示自然发生的层次结构，例如单细胞RNA测序数据[14]。在[14]中，他们分析了细胞分化数据，即未成熟细胞向特定类型细胞的转变过程。未成熟细胞可以看作是树的根，并且可以分支成几种不同类型的细胞，形成不同状态的细胞的层次结构，表示转变过程中的不同进展状态。我们从[14]中采用的一个数据集是由[23]提供的小鼠骨髓造血数据集，其中包含532个细胞，分为9种类型。其中两种类型，HSPC-1和HSPC-2，形成了层次结构的根，而巨核细胞（Meg）、红细胞（Eryth）、单核树突前体细胞（MDP）、单核细胞（Mono）和髓细胞（myelocytes和metamyelocytes）类型的细胞离根更远。粒细胞（Gran）是髓细胞的前体，多线ageprimed（Multi-Lin）细胞处于中间状态。原始数据具有382个维度（带有噪声），与[14]一样，我们首先通过PCA将其降低到20个维度以减少噪声。然后，我们将数据缩放到适应Poincar´e球内，并运行CO-SNE和HoroPCA生成二维双曲嵌入。需要注意的是，该数据集没有居中。结果如图5所示。0图6. CO-SNE比HoroPCA更好地可视化了高维Poincar´e词嵌入。0CO-SNE提出的低维嵌入捕捉到原始数据中的层次结构。04.3. 层次词嵌入04.4. 双曲神经网络的特征0我们将CO-SNE应用于可视化由双曲神经网络生成的用于监督图像分类的嵌入。我们在MNIST数据集上训练了一个具有特征剪裁的双曲神经网络（HNN）[6]，剪裁值为1.0，特征维度为64。我们使用HoroPCA和CO-SNE将特征的维度降低到二维。无法使用完整的MNIST测试集280a）HoroPCA b）CO-SNE0图7.CO-SNE比HoroPCA更好地可视化了双曲神经网络（HNNs）的特征。a）HoroPCA生成的可视化结果。b）CO-SNE生成的可视化结果。在CO-SNE中，类别之间有很好的分离并且具有明确的层次结构。0a）HoroPCA b）CO-SNE0图8. CO-SNE比HoroPCA更好地可视化了Poincar´eVAE编码器生成的高维潜在空间表示。a）HoroPCA生成的二维潜在Poincar´e嵌入。b）CO-SNE生成的二维潜在Poincar´e嵌入。CO-SNE能够捕捉到高维潜在表示的层次结构和聚类结构，而HoroPCA则不能。0由于HoroPCA的内存不足问题，所以对于每个类别，我们随机抽样100张图像。图7显示了HoroPCA和CO-SNE生成的二维嵌入。CO-SNE生成的可视化结果明显优于HoroPCA生成的可视化结果。在CO-SNE中，类别之间有很好的分离并且具有明确的层次结构。我们还在冻结的二维特征上训练了双曲分类器[6]。我们使用学习率为0.001，训练轮数为10。HoroPCA生成的特征的准确率为30.2%，而CO-SNE生成的特征的准确率为61.2%。这意味着CO-SNE生成的低维特征更加分离并且符合原始高维嵌入的结构。05. Poincar´e VAE的潜在空间0变分自编码器（VAEs）[13]是一种常用的无监督学习方法。标准VAEs假设潜在空间是欧几里得空间。[17]通过假设潜在空间是双曲空间来扩展VAEs。与标准VAEs不同，Poincar´eVAEs可以更有效地嵌入树状结构。为了使用CO-SNE来可视化Poincar´eVAEs的潜在空间，我们在MNIST[15]上训练了一个潜在维度为五的Poincar´eVAE，遵循[17]的方法。我们进一步使用编码器生成了1000个随机抽样图像的潜在空间表示。图8显示了HoroPCA和CO-SNE生成的可视化结果。显然，CO-SNE比HoroPCA产生了更好的可视化效果。特别是，我们可以很容易地观察到潜在空间中的层次结构和聚类结构，在HoroPCA生成的可视化结果中完全扭曲了。因此，CO-SNE可以用于理解Poincar´eVAEs的潜在空间，并促进更好的无监督双曲学习方法的发展。05.1. 讨论0CO-SNE可以用于在二维双曲空间中可视化双曲数据点，同时保持局部相似性和层次结构。CO-SNE仍然存在与t-SNE相同的弱点。特别是作为降维的一般方法，内在维度的诅咒和非凸性问题，请参见[30]以获取更多细节。在补充材料中可以找到更多的消融和结果。特别是，我们研究了平衡KL散度和距离损失的超参数对结果的影响。06. 总结0我们提出了CO-SNE，可以用于在二维双曲空间中可视化双曲数据。我们在双曲空间中使用正态分布和柯西分布的广义版本来计算高维和低维的相似性。我们将CO-SNE应用于可视化合成双曲数据、生物数据和由监督和无监督表示学习方法学习到的嵌入。CO-SNE产生比几种流行的可视化方法更好的可视化效果。致谢。本工作部分得到了伯克利深度驱动和国家科学基金会(NSF)的支持，资助号2131111。本材料中表达的任何观点、发现和结论或建议均为作者个人观点，不一定反映NSF的观点。[2] Sanjeev Arora, Wei Hu, and Pravesh K Kothari. An analysisof

下载后可阅读完整内容，剩余1页未读，立即下载