嵌套双曲空间降维与双曲神经网络设计

70 浏览量更新于2023-10-25 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

356嵌套双曲空间降维与双曲神经网络设计佛罗里达大学统计部fanxiran@ufl.edu国立台湾大学应用数学科学chunhaoy@ntu.edu.tw巴巴角佛罗里达大学佛罗里达分校vemuri@ufl.edu摘要双曲神经网络由于其能够有效地表示分层数据集而在最近受到欢迎开发这些网络的挑战在于嵌入空间即双曲空间的非线性。双曲空间是洛伦兹群的齐次黎曼流形，洛伦兹群是半黎曼流形，即配备有不定度量的流形。大多数现有的方法（有一些例外）使用局部线性化来定义各种操作，这些操作与欧几里德空间中的深度神经网络中使用的操作并行。在本文中，我们提出了一种新的全双曲神经网络，它使用的概念，投影（嵌入），其次是一个内在的聚合和非线性都在双曲空间。这里的新颖性在于投影，其被设计为将数据投影到低维嵌入双曲空间上，并且因此导致独立地用于降维的嵌套双曲空间表示。主要的理论贡献是证明了所提出的嵌入在双曲空间中的自然等距变换Lorentz变换下是等距的和等变的该投影在计算上是有效的，因为它可以通过简单的线性运算来表示，并且由于上述等方差性质，它允许权重共享。嵌套双曲空间表示是我们网络的核心组成部分，因此，我们首先将这种表示-独立于网络-与其他降维方法（如切线PCA，主测地线分析（PGA）和HoroPCA）进行比较基于这种等变嵌入，我们开发了一种新的全双曲图卷积神经网络结构来学习投影的参数。最后，我们提出的实验证明我们的网络在几个公开的数据集上的比较性能。1. 介绍双曲几何是非欧几里德几何的一个有着数百年历史的领域，并且最近已经进入机器学习领域，特别是以双曲神经网络（HNN）或双曲图卷积网络（HGCN）的形式进入深度学习，在本文中，我们将讨论这两个问题，即双曲空间的降维特别是，我们将提出这两个问题的新技术。在下文中，我们对上述两个问题进行了文献综述，并建立了我们工作的动机。关于术语学，我们将在本文的其余部分中同义地使用术语双曲神经网络和双曲图（卷积）神经网络。1.1. 流形值数据的离散性约简简化是机器学习中的一个基本问题，在计算机视觉和许多其他工程和科学领域都有应用。其中最简单和最流行的方法是一个多世纪前提出的主成分分析（PCA）（见[22]关于PCA的综述和一些最新进展）。然而，PCA仅限于向量空间中的数据。对于流形值的数据，[10]中提出了主测地分析（PGA），它通过内在（Fre′chet）平均（FM）将数据投影到主测地子流形上。[11]数据（假设它存在）。他们找到了最大化投影方差的较低维度的测地线子流形，并且在计算上，这是通过线性近似实现的，即，对锚定在FM处的切线空间应用PCA。这有时被称为正切PCA（tPCA）。然而，这种近似要求数据围绕FM聚集，否则对流形的切空间近似导致357−×≪图1.使用不同的降维方法将数据从2D投影到1D双曲空间。结果显示在庞加莱圆盘中。原始数据（蓝点）位于2D双曲空间中，平均值为零（庞加莱圆盘的HoroPCA方向（红色虚线）和通过tPCA（橙色虚线）和EPGA（纯点划线）获得的主测地线未能捕获数据的主要趋势，因为它们被限制为学习通过FM的测地线子流形相比之下，我们的NH模型（绿色实线）更准确地捕捉数据趋势。每条线上的菱形标记表示每种方法的重建数据。在该示例中，HoroPCA、tPCA、EPGA和NH模型的重构误差分别为0.1708、0.1202、0.1638和0.0062不准确随后，[42]提出了精确PGA（EPGA）算法，该算法不使用任何线性近似。然而，EPGA在计算上是昂贵的，因为它每次迭代需要两个非线性优化步骤（投影到测地子流形并找到新的测地方向，使得重建误差最小化）。后来，作者在[4]中通过导出投影的封闭形式公式，发展了常截面曲率流形，即超球面和双曲空间的PGA有许多变体，我们请读者参考[1，21，48]了解详细信息。最近，重心子空间分析（BSA）在[36]中提出，它通过最小化无法解释的方差找到了一个更一般的嵌套子流形序列的另一个有用的降维方案是主曲线[18]及其对黎曼流形的推广[19]，它们更适合于某些应用。PCA的一个显著特征是它产生嵌套的线性关系，耳子空间，即，降维主子空间形成嵌套层次。这个想法在 [23] 中得到了利用，其中作者提出了通过将（n1）-球面嵌入到n-球面中的主嵌套球面（PNS），但是嵌入不一定是等距的。因此，PNS比PGA更一般，因为PNS不必是测地线。类似地，对于（n-n）对称正定（SPD）矩阵的流形Pn，作者在[17]中提出了一种新的方法.提出了一种几何感知的降维方法，将Pn上的数据投影到Pm上， n. 最近，在[47]中提出了构造流形的嵌套序列的想法，其中作者将嵌套概念统一并推广到一般的黎曼齐次流形，这形成了一大类黎曼流形，包括超球面，Pn，格拉斯曼流形，Stiefel流形，李群等。虽然[47]中的一般框架看起来很简单，适用于双曲空间，但许多重要的技术方面需要详细讨论和推导。本文给出了适用于双曲空间的新的导子--一个投影算子，证明了它产生等距嵌入，并证明了投影算子的等距性--这将有助于构造嵌套双曲空间和双曲神经网络.注意，双曲空间有五种模型，即双曲面（洛伦兹）模型，庞加莱盘/球模型，庞加莱半平面模型，克莱因模型和Jemissippi模型[3]。所有这些模型都是等距等效的，但根据应用，有些模型比其他模型更适合。我们选取了具有洛伦兹度规的双曲空间的洛伦兹模型。选择该模型和相关度量优于其他模型的动机是黎曼优化效率和数值稳定性[7，34]。最近，在[5]中提出了一种称为HoroPCA的优雅方法特别地，作者使用庞加莱模型表示双曲空间，他们提出使用理想点（无穷远点）和Buse-mann坐标（使用Busemann函数定义）来一般化方向的概念和给定方向上的坐标 [2] 。 Busemann 函数的水平集，称为horospheres，类似于欧几里得空间中的超平面（或仿射子空间），因此通过沿着horospheres移动点的投影来实现降维然后将数据投影到基点b和多个理想点p1，.- 是的 - 是的， p K ，它也是测地子流形。这是HoroPCA和我们提出的方法之间的关键区别，这导致了性能上的显着差异。这从图1中的示例中显而易见，图 1 描述了通过我们的方法获得的降维表示，与EPGA、HoroPCA和tPCA的降维表示相比较。请注意，与我们的方法不同，所有其他方法产生的子流形表示都不能准确地捕捉数据趋势。更全面的比较将在后面的章节中进行。简单地说，本文的第一个目标是提出一个用于维数约简的嵌套双曲空间表示，然后通过合成来证明358和真实数据集，与竞争方法相比，它实现了较低的重建误差。1.2. 双曲神经网络一些研究人员已经证明，超曲空间适合于建模分层组织的数据，例如，图形和树[33，38，39]。最近，Gyrovector空间（一种代数结构）的形式主义，[44]应用于双曲空间，以定义与向量空间中的基本操作并行的基本操作，并用于构建双曲神经网络（HNN）[13，41]。在超曲空间的庞加莱模型中，向量空间的形式主义能够进行莫比乌斯加法和减法HNN已成功应用于单词嵌入[43]以及图像嵌入[24]。此外，已经修改了几种现有的深度网络架构图网络[6，29]，注意力模块[15]和可变自动编码器[30，35]。这些双曲网络的性能比欧几里得网络高出一倍甚至更好现有的HNN在多个领域取得了中等到很大的成功，并在解决复杂问题方面显示出巨大的潜力。然而，他们中的大多数使用正切空间近似，以方便使用向量空间操作普遍存在于现有的神经网络架构。然而也有一些例外，例如，[8]中的作者开发了他们所谓的双曲到双曲网络，[7]中的作者也开发了完全双曲网络。他们都考虑了洛伦兹变换在双曲特征上的应用，因为洛伦兹变换矩阵在双曲空间上的作用是传递的，因此保持了全局双曲结构。每个洛伦兹变换都是洛伦兹旋转和称为洛伦兹提升操作的无旋转洛伦兹变换的组合。[8]中的作者仅使用洛伦兹旋转进行双曲特征变换，而[7]中的作者在双曲空间中构建由任意权重矩阵（不一定可逆）参数化的全连接层（称为双曲线性层），该权重矩阵应用于双曲空间中的每个数据点，从而导致从双曲空间到其自身的映射。这个过程是特别的，因为它没有使用双曲空间作为齐次空间的内在特征，等距群是洛伦兹群。然而，洛伦兹变换不适合定义投影运算（需要降低维数），因为它们仅在维数没有变化时才保持洛伦兹模型。换句话说，要为嵌入在高维双曲空间中的数据找到低维双曲空间表示，不能直接使用洛伦兹变换因此，我们支持-使用前面小节中提到的等距嵌入操作作为构建块来设计双曲神经网络。现在我们将简要总结我们提出的模型和我们工作的贡献。1.3. 建议的模式和贡献受[23]和[47]的启发，我们在双曲空间中构造了一个嵌套表示来提取双曲特征。这种嵌套（分层）双曲空间表示的优点是，数据在降维后仍保留在双曲空间中。在下文中，我们称这些套双曲空间为套双曲面（NHs）。作为黎曼流形中的降维方法，NH中的学习低维子流形不需要像PGA中那样通过FM，并且不需要像HoroPCA，PGA或EPGA中那样是测地线子流形在实验部分，我们将证明，与上述降维方法相比，这会导致更低的重建误差在定义导致不同维度的双曲空间内的嵌入的投影之后，这些投影/嵌入用于定义双曲空间中的特征变换层。然后，该层由双曲邻域聚合操作/层和中间的适当非线性操作（即切线ReLU）组成，本文的其余部分组织如下。在第二节中，我们简要地回顾了双曲空间的几何。在第三节中，我们明确地给出了映射数据在不同维双曲空间我们还提出了一种新的双曲图卷积神经网络架构，基于这些投影和切线ReLU激活。在第4节中，我们首先介绍了NH模型作为降维方法的性能，并与其他竞争方法，包括EPGA，tPCA和HoroPCA进行了比较接下来，我们将我们的NHGCN与其他双曲网络在处理[6]中描述和使用的四个图数据集上的链接预测和节点分类问题方面进行了比较。最后，我们在第5节中得出结论。2. 预赛在这一节中，我们简要地回顾了双曲几何的相关概念本文将双曲空间看作是Lorentz群的齐次黎曼流形，提出了双曲空间中的几个重要几何概念，包括测地距离和指数映射。本节中介绍的材料可以在大多数关于双曲空间的教科书中找到，例如[3，37]。359×}}⊂{∈}{∈关于我们∈√∥ ∥L×∈√Lorentz内积：1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000注意(a)洛伦兹旋转（b）洛伦兹助推图2.洛伦兹模型中的两种洛伦兹变换，洛伦兹旋转和洛伦兹提升。它们是洛伦兹模型的等距运算。2.1. 洛伦兹空间与双曲空间如第1节所述，双曲空间有几种（等距）等价模型，包括庞加莱模型、克莱因模型、上半空间模型和杰米什模型[3]。本文中我们选择使用双曲空间的双曲面（Lorentz）模型，然而，我们的技术是适用于所有的模型，由于等距等效的模型。（n+1）维洛伦兹空间R1，n是其中GL（n+1，R）是R上（n+1）（n+ 1）-可逆矩阵的一般线性群，O（1，n）有几个重要的子群：（i）子群O+（1，n）：= AO（1，n）：a11>0称为正Lorentz群，（ii）子群SO（1，n）：=AO（1，n）：det（A）= 1称为特殊Lorentz群，（iii）子群O（1，n）：= AO（1，n）：det（A）= 1称为特殊Lorentz群，（iv）子群O（1，n）：=0（iii）子群SO+（1，n）：=一SO（1，n）：a11>0称为正特殊洛伦兹群。简单地说，特殊洛伦兹群保持方向，而正洛伦兹群保持x∈Ln的第一个元素。2.3.双曲空间L n的一个常用的黎曼度量Rn+1 是洛伦兹内积对L n的切空间的限制。注意，即使洛伦兹内积不是正定的，当限制在L n的切空间时，它是正定的。因此，Ln是一个具有常负截面曲率的黎曼流形.进一步地，Ln的等距群为O+（1，n），保向等距群为SO+（1，n）.现在我们陈述一些关于本文中所用的等距群的有用事实，并请感兴趣的读者参考[12]以了解详细信息。事实1. 正的特殊Lorentz群SO+（1，n）传递地作用在Ln上，其中群作用定义为x<$→具有双线性型的欧氏空间Rn+1其中x =[x0，x1，.. - 是的- 是的，xn]T，y =[y0，y1，. - 是的- 是的，y n]T∈Ax，其中x∈Ln且A∈SO+（1，n）。事实2. 设x=[1，0，. . . ，0]TLn.各向同性子群Gx由下式给出：Rn+1。这种双线性形式有时被称为洛伦兹内积，尽管它不是正定的。Gx：={A∈SO+（1，n）：Ax=x}我们表示范数，称为洛伦兹或m，由下式导出：=.100n=SO（n）（3）x L要么是正的，要么是零，要么是正虚的我们考虑R1，nLn：={x =[x0，. - 是的- 是的，xn]T∈ Rn+1：<$x<$2= −1，x0> 0}这被称为n维双曲面模型的一个单的双曲空间定义在Rn+1。2.2.洛伦兹变换在洛伦兹空间中，线性等距称为其中SO（n）是行列式为1的n个正交矩阵的群。因此，双曲空间是一个齐次黎曼流形，可以写成一个商空间Ln =SO+（1，n）/SO（n）。事实3（[31]）。洛伦兹变换ASO+（1，n）可以使用极分解进行分解，并表示为洛仑兹变换，即映射：Rn+1→Rn+1Σ10Σ ΣcvTΣ是一个洛伦兹变换，如果<$x（x），<$x（y）<$L=<$x，y<$L，任意x，y∈Rn+1.很容易看出，所有的洛仑兹反式-A=0RvIn+vvT（四）编队形成一个组成下的组，这个组记为O（1，n），称为洛伦兹群。 O（1，n）在Rn+1 中的代数表示定义如下。设 Jn=diag （ −1 ，In），其中In是n×n单位矩阵，diag（·）表示对角矩阵.因此，O（1，n）被定义为O（1，n）：={A∈GL（n+1，R）：AJnAT=（二）0R360其中R ∈ SO（n），v ∈ Rn，c = <$v<$2+ 1.分解中的第一个分量称为洛伦兹旋转，第二个分量称为洛伦兹提升。参见图2，分别为洛伦兹旋转和洛伦兹升压的示例说明。361∈·∈ ∉∈∈∈∈∈xsinh（θ）∈∈3.1. 嵌套双曲面表示NHs发展的关键步骤是将Lm嵌入Ln（m n）和从Ln到Lm的投影。其原理是定义相应的等距群SO+（1，m）和SO+（1，n）的嵌入。首先，我们考虑嵌入的m：SO+（1，m）SO+（1，m+1）定义为图3. NH模型的说明，使用嵌入m（O）=adapted-GSΛOATBC中国（8）当量（9）把Lm转化为Lm+1。Lm +1中的m维嵌套双曲面实际上是Lm+1与一个m维超平面的交.事实 4. 每洛伦兹转型矩阵ASO+（1，n）可以分解为其中 OSO+ （ 1 ， m ）， a ， bRm+1 ，c=aTO−1b，且ΛSO+（1，m+1）。函数adapted-GS（）是标准Gram-Schmidt过程的一种适应，以相对于前面定义的Lorentz内积对矢量进行归一化Σ Σcoshαsinhα0Σ黎曼浸没（定义见[20]）→1 0A=0P双曲α 00 0In−11 00QT（五）（黎曼浸没）π：SO+（1，m）Lm是由π（O）=O1给出，其中OSO+（1，m）和O1是O. 因此，诱导嵌入其中P，QSO（n），αR，I单位矩阵n−1 是（n−1）×（n−1）m：Lm→Lm+1是cosh（r）x中间的矩阵是沿第一个坐标轴的洛伦兹增强。这种分解将非常有用m（x）=Λ新= cosh（r）Λx+ sinh（r）v（9）在3.3节等式（14）中所述的优化问题中。我们现在通过给出指数映射的显式封闭形式公式和其中rR，Λ=[Λv]SO+（1，m+1），Λ是Λ的前m+1列，v是Λ的最后一列。这类嵌入是相当普遍的，因为它包括等距嵌入作为特殊情况。测地距离对任意xLn和vTpLn（Ln在x处的正切空间），给出了x通过1.提案嵌入式m当r=0时的度量。：Lm→Lm+1 是iso-Exp x（v）=cosh（vL）x+sinh（vL）v/vL。（六）由于Ln是一个负弯曲的黎曼流形，它的指数映射是可逆的，指数映射的逆也称为对数映射，由下式给出：Log（y）=θ（y−cosh（θ）x）（7）其中x，y∈Ln，θ是x和y之间的测地距离y由θ=dL（x，y）= cosh−1（−<$x，y<$L）给出。3. 嵌套双曲空间和网络在这一节中，我们首先介绍了嵌套双曲面（NHs）的构造，并给出了NHs的示例图3中的我们还证明了建议的NH具有日本+1+1个 =sinh日本+1→Σ∈Σ362→拉克莱姆01新Σ Σ ΣΣ证据它直接从洛伦兹变换和L m上的测地距离的定义得出。此外，嵌入（9）在洛伦兹变换下是等变的。定理1. 嵌入m：LmLm+1在SO+（1，m）的洛伦兹变换下是等价的，即， m （ Rx ） =πΛ （ πm（R））m（x）其中r∈g（h）=gh g−1。证据对于x∈Lm和R∈SO+（1，m），ι（Rx）=Λcosh（r）Rx新=Λ<$R0<$$>cosh（r）x<$几个很好的性质，包括等距性和洛伦兹变换下的等变性。然后，我们使用NH表示设计了一种新的图卷积网络结构，称为嵌套双曲图卷积网络（NHGCN）。=<$R0<$−1<$ cosh（r）x0 1 sinh（r）=λΛ（λm（R））m（x）。363→˜我n联系我们Lpp∈Ni=1我我xl=我Wlxl−1S.T.WJnWi=m+1我J我µl∈LnlJ LJ我JJLLj=1j jj=1J J L投影πm+1：Lm+1Lm对应于m由下式给出，1π（x）=Txm+1coshrJmΛ~TJm+1（十）Jm<$Jm+1x= 联系我们Jm<$ Jm+1xL对于x∈Lm+1. 因此，重构点x∈Lm+1对于x∈Lm+1，不x=cosh（r）ΛJm<$Jm+1x+sinh（r）v.（十一）图4. HGCN架构联系我们Jm<$Jm+1xL然后，可以通过最小化重构误差来获得未知数Λ=[Λv]和r。N在第l层，输入是来自前一层的双曲表示xl−1，特征变换矩阵是Wl。第i个节点的中间双曲线表示计算如下L（Λ，r）=1<$（dL（x，x<$））2.（十二）Wlxl−1我我11TLl−1L当n > m时，x∈Ln到Lm的投影可以通过合成π：=πm+1<$··<$πn得到双曲邻域聚合：在GCN中，邻域聚合用于通过计算这些特征的加权质心π（x）=Jm.i=Ym+1不1Λωcosh（ri）JNX（十三）真的。双曲空间中点集xii=1 的加权质心Ln使用加权Fre'chet平均值获得。但是，它在JmMTJnx双曲空间。我们使用双曲邻域集合-=JmMTJn x微升在[7，49]中提出的gation，其中第l层的节点xl的聚合表示是其加权质心μl，其中M=QnΛ∈R（n+1）×（m+1）.我相邻节点{x}距离，即我∈Lnlw.r.t平方洛伦兹3.2. 嵌套双曲图卷积网工作（NHGCN）双曲图卷积网络（HGCN）µl=argmin vld2（xl，µl）（16）j=1在[6]中提出的是欧几里德图网的推广-一个双曲空间。有三种不同的布局-其中νl是xl的权重，d2（x，y）=−1− <$x，y<$HGCN中的三种算法：特征变换、邻域聚集和非线性激活。我们使用我们的NH表示来定义双曲线特征变换，加权质心w.r. t平方洛伦兹距离是洛伦兹距离的平方[37]。作者[27]证明了这个问题有封闭形式的解，Σpνlxlµi =|萨普.vlxl|ReLU激活。这导致了一种新颖的HGCN架构。图4描述了HGCN架构。三个下面详细描述不同的层双曲特征变换：给定xLn，使用（13）定义双曲特征变换如下=Jn（十五）j=1L（十七）iΣ定义邻域聚合并使用切线364∈∈双曲非线性激活：一个非线性激活在我们的网络中，由于特征变换是线性运算，因此需要使用我们选择应用切线ReLU来防止我们的多层网络崩溃为单层网络。双曲空间中的切线ReLU定义为：y=W xs.t. W T=J（十四）σ（xl）= Exp0（ReLU（Log0（xl）。（十八）宽x长我我这里0 =[1，0，. - 是的- 是的，0]T∈ Lnl（对应于其中WR（m+1）×（n+1）. 很容易证明yLm.Poincare模型）被选为基点，以定义切线ReLU中的锚点。nm365˜∈∈∈3.3. 优化在本节中，我们将解释如何更新网络中的参数，即变换矩阵W在（14）中。代替直接更新W，我们通过使用（5）将W分解成三个矩阵来找到替代方法更具体地说，我们写Σ10Σcoshαsinhα0Σ1 0Σ图5.双曲空间中的合成数据以及使用tPCA和NH获得的NH捕捉数据趋势W=0P~双曲α 00 0In−10QT更好的是，它不限于通过FM。其中QSO（n），αR和P是a的前m行[9]这是一个由一个Stiefel流形[9]生成的SO（n）。我们现在可以在优化中按顺序更新这些因子（有关详细信息，请参阅补充材料）。4. 实验在本节中，我们将首先评估NH模型作为降维方法，并与HoroPCA，tPCA和EPGA进行比较。我们表明，建议的NH模型优于所有这些方法的合成数据和真实数据的重建误差。然后，我们将所提出的NHGCN应用于[6]中描述的四个图数据集上的链接预测和节点分类问题。我们的方法产生的结果是更好的或可比现有的双曲图网络。实现1分别基于Pymanopt [26]和GeoTorch[28]进行降维和NHGCN。4.1. 双曲空间中的线性约化首先，我们提出了合成数据实验，然后在真实数据上进行实验。合成实验作为降维方法，我们比较了NH模型与其他三种计算方法：tPCA，EPGA和HoroPCA。注意，前两个适用于任何黎曼流形，HoroPCA是专门针对双曲空间提出的，我们的NH模型也是如此。NH和上述方法的主要区别在于，NH不需要拟合子流形通过FM，而其他方法则需要。这种额外的需求有时会导致无法捕获数据趋势，如图5所示。除了视觉检查，我们使用重建误差作为拟合优度的度量。为了了解NH在不同噪声水平下与其他人相比的表现，我们从L10上的包裹正态分布[30]生成合成数据，方差范围为0.2到2.然后我们应用不同的降维方法将维数降到2。结果是1https://github.com/cvgmi/Nested-Hyperbolic-DimReduc-and-HNN。图6.L10到L2的重建误差。数据由包裹正态分布[30]生成，方差范围为0.2至2。如图6所示。EPGA和NH的结果基本相同，因为对于包裹正态分布，数据围绕FM对称分布，因此子流形通过FM的假设在这里有效。即使在这种情况下，我们也观察到NH相对于tPCA和HoroPCA的显著改善，特别是在大方差情况下。主要原因是（i）tPCA使用局部线性化，当数据没有紧密地聚集在FM周围时，这将导致不准确，(ii)HoroPCA寻求最大化子流形上的投影方差，众所周知，这不等同于最小化重构误差。选择使用重建误差作为目标函数有明确的理由，因为我们希望用低维表示对原始数据进行良好。更多的实验结果，请参见柔软的材料.对于真实数据实验，我们考虑降低嵌入到双曲空间中的树的维数。我们在[38]中描述的四个数据集上验证了我们的方法，包括（i）完全平衡树，（ii）系统发育树，（iii）包括疾病关系的生物学图被访者-被访者关系。我们还通过重新移动平衡树数据集中的一些边来创建两个额外的数据集。我们应用[14]中的方法将树数据集嵌入到10维的Poincare球中，然后应用我们的NH模型366±数据集平衡树不平衡1不平衡2植物分类树病体ca-CSphdTPCAHoroPCAEPGANH（我们的）5.75（1.5）7.80 ±0.06（2.5）4.01±0.76（2.2）3.35±0.05（4.1）4.98（0.001）6.51±0.28（2.4）3.23±0.08（1.8）3.10±0.01（3.5）4.86（0.001）7.35±0.61（2.3）3.33±0.46（1.9）3.22±0.06（2.5）121.19（0.001）108.62±9.20（78）25.93±0.99（2.6）24.11±0.68（25）21.53（0.004）26.94±0.99（136）9.72±0.36（3.0）9.18±0.10（31）71.67（0.4）87.99±4.69（500）22.98±0.23（5.9）22.68±0.40（87）表1.从L10到L2的重建误差。描述的数字是：平均误差标准偏差。错误。粗体数字表示具有最小误差的方法，而下划线数字表示第二好的结果。括号中的数字表示在英特尔®至强® CPU E5-2698 v3@2.30 GHz上的任务疾病机场PubMed CoraLPNCLPNCLPNCLPNCGCN [25]GAT [45]SAGE [16][第46话]64.7±0.569.8±0.365.9±0.365.1±0.269.7±0.470.4±0.469.1±0.669.5±0.289.3±0.490.5±0.390.4±0.589.8±0.381.4±0.681.5±0.382.1±0.580.6±0.191.1±0.591.2±0.186.2±1.094.1±0.078.1±0.279.0±0.377.4±2.278.9±0.090.4±0.293.7±0.185.5±0.691.5±0.181.3±0.383.0±0.777.9±2.481.0±0.1HGCN [6]H2H-GCN [8]HYBONET [7][49]第四十九章：你是谁？90.8±0.397.0±0.396.3±0.396.6±0.692.8±0.274.5±0.988.6±1.794.5±0.884.4±0.891.7±0.796.4±0.196.4±0.197.0±0.2-97.2±0.390.6±0.289.3±0.592.5±0.9-92.4±0.796.3±0.096.9±0.096.4±0.196.6±0.196.9±0.180.3±0.379.9±0.577.9±1.078.6±0.780.5±0.092.9±0.195.0±0.094.3±0.393.6±0.493.6±0.279.9±0.282.8±0.481.3±0.983.3±0.780.3±0。8表2. LP的ROC检验结果下的面积（%）和NC的F1评分（%）。其他网络的结果来自原始论文，在[49]中，作者没有在Airport数据集上测试他们的网络。连同其它竞争方法一起将尺寸减小到2。结果报告于表1中。在表1中，我们分别报告了EPGA、HoroPCA和NH的重建误差的平均值、标准偏差和运行时间（以秒为单位）从表中可以看出，我们的方法表现最好，优于HoroPCA，SOTA。具体而言，HoroPCA在重建误差方面比tPCA和EPGA更差，尽管它产生了更高的解释方差，如[5]所示。原因可能是HoroPCA寻求最大化解释方差的投影，这不等同于最小化黎曼流形情况下的重建误差。4.2. 嵌套双曲图网络为了评估所提出的NHGCN的能力，我们将其应用于链路预测（LP）和节点分类（NC）问题。我们使用四个公共领域数据集： Dis-ease [6] ， Airport [6] ，PubMed [32]和Cora [40]。我们将我们的NHGCN与许多其他图神经网络进行了比较，结果见表2。对于LP，我们报告测试数据的受试者工作特征（ROC）曲线下面积的均值和标准差;对于NC问题，我们报告F1评分的均值从表中可以看出，我们的结果与最先进的（SOTA）相当，并且在三种情况下更好。关于我们的模型，值得注意的一点是，模型中使用的所有操作都是Ln固有的，不像表2中的其他操作。根据定义，内在操作应该产生更好的精度。因此，我们将表2中模型的较低准确性归因于此处使用的次优优化方法。这次行动最小化问题是在半黎曼流形，一个开放的问题，将在未来的工作中解决。5. 结论本文在双曲空间中提出了一种新的降维方法，称为NH表示. NH表示是用一个投射算子构造的此外，我们根据经验表明，与最先进的（HorroPCA，EPGA，tPCA）相比，它产生更低的重建使用NH表示，我们开发了一种新的完全HGCN，并在几个数据集上进行了测试。我们的NHGCN被证明可以达到与优异的性能相比，几种相互竞争的方法。鸣谢。这项研究部分由NSF资助IIS-1724174，NIHNINDS和NIA通过R 01 NS 121099资助Vemuri，MOST资助110- 2118-M-002-005-MY 3给Yang。引用[1] 莫纳米·班纳吉，鲁德拉西斯·查克拉博蒂，巴巴·C·维穆里.黎曼流形上的稀疏精确pga。在IEEE计算机视觉国际会议的Proceedings中，第5010-5018页，2017年。2[2] 赫伯特·布斯曼。测地线的几何学。纯粹与应用数学，1955年。2[3] James W. Cannon，William J. Floyd，Richard Kenyon，and Walter R. 招架《双曲几何》第 31 卷 MSRIPublications，1997. 二、三、四367[4] Rudrasis Chakraborty ， Dohyung Seo ， and Baba CVemuri.常曲率流形的一种高效精确pga算法在IEEE计算机视觉和模式识别集，第3976-3984页，2016年。2[5] Ines Chami，Albert Gu，Dat P Nguyen和Christopher Re'。Horopca：通过horo球面投影进行双曲降维《国际机器学习会议》，第1419-1429页。PMLR，2021年。二、八[6] InesChami，ZhitaoYing，ChristopherRe´，andJureLeskovec.双曲线图卷积神经网络。神经信息处理系统的进展，32：4868-4879，2019。三六七八[7] Weize Chen ， Xu Han ， Yankai Lin ， Hexu Zhao ，Zhiyuan Liu，Peng Li，Maosong Sun，and Jie Zhou.全双曲神经网络。arXiv预印本arXiv：2105.14686，2021。二三六八[8] 戴金斗、吴雨薇、高智、贾云德。双曲到双曲图卷积网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第154-163页，2021年。三、八[9] 艾伦·埃德尔曼，托玛的咏叹调，和圣·弗·T·史密斯。具有正交约束的算法的几何性。SIAM Journal on MatrixAnalysis and Applications，20（2）：303- 353，1998. 7[10] P Thomas Fletcher，Conglin Lu，Stephen M Pizer，andSarang Joshi.形状非线性统计研究的主测地线分析。IEEE transactions on medical imaging，23（8）：995-1005，2004。1[11] Maur i ceFr e'chet. 是我吗？我的作品？在遥远的太空中，自然之乡是什么样的？ e. Ann. Inst. H. 波因卡？e，10：215-310，1948. 1[12] 吉恩·加利尔和乔斯林·昆特斯微分几何与李群的注记。宾夕法尼亚大学，4：3- 1，2012年。4[13] 欧根·加内亚、加里·贝西纽和托马斯·霍夫曼。双曲神经网络神经信息处理系统的进展31，第5345-5355页，2019年。3[14] AlbertGu，FredericSala，BelizGunel，andChristopherRe'.学习乘积空间中的混合曲率表示在2018年国际学习代表会议上。7[15] Caglar Gulcehre，Misha Denil，Mateusz Malinowski，Ali Razavi ， Razvan Pascanu ， Karl Moritz Hermann ，Peter Battaglia ， Victor Bapst ， David Raposo ， AdamSantoro，et al. Hyperbolic attention networks.在2018年国际学习代表会议上。3[16] William L Hamilton，Rex Ying，Jure Leskovec.大图上的归纳表示学习。在第31届神经信息处理系统国际会议论文集，第1025-1035页，2017年。8[17] 梅尔塔什·哈兰迪，马修·萨尔茨曼，理查德·哈特利.SPD流形上的非线性简化：几何感知方法的出现。IEEETransactionsonPatternAnalysisandMachineIntelligence，40（1）：482[18] 特雷弗·黑斯蒂和沃纳·施图策主曲线Journal of theAmerican Statistical Association，84（406）：502-516，1989. 2[19] 索伦·豪伯格黎曼流形上的主曲线。IEEE transactions onpattern analysis and machine intelligence ， 38 （ 9 ）：1915-1921，2015. 2[20] 西格德·赫尔加松微分几何、李群和对称空间。学术出版社，1979年。5[21] 斯蒂芬·哈克曼，托马斯·霍茨，阿克塞尔·蒙克。内形分析：黎曼流形模等距李群作用的测地主元分析 .Statistica Sinica，pages 1-58，2010. 2[22] Ian T Jolliffe和Jorge Cadima。主成分分析法的研究进展。Philosophical Trans-actions of the Royal Society A：Mathematical，Physical and Engineering Sciences，374（2065）：20150202，2016. 1[23] Sungkyu Jung，Ian L Dryden，and James Stephen Marron.主要嵌套球体的分析Biometrika，99（3）：551二、三[24] Valentin Khrulkov，Leyla Mirvakhabova，Evgeniya Usti-nova，Ivan Oseledets，and Victor Lempitsky.双曲线图像嵌入。在IEEE/CVF计算机视觉和模式识别会议论文集，第6418-6428页3[25] 托马斯·N Kipf和Max Welling。图卷积网络的半监督分类。在2017年国际学习表征会议上。8[26] 尼克拉斯·科普和塞巴斯蒂安·维奇瓦尔德。Pymanopt：一个Python工具箱，用于使用自动微分优化流形。Journal of Machine Learning Research，17：17[27] Marc Law，Renjie Liao，Jake Snell，and Richard Zemel.双曲表示的洛伦兹距离学习。国际机器学习会议，第3672-3681页。PMLR，2019年。6[28] 马里奥·莱兹卡诺-卡萨多流形上基于梯度优化的平凡化。神经信息处理系统的进展，NeurIPS，第9154-9164页，2019年。7[29] Qi

下载后可阅读完整内容，剩余1页未读，立即下载