裁剪双曲分类器：提高性能和鲁棒性的有效解决方案

96 浏览量更新于2023-10-25 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11·裁剪双曲分类器是超双曲分类器郭云辉1王旭东1陈玉北2Stella X. Yu11 UCBerkeley/ICSI2 Facebook AI Research摘要双曲空间可以很自然地嵌入层次，不像欧几里得空间.双曲神经网络（HNN）通过将欧几里德特征提升到双曲空间中进行分类来利用这种表示能力，在具有已知语义层次的数据集上表现出欧几里德神经网络（ENN）。然而，HNN在标准基准上的性能低于ENN，没有明确的结构，这极大地限制了HNN我们的关键见解是，HNN的一般分类性能较差的结果从消失的梯度在反向传播过程中，造成其混合架构连接欧几里德功能的双曲线分类器。我们提出了一个有效的解决方案，通过简单地裁剪Eu-clidean特征幅度，同时训练HNN。我们的实验表明，裁剪的HNN成为超双曲线分类器：它们不仅始终优于HNN，HNN在历史数据上的表现已经优于ENN，而且在MNIST，CI-FAR 10，CIFAR100和ImageNet基准测试中与ENN相当，具有更好的对抗鲁棒性和分布外检测。1. 介绍许多数据集本质上是分层的。WordNet [30]有一个分层的概念结构，社交网络中的用户，如Facebook或Twitter，根据不同的职业和组织形成层次结构[11]。在欧几里德空间中表示这样的分层数据不能捕获和反映它们的语义或功能重新语义[1，34]。双曲空间，即，具有恒定负曲率的非欧几里德空间，由于体积相对于其半径呈指数增长的性质，已被用于嵌入具有低失真的分层结构的数据[34，40，41]。例如，双曲空间已用于分析单细胞数据中的分层结构[20]，学习分层单词嵌入[34]，嵌入复杂网络[1]等。最近的算法直接在双曲空间中操作，以利用更多的代表性力量。示例是Hy- perbolic Perceptron [46]，双曲支持向量Ma-a) HNN采用混合架构。b) 标准基准。（3）少量学习任务。图1.我们提出了一种有效的解决方案，通过裁剪欧几里得特征来训练HNN。裁剪后的HNN成为超双曲线分类器：它们不仅始终优于HNN，后者在分层数据上的表现已经超过了ENN，而且在标准基准测试中与ENN不相上下a）HNN采用混合架构。Euclidean部分将输入转换为Euclidean嵌入。然后通过指数映射将欧氏嵌入映射到双曲空间的Poincare模型上Exp0（）。最后，利用Poincare超平面对双曲嵌入进行了分类.裁剪HNN利用双曲空间的缩减区域。b）修剪的HNN在以下方面优于基线HNN：标准基准。c）剪切HNN在1-s（shot）1-w（way）和5-s（shot）5-w（way）几次学习任务中的表现优于HNN和ENN。chine [5]和双曲神经网络（HNN）[8]，标准欧几里得神经网络（ENN）的替代方案。HNN采用混合架构[18]（图1）：ENN首先用于在欧几里得空间中提取图像特征;然后将它们投影到双曲空间上，通过双曲多类逻辑回归进行分类[8]。虽然HNN在几个具有显式层次结构的数据集上优于ENN[8]，但有几个严重的限制。1）HNN在具有平坦或非分层语义结构的标准分类基准上表现不佳。2）即使对于具有潜在的几何结构的图像数据集，也没有实验证据表明12MM∈MMM−→MM →MM →M∥ ∥v∈M∈ M好了好了HNN可以捕获这些结构或提供与ENN相同的性能[18]。3）HNN的现有改进主要集中在减少参数的数量[42]或合并不同类型的神经网络层，如注意力[10]或卷积[42]。不幸的是，为什么HNN在标准基准上比ENN差还没有被调查或理解。我们的主要观点是，HNN的一般分类性能较差是由其混合架构将欧几里得特征连接到双曲分类器造成的。它导致训练过程中梯度消失。特别是，HNN的训练动态将双曲嵌入推到庞加莱球的边界[2]，这导致欧几里得参数的梯度消失。我们提出了一个简单而有效的解决方案，通过在训练过程中简单地裁剪欧几里德特征幅度，从而防止双曲嵌入在训练过程中接近边界。我们的实验表明，裁剪的HNN成为超双曲线分类器：它们不仅始终优于HNN，HNN在分层数据上的表现已经优于ENN，而且在MNIST，CIFAR 10，CI-FAR 100和ImageNet基准测试中与ENN相当，具有更好的对抗鲁棒性和分布外检测。本文主要做了以下贡献。1）我们的详细分析揭示了消失的遗传算法的根本问题，这使得HNN在标准分类基准上比ENN更差2）提出了一种简单有效的3）我们广泛的实验表明，裁剪的HNN优于标准HNN，并且在标准基准上与ENN不相上下。它们对对抗性攻击也更鲁棒，并且表现出比欧几里得同行更强的分布外检测能力2. 相关工作双曲空间中的监督学习。在HNN的开创性工作中提出了几种双曲神经网络[8]，包括多项式逻辑回归，解析（MLR），全连接和递归神经网络少数镜头分类和人员重新识别[18]。双曲空间中的无监督学习[32]使用双曲空间中的包裹正态分布来构造双曲变分自编码器（VAE）[19]，而[29]使用双曲空间中的高斯推广来构造庞加莱VAE。[17]将双曲神经网络应用于复杂体积数据的无监督3D分割。我们的工作不同于所有上述方法，其重点是应用HNN的数据与自然树结构。我们将HNN扩展到可能没有层次结构的通过在这些场景中将HNN提高到ENN的水平，我们大大增强了HNN的通用性。3. 基于裁剪的我们的目标是了解为什么HNN在标准图像分类基准上表现不佳，并提出相应的解决方案。首先，我们回顾了黎曼几何和HNN的基础。然后，我们分析了训练HNN的消失梯度问题。最后，我们提出的方法，并讨论其连接到现有的方法。3.1. 预赛平滑流形。一个n维拓扑流形是一个拓扑空间，它是局部n维欧几里德的：每个点x都有一个邻域同胚于Rn的一个开子集。光滑流形是具有附加光滑结构的拓扑流形这是一个最大的光滑图谱。黎曼流形一个黎曼流形（，g）是具有黎曼度量g的实光滑流形。黎曼度量g定义在切空间Tx的这是一个平滑变化的内积。黎曼流形上的内积与范数对于x∈M和任意两个向量v，w∈TxM，内积<$v，w<$x定义为g（v，w）.利用内积的定义，对于v∈TxM，范数定义为：它可以直接处理双曲线嵌入，在文本蕴涵和噪声前缀预测任务上优于欧几里德变体双曲神经网络++[42] 减少了HNN的参数数量，还引入了双曲卷积层。双曲注意力网络[10]使用gyrovector操作[44]重写注意力层中的操作，从而在神经机器翻译、图形学习和视觉问答方面获得收益双曲图神经网络[25]将图神经网络（GNN）[54]的代表性几何双曲图注意力网络[52]进一步研究了双曲空间中具有注意力机制的GNNHNN已用于黎曼流形上的测地线测地线是一条匀速曲线γ：[0，1]，它使流形上两点之间的距离局部最小化。黎曼流形上的指数映射。给定x，y，vTx，和一个长度为v的测地线γ，使得γ（0）=x，γ（1）=y，γ ′（0）=v/v，指数映射Expx：Tx满足Expx（v）=y，逆指数映射Expx1：Tx满足Exp−x1（y）=v。 F或更多细节，请参考[4，24]Poincare'Ball Model for Hyperbolic Space。双曲空间是具有常负曲率黎曼流形双曲空间有几种等距模型，其中最常用的是Poincare球模型13⊕⊕´C∈⊕0C→→GX⟨ ⟩ ∥ ∥ ∥ ∥∈CPKak，pak，pC0CCXCXnX√Poincare球模型中的指数映射、逆指数映射回转向量空间中的基本运算称为莫比乌斯加法C.用莫比乌斯加成c，我们可以定义Poincare球模型中两点的矢量加为，（1 + 2c<$u，v<$+c<$v<$2）u+（1−c<$u<$2）vv=1+2cu，v+c2u2v2（2）图2.当我们向庞加莱球的边界移动时，双曲距离呈指数增长。对于所有u，vBn。特别地，limc→0c收敛于欧氏空间中的标准+有关详情，请参阅补充文件。双曲神经网络双曲神经网络由一个欧几里得子网络和一个双曲分类器组成（图1）。欧几里德子网络E（x）将诸如图像的输入x转换为欧几里德空间中的表示xE当xH∈Bn时，xE通过指数映射Expc（·）投影到双曲空间Bn上.的双曲线分类器H（xH）执行基于在xH上具有标准的交叉熵损失设欧几里得子网络的参数为wE，双曲分类器的参数为wH。给定损失函数，优化问题可以形式化为，图3.由a和p定义的Poincare超平面。蓝线是minwE，wHn（H（Expc（（E（x;wE））;wH），y）（3）X到庞加莱超平面的正交投影模型[8，34]可以使用立体亲导出，其中外部函数和内部函数为H：BnR和E：RmRn。如[8]所示，指数映射定义为：双曲面模型的投影[2]。n维Expc（v）= tanh（cv）v（四）常负曲率−c的Poincare球模型定义为（Bn，gc），其中Bn={x∈Rn：c<$x<$1}，0是超参数。通过最小化训练损失，双曲嵌入倾向于移动到庞加莱球的边界，这导致了消失梯度问题。为了防止双曲嵌入逼近边界，引入了自适应正则化项虽然在等式13中引入的软约束是有效的，但是它向优化过程引入了额外的复杂性并且具有较差的性能。相反，我们采用以下硬约束，其在指数映射之前正则化欧几里得嵌入，无论何时其标准超过给定阈值，RCLIP（xE;r）= min{1， }·xE（14）其中xE=E（x;wE），r >0是超参数。裁剪后的欧几里得嵌入通过expo进行投影，嵌入空间，我们发现它并没有损害精度，同时减轻消失梯度问题。半径受限的双曲分类器是超双曲分类器，而不是近欧几里得分类器。在补充中，我们证明了裁剪双曲空间很好地保持了双曲属性，并为学习分层单词嵌入提供了更好的结果。双曲线嵌入文献探讨。在双曲嵌入文献中使用了类似的正则化方法，以防止优化双曲嵌入时的数值问题[25，35]。相比之下，我们的工作集中在用于图像分类的双曲神经网络及其独特的消失梯度问题上，这在模型架构和重点问题方面与[25，35]有很大不同在双曲神经网络中，梯度通过欧几里得特征裁剪。有几种可能-其中s= 1/017双曲线层到欧几里德层，这导致梯度消失。由于没有采用欧几里得层，因此[25，35Lorentz模型最近被用来克服用于学习单词嵌入的Poincare球模型的数值问题[35]。然而，它仅在低维度中最有效[25]。对于ImageNet规模的图像数据集，具有高维嵌入的双曲神经网络对于足够的模型容量是必要的。4. 实验结果我们进行了四种类型的实验：标准的平衡分类任务，少数学习任务，adversar鲁棒性和分布外检测。结果表明，裁剪HNN与ENN在标准识别数据集上相当，同时在少镜头分类、对抗鲁棒性和分布外检测方面表现出更好的数据集。我们考虑了四种常用的图像分类数据集：MNIST [22]、CIFAR10 [21]、CIFAR100[21]和ImageNet [7]。详见补充资料。据我们所知，本文是第一次尝试在标准图像分类数据集上对双曲神经网络进行监督分类。基线和网络。我们比较了HNN训练的性能，有/没有提出的特征裁剪方法[8，18]和它们的欧几里得对应方法。对于MNIST，我们使用类似LeNet的卷积神经网络[23] 其具有两个卷积层和三个全连接层，在两个卷积层之间具有最大池化层。对于CI-FAR 10和CIFAR100，我们使用WideResNet [51]。对于Ima-geNet，我们使用标准的ResNet 18 [14]。培训设置。为了训练ENN，我们使用带有动量的SGD。对于训练HNN，HNN的欧几里得参数使用SGD进行训练，HNN的双曲参数使用随机Riemann梯度下降[3]进行优化对于在MNIST上训练网络，我们以0.1的学习率训练网络 10 个批量为 64 。对于 CIFAR10 和CIFAR100上的训练网络，我们以0.1的初始学习率训练网络100个epoch，并使用余弦学习率调度器[27]。批量为128。对于ImageNet上的训练网络，我们以0.1的初始学习率训练网络100个epoch，学习率每30个epoch衰减10。批量为256。我们发现HNN对超参数r的选择是鲁棒的，因此我们在所有实验中将r固定为1.0。有关r的影响的更多讨论和结果，请参见补充说明。对于基线HNN，我们使用类似于[25，35]的限幅值15来解决数值问题。在MNIST、CIFAR10和CIFAR100上重复实验5次，我们报告了平均准确度和标准偏差。所有实验a) MNIST上每个类的准确性b) 基线HNNc) 剪切HNN图6.裁剪的HNN大大优于基线HNN。a）基线HNN和剪切HNN的每类测试准确度。b）Poincare决策超平面和基线HNN的采样测试图像的双曲嵌入。c）Poincare决策超平面和裁剪HNN的采样测试图像的双曲嵌入。裁剪HNN在双曲空间中学习更多的判别特征。每个类的准确性表明，基线HNN学习有偏见的特征空间，这会损害某些类的性能。在8个NVIDIA TITAN RTX GPU上完成标准基准的结果。表1显示了不同网络在所考虑的基准上的结果。在MNIST上，我们可以观察到IM的准确性18OOD数据集FPR95 ↓AUROC↑AUPR↑98.16±0.0591.50±0.1646.30±0.7895.69±0.1382.12±0.4098.58±0.0571.50±0.7393.09±0.2343.46±0.7994.47±0.1077.52±0.3294.02±0.1583.67±0.6876.90±0.4581.01±1.0795.83±0.1182.51±0.3998.42±0.0474.07±0.8792.67±0.1641.06±1.0799.16±0.0396.05±0.1097.06±0.0622.22±0.7886.58±0.2171.66±0.8494.59±0.2082.80±0.3596.76±0.1565.04±0.9187.56±0.3751.09±0.92标准分类[14]第十四话美国[8]MNIST 99.12±0.34 94.42±0.29 99.08±0.31CIFAR10 94.81±0.42 88.82±0.51 94.76±0.44CIFAR100 76.24±0.35 72.26±0.41 75.88±0.38ImageNet 69.82 65.74 68.45CUB数据集单次5路51.31±0.91 61.18±0.24 64.66±0.245-Shot 5-Way70.77±0.69 79.51±0.16 81.76±0.15MiniImageNet数据集单次5路49.42±0.78 51.88±0.20 53.01±0.225-Shot 5-Way51.88±0.20 72.63±0.16 72.66±0.15表1.Clipped HNN在标准分类基准上接近ENNClipped双曲ProtoNet（C-Hyperbolic）在少量学习任务上的性能大大优于标准双曲 ProtoNet （ Hyperbolic ）和 Eu-clidean ProtoNet（Euclidean）。经证明，修剪的HNN比基线HNN高约5%，并且与ENN 的性能相匹配。在 CIFAR10 ， CIFAR100 和ImageNet上，改进的HNN比基线HNN分别提高了结果表明，HNN即使在缺乏显式层次结构的数据集上也能表现良好。图6显示了所有类的庞加莱超平面以及由基线HNN和裁剪HNN提取的1000个采样测试图像的双曲嵌入分类高达3%。表2.当在CIFAR10上训练并在OOD数据集上测试时，裁剪的HNN在分布外（OOD）检测方面始终优于ENN（灰色阴影）。ISUN45.28±0.6591.61±0.21 98.09±0.06地点36554.77±0.7686.82±0.41 96.17±0.20质地47.12±0.6289.91±0.2097.39±0.09SVHN49.89±1.0391.34±0.22 98.13±0.06LSUN-Crop23.87±0.7395.65±0.22 98.98±0.07LSUN-Resize41.49±1.2492.97±0.24 98.46±0.07是说49.5689.5397.3643.7491.3897.87表3.当在CIFAR100上训练并在OOD数据集上测试时，裁剪的HNN在分布外（OOD）检测上始终优于ENN（灰色阴影），具有软最大分数。平均而言，它们与AUPR的ENN相当，而PRR95和AUROC则要好得多。注意，庞加莱超平面由Eu的弧组成，与球的边界正交的圆。我们还根据分类结果对球中的点进行着色。可以观察到，通过正则化双曲嵌入的大小，所有嵌入都位于整个庞加莱球的限制区域中，并且网络在双曲空间中学习更多的正则和判别少射学习。我们表明，所提出的特征裁剪也可以提高双曲ProtoNet [18]的性能，以进行少量学习。与在欧几里得空间中计算每个类的原型的标准ProtoNet [43]不同，双曲ProtoNet使用双曲平均在双曲空间中计算类原型。双曲线特征被证明比欧几里德特征更有效，用于少数学习[18]。我们遵循[18]中的实验设置，并在CUB[47]和miniImageNet数据集[39]上进行实验。我们考虑1-shot 5-way和5-shot 5-way任务，如[18]中所示评估重复10000次，我们报告的平均性能和95%的置信区间。表1表明，所提出的特征裁剪进一步提高了双曲型ProtoNet在少数镜头下的精度OOD数据集FPR95 ↓AUROC↑AUPR↑ISUN68.37±0.9081.31±0.43 94.96±0.20地点36579.66±0.6976.94±0.28 93.91±0.18质地64.91±0.8083.26±0.25 95.77±0.08SVHN84.56±0.7884.32±0.2296.69±0.0753.11±1.0489.53±0.2697.71±0.07LSUN-Crop51.08±1.1787.21±0.39 96.83±0.13LSUN-Resize63.86±1.10 82.36±0.42 95.16±0.13是说73.0582.7495.8863.5083.4395.72对抗鲁棒性。我们证明了裁剪的HNN对包括FGSM在内的[28][29]用于攻击网络1910080604020使用FGSM10080604020PGD攻击PGD攻击8060402000.00 0.05 0.10 0.20Epsilon(a) 在MNIST上0.00 0.05 0.10 0.15 0.20Epsilon(b) 在MNIST上0.0000 0.0031 0.0063 0.0126Epsilon(c) 在CIFAR10图7.裁剪的HNN对ENN对抗性攻击更鲁棒。我们展示了裁剪HNN和ENNN对不同攻击方法和扰动的对抗鲁棒性结果。裁剪的HNN始终优于ENN。使用FGSM在MNIST上训练，我们考虑扰动ε = 0。05，0。1，0。2，0。3 .第三章。对于使用PGD在MNIST上训练的攻击网络，我们考虑扰动ε=0。05，0。1，0。15，0。二、步数为40。对于使用PGD在CIFAR10上训练的攻击网络，我们考虑扰动ε=0。8/255，1. 6/255，3. 2/255。步骤数为7。从图7中，我们可以看到，在所有情况下，裁剪的HNN都比ENN对对抗性攻击表现出更强的鲁棒性。有关使用vanilla HNN的更多讨论和结果，请参见补充材料。分发外检测。我们进行了实验，以表明裁剪HNN有更强的分布检测能力比ENN。分布外检测的目的是确定给定的输入是否put来自与训练数据相同的分布。我们遵循[26]中的实验设置。分布数据集为CIFAR10和CIFAR100 。分布外数据集为 ISUN [49] 、 Place 365[53]、Tex- ture [6]、SVHN [33]、LSUN-Crop [50]和LSUN-Resize [50]。为了检测分布外的数据，我们使用softmax评分和能量评分，如[26]所述。对于指标，我们考虑FPR95，AUROC和AUPR [26]。表2和表3分别显示了在CI-FAR 10和CIFAR 100我们可以看到，HNN和ENN实现了类似的AUPR，但是HNN在FPR 95和AUROC方面实现了更好的性能。特别是，HNN在CIFAR10 和 CIFAR100 上分别使 FPR95 降低 5.82% 和9.55%关于使用能量评分和普通HNN的结果，请参见补充材料。特征尺寸的影响。图8显示了当我们改变CIFAR10和CIFAR100上的特征维度时，测试精度的变化。当特征维数较低时，裁剪的HNN比ENN好得多一个可能的原因是，当在欧几里德的情况下，维数低，数据很难被线性分离。甚至在二维空间中也是分离的。·图8.当特征维数较低时，裁剪的HNN优于ENN。左图：CIFAR10上的测试精度。右：CIFAR100上的测试准确度。我们将特征维度从2更改为128。5. 总结我们提出了一个简单而有效的解决方案，称为特征裁剪，以解决训练HNN中的消失梯度问题。我们在常用的图像数据集基准上进行了广泛的实验据我们所知，这是HNN首次应用于ImageNet规模的图像数据集。裁剪的HNN显示出比基线HNN显著的改进，并且与ENN的性能相匹配。所提出的特征裁剪也提高了HNN在少次学习中的性能。进一步的实验研究表明，裁剪的HNN对PGD和FGSM等对抗性攻击更具鲁棒性剪切HNN也表现出比ENN更强的分布外当特征维数较低时，裁剪的HNN甚至优于ENN。鸣谢。这项工作得到了Berkeley Deep Drive和国家科学基金会的部分支持，资助号为2131111。在此表达的任何意见、发现、结论或建议，然而，在双曲空间中，由于庞加莱超作者的观点，并不一定反映作者的观点平面是公司简介公司简介公司简介测试精度测试精度测试精度20\\引用[1] Gregorio Alanis-Lobato ， Pablo Mier ， and Miguel AAndrade-Navarro. 复杂网络通过拉普拉斯算子有效嵌入科学报告，6（1）：1-10，2016年。1[2] 詹姆斯 · 安德森双曲几何 Springer Science BusinessMedia，2006.二、三[3] 西尔弗·波纳贝尔黎曼流形上的随机梯度下降。IEEE自动控制学报，58（9）：2217-2229，2013。四、六[4] 曼弗雷多·佩迪高·多·卡莫。黎曼几何Birkh auser，1992年。2[5] Hyunhoon Cho ， Benjamin DeMeo ， Jian Peng ， andBonnie Berger.双曲空间中的大边距分类。第22届人工智能和统计国际会议，第1832-1840页。PMLR，2019年。1[6] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，Sammy Mohamed，and Andrea Vedaldi.描述野外的纹理。IEEE计算机视觉和模式识别会议论文集，第3606-3613页，2014年。8[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。6[8] 十月一日--欧热恩·加内亚、加里·贝西纽和托马斯·霍夫曼。双曲神经网络arXiv预印本arXiv：1805.09112，2018。一二三四六七[9] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。7[10] Caglar Gulcehre，Misha Denil，Mateusz Malinowski，Ali Razavi ， Razvan Pascanu ， Karl Moritz Hermann ，Peter Battaglia ， Victor Bapst ， David Raposo ， AdamSantoro，et al. Hyperbolic attention networks. arXiv预印本arXiv：1805.09786，2018。2[11] MangeshGupte ， PravinShankar ， JingLi ，Shanmugauelayut Muthukrishnan，and Liviu Iftode.在定向在线社交网络中发现层次结构。第20届万维网国际会议论文集，第557-566页，2011年1[12] 鲍里斯·哈宁。哪种神经网络架构会产生爆炸和消失的梯度？arXiv预印本arXiv：1801.03744，2018。4[13] Elad Hazan，Kfir Y Levy和Shai Shalev-Shwartz。超越凸性：随机准凸优化。arXiv预印本arXiv：1507.02030，2015年。5[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。四、六、七[15] 赛普·霍克瑞特递归神经网络学习过程中的梯度消失问题及其解决方法。国际不确定性、模糊性与知识杂志基于系统，6（02）：107-116，1998。4[16] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。4[17] Joy Hsu，Jeffrey Gu，Gong-her Wu，Wah Chiu，andSer- ena Yeung.学习非监督三维分割的双曲表示。arXiv预印本arXiv：2012.01644，2020。2[18] Valentin Khrulkov，Leyla Mirvakhabova，Evgeniya Usti-nova，Ivan Oseledets，and Victor Lempitsky.双曲线图像嵌入。在IEEE/CVF计算机视觉和模式识别会议论文集，第6418-6428页一二四六七[19] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。2[20] 安娜·克里姆·奥夫斯卡、德·维德·洛佩兹-帕兹、莱翁·博图和马克西米利安·尼克尔。庞加莱地图用于分析单细胞数据中的复杂层次结构。Nature Communications，11（1）：1-9，2020。1[21] Alex Krizhevsky，Geoffrey Hinton等人，从微小图像中学习多层特征。2009. 6[22] 杨乐存。mnist手写数字数据库。http：//yann. 乐村com/exdb/mnist/。6[23] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998.四、六[24] 约翰 M 李你介绍到黎曼流形Springer，2018. 2[25] Qi Liu，Maximilian Nickel，and Douwe Kiela.双曲图神经网络arXiv预印本arXiv：1910.12892，2019。二、五、六[26] Weitang Liu ， Xiaoyun Wang ， John D Owens ， andYixuan Li.基于能量的分布外检测。arXiv预印本arXiv：2010.03759，2020。8[27] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：Stochas-tic 梯度下降与热重启。 arXiv 预印本 arXiv ：1608.03983，2016。6[28] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。迈向抵抗对抗性攻击的深度学习模型。 arXiv 预印本 arXiv ：1706.06083，2017。7[29] Emile Mathieu，Charline Le Lan ，Chris J Maddison ，Ryota Tomioka，and Yee Whye Teh.用庞加莱变分自动编码器的连续分层arXiv预印本arXiv：1901.06033，2019。2[30] 乔治·A·米勒 Wordnet：英语词汇数据库。Communications of the ACM，38（11）：39-41，1995. 1[31] Dmytro Mishkin和Jiri Matas。所有你需要的是一个好的初始化。arXiv预印本arXiv：1511.06422，2015。4[32] Yoshihiro Nagano ， Shoichiro Yamaguchi ， YasuhiroFujita，and Masanori Koyama.基于梯度学习的双曲空间包裹正态分布。在机器学习国际会议上，第4693PMLR，2019年。2[33] Yuval N

下载后可阅读完整内容，剩余1页未读，立即下载