无参数图减少方法用于谱聚类和SpectralNet的研究

24 浏览量更新于2023-12-06 收藏 14.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0Array 15 (2022) 1001920ess article under the CC BY-NC-ND license(http://creativecommons.org/licenses/by-nc-nd/4.0/)0ScienceDirect提供的内容列表0Array0期刊主页：www.elsevier.com/locate/array0一种无参数的图减少方法，用于谱聚类和SpectralNet0Mashaan Alshammari a，�，John Stavrakakis b，Masahiro Takatsuka b0a沙特阿拉伯哈伊勒大学计算机科学与工程学院，邮编81411 b澳大利亚悉尼大学计算机科学学院，邮编20060文章信息0关键词：谱聚类SpectralNet 图减少局部尺度相似性0摘要0像谱聚类和SpectralNet这样的基于图的聚类方法在检测非凸形状的簇方面非常有效。与流行的 � -means不同，基于图的聚类方法不假设每个簇有一个单一的均值。然而，这些方法需要一个图，其中同一簇中的顶点由较大权重的边连接。为了实现这个目标，许多研究提出了带参数的图减少方法。不幸的是，这些参数必须针对每个数据集进行调整。我们介绍了一种不需要任何参数的图减少方法。首先，使用自适应阈值过滤每个点 �到其邻居的距离，只保留周围密度相似的邻居。其次，计算与近邻的相似性，并只保留高相似性。通过这两个过滤步骤幸存下来的边构成了传递给谱聚类和SpectralNet的构建图。实验表明，我们的方法提供了一个稳定的替代方案，其他方法的性能会根据其参数设置而波动。01. 引言0检测非凸几何形状的簇的问题在模式识别的文献中已经研究了很长时间。这个问题的解决方案可以大致分为两类：基于核和基于图的方法。基于核的方法试图将点映射到一个可以分离它们的空间。嵌入函数 � ∶ R � → R �将点从原始空间映射到嵌入空间。定义嵌入函数 �通常是未知的，可能计算成本很高[1]。另一方面，基于图的方法使用图 � ( � , � )，其顶点集表示数据点，边集表示每对顶点之间的相似性。在图中找到非凸簇可以通过三种方式实现：（1）通过迭代粗化和分区图[2]，（2）通过执行谱聚类[3]，（3）通过将图 � ( � , � )传递给神经网络（SpectralNet）[4]。在图中检测簇的第一种方法是迭代的，涉及两个缺陷：陷入局部最小值的风险和需要停止条件。这使得谱聚类和SpectralNet对进行基于图的聚类的研究更具吸引力。谱聚类首先通过构造图 � ( � , � )开始。顶点集 � 和边集 �表示数据点及其成对相似性。谱聚类通过对图拉普拉斯矩阵 �进行特征分解，并在其顶部特征向量上运行 � -means 来检测簇[5]。计算瓶颈表示0� 通讯作者。邮箱地址：mashaan.alshammari@uoh.edu.sa（M. Alshammari），john.stavrakakis@sydney.edu.au（J. Stavrakakis），masa.takatsuka@sydney.edu.au0（M. Takatsuka）。0通过特征分解将会导致算法计算量达到Ο(�3)[6]。这刺激了减少这些计算量的研究，通过减少图的顶点和/或边。然而，对于内存高效图的需求又带来了与图构建过程相关的参数数量的问题。决定减少顶点的数量以及如何消除边将会产生一些需要仔细调整的参数。SpectralNet[4]使用Siamese网络学习数据点之间的相似性。然后，它将这些相似性输入神经网络，以找到一个映射函数��，将图的顶点�映射到一个嵌入空间，其中它们可以使用�-means分开。Siamese网络期望用户标记哪些对是正样本（相似）和哪些是负样本（不相似）。无监督配对使用�个最近邻，其中最近邻是正样本，最远邻是负样本。参数�需要手动调整。它还限制了边的数量为�，而不考虑数据点周围的密度。在她的谱聚类论文中，vonLuxburg[7]写道，相互k最近邻图的优点，以及它“倾向于不连接不同密度区域”。她强调了需要有一个“启发式来选择参数k”。我们介绍了一种不需要任何参数即可产生相互0https://doi.org/10.1016/j.array.2022.100192收到日期：2022年1月21日；修订稿收到日期：2022年5月14日；接受日期：2022年5月22日2ongraph vertices. Placing a representative could be done by sampling(like 𝑘-means++ [13]) or by vector quantization (like self-organizingmaps [14]). A well-known method in this field is ‘‘k-means-based ap-proximate spectral clustering (KASP)’’ proposed by Yan et al. [6]. KASPuses 𝑘-means to place representatives. Other efforts by Tasdemir [15]and Tasdemir et al. [16] involved placing representatives using vectorquantization, and a nice feature of these methods is that the pairwisesimilarities are computed during the vector quantization. The problemwith these methods is the parameter 𝑚, which is the number of repre-sentatives. Specifically, how should we set 𝑚? And how would differentval𝐴𝑝𝑞 = exp(−𝑑2 (𝑝, 𝑞) ).(1)0数组15(2022)1001920M. Alshammari等。0较小的边数。它最初找到最能描述点周围密度的平均距离。然后，根据以下内容计算成对相似性：(1)一对点之间的距离，和(2)周围密度的平均距离。最后，我们构建一个相互图，其中一对顶点必须在彼此的最近邻集中。我们在实验中使用了两种图应用：谱聚类和SpectralNet。所提出的方法提供了一个稳定的替代方案，与其他方法相比，它们的性能取决于所选的参数。0我们在这项工作中的主要贡献是消除手动调整0更改时影响聚类准确性的参数。本文使用的图分区方法是谱聚类[7]和SpectralNet[4]。02.相关工作0检测非凸聚类的问题导致了发展0许多聚类方法的发展。这些方法已经放弃了一个聚类有一个单一均值的假设。相反，它们依赖于成对相似性来检测聚类。基于图的聚类包括两个步骤：(1)减少图，和(2)分割图。本文提出的方法属于图构建方法。0谱聚类使用特征分解将点映射到0一个嵌入空间，然后分组相似点。谱聚类的一个重要应用是子空间聚类[8,9]。谱聚类的性能取决于用于构建相似性矩阵�的相似度度量。子空间聚类的早期作品使用基于主角度的相似性[10]。但最近的研究使用稀疏表示点来衡量相似性[8,11,12]。谱聚类需要Ο(�3)的计算量，因为需要进行特征分解。这个问题的一个直接解决方案是减少相似性矩阵�的大小。这可以通过两种方式实现：(1)减少顶点集�，或(2)减少边集�。0通过设置邻居来减少图的边缘。0条件。例如，让 � 成为球 � ( �, � ) 的中心，半径为 � ，并且 � 成为球 � ( �, � )的中心。只有当 � ( �, � ) 和 � ( �, � ) 的交集不包含其他点时， � 和 � 才连接[ ]。这样的图被称为相对邻域图(RNGs)。Correa和Lindstrom[ 18 ]使用了一个 �-骨架图进行谱聚类。然而，参数 � 需要调整。Alshammari等人[ 3]引入了一种从 �-最近邻图中过滤边的方法。然而，它仍需要一个重要的参数，即距离基线分布的均值 � 0 。Satuluri等人[ 19]提出了一种基于邻接列表重叠的顶点之间相似性度量的图稀疏化方法，这在文献中被称为共享最近邻相似性[ 20 ]。Spielman和Srivastava[ 21 , 22]提出了一种基于有效电阻的图稀疏化方法。他们的方法在理论上是可靠的，但是有效电阻的定义破坏了图的聚类结构。具有更多短路径的顶点具有较低的有效电阻，该方法将它们断开连接。0保留图的聚类结构需要连接这样的顶点[ 19 ]。0在谱聚类中，所得到的谱嵌入不能被0扩展到未见数据，这是一个常被称为样本外扩展(OOSE)的任务。有几项研究提出了解决这个问题的解决方案。Bengio等人[ 23]使用Nystrom方法来近似新样本的特征函数。但他们必须检查训练样本和新样本之间的相似性[ 24 ]。Alzate和Suykens[ 25]提出了对特征向量矩阵的行进行二值化的方法，其中每行对应于单个训练数据点。通过计算行出现的次数，可以找到出现最多的 �行，其中每行代表一个簇的编码向量。要对测试样本进行标记，其投影被二值化，并根据其投影和编码向量之间的最小汉明距离将其分配给最接近的簇。Levin等人[26 ]提出了一个线性最小二乘的OOSE方法，这与Bengio等人[ 23]的方法非常接近。他们还提出了一个最大似然的OOSE方法，产生一个二进制向量��，指示未见样本是否与训练样本有边缘连接。0所有先前提供样本外扩展的方法0(OOSE)到谱聚类一直依赖于特征分解，对于大型数据集来说这是不可行的。新提出的Spec- tralNet [ 4]与谱聚类不同，它不使用特征分解步骤。相反，SpectralNet将相似性较高的点通过深度神经网络传递到亲和力矩阵 �中进行分组。然而，SpectralNet仍然需要图构建方法。先前的SpectralNet工作使用了 � -最近邻图，但他们必须手动设置参数 �。它还限制了边的数量必须完全是 �，而不考虑数据点周围的密度。密集的聚类需要更多的边来进行强连接。强连接确保在嵌入空间中更接近的位置。此外，SpectralNet方法随机选择负对。这种随机选择使得该方法在独立执行中不一致。0考虑到关于谱聚类减少图的文献0ing和SpectralNet，很明显它们存在两个缺陷。首先，需要一些参数来驱动图减少过程。其次，随机步骤的参与使得这些方法在独立执行时不一致。03. 减少图的大小而无需参数0我们工作的动机是避免使用任何0图减少过程中不需要参数。我们方法的输入是 � -最近邻图。虽然这个 � -nn图是稀疏的，但它仍然连接着不同密度的簇。 �的值对最终图的影响有限，因为它不是最终值，并且大部分由 � -nn创建的不必要的边将在减少过程中被移除。该方法首先找到最能描述随机选择点 �周围局部统计特性的 � �的值。然后，它过滤掉低权重的边。最后，它检查每条边的相互一致性。03.1. 寻找 � � 的值0为了计算成对相似度，我们使用了相似度测量0由[27]引入，其定义如下：0� � � �0其中 − � 2 ( �, � ) 是点 � 和 � 之间的距离。 � � 和 � � 分别是点 � 和 �的局部尺度。这种相似度测量的好处在于它使用了两种信息来计算成对相似度：（1）它们之间的距离，和（2）每个点的周围密度。属于不同密度簇的点即使距离很近，也会有较低的相似度3,(2)0数组15（2022）1001920M. Alshammari等人0图1. 计算点 � 的 � � 的过程。（最好以彩色查看）。0图2. 计算成对相似度后，我们为点 � 包括高度相似的边。（有关本图例中颜色的解释，请参阅本文的网络版本。）0图3. 实验中使用的合成数据集。0由一个小距离分开这使得这个度量在突出显示由小距离分开的不同簇方面更为出色。使用这个度量在方程（1）中的一个问题是如何设置分母中的 � �的值。在先前的研究中，它被设置为到第7个邻居的距离[27,28]。然而，并没有证据表明到第7个邻居的距离在每个数据集中都适用。使用数据来选择这个参数会更加实际。参数 � � 背后的想法是衡量簇的稀疏性。如果 �处于一个稀疏的簇中，它将有一个较大的 � � ；而如果 �处于一个密集的簇中，它将有一个较小的 � �。为了实现这一点，我们需要排除具有与 � 不同局部密度的邻居被包括在计算 � �中。我们使用了距离的平滑直方图来描述 �附近邻居的局部密度（如图1所示）。直觉是如果一个邻居的局部密度与 �不同，那么这个邻居将会0可以表示为直方图上的一个峰值。每个点的直方图箱值都使用移动加权平均值（MWA）进行平滑处理。平滑处理设计如下：0�� = � � −1 + � � + � � +10其中 � 是箱的值，� 是箱的排名，其中 � = 1 是包含最接近点 �的箱。这种平滑根据它们距离 �的远近为箱分配权重，距离较近的箱分配较高的权重，距离较远的箱分配较低的权重。直方图阈值告诉我们，直到第K个邻居，点 �的局部密度都没有改变。然后，我们将 � �计算为从第1个到第K个邻居的平均距离。这个过程在算法1的语句4到9中描述。40Array 15（2022）1001920M. Alshammari等人0图4.合成数据的结果，所有值都是50次运行的结果。（最好以彩色查看）。03.2.减少图的边0一旦我们对每个点有了��，我们就可以使用算法1中的语句10到14中的公式计算成对的相似性。大的值表示高度相似的点，而小的值表示不相似。我们使用Freedman-Diaconis规则[29]构建了所有成对相似性的另一个直方图，如图2所示。对于每个点，低于阈值��的相似性被消除。如果最大相似性大于均值加标准差�+�，则阈值设置为�=�+�。如果不是，则阈值设置为�=�-�。图2显示了包括的相似性为蓝色bin，排相似性为红色bin。图的边被定义为：0（�，�）∈�（�）�� > ��。（3）0其中（�，�）是点�和�之间的边。��是分配给边（�，�）的权重。我们的减少方法步是构建一个相互图。在相互图中，一对点应该同意0接受一条边。这使得图�被定义为：0（�，�）∈�（�）�� > ��和�� > ��。（4）0其中��是顶点�的接受阈值。03.3.与SpectralNet集成0我们的图过滤方法可以无缝地集成到新提出的使用深度神经网络的谱聚类（SpectralNet）[4]中。SpectralNet使用Siamesenets[30]学习数据点之间的关联。Siamesenets期望用户标记哪些对是正对，哪些是负对。无监督配对使用�-最近邻，其中最近邻是正对，最远的邻居是负对。我们的图过滤可以用来获得正对和负对。它提供了动态设置每个点对的数量的优势。这是无法通过�-最近邻实现的，因为所有点都被限制为具有固定数量的正对。而且，我们不必设置�512𝐴𝑝,𝑞 = exp𝐷 𝑝,𝑞)𝜎𝑝𝜎𝑞)𝐴𝐶𝐶(𝑇 , 𝐿) =,(5))(𝑛+ 𝑛) .(6)0Array 15（2022）1001920M. Alshammari等人0算法1：减少�-最近邻图0输入：�-nn图，其中�=�的顶点的��。输出：�顶点的减少图。01构建�-nn图的距离矩阵�（�，��）02使用FD规则构建所有�中元素的直方图��03将bin宽度保存在��的变量��中0/*以下循环按照 �（��）的顺序进行计算*/04对� = 1到�进行05使用��构建��，1到��的直方图06对��的bin值应用MWA（Eq.（2））07将Kth设置为首个超过MWA阈值的bin08�� = mean（� �，1到K th）09结束0/*以下循环按照 �（��）的顺序进行计算*/010对� = 1到�进行011对� = 1到��进行013结束014结束0/*以下循环按照 �（��）的顺序进行计算*/015对� = 1到�进行016如果max（��，1到��）>�（��，1到��）+�（��，1到��）则017 � �，1到�� < �（� �，1到��）+ �（� �，1到��）= 0019 ��, 1 to �� < � ( ��, 1 to �� ) − � ( ��, 1 to �� ) = 0022 使用亲和矩阵�(�, ��)构建一个简化图0手动地，我们让我们的方法为每个点分配正负对。算法1展示了所提出方法的步骤。04. 实验和讨论0在实验中，我们使用了四个合成数据集，如下所示0图3。数据集1到3由[27]创建，数据集4由我们创建。我们还使用了七个真实数据集（见表1）。除了MNIST数据集外，所有真实数据集均来自UCI机器学习。每个数据集都使用两组参数进行运行以评估效果。0比较使用了六种方法，如下所示0表2。方法1到5[6, 15,16]依赖于参数�，即用于构建图�的代表数。它们使用了像�-means和自组织映射这样的迭代算法来构建图，这使得它们每次运行时产生略有不同的图。方法6[3]依赖于参数�0来构建图�，其中�0是用作阈值以包括或排除更多邻居的邻居的平均数。代码可在https://github.com/mashaan14/Spectral-Clustering找到。0所有方法均使用三种评估指标进行评估：(1)0聚类准确度（ACC）(2)调整兰德指数（ARI）[31]，以及(3)与完整图中所有边相比使用的边的百分比（E%）。0ACC计算地面实况标签之间的命中百分比0��和通过聚类获得的标签��。它定义为[32]：0∑��=1�(��, ��(��))0表1实验中使用的四个合成和七个真实数据集；�是点的数量，�是维度的数量，�是簇的数量，�是减少的顶点集的大小，�0是用作阈值以包括或排除更多邻居的邻居的数量。0其中，�是点的数量，函数�(�, �)是Kronecker delta函数，如果� =�则等于1，否则为零。函数��(��)通过对聚类得到的分组进行排列，以最佳拟合地面实况分组。ARI需要两个分组�和�，其中�是地面实况，�是聚类方法预测的分组。如果�和�相同，ARI产生1，如果是随机分组则产生0。ARI的计算公式为：�11:在�和�中处于相同簇中的对数；�00: 在�和�中处于不同簇中的对数；�01:在�中处于相同簇中但在�中处于不同簇中的对数；�10:在�中处于不同簇中但在�中处于相同簇中的对数。0�� ( � , � ) = 2( � 00 � 11 − � 01 � 10 )0计算效率可以通过方法的运行时间来衡量，但这受到所使用机器类型的影响。我们选择通过边的百分比E%来衡量计算效率：0� % = �0�(��) . (7)04.1. 对合成数据的实验0在合成数据集中，提出的方法提供了一种表现0在数据集1到4中，排名分别为第2、第2、第1和第2（见图4）。方法6在三次评估中表现最佳。然而，当我们改变参数�0时，其性能显著下降。例如，当我们将�0 =3改为�0 =7时，其在数据集4上的性能下降了50%。这表明参数如何影响性能。另一个观察是ACC和ARI指标在50次运行中的一致性。从图4可以看出，方法1到5具有较大的标准偏差。这是由方法1到5使用的迭代算法构建图导致的。方法6和提出的方法没有这个问题，它们具有较小的标准偏差。这是由于它们在构建图时的确定性特性，使它们在独立执行时保持一致。0就使用的边而言，所提出的方法使用了6.32％，0分别为数据集2到4的全图边的1.45％、0.78％和0.51％。但是在数据集1中，所提出的方法使用了全图边的16％，出现了急剧增加。这种急剧增加可以通过密集簇中的点完全连接来解释。60数组15（2022）1001920M. Alshammari等人0图5.对真实数据的结果，所有值均为50次运行。（最佳以彩色查看）。70数组15（2022）1001920M. Alshammari等人0图6.在不同的参数�和�0设置下，测试方法的性能与鸢尾花数据集。（最佳以彩色查看）。0图7.用于SpectralNet实验的数据集。0图8.与SpectralNet集成实验的结果，共进行10次运行。（最佳以彩色查看）。80数组15（2022）1001920M. Alshammari等人0表2实验中使用的方法。�是减少的顶点数，�是所有顶点数，�是迭代次数，��是用于构建�-nn图的参数。04.2.对真实数据的实验0在图5中使用真实数据，所提出的方法继续是0在所有测试方法中，该方法是最一致的。它保持了非常小的标准偏差，而其他方法的标准偏差很大。其他方法的性能取决于它们的参数。例如，当�=16时，方法3在鸢尾花数据集上是最佳表现者。然而，当我们将�改为32时，其性能下降了超过15%。另一个观察是，对于statlog和MNIST，所提出的方法表现不佳。这表明这些数据集中的一个簇在其区域内没有相同的统计数据。因此，使用局部�来表征簇可能不是一个好选择。相反，我们应该使用CONN来发现簇的不连续性，而不是跟踪局部统计数据。04.3.参数对谱聚类性能的影响0在这个实验中，我们调查了一系列参数的广泛选择0参数�和�0可能会影响谱聚类的准确性。参数�和�0分别取以下值：�∈{10，20，30，0，50，60，70，80，90，100}，�0∈{3，7，10，20，30，40，50，60，70，80}。在图6（左）中，方法1到5的性能随�的不同值而波动，随着�的增加，出现明显的下降趋势。虚线水平线是所提出的方法的性能。在图6（右）中，方法6的性能开始较低，达到�0=30左右的峰值，然后呈下降趋势。通过消除�0的使用，我们的方法提供了稳定的性能，如水平虚线所示。04.4.与SpectralNet集成的实验0SpectralNet集成实验使用了三个0数据集如图7所示。评估指标为ACC（见式（5））、ARI（见式（6））和总对数，即传递给Siamese网络的对数。我们使用了四种方法来构建正对和负对。前两种方法使用了�-最近邻图，其中�=2和�=4。简单地，最近的�个邻居被设置为正对，而�个随机最远的邻居被设置0作为负对。第三种方法使用了Alshammari等人提出的�0参数[3]来构建对。0在图8中，所提出的方法在cc和compound数据集上表现最佳。这种良好的性能与良好的计0cc和compound数据集的最佳性能。这种良好的性能与良好的计算效率相结合，平均为Siamese网络传递的总对数为8468。只有�=2能够交付0总对数对减少，但性能严重下降。对于聚合数据集，� =2提供了最佳性能。这个实验突显了动态设置正对数对数量的必要性。遵循这种方法的方法（�0方法和我们的方法）是三个数据集中两个表现最好的方法。05. 结论0检测非凸聚类的问题导致了众多聚类方法的发展0发现非凸聚类的问题导致了众多聚类方法的发展。其中一个众所周知的基于图的聚类方法是谱聚类和SpectralNet。谱聚类和SpectralNet都需要一个连接同一聚类中的点的边权重很高的图。直觉很简单，强连接的点在嵌入空间中会变得更接近，并且可以很容易地被检测到。0图减少需要广泛使用需要仔细设置每个数据集的参数0每个数据集需要仔细设置。本研究提出的图减少算法不需要任何参数来减少图，但它能够保持谱聚类和SpectralNet的准确性。它接受完整图或�-最近邻图作为输入（在点数较大的情况下）。然后，它使用需要低计算量的统计量来减少图的边。实验表明，所提出的方法相对于需要参数调整的其他方法提供了一个稳定的替代方案。0所提出的方法不会减少图的顶点0可以提高计算效率。所提出的方法的一个有用的扩展是一个顶点减少组件，它了解局部统计信息。这项工作的另一个潜在改进是使用不同的核函数来计算成对相似性。9[8][9][10][11][12][13]In: Proceedings of the annual ACM-SIAM symposium on discrete algorithms[15][16][17][18][19][20][21][22]Comput[23]2005.198.0数组15（2022）1001920M. Alshammari等0CRediT作者贡献声明0Mashaan Alshammari：概念化，方法论，软件0可视化，原始草案撰写，项目管理。JohnStavrakakis：概念化，调查，可视化，审阅和编辑。MasahiroTakatsuka：概念化，审阅和编辑，监督。0竞争利益声明0作者声明他们没有已知的竞争性财务利益0在本文中报告的工作可能出现影响的商业利益或个人关系。0参考文献0[1]秦Y，于ZL，王CD，顾Z，李Y。基于混合0K最近邻图。Pattern Recognit 2018;74:1–14. http://dx.doi.org/10.1016/j.patcog.2017.09.008 .0[2]Kim Y，Do H，Kim SB。外点刨刀：鲁棒的基于图的聚类0通过节点切割。Pattern Recognit 2020;97:107001. http://dx.doi.org/10.1016/j.patcog.2019.107001 .0[3]Alshammari M，Stavrakakis J，Takatsuka M。优化k最近邻0用于计算高效谱聚类的图。Pattern Recognit 2021;114:107869.http://dx.doi.org/10.1016/j.patcog.2021.107869 .0[4]Shaham U，Stanton K，Li H，Nadler B，Basri R，Kluger Y。SpectralNet：谱0使用深度神经网络进行聚类。在：第六届国际学习表示会议ICLR 2018 -会议论文集。2018年，http://dx.doi.org/10.48550/ARXIV.1801.01587 .0[5]Ng AY，Jordan MI，Weiss Y。关于谱聚类的分析和算法。0[6]Yan D，黄L，Jordan MI。快速近似谱聚类。在：会议记录0[7] von Luxburg U. A tutorial on spectral clustering. Stat Comput 2007年;17(4):395–0低秩表示. IEEE Trans Pattern Anal Mach Intell 2013年;35(1):171–84.http://dx.doi.org/10.1109/TPAMI.2012.88 .0应用. IEEE Trans Pattern Anal Mach Intell 2013年;35(11):2765–81. http://dx.doi.org/10.1109/TPAMI.2013.57 .0Learn Res 2003年;4(null):913–31. http://dx.doi.org/10.1109/TPAMI.2012.88 .0秩近似. In: Proceedings of the 21th ACM SIGKDD international conference on knowledgediscovery and data mining. KDD ’15, 2015, p. 925–34.http://dx.doi.org/10.1145/2783258.2783303 .0子空间聚类的回归. Pattern Recognit 2021年;113:107749. http://dx.doi.org/10.1016/j.patcog.2020.107749 .0[14] Kohonen T. The self-organizing map. Proc IEEE 1990年;78(9):1464–80. http://dx.0大型数据集. Pattern Recognit 2012年;45(8):3034–44. http://dx.doi.org/10.1016/j.patcog.2012.02.012 .0使用基于测地线的混合距离度量的相似性信息. Pattern Recognit 2015年;48(4):1465–77.http://dx.doi.org/10.1016/j.patcog.2014.10.023 .0概率和统计, 新泽西州霍博肯: Wiley-Interscience; 2004, http://dx.doi.org/10.1002/047172209X .0图形. In: Proceedings of the 18th ACM SIGKDD international conference on knowledgediscovery and data mining. 2012, p. 1330–8. http://dx.doi.org/10. 1145/2339530.2339736.0聚类. SIGMOD ’11, 美国纽约: 计算机协会; 2011, p. 721–32.http://dx.doi.org/10.1145/1989323.1989399 .0近邻. IEEE Trans Comput 1973年;C-22(11):1025–34. http://dx.doi.org/10.1109/T-C.1973.223640 .0J Comput 2011年;40(6):1913–26. http://dx.doi.org/10.1137/080734029 .02011年;40(4):981–1025. http://dx.doi.org/10.1137/08074489X .0LLE、isomap、MDS、eigenmaps和谱聚类的扩展。在：Thrun S, Saul L, Schölkopf B,编辑。神经信息处理系统的进展，第16卷。麻省理工学院出版社；2003年。0[24] Nie F, Zeng Z, Tsang IW, Xu D, Zhang C. 谱嵌入聚类：0内样本和外样本谱聚类框架。IEEE Trans Neural Netw 2011;22(11):1796–808.http://dx.doi.org/10.1109/TNN.2011.2162000 .0[25] Alzate C, Suykens JAK. 多路谱聚类与外样本扩展-0通过加权核PCA解决张力。IEEE Trans Pattern Anal Mach Intell 2010;32(2):335–47.http://dx.doi.org/10.1109/TPAMI.2008.292 .0[26] Levin K, Roosta F, Mahoney M, Priebe C. 图的外样本扩展-0邻接谱嵌入。在：Dy J, Krause A,编辑。第35届国际机器学习会议论文集。机器学习研究论文集，第80卷，PMLR；2018年，页2975–84。0[27] Zelnik-Manor L, Perona P. 自我调整谱聚类。Adv Neural Inf Process-0[28] Sugiyama M. 本地费舍尔多模态标记数据的降维-0判别分析。J Mach Learn Res 2007;8(May):1027–61.0[29] Freedman D, Diaconis P. 关于直方图作为密度估计器的L2理论。Z-0[30] Bromley J, Guyon I, LeCun Y, Säckinger E, Shah R. 使用-0一种‘‘暹罗’’时延神经网络。在：第6届国际神经信息处理系统会议论文集。NIPS’93，美国加利福尼亚州旧金山：摩根考夫曼出版社；1993年，页737–44。 http://dx.doi.org/10.1142/9789812797926_0003 .0[31] Hubert L, Arabie P. 比较分区。J Classification 1985;2(1):193–218.0[32] Cai D, He X, Han J. 使用保持局部性的索引进行文档聚类。IEEE0MashaanAlshammari博士是海耶尔大学的助理教授。他的研究兴趣包括无监督学习和图像分析。Mashaan拥有沙特阿拉伯国王法赫德石油和矿产大学（KFUPM）的计算机科学硕士学位，以及澳大利亚悉尼大学的博士学位。0约翰∙斯塔夫拉卡基斯博士对3D计算机图形学、远程渲染和计算机安全有浓厚兴趣。他拥有计算机科学博士学位，并且是澳大利亚悉尼大学的学术研究员。0MasahiroTakatsuka博士于1992年在东京工业大学获得工程硕士学位，并于1997年在莫纳什大学获得博士学位。1997年至2002年，他在宾夕法尼亚州立大学GeoVISTA中心担任高级研究助理。他于2002年加入悉尼大学计算机科学学院。

下载后可阅读完整内容，剩余1页未读，立即下载