基于非参数图减少用于图聚类和SpectralNet方法的稳定替代方案

135 浏览量更新于2023-12-06 收藏 14.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0Array 15 (2022) 1001920章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。0ScienceDirect提供的内容列表0Array0期刊主页：www.elsevier.com/locate/array0一种无参数的图减少方法，用于谱聚类和SpectralNet0Mashaan Alshammari a，�，John Stavrakakis b，Masahiro Takatsuka b0a沙特阿拉伯哈伊勒大学计算机科学与工程学院，邮编81411，b悉尼大学计算机科学学院，澳大利亚新南威尔士州20060文章信息0关键词：谱聚类，SpectralNet，图减少，局部尺度相似性0摘要0像谱聚类和SpectralNet这样的基于图的聚类方法在检测非凸形状的簇方面非常高效。与流行的 � -means不同，基于图的聚类方法不假设每个簇具有单个均值。然而，这些方法需要一个图，其中同一簇中的顶点由较大权重的边连接。为了实现这一目标，许多研究提出了带参数的图减少方法。不幸的是，这些参数必须针对每个数据集进行调整。我们介绍了一种不需要任何参数的图减少方法。首先，使用自适应阈值过滤每个点 �到其邻居的距离，只保留具有相似周围密度的邻居。其次，计算与近邻的相似性，并仅保留高相似性。在经过这两个过滤步骤后幸存下来的边构成了传递给谱聚类和SpectralNet的构建图。实验表明，我们的方法提供了一个稳定的替代方案，其他方法的性能根据其参数的设置而波动。01. 引言0检测非凸几何形状的簇的问题在模式识别文献中已经研究了很长时间。这个问题的解决方案可以被广泛地分类为两类：基于核和基于图的方法。基于核的方法试图将点映射到一个可以分离它们的空间。嵌入函数 � ∶ R � → R �将点从原始空间映射到嵌入空间。定义嵌入函数 �通常是未知的，并且可能计算成本很高[1]。另一方面，基于图的方法使用图�（�，�），其顶点集表示数据点，其边集表示每对顶点之间的相似性。在图中找到非凸簇可以通过三种方式完成：（1）通过迭代粗化和分区图[2]，（2）通过执行谱聚类[3]，（3）通过将图 �（�，�）输入神经网络（SpectralNet）[4]。在图中检测簇的第一种方式是迭代的，涉及两个缺陷：陷入局部最小值的风险和需要停止条件。这使得谱聚类和SpectralNet对进行基于图的聚类的研究更具吸引力。谱聚类首先通过构建图 �（�，�）来开始。顶点 � 和边 �的集合表示数据点及其成对相似性。谱聚类通过对图拉普拉斯矩阵 �进行特征分解，并对其顶部特征向量进行 � -means 来检测簇[5]。计算瓶颈表示0� 通讯作者。邮箱地址：mashaan.alshammari@uoh.edu.sa（M. Alshammari），john.stavrakakis@sydney.edu.au（J. Stavrakakis），masa.takatsuka@sydney.edu.au0（M. Takatsuka）。0通过特征分解将会使算法的计算量达到O(A^3)[6]。这促使了通过减少图的顶点和/或边来减少这些计算的研究。然而，对于内存高效图的需求又引发了与图构建过程相关的参数数量的问题。决定减少顶点的数量以及如何消除边将产生许多需要仔细调整的参数。SpectralNet[4]使用Siamese网络学习数据点之间的相似性。然后，它将这些相似性输入神经网络，以找到一个映射函数Aζ，将图的顶点A映射到一个嵌入空间，可以使用k均值将它们分开。Siamese网络期望用户标记哪些对是正样本（相似）和哪些是负样本（不相似）。无监督配对使用k个最近邻，其中最近邻是正样本，最远邻是负样本。参数i需要手动调整。它还限制边的数量为i，而不考虑数据点周围的密度。在她的谱聚类论文中，vonLuxburg[7]写道，相互k最近邻图的优点，以及它“倾向于不连接不同密度的区域”。她强调了需要有一个“启发式来选择参数k”的需求。我们介绍了一种不需要任何参数就能产生相互0https://doi.org/10.1016/j.array.2022.100192收稿日期：2022年1月21日；修订稿收到日期：2022年5月14日；接受日期：2022年5月22日2𝐴𝑝𝑞 = exp(−𝑑2 (𝑝, 𝑞)𝜎𝑝𝜎𝑞).(1)0数组15（2022）1001920M. Alshammari等。0较完整图的边数。它最初找到最能描述点周围密度的平均距离。然后，根据以下内容计算成对相似性：(1)一对点之间的距离，以及(2)周围密度的平均距离。最后，我们构建一个相互图，其中一对顶点必须在彼此的最近邻集合中。我们在实验中使用了两种图应用：谱聚类和SpectralNet。所提出的方法相对于其他方法提供了稳定的替代方案，其性能取决于所选参数。0我们在这项工作中的主要贡献是消除手动调整0改变时影响聚类准确性的参数。本文使用的图分割方法是谱聚类[7]和SpectralNet[4]。02. 相关工作0检测非凸聚类的问题导致了发展0大量聚类方法的发展。这些方法已经放弃了一个聚类有一个单一均值的假设。相反，它们依赖于成对相似性来检测聚类。基于图的聚类包括两个步骤：（1）减少图，和（2）分割图。本文提出的方法属于图构建方法。0谱聚类使用特征分解将点映射到0嵌入空间，然后对相似点进行分组。谱聚类的一个重要应用是子空间聚类[8,9]。谱聚类的性能取决于用于构建相似性矩阵A的相似性度量。子空间聚类的早期作品使用基于主角度的相似性[10]。但最近的研究使用稀疏表示点来测量相似性[8,11,12]。谱聚类需要O(A^3)的计算量，因为需要进行特征分解。这个问题的一个直接解决方案是减少相似性矩阵A的大小。这可以通过两种方式实现：（1）减少顶点集A，或（2）减少边集A。0通过在数据点上放置代表来减少顶点的数量0在数据点上方放置代表，然后使用这些代表作为图的顶点。放置代表可以通过抽样(如 � -means++ [ 13 ])或通过矢量量化(如自组织映射[ 14])来实现。在这个领域中一个著名的方法是Yan等人提出的‘‘基于k均值的近似谱聚类(KASP)’’[ 6 ]。KASP使用 � -means来放置代表。Tasdemir[ 15]和Tasdemir等人[ 16]的其他努力涉及使用矢量量化来放置代表，这些方法的一个很好的特点是在矢量量化期间计算了成对的相似性。这些方法的问题在于参数 �，即代表的数量。具体来说，我们应该如何设置 � ？不同的 �值会如何影响聚类结果？0通过设置邻居来减少图的边缘0条件。例如，让 � 成为球 � ( �, � ) 的中心，半径为 � ，并且 � 成为球 � ( �, � )的中心。只有当 � ( �, � ) 和 � ( �, � ) 的交集不包含其他点时， � 和 � 才相连[ 1]。这样的图被称为相对邻域图(RNGs)。Correa和Lindstrom[ 18 ]使用了一个 �-骨架图进行谱聚类。然而，参数 � 需要调整。Alshammari等人[ 3 ]引入了一种从 �-最近邻图中筛选边的方法。然而，它仍需要一个有影响力的参数，即距离基线分布的均值 � 0 。Satuluri等人[ 19]提出了一种减少边的本地方法。作者使用邻接列表重叠来衡量两个顶点之间的相似性，这在文献中被称为共享最近邻相似性[ 20]。基于有效电阻的图稀疏化方法是由Spielman和Srivastava[ 21 , 22]提出的。他们的方法在理论上是可靠的，但是有效电阻的定义破坏了图的簇结构。具有更多短路径的顶点具有较低的有效电阻，该方法会将它们断开连接。0保持图的簇结构需要连接这样的顶点[ 19 ]。0在谱聚类中，获得的谱嵌入不能被0扩展到未见数据，这个任务通常被称为样本外扩展(OOSE)。有几项研究提出了解决这个问题的方案。Bengio等人[ 23]使用Nystrom方法来近似新样本的特征函数。但他们必须检查训练样本和新样本之间的相似性[ 24 ]。Alzate和Suykens[ 25]提出了对特征向量矩阵的行进行二值化的方法，其中每行对应于单个训练数据点。通过计算行出现的次数，可以找到出现最多的 �行，其中每行代表一个簇的编码向量。要标记测试样本，需要对其投影进行二值化，并根据其投影和编码向量之间的最小汉明距离将其分配到最近的簇。Levin等人[26 ]提出了一个线性最小二乘的样本外扩展方法，这与Bengio等人[ 23]的方法非常接近。他们还提出了一个最大似然的样本外扩展方法，产生一个二进制向量��，指示未见样本是否与训练样本有边相连。0所有先前提供样本外扩展的方法0(OOSE)到谱聚类一直依赖于特征分解，对于大型数据集来说这是不可行的。新提出的Spec- tralNet [ 4]与谱聚类不同之处在于它不使用特征分解步骤。相反，SpectralNet将相似性矩阵 �传递到深度神经网络中，以将具有高相似性的点分组。然而，SpectralNet仍然需要图构建方法。先前的SpectralNet工作使用了 �-最近邻图，但它们必须手动设置参数 � 。它还限制了边的数量为确切的 �，而不考虑数据点周围的密度。密集的聚类需要更多的边来进行强连接。强连接确保在嵌入空间中更接近的位置。此外，SpectralNet方法随机选择负对。这种随机选择使得该方法在独立执行中不一致。0考虑到关于谱聚类减少图的文献0ing和SpectralNet，很明显它们有两个缺陷。首先，需要一定的参数来驱动图减少过程。其次，随机步骤的参与使得这些方法在独立执行时不一致。03. 减少图的大小，无需参数0我们工作的动机是避免使用任何0在图减少过程中不需要参数。我们方法的输入是 � -最近邻图。虽然这个 �-nn图是稀疏的，但它仍然连接着不同密度的簇。 �的值对最终图的影响有限，因为它并不是最终的值，并且大部分由 �-nn创建的不必要的边将在减少过程中被移除。该方法首先找到最能描述随机选择点 � 周围局部统计特性的 � �的值。然后，它过滤掉权重较低的边。最后，它检查每条边的相互一致性。03.1. 寻找 � � 的值0为了计算成对相似度，我们使用了相似度测量0由[27]引入，其定义如下：0其中 − � 2 ( �, � ) 是点 � 和 � 之间的距离。 � � 和 � � 分别是点 � 和 �的局部尺度。这种相似度测量的好处在于它使用了计算成对相似度的两个信息源：（1）它们之间的距离，以及（2）每个点的周围密度。属于不同密度簇的点即使距离很近也会有较低的相似度3𝑀𝑊 𝐴𝑖 = 𝑣𝑖−1 + 𝑣𝑖 + 𝑣𝑖+1𝑟 −1 + 𝑟 + 𝑟 +1,(2)0数组15（2022）1001920M. Alshammari等人0图1. 计算点 � 的 � � 过程。（最好以彩色查看）。0图2. 计算成对相似度后，我们为点 � 包括高度相似的边。（有关本图例中颜色的解释，请参阅本文的网络版本。）0图3. 实验中使用的合成数据集。0由于小距离分隔的不同簇，这使得该测量方法在突出显示不同簇方面更为优越。在使用该测量方法计算式（1）时出现的一个问题是如何设置分母中的 � �的值。在先前的研究中，它被设置为到第7个邻居的距离[27,28]。然而，并没有证据表明第7个邻居的距离在每个数据集中都适用。使用数据来选择这个参数会更加实际。参数 � � 背后的想法是衡量一个簇的稀疏程度。如果 �处于一个稀疏的簇中，它将具有较大的 � � ；而如果 �处于一个密集的簇中，它将具有较小的 � �。为了实现这一点，我们需要排除具有不同局部密度的邻居被包括在计算 � �中。我们使用了距离的平滑直方图来描述 �邻居的局部密度（如图1所示）。直觉是，如果一个邻居的局部密度与 �不同，这将0可以表示为直方图上的峰值。每个点的直方图箱值都使用移动加权平均值（MWA）进行平滑处理。平滑处理设计如下：0其中 � 是箱的值，� 是箱的排名，其中 � = 1 是包含最接近点 �的箱。这种平滑根据它们与 �的距离为箱分配权重，对于距离较近的箱分配较高的权重，对于距离较远的箱分配较低的权重。直方图阈值告诉我们，直到第K个邻居，点 �的局部密度都没有改变。然后，我们将 � �计算为从第1个到第K个邻居的平均距离。这个过程在算法1的语句4到9中描述。40Array 15（2022）1001920M. Alshammari等0图4.合成数据的结果，所有值均为50次运行。（最好以彩色查看）。03.2.减少图的边0一旦我们为每个点计算了��，我们就可以使用算法1中的公式计算成对相似性，如语句10到14所示。大值表示高度相似的点，而小值表示不相似。我们使用Freedman-Diaconis规则[29]构建了所有成对相似性的另一个直方图，如图2所示。对于每个点，低于阈值��的相似性将被消除。如果最大相似性大于均值加标准差�+�，则将阈值设置为�=�+�。如果不是，则将阈值设置为�=�−�。图2显示了包括的相似性为蓝n，排除的相似性为红色bin。图的边被定义为：0（�，�）∈�（�）��>��。（3）0其中（�，�）是点�和�之间的边。��是分配给边（�，�）的权重。我们的减少方法步是构建一个相互图。在相互图中，一对点应该同意0接受一条边。这使得图�被定义为：0（�，�）∈�（�）��>��和��>��。（4）0其中��是顶点�的接受阈值。03.3.与SpectralNet集成0我们的图过滤方法可以无缝地集成到新提出的使用深度神经网络的谱聚类（SpectralNet）[4]中。SpectralNet使用Siamese网络[30]学习数据点之间的关联。Siamese网络期望用户标记哪些对是正对，哪些是负对。无监督配对使用�-最近邻，其中最近邻是正对，最远邻是负对。我们的图过滤可以用于获得正对和负对。它提供了动态设置每个点对的数量的优势。这是无法通过�-最近邻来实现的，其中所有点都受限于具有固定数量的正对。此外，我们不必设置�512𝐴𝑝,𝑞 = exp𝐷 𝑝,𝑞)𝜎𝑝𝜎𝑞)𝐴𝐶𝐶(𝑇 , 𝐿) =)(𝑛+ 𝑛) .(6)0Array 15（2022）1001920M. Alshammari等0算法1：减少�-最近邻图0输入：�-nn图，其中�=�的顶点的��。输出：�顶点的减少图。01构建�-nn图的距离矩阵�（�，��）02使用FD规则构建所有元素的直方图��03将bin宽度保存在��的变量��中0/*以下循环按照 �（��）的顺序进行计算*/04对于� = 1到�执行05使用��构建��，1到��的直方图06对��的bin值应用MWA（Eq.（2））07将Kth设置为首个超过MWA阈值的bin08��=（� �，1到Kth）的均值09结束0/*以下循环按照 �（��）的顺序进行计算*/010对于�=1到�执行011对于� = 1到��执行013结束014结束0/*以下循环按照 �（��）的顺序进行计算*/015对于� = 1到�执行016如果max（��，1到��）>�（��，1到��）+�（��，1到��）则017 � �，1到�� < �（� �，1到��）+ �（� �，1到��）= 0018 否则019 ��, 1 to �� < � ( ��, 1 to �� ) − � ( ��, 1 to �� ) = 0020 结束021 结束022 使用亲和矩阵�(�, ��)构建一个简化图0手动。我们让我们的方法为每个点分配正负对。算法1展示了所提出方法的步骤。04. 实验和讨论0在实验中，我们使用了四个合成数据集，如下所示0图3。数据集1至3由[27]创建，而数据集4由我们创建。我们还使用了七个真实数据集（见表1）。除了MNIST数据集外，所有真实数据集均来自UCI机器学习。每个数据集都使用了两组参数进行评估。0进行比较使用了六种方法，如下所示0表2。方法1至5[6, 15,16]依赖于参数�，它是构建图�的代表数。它们使用了像�-means和自组织映射这样的迭代算法来构建图，这使得它们每次运行时产生略有不同的图。方法6[3]依赖于参数�0来构建图�，其中�0是用作阈值以包括或排除进一步邻居的邻居的平均数。该代码可在https://github.com/mashaan14/Spectral-Clustering找到。0所有方法都使用了三个评估指标进行评估：(1)0聚类准确度（ACC）(2)调整兰德指数（ARI）[31]，以及(3)与完整图中使用的所有边相比所使用的边的百分比（E%）。0ACC计算地面实况标签之间的命中百分比0��和通过聚类获得的标签��。它的定义为[32]：0∑��=1�(��, ��(��))0�，(5)0表1实验中使用的四个合成和七个真实数据集；�是点的数量，�是维度的数量，�是簇的数量，�是减少的顶点集的大小，�0是用作阈值以包括或排除进一步邻居的邻居的数量。0其中�是点的数量，函数�(�, �)是Kro- necker delta函数，如果� =�则等于1，否则为零。函数��(��)通过对聚类得到的分组进行排列，以最佳拟合地面实况分组。ARI需要两个分组�和�，其中�是地面实况，�是聚类方法预测的分组。如果�和�相同，ARI产生1，如果是随机分组则产生0。ARI的计算公式为：�11:在�和�中处于相同簇中的对数；�00:在�和�中处于不同簇中的对数；�01:在�中处于相同簇中但在�中处于不同簇中的对数；�10:在�中处于不同簇中但在�中处于相同簇中的对数。0�� ( � , � ) = 2( � 00 � 11 − � 01 � 10 )0计算效率可以通过方法的运行时间来衡量，但这受到所使用机器类型的影响。我们选择通过边的百分比E%来衡量计算效率：0� % = �0�(��)。(7)04.1. 对合成数据的实验0在合成数据集中，所提出的方法提供了一种表现0将其分别排名为数据集1至4的第2、第2、第1和第2名（见图4）。方法6在三次中表现最佳。然而，当我们改变参数�0时，其性能显著下降。例如，当我们将�0 =3改为�0 =7时，其在数据集4上的性能下降了50%。这表明参数如何影响性能。另一个观察是ACC和ARI指标在50次运行中的一致性。通过观察图4，方法1至5具有较大的标准偏差。这是由方法1至5使用的迭代算法来构建图解释的。方法6和提出的方法没有这个问题，它们具有较小的标准偏差。这是由于它们在构建图时的确定性特性，使它们在独立执行时保持一致。0就使用的边而言，所提出的方法使用了6.32％，0对于数据集2到4，所提出的方法使用了全图边的1.45％、0.89％和0.51％。但在数据集1中，所提出的方法使用了全图边的16％。这种急剧增加可以通过密集簇中的点是完全连接的来解释。60数组15（2022）1001920M. Alshammari等人0图5.对真实数据的结果，所有值均为50次运行。（最好以彩色查看）。70数组15（2022）1001920M. Alshammari等人0图6.在不同的参数�和�0设置下，测试方法的性能与鸢尾花数据集。（最好以彩色查看）。0图7.用于SpectralNet实验的数据集。0图8.与SpectralNet集成实验的结果，进行了10次运行。（最好以彩色查看）。8aggregation dataset, 𝑘 = 2 delivered the best performance. Thisexperiment highlighted the need for setting the number of positive pairsdynamically. The methods following this approach (the 𝜇0 method andour method) were the best performers for two of the three datasets.0数组15（2022）1001920M. Alshammari等人0表2实验中使用的方法。�是减少的顶点数，�是所有顶点数，�是迭代次数，��是用于构建�-nn图的参数。04.2.对真实数据的实验0在图5中使用真实数据，所提出的方法继续是最一致的方法。0在所有测试方法中，所提出的方法是最一致的方法。它保持了非常小的标准偏差，而其他方法的标准偏差很大。其他方法的性能取决于它们的参数。例如，当�=16时，Method3在鸢尾花数据集上是最佳表现者。然而，当我们将�改为32时，其性能下降了超过15%。另一个观察是，在statlog和MNIST中，所提出的方法表现不佳。这表明这些数据集中的一个簇在其区域内没有相同的统计数据。因此，使用局部�来表征簇可能不是一个好选择。相反，我们应该使用CONN来发现簇的不连续性，而不是跟踪局部统计数据。04.3.参数对谱聚类性能的影响0在这个实验中，我们调查了一系列参数的选择0参数可能会影响谱聚类的准确性。参数�和�0分别取以下值：�∈{10，20，30，40，50，60，70，80，90，100}和�0∈{3，7，10，20，30，40，50，60，70，80}。在图6（左）中，方法1到5的性能随�的不同值而波动，随着�的增加，性能明显下降。虚线水平线是所提出的方法的性能。在图6（右）中，Method6的性能开始较低，达到�0=30左右的峰值，然后呈下降趋势。通过消除�0的使用，我们的方法提供了稳定的性能，如虚线水平线所示。04.4.与SpectralNet集成的实验0SpectralNet集成实验使用了三个0数据集如图7所示。评估指标为ACC（见式（5））、ARI（见式（6））和总对数，即传递给Siamese网络的对数。我们使用了四种方法来构建正对和负对。前两种方法使用了�=2和�=4的�最近邻图。简单地说，最近的�个邻居被设置为正对，�个随最远的邻居被设置为负对。0作为负对。第三种方法使用了Alshammari等人提出的�0参数构建对。0在图8中，所提出的方法在cc和compound数据集上表现最佳。这种良好的性能与良好的计0cc和compound数据集的最佳性能。这种良好的性能与良好的计算效率相结合，平均为Siamese网络传递的总对数为8468。只有�=2能够交付05. 结论0发现许多总对，但性能严重下降。对于聚合数据集，�=2提供了最佳性能。这个实验突出了动态设置正对数的必要性。遵循这种方法的方法（�0方法和我们的方法）是三个数据集中两个最好的表现者。0图缩减需要广泛使用需要仔细设置每个数据集的参数0发展了许多聚类方法。其中一个众所周知的基于图的聚类方法是谱聚类和SpectralNet。谱聚类和SpectralNet都需要一个将同一聚类中的点连接起来的图，边的权重很高。直觉很简单，强连接的点在嵌入空间中会变得更近，并且可以很容易地被检测到。0所提出的方法不会减少图的顶点，这0可以提高计算效率。所提出的方法的一个有用的扩展将是一个顶点减少组件，它了解局部统计信息。这项工作的另一个潜在改进是使用不同的核心而不是高斯核心来计算成对相似性。92005.198.0数组15（2022）1001920M. Alshammari等0CRediT作者贡献声明0Mashaan Alshammari：概念化，方法论，软件0可视化，原始草案撰写，项目管理。JohnStavrakakis：概念化，调查，可视化，审阅和编辑。MasahiroTakatsuka：概念化，审阅和编辑，监督。0竞争利益声明0作者声明他们没有已知的竞争财务利益0在本文中报告的工作可能出现影响的商业利益或个人关系。0参考文献0[1]秦Y，于ZL，王CD，顾Z，李Y.基于混合0K最近邻图。模式识别2018;74:1–14. http://dx.doi.org/10. 1016/j.patcog.2017.09.008 .0[2]Kim Y，Do H，Kim SB.外部点刨床：稳健的基于图的聚类0通过节点切割。模式识别2020;97:107001. http://dx.doi.org/10.1016/ j.patcog.2019.107001 .0[3]Alshammari M，Stavrakakis J，Takatsuka M.改进k最近邻0用于计算高效谱聚类的图。模式识别2021;114:107869.http://dx.doi.org/10.1016/j.patcog.2021.107869 .0[4]Shaham U，Stanton K，Li H，Nadler B，Basri R，Kluger Y. SpectralNet：谱0使用深度神经网络进行聚类。在：第6届国际学习表示会议ICLR 2018 -会议论文集。2018年，http://dx.doi.org/10.48550/ARXIV.1801.01587 .0[5]Ng AY，Jordan MI，Weiss Y.关于谱聚类的分析和算法。0[6]Yan D，黄L，Jordan MI.快速近似谱聚类。在：会议记录0of the 15th ACM SIGKDD international conference on knowledge discovery and datamining. 2009, 页码 907–16. http://dx.doi.org/10.1145/1557019.1557118 .0[7] von Luxburg U. 谱聚类教程. Stat Comput 2007年;17(4):395–0[8] Liu G, Lin Z, Yan S, Sun J, Yu Y, Ma Y. 鲁棒恢复子空间结构0低秩表示. IEEE Trans Pattern Anal Mach Intell 2013年;35(1):171–84.http://dx.doi.org/10.1109/TPAMI.2012.88 .0[9] Elhamifar E, Vidal R. 稀疏子空间聚类: 算法, 理论和应用0应用. IEEE Trans Pattern Anal Mach Intell 2013年;35(11):2765–81. http://dx.doi.org/10.1109/TPAMI.2013.57 .0[10] Wolf L, Shashua A. 使用核主要角学习集合0Learn Res 2003年;4(null):913–31. http://dx.doi.org/10.1109/TPAMI.2012.88 .0[11] Peng C, Kang Z, Li H, Cheng Q. 使用对数行列式的子空间聚类0秩近似. In: Proceedings of the 21th ACM SIGKDD international conference on knowledgediscovery and data mining. KDD ’15, 2015, 页码 925–34.http://dx.doi.org/10.1145/2783258.2783303 .0[12] Peng C, Zhang Q, Kang Z, Chen C, Cheng Q. 核二维岭回归0子空间聚类的回归. Pattern Recognit 2021年;113:107749. http://dx.doi.org/10.1016/j.patcog.2020.107749 .0[13] Arthur D, Vassilvitskii S. K-means++: 谨慎种子的优势0In: Proceedings of the annual ACM-SIAM symposium on discrete algorithms07-09-January-2007. 2007, 页码 1027–35.0[14] Kohonen T. 自组织映射. Proc IEEE 1990年;78(9):1464–80. http://dx.0[15] Tasdemir K. 基于矢量量化的近似谱聚类0大型数据集. Pattern Recognit 2012年;45(8):3034–44. http://dx.doi.org/10.1016/j.patcog.2012.02.012 .0[16] Tasdemir K, Yalcin B, Yildirim I. 利用核技术的近似谱聚类0使用基于测地线的混合距离度量的相似性信息. Pattern Recognit 2015年;48(4):1465–77.http://dx.doi.org/10.1016/j.patcog.2014.10.023 .0[17] Marchette DJ. 统计模式识别的随机图. Wiley series in0概率与统计, 新泽西州霍博肯: Wiley-Interscience; 2004, http://dx.doi.org/10.1002/047172209X .0[18] Correa C, Lindstrom P. 使用空区域的局部缩放谱聚类0图形. In: Proceedings of the 18th ACM SIGKDD international conference on knowledgediscovery and data mining. 2012, 页码 1330–8. http://dx.doi.org/10.1145/2339530.2339736 .0[19] Satuluri V, Parthasarathy S, Ruan Y. 可扩展聚类的本地图稀疏化0聚类. SIGMOD ’11, 美国纽约: 计算机协会; 2011, 页码 721–32.http://dx.doi.org/10.1145/1989323.1989399 .0[20] Jarvis R, Patrick E. 使用基于共享0近邻. IEEE Trans Comput 1973年;C-22(11):1025–34. http://dx.doi.org/10.1109/T-C.1973.223640 .0[21] Spielman DA, Srivastava N. 有效电阻的图稀疏化. SIAM0J Comput 2011年;40(6):1913–26. http://dx.doi.org/10.1137/080734029 .0[22] Spielman DA, Teng S-H. 图的谱稀疏化. SIAM J Comput02011年;40(4):981–1025. http://dx.doi.org/10.1137/08074489X .0[23] Bengio Y, Paiement J-f, Vincent P, Delalleau O, Roux N, Ouimet M. 样本外0LLE，isomap，MDS，eigenmaps和谱聚类的扩展。在：Thrun S, Saul L, Schölkopf B,编辑。神经信息处理系统进展，第16卷。麻省理工学院出版社；2003年。0[24] Nie F, Zeng Z, Tsang IW, Xu D, Zhang C. 谱嵌入聚类：一种0内样本和外样本谱聚类框架。IEEE Trans Neural Netw 2011;22(11):1796–808.http://dx.doi.org/10.1109/TNN.2011.2162000 .0[25] Alzate C, Suykens JAK. 多路谱聚类与外样本0通过加权核PCA解决张力。IEEE Trans Pattern Anal Mach Intell 2010;32(2):335–47.http://dx.doi.org/10.1109/TPAMI.2008.292 .0[26] Levin K, Roosta F, Mahoney M, Priebe C. 图的外样本扩展0邻接谱嵌入。在：Dy J, Krause A,编辑。第35届国际机器学习会议论文集。机器学习研究论文集，第80卷，PMLR；2018年，页2975–84。0[27] Zelnik-Manor L, Perona P. 自调谐谱聚类。神经信息处理进展0[28] Sugiyama M. 通过局部费舍尔0判别分析。J Mach Learn Res 2007;8(May):1027–61.0[29] Freedman D, Diaconis P. 关于直方图作为密度估计器L2理论。Z0[30] Bromley J, Guyon I, LeCun Y, Säckinger E, Shah R. 使用0一种“暹罗”时间延迟神经网络。在：第6届国际神经信息处理系统会议论文集。NIPS’93，美国加利福尼亚州旧金山：摩根考夫曼出版公司；1993年，页737–44。 http://dx.doi.org/10.1142/9789812797926_0003 .0[31] Hubert L, Arabie P. 比较分区。J分类 1985;2(1):193–218。0[32] Cai D, He X, Han J. 使用保持局部性的索引进行文档聚类。IEEE0MashaanAlshammari博士是海耶尔大学的助理教授。他的研究兴趣包括无监督学习和图像分析。Mashaan拥有沙特阿拉伯国王法赫德石油和矿产大学（KFUPM）的计算机科学硕士学位，以及澳大利亚悉尼大学的博士学位。0约翰∙斯塔夫拉卡基斯博士对3D计算机图形学，远程渲染和计算机安全有浓厚兴趣。他拥有计算机科学博士学位，并且是澳大利亚悉尼大学的学术研究员。0MasahiroTakatsuka博士于1992年在东京工业大学获得工程硕士学位，并于1997年在莫纳什大学获得博士学位。1997年至2002年，他在宾夕法尼亚州立大学GeoVISTA中心担任高级研究助理。他于2002年加入悉尼大学计算机科学学院。

下载后可阅读完整内容，剩余1页未读，立即下载