概率神经网络中心选择及第一近邻均值聚类算法在模式分类中的应用

101 浏览量更新于2023-12-06 收藏 521KB PDF 举报

概率神经网络

模式分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

∑=阵列14（2022）100161应用第一近邻均值聚类算法球谷哲也 *日本千叶县船桥市习志野代7-24-1日本大学理工学院计算机工程系A R T I C L EI N FO保留字：概率神经网络中心选择改进的FINCH算法第一近邻均值聚类A B S T R A C T概率神经网络是前馈神经网络模型的一种变体，已成功应用于各种模式分类目的。与其他前馈神经网络模型不同，概率神经网络（一种径向基函数网络模型）基本上只有两种类型的网络参数需要预先选择，即中心的位置和单个半径值;因此，与概率神经网络应用相关的中心问题是确定网络内容纳的中心的适当数量在原有的概率神经网络框架中，所有的训练数据都被分配到各自的质心向量上，因此网络规模往往较大，导致计算资源的需求。为了缓解这个问题，通常采用聚类算法来缩小训练数据的大小。在这项工作中，减少概率神经网络中的中心数量，通过第一近邻均值聚类算法的效用来解决，该算法是非迭代的并且只需要单个算法超参数;这样的选择在实践中是期望的。使用7个公开数据库进行模式分类任务的仿真结果表明，与局部代理通信、k-均值、正交最小二乘法、资源分配网络和资源向量机算法相比，第一近邻均值聚类算法可以在较短的计算时间内产生相对紧凑的网络，同时表现出相当高的分类性能。1. 介绍径向基函数（径向基函数）网络 [1]第一章有被广泛oj=Mwij hi（x）（2）i=1在人工神经网络社区中进行了研究，并在迄今为止的各个科学领域中使用。一个典型的RBF网络有一个浅的架构，是三层的;第一层的单位等于抽头输入向量x的相应元素。给定x，每个第二层单元产生其节点激活作为RBF因此，训练RBF网络通常涉及确定第二层单元和第三层单元之间的相应半径σi和权重值，以及基于所选择的RBF数量M分配质心向量ci。RBF网络的一种变体，概率神经网络（PNN）[2]是专门为模式分类任务而设计的PNN具有其hxexp（-x-ti2）（1）σ我第二层和第三层i（）=22单位为二进制，即，WIJ= 1，如果第i个第二层单元属于到哪里||⋅||2表示L2-范数，其中ti和σ i分别称为质心向量和半径;（1）意味着第一层和第二层单元之间的权重都是1。第三层由单元组成，每个单元将输出生成为第二层中所有M个节点激活的加权线性和，即类，否则该值被设置为零。相比普通RBF-NN，该方案是特别有用的，因为不需要迭代过程来优化权重值，不像传统的前馈NN模型。此外，在PNN中使用半径的唯一值，即，在（1）中，σi σ，其值通常是按经验选择的。在原始PNN方案[2]中，所有训练数据都被招募为各自的RBF中心。* 的文件。电子邮件地址：houya. nihon-u.ac.jp。https://doi.org/10.1016/j.array.2022.100161接收日期：2021年9月14日;接收日期：2022年1月15日;接受日期：2022年4月1日2022年4月11日在线提供2590-0056/© 2022作者。爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）的开放获取文章。可在ScienceDirect上获得目录列表阵列期刊主页：www.sciencedirect.com/journal/arrayT. 霍亚阵列14（2022）1001612==-闪烁1.1. 一种选择质心向量的数据聚类算法因此，用于训练基于RBF的网络的关键步骤是选择RBF的数量M和分配质心向量Ci。为此，通常采用数据聚类算法，例如k-均值[3]或学习矢量量化（LVQ）[4]。在k-均值和LVQ中，初始M个原型从给定的训练数据集中任意选择，然后迭代细化，直到满足一定的收敛条件;这样的迭代细化在k-均值中以无监督的方式进行，而细化在LVQ中以监督模式完成。因此，在收敛时获得的M原型将被用作中心位置。最近的工作[5]提出了一个版本的标准k均值算法，用于改进数据中的重尾样本或离群值。正交最小二乘（OLS）[6，7]方法是另一种用于确定中心位置的众所周知的方法，基于训练数据的正交变换。在过去的二十年中，已经提出了通过进化计算的方法，例如基于粒子群优化（PSO）[8]的方法，用于定位RBF中心[9-基于相关向量机（RVM）的机器学习方法[12]可以被视为增强的支持向量机（SVM）模型[13]，也被用于找到中心位置的目的[14]。在参考文献[15]中，还报道了RVM不需要任何额外的参数来调整，而不是选择所采用的核函数类型及其相关参数，同时可以用较少数量的核函数实现与SVM相当的泛化能力水平。然而，在实践中，OLS、PSO或RVM的应用往往在计算上非常昂贵，因为它们在时间和/或存储器方面的计算复杂性相对较高，和/或需要对许多超参数进行非直接的调整。在文献[16]中，提出了另一类基于与局部代理通信的聚类算法（CLA）。与基于噪声应用程序的基于密度的空间聚类的算法（DBSCAN [17，18]）一样，CLA是一种基于密度的算法，其动机是物理学中的局部引力理论。Wang等人。[16]报告说，CLA算法的性能超过了DBSCAN，而它本质上只需要预先设置单个超参数（即，例如，邻居的数量，而DBSCAN需要两个（而参考文献[18]中最近提出的证据DBSCAN算法需要三个）：即，距离阈值和形成聚类所需的最小点数）。这项工作的目的是确定区域预算框架的适当数目在PNN的第二层，同时保持相对较高的分类性能，通过应用第一邻居均值（FN-means）聚类算法。与上述聚类算法不同的是，FN-means算法采用了一种符合原始数据结构的直观方法，考虑训练数据集中每个项的第一近邻，并利用它们之间的相互关系来确定RBF中心位置。此外，与k均值、LVQ或PSO不同，FN均值本质上是非迭代的（即，由于输入数据的重复呈现，在执行聚类期间不需要费力的近似过程），而与CLA一样，它只需要预先给定单个超参数，如下所述。1.2. 基于第一近邻聚类的RBF网络质心向量项目的第一邻居1[19，20]被定义为使用特定距离度量产生之间的最小距离的项目然后，给定N个训练向量X{x（1），x（2），可以获得第一相邻（FN）链Fc[19]：Fc：i，j = FN（i），k = FN（j），.， q = FN（p）（q ≤ N），（ 3）其中链F_c中的第一项由第i个向量x（i）表示，其未出现在任何先前形成的链中（即，初始i=1）。在（3）中，关系式j=FN（i）读作链Fc的尾部，即，如果它的第一个邻居r=FN（q）出现在Fc中的一个关系中的某处，则找到（3）中的第q项。注意，链Fc不一定是单向的，因为Fc中的一些邻居可以彼此相同，即，p=FN（m）=FN（n）=现在，为了说明如何将第一邻居的概念用于数据聚类，让我们在这里检查一个粗略的例子： N=14，并且包含相应的十四个向量S_FN的第一相邻索引的集合被获得为：SFN：{2， 5， 2， 3， 9， 5， 14， 7， 11， 5， 1， 10， 8， 8}（ 5）上面的集合被解释为：x（1）的第一个邻居产生x（2），x（2）的第一个邻居产生x（5），依此类推。由（5）给出的第一邻居索引的集合然后可以可选地由如图1所示的两个不相交的有向图表示。在图中，有向边i→j意味着jFN（i），并且关系是不可逆的，即，iFN（j）。接下来，从图2中描绘的两个图中的每一个中仅提取节点编号（即，每个节点编号表示训练向量的索引）。 1将原始训练向量集划分为两个子集（或聚类）{x（C（1））}和{x（C（2））}，其中训练向量C（1）和C（2）的索引分别为{1，2，3，4，5，6，9，10，11，12}和{7，8，13，14}。因此，在该示例中，分别给出{x（C（1））}和{x（C（2））}中的向量的均值作为原始训练向量集的两个代表向量这种划分方式对应于初始步骤，以便在第一整数邻居聚类层次（FINCH）算法[20]的凝聚层次聚类操作内获得原始数据集的第一分区（级别）。局势中Fig. 1. 通过直接检查由（5）给出的第一邻居[1]在整个工作中使用术语T. 霍亚阵列14（2022）1001613∑（i）=NC在存在多于或等于两个子集的情况下，然后在随后的步骤中进行子集（或聚类）的合并，并且在适当的时候，可以在该层次级别获得另一组聚类以及相应的平均向量。这样的凝聚聚类步骤继续，直到只有单个聚类（即，对应于原始训练数据集，在层级的顶层）被形成。换句话说，最终可以在层次结构的相应级别处获得多组代表向量。在这项工作中，在一个单一的层次级别获得的代表性向量，因此被分配为各自的径向基函数网络的质心向量此外，它表明，原来的FINCH算法可以修改为一个计算上更有效的形式，因此被称为第一个邻居的手段（FN-手段）聚类算法，通过一个瞬时平均计算时合并的集群，并适用于确定RBF中心位置，如下所述。2. 第一近邻均值聚类算法2.1. 簇合并到超集时的瞬时平均值计算在原始FINCH算法[20]的凝聚步骤中，除了第一级之外，使用聚类均值m（i）（i=1， 2，- 在级别1生成的聚类），每个聚类通过对聚类C（i）中的所有N个C（i）训练向量求平均而获得N2-2）对于V，通过构造（3）中的关系，获得如（5）中的第一近邻索引S_FN的集合。基于SFN，形成如图1所示的不相交图。 1（即，集群的合并2-3）-如果只形成一个图，则它到达顶层。终止。- 否则，每个图对应于单个聚类。获得每个聚类平均值m（i）（i=1，2，当l=1时通过平均所有训练向量或通过应用（7）对于l>1.然后，将所有聚类平均值存储到集合中，即， M（l）← {m（i）}。2-4) l ← l+1。给定原始训练数据集X，上面的FN均值聚类算法将默认为所有层次级别生成聚类均值。因此，在级别l处获得的NCI聚类均值的总和将被分配为RBF网络的相应质心向量。随着层次级别的增加，如此生成的聚类平均值的数量将变得更小，因为该算法本质上是凝聚的。换句话说，认为随着层级的增加，数据表示将变得更粗糙，因此被认为产生更差的性能。因此，在实践中，选择层级以获得聚类平均值（每个聚类平均值最终被分配为（1）中的RBFti的对应质心向量）将取决于性能与网络内容纳的RBF的数量之间的权衡。然而，应该强调的是，FN意味着聚类m1∑C（i）x（i）j=1（六）算法本质上不需要先验地给出超参数，与目前提出的许多聚类算法然后，假设超集Cs由聚类C（k）（k=1， 2，确定代表的人数，并在适当的时候产生代表向量，每个向量反映原始数据结构的某个有意义的方面。此外，为了在单个水平上获得这样的代表性向量，等级制度，的FN均值算法操作在非迭代NCs（k）NCs时尚，不像其他许多人。此外，与k均值不同，FN-mCs=1∑ ∑x（Cs（k，j））=1∑NCs（k）m（Cs（k）），means基本上没有初始化模糊性; perfork=1NCsj=1k=1（七）mance不随训练向量的呈现顺序而变化，因为给定数据集中任何向量的第一个邻居搜索将NCs =NCs（k）。k=1从上面的关系可以明显看出，总平均值mCs的计算不需要对超集中的每个训练向量进行求和操作，这是冗余的，而只需要对在前一级获得的聚类平均值m（i）进行求和操作，只要保留每个聚类的数目NC（i）通过使用瞬时平均计算的这种轻微修改，可以显著地减少原始FINCH算法中的计算量，因为数据向量的数目变得很大。2.2. 该算法因此，第一近邻均值（FN均值）聚类算法作为FINCH算法的修改版本给出，其被定制为从训练数据集获得一组代表性向量1) （1）如果没有明确给出，则将最大级别NL设置为无穷大，并且层次结构的当前级别l=1。2) 当l≤NL时，重复以下操作。2-1）如果l=1，则V被设置为原始训练数据集中的N个向量，i。例如，V=X={x（1），x（2），总是得到与（3）中的关系相同的结果。这些性质对于聚类目标是很有吸引力的，作为本工作的目标之一。2.3. 类独立聚类对于接下来要描述的模式分类任务，每个聚类算法被单独地应用于单个类的训练数据集的每个子集，与其仅被应用于由所有类组成的整个数据集一次的情况相比，这在计算上是便宜的。这种分而治之的聚类策略也得到了研究的支持[21];它根据经验表明，由一个与对整个训练数据集进行数据聚类的普通情况相比，类特定聚类方法甚至可以产生更好的分类结果。23. 仿真研究在模拟研究中，考虑了五种不同的模式分类任务场景，即，模式分类器基于1）使用完整训练数据集的原始PNN方案[2]，2）k-最近邻（kNN），3）资源分配网络（RAN）[22]，4）RVM [12]，以及5）具有通过四个RVM获得的减少数量的RBF的PNN。- 否则，V由在预处理时获得的所有聚类均值组成可见水平：V=M（1-1）。2由于LVQ最初不适用于特定类别的策略，而是适用于整个训练数据，因此在本工作中的仿真研究中没有考虑聚类方案。（C（i，j））。T. 霍亚阵列14（2022）1001614=-==--CLA [16]，k-means [3]，FN-means和OLS [6，7]的聚类算法。情景1）和2）被认为是基线方法，而非PNN，但RBF-NN为基础的方法3）和4）也被认为是在模拟研究中进行比较。对于5），选择了四种不同的聚类算法，因为这些聚类算法相对简单地实现，对于超参数选择具有小的自由度（即，至多两个超参数）和/或基于输入数据的一次通过呈现来操作（即，非迭代）。表1总结了这四种聚类算法在这方面的特点。3.1. 参数设置如表1所总结的，k均值和OLS都需要两个超参数;其中一个参数确定代表的数量（即，质心）向量，另一个是算法相关的;对于前者，使用与给定训练数据集的FN均值获得的向量相同数量的向量。 k均值的后者是收敛的最大迭代次数（即，直到中心没有变化，其值在模拟研究中被设置为100），而每个高斯函数的宽度值（即，RBF），其被设置为与模拟研究中PNN的唯一半径σ相同的值。对于CLA，观察到当单个参数的设置，即，1 NN的密度估计，被使用;k（>1）最近的邻居的CLA被认为是模拟研究。与应用于PNN的四种聚类算法相比，RAN和RVM都基于普通的径向基函数网络方案;隐藏层和输出层之间的权重不是二进制的，而是优化的。对于RAN和RVM两者，一旦给定训练数据集，就自动确定代表向量的数量，如FN均值。对于RVM，三个超参数，即，半径（对于OLS，其被设置为等于PNNσ的唯一半径）和最大迭代次数，以及后验模式探测器的最大迭代次数（其值分别被设置为1000和2）需要被预先设置。除了参数设置之外，通常采用的另一方面，RAN具有要先验给定的SIX个参数，尽管在训练期间仅需要数据集的一次通过呈现;对于six中的四个，与参考文献[22]中相同的参数用于模拟研究中的RAN，即，α=0.05，δmax=0.7，δmin0.07，κ 0.87。对于RAN的衰减常数和误差阈值，分别发现设置τ40和ε对于上述四个场景1）、2）、4）和5），所有的模拟-使用独特的半径设置进行测量σ=βdmax/Nc，（8）其中dmax是在训练数据集中的所有向量对上计算的最大欧几里得距离，Nc是数据集的类的数量对于倍增因子β，设置β1始终用于场景1）、2）和5），但在范围[2，表1使用的四种聚类算法的摘要8]对于4）（即，RVM方案），以避免数值不稳定性（即，病态黑森）发生在训练RVM。3.2. 使用的数据集用于图像/语音识别的七个数据集用于模拟研究，即使用1）ISOLET、2）手写数字的光学识别（OptDigits）、3）手写数字的基于笔的识别（PenDigits）、4）字母识别（LR）、5）MNIST的数据集。 10K（原始MNIST数据库的较小版本[24]），6）语音归档系统（SFS）和7）STL-10数据库;四个数据库1）- 4）可从UCI机器库公开获得[25]，而6)和7）从参考文献中获得。[26]第27话数据库ISOLET和LR分别包含英语字母的口语和字符图像特征的模式向量，而OptDigits、PenDigits和MNIST-10 K是手写数字的数据库。SFS由英语口语数字的特征数据（即，原始SFS数据库仅以原始语音格式可用）。STL-10是由飞机、鸟、汽车、猫、鹿、狗、马、猴、船和卡车的彩色图像组成的十类数据库。表2总结了模拟研究中使用的七个数据集的属性。如表2所示，对于数据集，模式的数量以及向量长度从小到中大变化。对于所有七个数据集，在执行模式分类任务之前，对于数据集中的每个模式向量，除了在范围[ 1.0，1.0]内进行归一化之外，不进行其他特征提取。在仿真过程中，将第3.3节中描述的分治策略引入到五种场景中的每一种场景中;每种方法都独立地应用于每个类的子集进行训练，从而最终构建了一个PNN/RBF网络来执行模式分类任务。3.3. 仿真结果表3总结了使用ISOLET、LR、OptDigits、PenDigits、MNIST- 10 K、SFS和STL-10的所有七个数据集针对每种方法获得的模拟结果，在分类率方面（即，表示为“C. 表中的“速率（%）”）、RBF的数量和用于聚类训练数据/构建PNN/RBF网络的执行时间，全部基于使用Octave脚本（“时间（秒）";用于每种方法的脚本被编码/布置以尽可能地产生类似的优化水平）。对于kNN，具有邻居数量k（即，在范围[1，10]内变化），其产生最佳分类率。表4显示了通过执行10倍交叉验证（CV）获得的配对t检验（双尾）的结果，以便在统计学上验证在如表3所示的模拟研究中获得的分类性能;计算每个p值和t值对，以比较FN均值与其他方法之间的性能（原始PNN和kNN的基线除外）。在测试中，如果p小于0.05（即，置信度为95%），如果t的模数表2用于模拟研究的七个数据集的总结Num.超参数非迭代算法受呈现顺序影响CLA 1 N Yk-表示2 N YFN-1YNK意味SFS54036025610OLS2YNSTL-1010,0003000204810Num.训练向量Num.测试向量每个向量的长度Num.类伊索莱特6238155961726LR16,00040001626OptDigits382317976410PenDigits749434981610MNIST-1010,000200078410T. 霍亚阵列14（2022）1001615=表3使用七个数据集获得的模拟结果总结数据集方法C.比率（%）Num.RBFsEX ec.时间（秒）Sig.Diff.数据集方法C.比率（%）Num.RBFsEX ec.时间（秒）Sig.Diff.ISOLET FN-平均值（NL=1）76.4-MNIST-10KFN均值（NL=1）1951年414.8CLA（2NN）91.4 2411 230.3否CLA（2NN）92.75 2957389.7否k-均值91.53 1924 279.3否k-均值93.1 1951 2582.3否苏丹生命线行动85.12 1924 254.9是RAN96.025229 799.6是RAN95.857769 1969是RVM（β=10）95.96022417.6是RVM（β=3）93.457433029.1是原稿PNN 88.84 6238 PNN 92.2 10，0009NN 92.37 6238LR FN-平均值（NL=1）94.83 4180456.5-=1）98.33 107 1.3CLA（2NN）95.38 6285 473.7是CLA（2NN）98.33 144 2.4否k-均值95.08 4180 2765.7否k-均值96.11 107 3.4否苏丹生命线行动88.43 41802965.4是RAN96.839986 4224.6是RAN98.06516 5.4是RVM（β=3）95.55174616757.3是RVM（β=10）95.69814.4否原稿PNN 96.2 16，000 PNN 96.94 5401NN 95.58 16，000OptDigits FN均值（NL=1）97.83 76658.9-=1）95.97 1151357.8CLA（2NN）98.05 1105 101.2否CLA（2NN）96.07 2533 470.5是k-均值97.55 766 287.7否k-均值96.17 1151 2149.4否苏丹生命线行动96.16 766 170.1RAN 98.22 2056 231.5否RAN97.078350 2285.2是RVM（β=2）96.27215260.7否RVM（β=3）96.73493 2935.6是原稿PNN98.333823 PNN 95.8 10，0001 NN 98 3823PenDigits FN-均值（NL=1）94.57 1748 251.8CLA（2NN）94.63 2321229.6否RVM（β=2）97.341851017.8是k-平均值93.85 1748 1642.5无原始值PNN 94.25 7494OLS 94.74 1748 1872.5否3 NN97.87494表4配对t检验的结果与FN均值（NL=1）对其他聚类算法的七个数据集进行比较。比较t值p值Sig的数据集方法Diff.ISOLET CLA（2NN）-1.0464 3.23× 10-1 否k-均值-2.1657 5.85×10- 2 否k-均值-0.108183 9.16×10- 1否OLS 5.7006 2.94× 10-4是OLS 15.642013 7.84× 10-8是RAN-9.2671 6.72×10-6是RAN-11.578954 1.04× 10-6是RVM（β=10）-5.6261 3.23×10-4是RVM（β=3）-3.174055 1. 129213 e-02是LR CLA（2NN）-3.6766 5.10× 10-3是SFS CLA（2NN）-2.1429 6.07× 10-2否k-均值-0.6150 5.54×10- 1 否k-均值-0.2175 8.33×10- 1否OLS 19.9610 9.24× 10-9是OLS 3.5938 5.80× 10-3是RAN-17.4668 2.99×10是RAN-2.4476 3.69× 10是RVM（β=3）-3.9354 3.43×10-3是RVM（β=10）0.4598 6.57× 10-1否OptDigits CLA（2NN）-0.7943 4.47× 10-1否STL CLA（2NN）-2.4081 3.94× 10-2是k-均值1.0578 3.18× 10- 1 否k-均值-0.7245 4.87×10- 1否OLS 4.7150 1.10× 10-3是OLS 11.6173 1.01× 10-6是RAN-1.3591 2.07×10- 1否RAN-5.9772 2.08× 10- 4是RVM（β=2）5.1275 6.22× 10-4否RVM（β=3）-4.8824 8.68×10-4是PenDigits CLA（2NN）-0.3645 7.24× 10-1否PenDigits RAN-9.7246 4.51× 10-6是k-均值-0.9756 3.55×10- 1 无RVM（β=2）-8.0306 2.15×10- 5有OLS-1.1310 2.87×10-1否大于临界值2.262，则两种方法之间观察到统计学显著差异，否则两种方法之间无显著差异;t的负/正值表明通过FN均值获得的性能劣于/优于另一种方法。为方便起见，配对t检验的评价也出现在表3中（即，在每个数据集的第six行中;差。”当两者之间存在显著差异时，显示3.4. 从计算复杂度的角度讨论模拟结果如表3所示，观察到质心在模拟研究中，使用RVM获得的向量总是小于使用其他方法获得的向量。然而，如表3中的执行时间所指示的，这被认为是导致相当昂贵的计算的彻底优化RVM是一种迭代算法，每次迭代都涉及Hessian矩阵的求逆，其计算量为O（N3）。更多-如上所述，在模拟期间，需要相当仔细地选择半径值以避免与矩阵X的反演相关的数值不稳定性。相比之下，FN-均值是一种非迭代算法，并且FN-均值算法中计算量最大的部分是迭代算法。FN-means是在l处搜索的第一个邻居时间复杂度为O（N）2)计算的所有对的训练向量，但这是远远低于RVM。虽然RAN是一种一次通过的算法，要比较的数据集t值p值Sig. Diff.MNIST-10 K CLA（2NN）-0.1521068.82 ×10-1没有T. 霍亚阵列14（2022）1001616并且RAN获得的分类率对于除了PenDigits情况之外的所有情况都是最高的，RAN也可以被认为是计算要求高的算法;在每个训练模式的呈现处，执行对最近的质心向量的搜索以及对迄今为止容纳的所有质心向量的更新。此外，如前所述，寻求SIX个参数的最佳组合是一项非直接的任务，而FN均值本质上根本不需要预先进行任何参数调整。如表3所示，还观察到，如此构建的RBF网络的大小几乎总是所有方法中最大的，除了基线的那些，即，原始PNN和kNN。OLS涉及Gram-Schmidt正交化运算，因此它需要O（N2M）（M：最佳回归量的数量，即，在这项工作中设置等于PNN的质心向量）计算[28]，如时间复杂度为O（N2）在计算过程中保持不变，而FN-均值所需的存储空间至多为O（log（N））~O（N），用于存储层次结构的每一级上的聚类均值向量在这方面，可以认为OLS的计算结果通常高于FN均值的计算结果。此外，如表3所示，观察到对于大多数情况，在模拟研究期间，通过FN平均值获得的分类率始终高于使用OLS获得的分类率（如配对t检验结果在统计学上证实的）。对于k-均值，计算复杂度被称为O（NMK），其中M和K分别是原型（即质心向量）的数量和直到收敛的迭代的数量。然后说，计算量取决于情况;对于表3中的每种情况，认为N2 MK作为<执行时间比FN-方法长。然而，可以说，对于这些情况，k-均值的复杂度高于FN-均值的复杂度。此外，还应该注意的是，虽然FN均值本质上不取决于输入数据的呈现顺序，但是k均值和CLA的分类性能在一定程度上变化;在传统的k均值方法中，M个原型最初是从原始训练数据集中随机选择的。3.5. 与CLA的除了分类性能的模糊性之外，在初步的模拟研究中，观察到通过CLA算法获得的质心向量的数量也因输入演示顺序;据认为，这也是由于表5ISOLET的CLA和FN平均值之间的比较ISOLET RBFs的数量（对于FN-均值NL=1，2，3）FN-指1924 199 55CLA 2411（2NN）239（4NN）58（9NN）分类率（%）FN均值90.8990.3188.97CLA91.489.186.02Sig. Diff.没有是的是的表6LR、OptDigits和PenDigits的CLA和FN均值之间的比较。LR RBFs的数量（对于FN-均值NL=1，2，3）FN-指4180 1104 329CLA 6285（2NN）970（4NN）391（9NN）分类率（%）FN-平均值CLA95.3881.67Sig. Diff.是OptDigits RBF的数量（对于FN-均值NL=1，2，3）FN系指766 161 35CLA 1105（2NN）104（4NN）35（6NN）分类率（%）FN-平均值97.8396.49 92.27CLA 98.05Sig. Diff.否是是笔位数RBFs的数量（对于FN-均值NL=1，2，3）FN-指1748 417 100CLA 2321（2NN）568（3NN）116（5NN）分类率（%）FN-平均值94.57 94.48 91.48CLA 94.63Sig. Diff.否否是表7MNIST-10 K、SFS和STL- 10的CLA和FN平均值之间的比较。MNIST-10 K RBF数（FN均值NL=1，2，3）FN系指1951 338 74CLA 2962（2NN）369（4NN）104（8NN）分类率（%）数据驱动密度估计的固有性质。对于复杂度，由于CLA在算法中利用了k个NN，因此至少需要O（N2 /2）的计算成本，就像FN一样。方法，除了在al-tax m的主要部分中的密度估计之外，其估计不像FN-方法那样简单。这表明的的总量的的计算成本将SFSSig. Diff.否是是RBF的数量（对于FN-均值N L= 1，2）FN-手段104 25CLA 145（2NN）32（4NN）分类率（%）FN-平均值98.33 95CLASig. Diff.不不通常高于FN平均值。反过来，如所示如表3所示，对于所有情况，通过CLA获得的质心向量的数量总是大于使用FN-均值获得的质心向量的数量此外，在分类率方面，未观察到CLA和FN平均值之间的显著差异，后者也可以通过表4中的p检验结果确认。然而，应该强调的是，与FN均值一样，CLA的自由度小于模拟研究中使用的其他方法只有一个; CLA具有单个参数k（即，对于kNN搜索），并且由于在仿真期间获得的质心向量的数量极大地依赖于该参数设置，所以进行另一比较;表5RBFs）通过CLA和FN-均值和分类率获得的PNN，对于CLA具有不同的k，而最大层次级别NLSTL-10 RBF的数量（对于FN-均值NL=1，2）FN-均值115179CLA 756（3NN）88（7NN）分类率（%）FN-平均值95.9795CLA 96.77Sig. Diff.否是对于FN均值，分别为。在这些表中，使用所示的CLA获得的模拟结果是产生类似于FN均值的质心向量的数目的那些模拟结果。据观察，使用FN-均值获得的分类率相对保持较高的NL水平的增加（由pariedt-检验证实，如表中所示），相反，在大多数情况下，质心向量的数量小于CLA的数量。这表明，与CLA相比，FN均值可以更好地保留原始数据结构。FN均值92.9490.385.9CLA92.7588.282.1T. 霍亚阵列14（2022）10016174. 结论在这项工作中，提出了一种新的方法来确定RBF网络的中心，基于第一近邻均值聚类算法，它可以被视为FINCH算法的修改版本[20]。与许多传统的聚类算法不同，FN-均值算法是一种计算成本低廉的单通道算法，基本上不需要参数调整。如工作中所示，给定训练数据集，可以直接构建紧凑大小的PNN，同时通过应用FN均值算法自动分配中心的位置。因此，与诸如CLA、k均值、OLS、RAN或RVM的方法相当的性能可以得到，正如在这项工作中的模拟研究。在PNN的情况下，半径的唯一值因此是应用FN均值的情况下要预先指定的唯一参数，这非常便于实现，因此被认为是有吸引力的。由于PNN的结构简单和透明，将FN均值聚类算法引入中心选择具有增强RBF型网络在各种感兴趣的应用领域申报利益作者声明以下经济利益/个人关系可能被视为潜在的竞争利益：引用[1] Broomhead DS，Lowe D.多元函数插值与自适应网络。ComplexSyst1988;2：321-55.[2] 斯佩希特概率神经网络神经网络1990;3（1）：109-18.[3] 麦克奎恩JB。多元观测值分类与分析的若干方法。In：Proc. Symp.马索Stat.第五版，伯克利：加利福尼亚大学。Press; 1967. p. 281比97[4] 科霍宁河学习矢量量化。在：Kohonen T，编辑.自组织地图。Springer; 1995. p.175比89[5] 李勇，张勇，唐强，黄伟，江勇，夏世涛。t-k-means：一个强大而稳定的k-means变量。在：ICASSP-2021 -国际会议。声学语音信号处理;2021。p. 3120- 4[6] Chen S，Cowan CFN，Grant PM.径向基函数网络的正交最小二乘学习算法。IEEE Trans Neural Network 1991;2（2）：302-9.[7] Chen S，Grant PM，Cowan CFN.训练多输出径向基函数网络的正交最小二乘算法。选举程序工程师：PT. F 1992;139（6）：378-84.[8] KennedyJ，Eberhart R.粒子群优化算法IEEE国际Conf. 神经网络1995;4：6390-4.[9] Chen S，Hong X，Harris CJ.粒子群优化辅助正交前向回归联合数据建模。IEEETrans Evol Comput2010;14（4）：477-99.[10] 邓杰，李凯，欧文GW，费M.基于粒子群优化的两级RBF网络运输机构测量控制2013;35（1）：25-33。[11] 罗伟，朱伟，倪丽，乔英，袁英. SCA2：一种新的高效群聚类算法。IEEE Trans.Emerging Topics in Computational Intelligence 2021;5（3）：442-56.[12] 给我小费。稀疏贝叶斯学习与相关向量机。马赫学习研究杂志2001;1：211-44.[13] CortesC，Vapnik V. 支持向量网络。 Mach Learn 1995;20：273-97.[14] 刘X，李荣，程D，程K.基于交叉熵最小化的相关向量机构造研究。In：ICAC-2016 - 22nd Int. Conf. 自动化与计算; 2016年。p. 233- 7[15] 提示我。相关性机器。在：NIPS-99 -第12届国际神经信息处理系统会议;1999年。p. 652- 8[16] 王忠，余忠，陈中电，尤建，顾涛，黄新辉，张军。局部引力聚类。IEEETrans Cybern 2018;48（5）：1383-96.[17] Ester M，Kriegel H-P，SanderJ，Xu X.一种基于密度的含噪声大型空间数据库聚类发现算法。第二届国际知识发现与数据挖掘会议，1996年。p. 226比31[18] Bessrour M，Elouedi Z，Lefevre E，Dbscan E-. DBSCAN方法的证据版本。在：SSCI-2020 - 2020 IEEE Symp.计算智能系列;2020年。p. 3073- 80[19] 穆塔夫湾层次聚类算法研究进展综述 ComputJ 1983;26（4）：354-9.[20] Sarfraz M，Sharma V，Stiefelyoung R.使用第一近邻关系的高效无参数聚类。In：IEEE/CVF CVPR-2019 - 2019 IEEE/CVF Conf. ComputerVision and PatternRecognition; 2019. p. 8926- 35[21] RaitoharjuJ，Kiranyaz S，Gabbouj M.训练径向基函数神经网络通过类特定聚类进行分类。IEEE Transact NeuralNetworks Learn Syst 2016;27（12）：458-2471.[22] 普拉特JC。一种用于函数插值的资源分配网络。NIPS-1991 -神经信息处理系统的进展1991;9：765-71。[23] 主教CM。模式识别和机器学习。第一EDSpringer; 2006.[24] LeCun Y，Cortes C，Burges CJC.MNIST数据库。http://yann.lecun.com/exdb/mnist/.[25] Asuncion A，Newman D. UCI机器学习Irvine，Irvine，CA：Univ. California; 2007.https://archive.ics.uci.edu/ml/datasets.php网站。[[26] 哈克韦尔湾语音归档系统vs3.0英国伦敦：大学学院，1996年。[27] 科茨湾https://cs.stanford.edu/~acoates/stl10/网站。[28] GolubGH，van Loan CF. 矩阵X计算。第三版 John Hopkins; 1996.

下载后可阅读完整内容，剩余1页未读，立即下载