没有合适的资源?快使用搜索试试~ 我知道了~
≥≥软件X 13(2021)100642原始软件出版物基本聚类算法套件Michael C.奎林?斯蒂埃?数据仿生学研究小组和部门。血液学,肿瘤学和免疫学,马尔堡菲利普大学,Hans-Meerwein-Straße 6,马尔堡,35043,德国ar t i cl e i nf o文章历史记录:接收1十月2020收到修订版2020年11月29日接受2020年保留字:聚类分析聚类算法可重构性集群数目a b st ra ct这篇文章介绍了五十多个基本的聚类算法。此外,还提供了对以前作为“基本聚类问题套件”(FCPS)发布的聚类基准数据集的该软件库名为'' FCPS '',可在CRAN上的R中使用,并可在Python中访问。聚类算法的输入和输出是标准化的,以使用户能够快速执行聚类分析。FCPS将镜像密度图(MD图)与统计检验相结合,提供了一种在聚类分析之前快速研究聚类趋势的工具。可以使用任意样本大小生成常见的聚类挑战。此外,FCPS总结了26个指标,旨在估计集群的数量,并提供了一个适当的实现聚类精度超过两个集群。©2020作者(S)。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本1.2.6此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-20-00058法律代码许可证GPL-3使用SVN和Git的代码版本控制系统软件代码语言、工具和服务使用R编译要求、操作环境依赖性R(3.5.0)如果可用,链接到开发人员文档/手册https://cran.r-project.org/web/packages/FCPS/FCPS.pdf问题支持电子邮件thrun@deepbionics.de软件元数据当前软件版本1.2.5此版本可执行文件的永久链接https://CRAN.R-project.org/package=FCPS法律软件许可证GPL-3计算平台/操作系统Linux,Mac OS,Microsoft Windows,类Unix安装需求依赖关系R(3.5.0)如果可用,请链接到用户手册https://cran.r-project.org/web/packages/FCPS/FCPS.pdf问题支持电子邮件thrun@deepbionics.de1. 介绍在聚类分析中,没有普遍接受的聚类定义[1,2]。尽管如此,为这个库考虑的算法的聚类问题可以被限制如下。给定一组对象,每个对象由与之关联的一组特征的值定义,聚类可以找到对象*通讯作者。电子邮件地址:mthrun@informatik.uni-marburg.de(Michael C. Thrun)。https://doi.org/10.1016/j.softx.2020.100642使得成员在子集内是同构的,而对于子集外的对象是异构的[1]。例如,术语因此,在数据中找到这种模式的目标直观上令人困惑,但定义模糊[3]。然而,它大大限制了聚类分析。例如,概念聚类,它组织数据以最大化推理能力[4],在这里没有如果聚类方法的目的是识别对象的同质组[5],则已证明不同的聚类算法隐含地假设不同的聚类2352-7110/©2020作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxMichael C.Thrun和Quirin Stier软件X 13(2021)1006422∈=××F={} ∈∈⊂∈{}联系我们:结构[6更一般地说,没有算法可以在任何情况下都优于其他算法[12]。因此,使各种算法易于访问,以根据关于数据的假设和先验知识或数据分析来选择适当的算法R包FCPS的目的是为最先进的聚类算法和随之而来的挑战提供一个明确的访问点。2. 软件框架在实践中,聚类标签不一定是连续的,并存储在R的面向对象系统的各种类中,其规格取决于聚类算法。尽管在CRAN任务视图中列出了这里使用的聚类包的子集用于聚类分析和有限混合模型,但是该CRAN任务视图对于用户是不够的,因为每个包的一个或多个聚类算法的输入具有取决于用户的用例的大的可能性变化在CRAN任务视图中,算法的数量及其非默认参数仍然是此外,在每个聚类算法中,对距离度量和可视化的访问是不同的此外,聚类分析通常会带来三个额外的挑战。首先,必须测试是否存在集群结构[7,p.180],或所谓的聚类趋势[9,p.896]; [13,p.222]或聚类性[14],其通常依赖于统计检验[9,第896页],[14]。其次,大多数最先进的算法需要设置聚类第三,在引入新算法的情况下,给定簇结构的再现性是令人感兴趣的。因此,每个聚类算法2.1. 背景数据表被定义为矩阵,其中关于物理状态的对象f F基于特征形式的观察而被概括。然后,数据集I由有限集组成,具有d个特征的n个对象,这意味着数据矩阵具有维度n d。如果一个矩阵的维数为n n,并且是对称的,FCPS假设一个距离矩阵,并且三角不等式满足。在包中,前者被引用为如果我们将对象限制为数值情况,则通常在文档中使用术语分类C= {G1,G2,. . .,G k}是k个子集的系统[16,p. [22]这里称为群,使得C希尔伯特的Hdθ空间A群G pl1,. . .,l m,kn是m的集合N个对象。在这项工作中,分类是排他性的,这意味着组是不相交的,表示为GjGi,j, i k<,并且是无监督的,因此称为聚类。标签是标记g1,. . . ,k,N,其经由映射h1,. . . ,kF.这样一组对象的标签被定义为从一个到k[2],其中k是对象组的数量。 这里,假设每个对象都有一个标签,数字向量,称为Cls。2.2. 软件构架标准输入始终是带有选择R包“parallelD-ist”[ 17 ]集成的距离选项的数据矩阵接下来,如果需要的话,设置集群的数量以及其他非默认参数(参见S1A,表1)。所有其他输入参数仍为默认值设置,但如果需要,可以由用户更改。此外,提供了通过数据的3D投影来可视化聚类的选项。输出由聚类标签“Cls”组成,从1到k簇的数字的1n数值向量。 该向量自动由数据矩阵“Data”的行名称或DataOrDistances中提供的距离矩阵(如果其行名称存在)命名。如果使用分层算法,下一个输出是树状图,然后是聚类算法提供的原始对象。使用数值矩阵和向量的基本对象可以通过其他数据科学语言轻松访问,如使用rpy 2的Python [18](参见SI B)或MATLAB R-link [19]。2.3. 软件功能下面的示例说明了基本功能。高维白血病数据集是一个真实的例子。加载数据并执行聚类分析。通过多维缩放(MDS)[20](例如,图1)、树状图(例如,图2),并通过测量的计算是独立的w.t.r的标签的聚类精度。用户可以为树状图和投影中的分支定义相同的颜色序列。用户可以决定是否使用R软件包应该注意的是,这种可视化必须谨慎解释(参见[11,15,23]中的讨论)。install.packages(“FCPS”,dependencies= T)library(FCPS)data(“Leukemia”)set.seed(123)距离=白血病$距离矩阵编号=6CA=HierarchicalClustering(Distances,QuantiterNo,“HDBSCAN“)#任意标签的精确度QuantiterAccuracy(Leukemia$Cls,CA$Cls)[1]0.9963899Cls=命名器RenameDescendingSize(CA$Cls)命名器计数(Cls)$Unique集群[1] 12 3 4 5$CountPerCluster[1]266 163 1081511$NumberOfClusters[1]6$千万亿美元[1]48.0144404 29.4223827 19.4945848 2.7075812 0.1805054 0.1805054#分支和点的相同颜色Colors=DataVisualizations::DefaultColorSequence[-2]#no yellow title=“白血病的3D投影”绘图仪PlotMDS(Distances,Cls,Plotter 3D =3. 说明性实例生成聚类挑战、聚类性测试、估计聚类数量以及使用任意标签的聚 类 准 确 度 与 给 定 地 面 实 况 的 准 确 比 较 在 插 图 中 呈 现(https://cran.r-project.org/web/packages/FCPS/vignettes/FCPS.html ) 。 (See 图2)的情况。Michael C.Thrun和Quirin Stier软件X 13(2021)1006423Fig. 1.使用函数MysterPlotMDS对白血病的高维数据集的MDS投影可视化聚类。存储的聚类“Cls "中的图二. 给出了使用函数HDBSCAN(Hierarchical DBSCAN)的树形图.颜色序列定义与图1一致的每个聚类的分支的颜色。1.一、(For关于本图图例中颜色的解释,读者可参考这篇文章。)4. 影响包FCPS提供了对最先进的聚类算法(参见SI A,表1),定义常见聚类挑战的数据集[24]以及基于[25,26]的聚类数量估计的清晰和标准化访问对于后者,FCPS一揽子计划提供了多达26项指标。此外,可以在聚类之前通过统计检验[14]和镜像密度图(MD图,[27])[28]的可视化的组合来研究此外,可以为任意标签计算适当的聚类精度[29]。FCPS软件包的两个聚类算法子集用于特定问题的基准研究[29,30]。作为软件的结果,非专家的特定领域的研究问题可以在知识发现领域中进行,并且聚类算法可以针对用户指定的一组挑战进行基准测试。5. 结论目前,在CRAN上的R包FCPS中提供了54种传统的聚类算法,具有一致的输入和输出。FCPS使用户能够快速地尝试许多算法。此外,提供了26种估计聚类数的方法,以及聚类性的镜像密度图(MD图)。此外,基本聚类问题套件(FCPS)提供了各种聚类挑战,任何算法在面对现实世界的数据时都应该处理这些挑战。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作Michael C.Thrun和Quirin Stier软件X 13(2021)1006424补充资料A。 聚类算法请参见表1。表1CRAN上集成到R包FCPS中的聚类算法概述。缩写:N是非默认参数的数量。在这里,集群的数量计 数 为一个参数; NOC代表聚类数,并指示是否需要输入聚类数; DOD代表数据或距离矩阵并指示哪种输入格式是可能的:数据或两者。算法Name of FunctionNOC国防部N作者1.(自适应)密度峰值ADP聚类是的数据1[31、32]2.艾格尼丝聚合嵌套集群是的两1[33、34]3.仿射传播近似聚类没有两0[35、36]4. 投影聚类基于投影的自动聚类是的两1[30、37]5. 交叉熵聚类交叉熵聚类是的数据1[38、39]6. 数据bionic SwarmDataBionicSwarm聚类是的两1[29日]7. 基于密度的噪声应用空间聚类DBSCAN没有数据2[第四十届]8. 密度峰值聚类密度峰值聚类没有两2[32、41]9. 戴安娜差异分析聚类是的两1[第四十二届]10.模糊聚类分析Fanny聚类是的两1[43] 164-198]11. 在线更新(硬竞争学习)HCL聚类是的数据1[第四十四届]12.分层DBSCANHierarchicalDBSCAN1No2两0[45,46]13. 病房层次聚类是的两1[47,48]14. 单连杆层次聚类是的两1[49个]15. 完全连锁层次聚类是的两1[50,51]16.平均连锁层次聚类是的两1[五十二]17. WPGMA层次聚类是的两1[五十三]18. 中位联动层次聚类是的两1[54、55]19. 质心联动层次聚类是的两1[五十二]20. 极大极小联动层次聚类是的两1[56个]21. 最小能量层次聚类是的两1[五十七]22. 基尼系数Genie Clustering层次聚类是的两1[58个]23. LBGkmeans聚类是的数据1[59个]24. 哈迪根kmeans聚类是的数据1[60个]25. Steinley与Hartigankmeans聚类是的数据1[第六十一届]26. 福尔吉kmeans聚类是的数据1[六十二]27. MacQueenkmeans聚类是的数据1[63个]28. 劳埃德kmeans聚类是的数据1[64个]29. 克拉拉大型应用程序集群是的数据1[第六十五章]30. 马尔可夫聚类马尔可夫聚类没有两0[第六十六话]31. 基于模型的聚类基于模型的聚类是的数据1[67、68]32. 混合高斯MoG聚类是的数据1[69]第六十九届33. 基于KNN聚类的最小生成树MST聚类没有两0[70个国家]34. 神经毒气NeuralGas聚类是的数据1[第七十一章]35.对点进行排序以识别聚类结构OPTICS聚类没有数据2[72个]36.围绕MedoidsPAM聚类是的两1[73个国家]37. DC-ADMM惩罚回归聚类没有数据3[74个国家]38. 概率密度分布pdfClustering没有数据0[75、76]39. 最小密度投影寻踪聚类是的数据1[77个国家]40. 最大可重复性投影寻踪聚类是的数据1[78个国家]41. 归一化割投影寻踪聚类是的数据1[79个]42. 核PCA投影寻踪聚类是的数据1[80个]43. 随机质量聚类QT聚类没有数据1[八十一]44. 鲁棒修剪RobustTrimmedCluster是的数据1[82,83]45. 共享最近邻聚类SharedNearestNeighborClustering没有数据3[八十四]46. 自组织映射SOM聚类是的数据1[八十五]47.谱聚类光谱聚类是的数据1[八十六]48. 快速自适应谱聚类频谱是3数据0–1[八十七]49. 奥克勒斯子空间聚类是的数据2[八十八]50. Proclus子空间聚类是的数据1[八十九]51. SubClu子空间聚类没有数据0[90个]52. 集团子空间聚类没有数据0[91,92]53.因子k均值串联聚类是的数据1[九三]54.约化k均值串联聚类是的数据1[九十四]1使用HierarchicalClustering函数可以为此算法设置特定的聚类数2 但是可选的。3 但是可选的。Michael C.Thrun和Quirin Stier软件X 13(2021)1006425补充资料B。 Python实现Michael C.Thrun和Quirin Stier软件X 13(2021)1006426引用[1] 邦 纳 河 一 些 聚 类 技 术 。 IBM J Res Dev 1964;8 ( 1 ) : 22-32.http://dx.doi.org/10.1147/rd.81.0022网站。[2] 杨伟杰,李晓梅,李晓梅.聚类分析手册。现代统计方法手册,纽约,美国:查普曼&霍尔/CRC出版社; 2015年,p. 七百三十[3] Kleinberg J. 聚 类 的 不 可 能 性 定 理 。 In : Advances in Neural InformationProcessingSystems,15,MITPress;2003,p.463https://ci.nii.ac.jp/naid/10027936929/en/[4] 费希尔DH。基于增量概念聚类的知识获取。Mach Learn 1987;2(2):139-72. http://dx.doi.org/10.1007/BF00114265网站。[5] 放 大 图 片 作 者 : J. 分 类 和 聚 类 。 新 加 坡 : 世 界 科 学 ; 1996 年 ,http://dx.doi.org/10.1007/s003579900026。[6] 杜达RO,哈特PE,鹳DG。模式分类。第2版美国纽约:Wiley-Interscience出版物。John Wiley& Sons;2001.[7] 张晓刚,王晓刚,王晓刚.聚类分析第四版London:Arnold,2001.[8] 作者:John J,John J.后基因组数据分析中的计算聚类验证。生物信息学2005;21(15):3201-12.http://dx.doi的网站。org/10.1093/bioinformatics/bti517.[9] 库特鲁姆巴斯·西奥多·斯模式识别第四版Canada:Elsevier; 2009,p. 九六一[10]UltschA , LötschJ.Machine-learnedclusteridentificationinhigh-dimensionaldata.JBiomedInform2017;66(C):95-104.http://dx.doi.org/10.1016/j.jbi.2016.12.011。[11]Thrun MC.基于自组织和群体智能的投影聚类。海德堡:施普林格; 2018,http://dx.doi.org/10.1007/978-3-658-20540-9,URLhttp://www.springer.com/us/book/9783658205393。[12] 沃尔珀特DH。学习算法之间缺乏先验区别神经计算1996;8(7):1341-90.http://dx.doi.org/10.1162/neco.1996.8的网站。7.1341[13]Jain AK,Dubes RC。聚类数据的算法。Prentice Hall高级参考系列:计算机科学,Englewood Cliffs,新泽西州,美国:PrenticeHall学院分部; 1988年。[14]Adolfsson A,Ackerman M,Brownstein NC.要集群,还是不要集群:聚类方法分析。模式识别2019;88:13-26.http://dx.doi.org/10.1016/j.patcog.2018.10.026网站。[15]博克湾论聚类分析、主成分分析和多维标度之间的接口。在:多元统计建模和数据分析。Springer; 1987,p.17比34[16]博克HH。 自动分类:理论。 prakt. Methodenz.Gruppierungu.StrukturierungvonDaten ( 数 据 分 析 ) 。StudiaAntarctica,XXIV,Göttingen,Germany:Vandenhoeck &Ruprecht;1974.[17]埃 克 特 河 使 用 多 线 程 并 行 计 算 距 离 矩 阵 . 2018 年 , URLhttps://CRAN.R-project.org/package=parallelDist。R包版本0.2.4.[18]戈 蒂 埃 湖 Rpy2 : 从 Python 简 单 有 效 地 访 问 R 。 2020 年 , 网 址https://pypi.org/project/rpy2/。[19]亨森河MATLABR-Link。2020,URLhttps://www.mathworks.com/matlabcentral/fileexchange/5051-matlab-r-link.[20]Groenen P,van de Velden M.多维尺度优化:综述。J Stat Softw 2016;73( 8 ) : 1-26.http://dx.doi.org/10.18637/jss.v073 的 网 站 。 i08 ,URLhttps://www.jstatsoft.org/v073/i08。[21]放大图片作者:Adler D. Rgl:使用OpenGL(版本0.100.30)的3D可视化。2019年,URLhttps://CRAN.R-project.org/package=rgl。[22]Sievert C,Parmer C,Hocking T,Scott C,Ram K,Corvellec M,et al.Plotly : Create interactive web graphics via 'plotly.js' ( version 4.7.1 ) ,CRAN. 2017年,URLhttps://CRAN.R-project.org/package=plotly。[23]穆塔夫湾关于超度量衡,数据编码和计算。J Classification 2004;21(2):167-84. http://dx.doi.org/10.1007/s00357-004-0015-y网站。[24]Thrun MC,Ultsch A.利用基本聚类问题对基准数据集进行聚类。数据摘要2020;30 ( C ) : 105501 。 http : dx.doi.org/10.1016/j.dib.2020.105501 , URLhttps://www.sciencedirect.com/science/article/pii/S2352340920303954?via.[25]Charrad M,Ghazzali N,Boiteau V,Niknafs A. NbClust包:在数据集中查找 相 关 的 聚 类 数 。J Stat Softw 2012;61 ( 6 ) : 2012 年 10 月 26 日2012.http://dx.doi.org/10.18637/jss.v061.i06网站。[26] Dimitriadou E,Dolničar S,Weingessel A.确定二进制数据集中簇数的指数的检验。Psychometrika2002;67(1):137-59.http://dx.doi.org/10.1007/BF02294713网站。[27]放大图片作者:J.分析分布的精细结构。PLoS One 2020;15(10):1-66.http://dx.doi.org/10.1371/journal.pone的网站。0238835[28] Thrun MC.用镜像密度图提高聚类性统计检验的灵敏度In:ArchambaultD,Nabney I,Peltonen J,editors.大数据可视化中的机器学习方法。欧洲制图协会; 2020年,http://dx.doi.org/10.2312/mlvis.20201102。[29]Thrun MC,Ultsch A.用于自组织聚类的群体智能。J Artif Intell 2020;290:103237. http://dx.doi.org/10.1016/j.artint.2020.103237网站。[30]Thrun MC,Ultsch A.使用基于投影的聚类在高维数据中找到基于距离和密度的聚类。 J Classification 2020;in press. http://dx.doi.org/10.1007/s00357-020-09373-2网站。[31]Rodriguez A , Laio A.通 过 快 速 搜 索 和 找 到 密 度 峰 值 进 行 聚 类 。 Science2014;344(6191):1492-6. http://dx.doi.org/10.1126/science的网站。1242072[32] 王X,徐Y.使用自适应密度峰值检测的快速聚类。 Stat Methods Med Res2017;26(6):2800-11. http://dx.doi.org/10.1177/0962280215609948.[33]兰斯G,威廉姆斯W.一广义分选战略为计算机分类。Nature1966;212(5058):218. http://dx.doi.org/10的网站。1038/212218A0.[34]Kaufman L,PJ.围绕medoids分区(程序pam)。在数据中查找组:聚类分析介绍。1990年,第199-252页。http://dx.doi.org/10.1002/9780470316801.ch2网站。[35] Frey BJ,Dueck D.通过在数据点之间传递消息进行聚类。Science 2007;315(5814):972-6. http://dx.doi.org/10.1126/science.1136800网站。[36]张文辉,张文辉,张文辉. APCluster:一个用于亲和传播聚类的R包。生物信息学2011;27(17):2463-4. 网址://dx.doi.org/10.1093/bioinformatics/btr406网站。[37]Thrun MC,Ultsch A.基于投影的聚类。在:国际船级社联合会。东海大学,日本船级社(JCS); 2017年,第250-1页https://CRAN.R-project.org/package=[38] Tabor J,Spurek P.交叉熵聚类。Pattern Recognit 2014;47(9):3046-59.http://dx.doi.org/10.1016/j.patcog.2014.03.006网站。[39]Spurek P,Kamieniecki K,Tabor J,Misztal K,Jummieja M. R包cec。Neu-rocomputing 2017;237:410-3. http://dx.doi.org/10.1016/j.neucom.2016.08的网站。118.[40]Ester M,Kriegel H,Sander J,Xu X.一种基于密度的含噪声大型空间数据库聚 类 发 现 算 法 。 在 : Kdd , 第 96 卷 , 1996 年 ,第 226- 231 页 。http://dx.doi.org/10.5555/3001460.3001507网站。[41] Pedersen T,Hughes S,Qiu X. Densityclust:通过快速搜索和找到密度峰值进行聚类。R包版本,2016,http://dx.doi.org/10.1126/science.1242072。[42]Kaufman L,PJ.围绕medoids分区(程序pam)。在数据中查找组:聚类分析介绍。1990,第253- 279页。http://dx.doi.org/10.1002/9780470316801.ch2网站。[43]Kaufman L,PJ.围绕medoids分区(程序pam)。在数据中查找组:聚类分析介绍。1990年,第164- 198页。http://dx.doi.org/10.1002/9780470316801.ch2网站。[44]Ripley BD.模式识别和神经网络。剑桥大学出版社,2007年。[45]Campello RJ , Moulavi D , Zimek A , Sander J. Hierarchical densityestimates for data clustering,visualization,and outlier detection. ACM跨知识发现数据2015;10(1):1-51。http://dx.doi.org/10.1145/2733381网站。[46] 放 大 图 片 作 者 : J.Dbscan : 使 用 R.J Stat Softw 2019;25 : 409-16.http://dx.doi.org/10.18637/jss.v091的网站。i01。[47] JH. 优化目标函数的分层分组J Amer Statistist Asphalt 1963;58(301):236http://dx.doi.org/10.1080/01621459的网站。1963.10500845。[48] Murtagh F , Legendre P. Ward's hierarchical agglomerative clusteringmethod:Which algorithms implement Ward's criterion?J Classification2014;31(3):274-95. http://dx.doi.org/10.1007/s00357-014-9161-z网站。[49][10] 张 晓 刚 , 张 晓 刚 . 在 联 络 处 和 所 有 终 点 的 划 分 处 。 见 : ColloquiumMathematicae,vol. 2,Institute of Mathematics Polish Academy of Sciences;1951,p. 282 -5[50]Lance GN,Williams WT.分类排序策略的一般理论:1.等级制度。Comput J1967;9(4):373-80. http://dx.doi的网站。org/10.1093/comjnl/9.4.373。[51] 德 费斯 湾一 个 有效 的 算法 , 一个 完 整的 链 接方 法。 Comput J 1977;20(4):364-6. http://dx.doi.org/10.1002/jcc.540151203网站。[52]Sokol RR,Michener CD.评价系统关系的一种统计方法。堪萨斯大学科学通报1958;28:1409-38.[53]麦 奎 蒂 湖 离 散 和 连 续 数 据 的 倒 易 相 似 分 析 。 Educ Psychol Meas 1966;26(4):825-31. http://dx.doi.org/10的网站。1177/001316446602600402。[54]Lance GN,Williams WT.用于层次多合分类(“相似性分析”)的计算机程序。ComputJ1966;9(1):60-4.得双曲正切值.doi.org/10.1093/comjnl/9.1.60网站。[55] 杨伟杰,王伟杰,李伟杰.层次聚类。在:聚类分析。第五版2011年,第71-110页。http://dx.doi.org/10.1002/9780470977811.ch4.[56]Bien J, Tibshirani R. 通 过 极 大极 小 链 接 的 原型 层 次 聚 类 。 J Amer StatistAssumption 2011;106 ( 495 ) : 1075-84. http://dx.doi.org/10 的 网 站 。1198/jasa.2011.tm10183.Michael C.Thrun和Quirin Stier软件X 13(2021)1006427[57]Szekely GJ,Rizzo ML.通过联合内-间距离的层次聚类:扩展Ward的最小方差方法。JClassification2005;22(2):151-83.http://dx.doi.org/10.1007/s00357-005-0012-9网站。[58]杨伟华,王伟华,王伟华. Genie:一种新的、快速的、抗离群的层次聚类算法.Inform Sci 2016;363:8-23. 网址://dx.doi.org/10.1016/j.ins.2016.05.003网站。[59]Linde Y , Buzo A , Gray R. 矢 量 量 化 器 设 计 的 一 种 算 法 。 IEEE TransCommun 1980;28 ( 1 ) : 84-95. http://dx.doi.org/10.1109/TCOM.1980 的 网站。1094577。[60]Hartigan JA,Wong MA.算法AS 136:k均值聚类算法。J R Stat Soc Ser CAppl Stat 1979;28(1):100-8. http://dx.doi.org/10.2307/2346830.[61]Steinley D,Pastorco MJ.初始化k-means批量聚类:几种技术的关键评估。JClassification 2007;24(1):99网址://dx.doi.org/10.1007/s00357-007-0003-0网站。[62] Forgy EW.多变 量数 据的 聚类分 析: 分 类的效 率与 解释 性. Biometrics1965;21:768 https://ci.nii. ac.jp/naid/10009668881/en/网站。[63] MacQueen J.多元观测的分类和分析方法。第五届伯克利数学统计与概率会议录 ,第 一卷, 美 国加利 福尼亚 州奥克 兰。 1967年, 第 281- 297页。http://dx.doi.org/10.4236/ijg.2014.55049网站。[64]劳埃德·S PCM中的最小二乘量化。IEEE TransInform Theory 1982;28(2):129-37. http://dx.doi.org/10.1109/TIT.1982.1056489网站。[65]Kaufman L,PJ.围绕medoids分区(程序pam)。在数据中查找组:聚类分析介绍。1990年,第126- 163页。http://dx.doi.org/10.1002/9780470316801.ch2网站。[66]范东根通过流模拟进行图聚类[Ph.D.乌得勒支大学;2000年。[67]Fraley C,Raftery AE。MCLUST第3版:用于正态混合建模和基于模型的聚类的R包。技术报告,华盛顿大学;2006年,http://dx.doi.org/10.21236/ada456562。[68]Fraley C,Raftery A.基于模型的聚类、判别分析和密度估计。美国统计协会杂志2002;97(458):611-31。http://dx.doi.org/10.1198/016214502760047131网站。[69]Chen W,Maitra R,Melnykov V. EMCluster:基于有限混合高斯分布的模型 聚 类 的 EM 算 法 。 RPackage , 2012 , URLhttp://cran.r-project.org/package=EMCluster。[70]伊诺斯特罗扎-蓬塔湾一种基于组合优化技术的集成和可扩展的微阵列数据分析方法。纽卡斯尔大学;2008年。[71]Martinetz TM,Berkovich SG,Schulten KJ.矢量量化的“神经气体”网络及其在 时 间 序 列 预 测 中 的 应 用 。 IEEE Trans Neural Netw 1993;4 ( 4 ) :558http://dx.doi.org/10.1109/72.238311网站。[72]Ankerst M,Breunig MM,Kriegel H,Sander J. OPTICS:Ordering pointsto identify the clustering structure. ACM SIGMOD Rec 1999;28(2):49-60.http://dx.doi.org/10.1145/304181.304187网站。[73]Kaufman L,PJ.围绕medoids分区(程序pam)。在数据中查找组:聚类分析介绍。1990年,第68-125页。http://dx.doi.org/10.1002/9780470316801.ch2网站。[74]吴C,权S,沈X,潘W.一种新的惩罚回归聚类算法和理论。J Mach Learn Res2016;17(1):6479网址://dx.doi.org/
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功