拓扑数据分析：测试方法与应用范围

165 浏览量更新于2024-01-22 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Journal of the Egyptian Mathematical Society 25（2017）406原创文章拓扑数据分析的扩展与比较H.N. Alaa S.A.穆罕默德埃及阿斯旺大学理学院数学系Ar t iclei n f o ab st r act文章历史记录：2017年4月1日收到2017年6月16日修订2017年7月8日接受2017年7月24日在线提供保留字：55N3555U0562H99拓扑-测试假设拓扑数据分析是一个新兴的领域，在代数拓扑和统计推理的交叉点，旨在描述的形状对象表示为点云数据在多维空间。由于形状分析的应用范围是巨大的，新的测试催生了TDA领域。在这项研究中，三个TDA为导向的测试进行了讨论。提出了一种基于度量函数的新的测试方法。在前面的测试中，已经通过蒙特卡罗模拟进行了一个小的模拟研究。在小插曲中提到的所有测试都是由教育领域内的真实世界数据激活的。© 2017埃及数学学会. Elsevier B. V.制作和托管这是CC BY-NC-ND许可下的开放获取文章。（http://creativecommons.org/licenses/by-nc-nd/4.0/）的网站上进行了介绍。1. 介绍在许多学科中，对不同物体的形状进行测量、描绘和比较具有重要的实际意义。Dryden和Mardia[1]将某些物体的形状定义为当位置、比例和旋转效果被过滤掉时剩余的所有几何信息。如果对尺寸信息也感兴趣，则将从定义中省略尺度。这里将考虑信息的大小。换句话说，如果通过平移、移位或旋转操作，两个物体将重合，则我们可以声称两个物体具有相同的形状，参见[2]。研究物体几何性质的基本领域是拓扑学。事实上，拓扑学在数学中已经存在了相当长的一段时间，直到本世纪初才预期应用于现实世界的应用。作为，卡尔森在[3]提出了他的调查文章，产生了另一个新的研究领域，称为计算拓扑，使研究人员能够提取描述点云数据计算拓扑学是一组算法方法，用于理解高维数据集中的拓扑不变量，如环和孔。利用统计工具计算和分析拓扑特征的专门方法称为TDA。一般来说，TDA指的是一个集合体，∗通讯作者。电子邮件地址：ala2222000@yahoo.com（H.N.Alaa），gmail.com（S.A. Mohamed）。使研究人员能够发现和研究数据中的拓扑不变量结构的方法和工具。这些过程的输入通常采用点云数据的形式，点云数据通常表示为从n维度量空间中的几何对象采样的大型有限数据集，可能带有一些噪声。输出是用于估计数据的统计特征的数据摘要和图表的集合。Lesnick[4]将TDA工具分为两部分：第一部分是描述符TDA，这是旨在描述，总结，发现和可视化点云数据的过程。第二种是TDA推理，它利用概率论来研究或检验样本数据的统计特征（如均值、方差在过去的几年中，社区拓扑在支持复杂数据分析方面取得了重要进展。因此，TDA在各种不同的领域中发挥着至关重要的作用，从工业[5]形状分类Chazal等人在[6，7]，用于乳腺癌分析的聚类和组织学图像[8]。此外，TDA最近受到统计学家的广泛关注，这催生了数据挖掘中的竞争者方法。例如，Singh等人在[9]中提出了一种新的基于单纯复形的分类工具，称为Mapper，Kent等人在[10]中引入了k树水平集，可用于分类和比较目的，Turner[11]定义了持久同源图的均值和中位数，从[12]导出的持久性图的置信带，允许我们将拓扑信号与拓扑噪声分离，Chazal在[13]中提出了子采样方法，用于在样本太大的情况下从点云数据分析集合和函数的形状。http://dx.doi.org/10.1016/j.joems.2017.07.0011110- 256 X/© 2017埃及数学学会。Elsevier B. V.制作和托管这是CC BY-NC-ND许可下的开放获取文章。（http://creativecommons.org/licenses/by-nc-nd/4.0/）的网站上进行了介绍。可在ScienceDirect上获得目录列表埃及数学学会期刊首页：www.elsevier.com/locate/joemsH.N. Alaa，S.A.Mohamed/ Journal of the Egyptian Mathematical Society 25（2017）406407Σ.k⎪⎩⎪=. .WP，P本研究的主要目的是对基于TDA的三种用于测试对象之间相似性的测试进行综述。此外，提出了一种基于度量函数的新的测试方法，可以用于相同的目的。在公元-图形或条形码图。要定义景观，请使用以下函数对每个持久性点进行帐篷化，以构建一个三角形，其底边对应于持久性间隔和顶部顶点：此外，对基于TDA的测试和建议的测试基准测试进行了功效比较研究。本文的结构如下：下一节将给出一个单元-⎧⎪⎨ε−iε∈吉尔吉，I+J22TDA工具的镜头第三部分包括所有测试，用于测试对象之间的接近度以下是下面的部分专门用于Monte Carlo结果。最后一节给出了有关实际应用的结果2. 拓扑数据分析从点云数据计算拓扑特征的TDA一般框架通常包括两个必要步骤：构造单纯复形和在单纯复形上应用TDA技术，通常是持久同源性、条形码和持久景观。本节的主要教科书是Edelsbrunner和Harer[14]。一个单纯复形S是由p-单纯形的有限集合组成的集合，其中0-单纯形是顶点，1-单纯形是边，2-单纯形是三角形，3-单纯形是四面体，等等。更精确地说，单纯复形将空间分成更小的和拓扑上更简单的片段，当它们组合在一起时，携带与原始空间相同的聚合拓扑信息。这些单形应该满足两个条件。首先，对于S中的每个集合σ，每个非空子集τ<$σ也属于S。例如，如果四面体abcd在S中，则三角形abc，abd，acd，bcd，边ab，ac，ab和顶点a，b，c，d也在S中。第二，两个p-单形要么是空的，要么它们在一个较低维的单纯形中相交。为了得到单纯复集，同调是代数拓扑学中的一个工具，它可以度量拓扑空间的特征，如环形、球面、环面或更复杂的曲面。特别地，同源性可以通过量化它们的连接组分、环、空隙等来区分这些空间。与同源群相关的一个有趣的特征是贝蒂数，因为它们提供了关于复合物的有意义的信息粗略地说，第p个Betti数βp是第p个在同调群中，我们给出了维数独立的洞，使得β0为连通分支数，β1为环数，β2为封闭空洞数，依此类推。持久性同调是主要的代数拓扑工具是由Edelsbrunner等人开发的。[29]在TDA方法中使用，跟踪长持续特性。它提供了一种测量生命的方法拓扑要素的平移，即要素的持久性Λs（ε）=j − ε ε ∈.i + j，j0否则其中，n是滤波单纯复数时间，s取1到n，n是持久图中的点数。应当注意，Λs（λ）对于每个p维单独获得。通常，λs（ε）是Λs（ε）的第s个最大值当然，当s=1时，λs（λ）可以解释为以λ为中心的区间的最大可能距离。图1将上述TDA的所有工具应用3. 统计形状分析形状分析是数学和应用科学中一个活跃的学术研究课题。它在许多领域有着广泛的应用，因为在不确定性下进行假设检验以区分对象在文献中已经提出了大量的测试（见[2]）。然而，在这方面将侧重于三个不同的测试假设你有K个对象，我们想检验所有对象都相似且形状相同的零假设，以及至少有一个对象与其他对象不同的备择假设这可以通过以下测试来实现，这些测试被称为k样本测试。3.1. 使用持久同源性的统计推断Gamble在[2]中提出了一种新的检验方法，它可以可靠地利用Wasserstein距离来检验两个持久同调图罗宾逊和特纳在[16]在多变量情况下推广了甘布尔的检验;好像需要在两组持久同源性之间进行检验。本文将文献[2]的检验推广到K个样本。根据Gamble和Heo，可以用于在K个持久同源图P之间进行检验的检验统计量可以表示为：1k i−1。 Σ我J2i=2j= 1而短暂的特征可以作为噪声而被忽略其中W（P，P）是P和P之间的Wasserstein距离。很明显，可视化持久同源性的一个方便方法是通过iji j一种称为条形码的图形表示，它可以在不同的视觉中总结持久性图中编码的信息。每个同源空间都有一个不同的条形码，我们从中推断Betti数。换句话说，条形码图中每条线的长度是指死亡时间j和出生时间i之间的距离，与零维相关联的线的数量等于β0，而与一维相关联的线的数量等于β1，等等。另一种可以总结持久同源图中包含的信息的图形方法是Bubenik提出的持久景观[15]。持续景观可以被认为是条形码图的旋转版本。持续景观的主要优点是它允许我们计算因此，TR可以被认为是所有成对Wasser的平均值。斯坦距离。 Robinson 在 [2] 中推荐使用匈牙利算法来计算Wasserstein距离。给定p1，1，p2，1。. . pn1，1和p1，2，p2，2. . . pn2，2是对应的点到p1和p2respectively.The匈牙利算法首先，要求两个持久同源性必须是相同的大小，这是通过向第一个样本添加n2个点，向第二个样本添加n1个点来完成的，这产生了两个持久同源性的n1+n2个点。添加的点是对角线的副本，对角线是垂直距离。然后，构造成本矩阵，其中其条目是平方欧几里德距离。接下来，将每行与最佳列匹配。 1 最后，Wasserstein距离是最佳距离的总和并使用标准统计指标汇总数据，例如：平均值、中位数、方差1最佳列是指具有最小距离的列。TR408H.N. Alaa，S.A.Mohamed/ Journal of the Egyptian Mathematical Society 25（2017）406. -是的.我J我R从置换数据中提取TR构成零分布。J2JH图1.一、左上角是旅游样本数据。中间的顶部是持续的同源性。右上角是裸代码。底部是0维、1维和2维的持久景观这意味着匈牙利算法给出了最小的成本值。2使用Jaccard指数构建测试的要点如下：由于TR的抽样分布是未知的，1Ki−1 .Σ统计非参数可以使用来估计实证测试统计量的分布，例如自举，jackkni fing，或排列测试。实现这一目标的必要条件方法是抽取的样本代表他们的人口;由于我们的数据集是随机产生的，没有理由怀疑条件不成立。根据Robinson[16]的观点，在判断TR的显著性时，最好采用排列检验.置换方法是一种非参数工具，TM=kJBi，Bji=2j= 1其中Bi是样本i的条形码图，J（Bi，Bj）是Bi和Bj之间的Jaccard度量，其被定义为交集的大小除以条形码图的并集的大小，采用以下公式：.- 是的是的。然后计算T每一个排列。我的同事-JBi， Bj. 是的。换句话说，如果两个比较组在统计学上是不可区分的，则应用于观察数据的随机排列不会产生差异;在这种情况下，观察到的检验统计量位于排列值内。另一方面，如果两组在统计上不同，那么随机排列会产生差异;在这种情况下，观察到的检验统计量取极值，即它位于零分布的尾部。在K=3的情况下，使用置换检验获得P值的阶段如下：Jaccard测度更适合于测试相似性，因为它的值介于0和1之间，因为上限值意味着接近。而较低的值是指相异性。在后果中，TM的范围在[0，1]。将J_i（Bi，Bj）应用于伪码集时所面临的一个严重困境是，不能正确地将J_i（Bi，Bj）应用于伪码集。因为，两个条形码图不一定具有相同数量的条形码集。此外，每个条形码图都有多个条形码集，这需要找到完美匹配的条件。Rionbeteentheba rcodediag rams. ThereforeMátémodiffiedJ（Bi，数据：P1、P2和P3，三个样本量分别为n1、n2和n3M是置换样本的数量。结果：TR的P从原始样本数据计算TR随机将组标签划分为大小n1，n2和n3;Bj）以下列方式：.2001年。=我J不sup . B它它Jh.JH.sup+H. B它它Jh. Σ对于i=1：MJBi， Bj|+。|+. B.H. 是的。不 . 是的。计算每个置换样本的TR，并将值保存在Ei中;端P值是Ei大于TR的次数除以M。其中，Bit和Bjh是以下的条形码图内的条形码集合：样本i和j，以及|B我|是SAMPLEi的BAR码诊断中的集合的数量。显然，J（B，B）可以完全满足I j3.2.使用条形码集的适用于条形码图，同时还包括在ter val[0，1]中。因此，T_M将出现在J（B_i，B_j）的序列中。如：1K在某些配置之间的相似性。可选择地，他们决定依靠条形码图，而不是持久的K2i−1。Σ另一方面，Maté在[17]中提出了另一种测试方法T M=. -是的.J B i，B j2Wasserstein距离是分别为0维、1维和2维值得注意的是，TM将单独运营，同调维数在K=3的情况下，计算TM的阶段可以总结如下：=通过将它们的标签排列在∗i=2j= 1H.N. Alaa，S.A.Mohamed/ Journal of the Egyptian Mathematical Society 25（2017）4064093....T=.2002年jmax（Bik（end），Bjh（end））− min（Bik（begin），Bjh（begin））1)欧氏距离：d（x，x）=S=εT. 由于等方差假设通常是j=1SSSk2−1j=1Sj=1通过尺寸T/Var（λj（ε））和ηjk−1，k2−11−。Kj=1我J|B我|+|BJ|=. .RX，X2数据：B1、B2和B3分别具有条形码集B1t、B2t和B3t结果：T M统计检验。计算TM=J（B1，B2）+J（B1，B3）+J（B2，B3）计算J（B，B）=[j（Bi，Bj）+j（Bj，Bi）]计算j（Bi，Bj）R（Xi，Xj）=max（D（Xi），D（Xj））/min（D（Xi），D（Xj）），以及D（Xi）是一个n i×n i对称矩阵，它表示样本Xi中沿对角线为零的所有成对距离。实际可以使用不可解释的度量函数来获得距离，选项。然而，我们将考虑点xi=对于k = 1：|B我|对于h = 1：|B J|t[k，h]=min（Bik（end），Bjh（end））−max（Bik（begin），Bjh（begin））%%：end开始：结束，条码间隔（xi1，xi2）和xj=（xj1，xj2）作为：、我）2 - -I2 ）2+（x- -I1J（x）如果t[k，h] 0设置t[k，h]= 0结束;结束;结束j（Bi，Bj）=sum（max（t[k，：]））由于求T_M3.3.使用持久景观的Bubenik在[18]中决定使用λs（λ）的平均值，为了得到新的统计检验3，可以可靠地进行调查在高维情况下两个给定形状之间的差异。他利用中心极限定理证明了λs（λ）是渐近正态的，具有均值ηs和方差Var（λs（λ）），其中ηπ。T=1λs（ε）2) 出租车距离：d（xi，x j）= |xi1 − x j1|+的|xi2 − x j2|3) 2）x（x）= 0（|xi1 − x j1|、|xi2 − x j2|）有关这些度量函数的更多详细信息，请参见[20]。人们可以很容易地推断出，最大值与最小值之比在R（Xi，Xj）中，可以作为形状差异程度的统计量。如果配置非常相似，则R（Xi，Xj）将如果R（Xi，Xj）接近1，则R（Xi，Xj）的值越大，表示的差异。因此，TP可以被认为是R（Xi，Xj）的所有可能成对的锯齿的平均值。事实上，有人可能会认为，拟议的检验标准可被视为一种延伸，与Lele和Richtsmeier（1991）在K样本下的检验略有不同。然而，这两个检验之间存在重要差异，因为我们的检验此外，我们的测试可以计算，没有任何变化，在任何他说：“这是一个很大的区别，在两个给定形状之间的连续性，它可以计算在不同的s值和不同尺寸的洞的持续景观之间的Welch同样，无论是否需要测试K形状之间的显著性差异，都可以在其持续景观之间轻松地进行WelchAsBS1+Bs数据的维度水平与另一个测试相反。更多详情请参见[21，22]。由于我们在K=3的情况下，采用Boot-strap方法估算临界值，并简要描述如下。数据：X1、X2和X3，三个样本量分别为n1、n2和n3，M是重复样本的数量结果：TP的P值其中=.KWj（ηj−η<$）2/k−1，BSS=2（k−2）。KSS（1−Wj）2/SS计算：P-来自原始样本数据的TP将合并样本作为堆栈X1、X2和X3获取到新变量X中。=3T−1，n′s=.KSηj/k，ηj=.KSWjηηj/.KWj，Wj=因为我1：M.对应到的样品 J. 根据到 [19]假设在正态性和独立性条件下，T_B服从H ~o近似的自由度F分布计算随机样本的TP并将值保存在Ei中;端P值是Ei大于TP的次数除以M。⎣⎡Σ3 .KWΣ−1⎤/T−1.4. 一个小型的模拟研究j=1S3.4.使用度量空间的统计推断而不是依赖于TDA工具，可以直接诉诸于样本的点作为样本形状的指示器，通过计算观测坐标内的幅度。换句话说，我们想测量点云数据在每个样本空间内部的距离。一旦我们通过任何合适的度量函数记录了这些数字，我们就可以比较它们，以了解它们的相似程度。基于距离的估计量的主要优点是对旋转和平移操作不变。设X 1，X 2. . . X k是K个样本，其中X i =[x1，x 2. . . 并且需要测试相似性，这可以通过以下提出的测试来实现：1ki−1 .Σ在这一部分中，对上述试验的实际性能进行了研究。我们将所提出的检验TP分别对应于不同的度量函数与现有的这些检验进行了比较TR、TM和TB1，2，其中TB1，2是基于前两个最大景观值的平均值进行测试。我们已经将上述测试应用于可以通过GEOZOO包[23]传导的常见几何对象，然后记录p值每个测试都使用TDA[24]和ONEWAYTESTS（参见[1]）包。当两个组由相同的几何对象生成时，这种情况下的p值表示为检验的大小。否则，将p值视为检验的功效由于对以前的测试性能进行任何理论比较可能是困难的，因此必须通过Monte Carlo模拟进行比较。蒙特卡罗模拟现在是一种常用的科学工具，用于解决以下问题：分析上难以处理，实验时间太长，TP。kI ji=2j= 1消耗的、昂贵的或不切实际的。这主要取决于性别-多次人工随机抽样，1000次内-为了估计统计模型和数学模型，哪里第三个测试我将在这里使用。数学函数尽管如此，模拟也有缺点;它可能需要巨大的计算资源，它解决方案和结果只与所使用的模型和输入一样好⎦SSj=1j=1ni=1是持久景观的平均值我考虑第一个n1为X1，第二个n2为X2，剩余的为X3。SWJ410H.N. Alaa，S.A.Mohamed/ Journal of the Egyptian Mathematical Society 25（2017）406√表1模拟规模和功效的检验统计量下的研究。NNNNNNNN表2基于统计检验的相似性检验的经验P尺寸TRTMTB1，2TPE不SGPvsMS 0<.001<.001.90<.001<.001<.0011<.001.06.33数学vs语言0.53.97.51.75.89.801.93.04.25统计检验之间的比较应在各种情况下进行，这些情况可归纳为：1 不同的样本量：我们将在两个不同的样本量（20和50）下运行模拟。2 不同尺寸孔：在β0和β1处，除了基于度量函数的测试外，我们还计算了每种测试的维数，这使我们能够证明在什么维度上测试可以完美地捕捉对象的拓扑特征。3 在[25]的光中，将仅考虑K= 3的情况其中第一个和第二个对象是从以下对象生成的：a. 模型（1）：半径等于1b. 模型（2）：从中心开始半径等于2的环面c. 模型（3）：内径等于1的克莱因瓶d. 模型（4）：具有三个变量的标准多变量正态分布。而对应于每个模型的第三对象通过（1-a）Model（i）生成，其中i= 1。. . 4，a取0和2/N两个值，N是总样本量。可以注意到，当a=0时，p值是指测试的大小，而a>0时，p值是指测试的功效同样的，替代方案也会像sam一样变为null。大小增加。在上述条件下，采用1000份重复样本和100份重复样本以99%置信区间实现了基于Monte Carlo模拟的结果，对应于与先前研究一致的最终结果在表1中组织和报告。从总体结果中得出了一些结论，归纳为以下几点：1) 结果表明，样本量对模拟量和检验效能有很大影响，因为样本量的增加使检验规模趋于正确的因此，可以推荐在大样本量下使用这些测试。2) 很明显，Betti维数可以被认为是对基于TDA的所有测试行为的影响或因素。一般来说，TR和TM的性能较好在β0处。这种现象可以用以下事实来解释：β0处的点的数量大于较高维度处的点的数量，这使得基于最终判定的β0维度与其它维度相比更准确。另一个问题是，样本量建模aDimensionTRTMTB1，2TPE不S20模型（1）a=0 0.02.05.03.01.02.011.03––6a=0.20.30.10.25.70.801.68––模型（2）a=0 0.01.03.20.02.02.011.03––6a=0.75.40.90.30.90.931.40––模型（3）a=0 0.01.15.24.03.02.021.02.10.406a=0.72.32.95.30.80.901.24––模型（4）a=0 0.02.03.40.02.03.011.06–.306a=0.30.20.90.20.54.451.10–1.050模型（1）a=0 0.01.02.01.01.01.011.01.01–6a=0.30.40.20.551.01.01.80.25–模型（2）a=0 0.01.01.01.01.01.011.01.01.206a=01.0.87.851.01.01.01.85.301.0模型（3）a=0 0.01.20.04.02.01.011.02.30.026a=01.0.701.0.351.01.01.50.301.0模型（4）a=0 0.01.01.30.01.01.011.01.07.206a=0.80.221.0.35.84.901.25.101.0H.N. Alaa，S.A.Mohamed/ Journal of the Egyptian Mathematical Society 25（2017）406411图二、两所葡萄牙学校数据库的统计特征。孔3) 很容易注意到，无论是在规模上还是在功效上，TR都优于所有基于TDA的检验。然而，在TDA检验中，TM的统计功效最小而TB1，2对α= β01.4) 可以明显看出，所有基于度量函数的检验都满足I类误差，即使在小样本量下也是如此。在功率方面，基于欧几里德度量的TP达到了所提出的测试中的最低水平5) 结果表明，基于上确界度量的TP在所有的检验中，无论从规模还是从功效上都相比之下，TM在几乎模拟的情况下具有明显差的功效，而TB1，2具有在小样本下不推荐的减小的I型误差。5. 现实生活应用利用TDA进行相似性检验已被广泛应用于各种学科，因为它对分析和探索大量数据集非常有帮助。在过去的几十年里，最近越来越多地在各个领域使用TDA。在这项研究中，经验世界数据集相关的两个公立葡萄牙中学的学生数据进行了分析。该数据收集自Gabriel Pereira（GP）（772名学生）和Mousinho da412H.N. Alaa，S.A.Mohamed/ Journal of the Egyptian Mathematical Society 25（2017）406图3.第三章。数学和葡萄牙语课程数据库的统计特征。Silveira（MS）学校（272名学生）在2005-2006年期间，并从几个人口统计，社会和学校相关的属性（如学生的性别，酒精消费，年级的学生）。此外，[26]将这些学生分别分为两类：1-学习数学课程的学生（395），2-学习外语课程的学生（649），并使用几种数据挖掘技术预测学生目前的工作倾向于评估GP和MS学校之间的相似之处，就学生的成绩。我们想更精确地确定这两所学校学生的分数是否相似。根据[27]的论点，如果他们申请，用相同的标准、指示和程序来评估学生的表现，我们可以保证进入两所学校的学生得到平等的待遇。同样，假设数学课程的标记完全独立于葡萄牙语课程的标记，可以测试数学学生和葡萄牙语学生在成绩方面的相似性。在我们的数据中，学生每年评估三次，范围从0到20。为了使分析的过程更快，更容易，我们采取选择100个标志点，从每个学校（科目）使用JPLEX软件包运行的顺序最大地标法。图 2和3揭示了最重要的H.N. Alaa，S.A.Mohamed/ Journal of the Egyptian Mathematical Society 25（2017）406413根据各学校和课程的学科成绩进行统计。从第一次看图2，人们可以清楚地推断出这两所学校是非常不同的学生的成绩。矛盾的是，从图表中很容易注意到图3中，两个课程在以下方面略有不同学生的成绩根据表2中的P值，我们可以得出结论，GP同时，数学评分员的评分与葡萄牙语评分员的评分几乎相似，这意味着在每所学校内，其数学和葡萄牙语评分员使用相同的共同标准。6. 结论在本文中，我们展示了TDA工具在测试不同配置之间的相似性方面的实现提出了一种新的基于度量函数的距离函数测试方法。在两个标准下，对基于持久同源性、条形码集、持久景观的测试和基于度量函数的测试在不同模式下进行了比较：1-测试的大小。2-测试的力量结果表明，基于持久同源性和度量函数的检验具有更合适的I类错误和满意功效。总的来说，基于TDA的零维检验具有较好的性能，增加点云数据的样本量对整个检验有积极的影响。此外，我们已经说明了威斯康星州乳腺癌数据集上的前述测试的强度。考虑到未来的研究，还有很多工作要做。例如，比较[28] 在上述方法的基础上，开发TDA测试以提高其性能，深入研究基于TDA的聚类并与其他统计已知方法进行在TDA工具中，更多的研究者将在他们的工作中采用拓扑分析。致谢作者要向 TDA 团队表示最衷心的感谢： Brittany TereseFasy，Jisu Kim和Clement Maria，感谢他们的支持，指导，丰富的知识和慷慨的分享他们的时间。此外，特别感谢FabrizioLecci博士合作发送他的论文。引用[1] O. Dag，A.多尔贡湾科纳尔，单向测试，2015年。http://cran.r-project.org/web/packages/onewaytests/index.html。[2] J. Gamble，G.许，探索持久同源性用于基于地标的形状数据的统计分析，J。多元分析101（9）（2010）2184[3] G. Carlsson，拓扑&数据，布尔。Am. 数学Soc. 46（2）（2009）255-308。[4] M. Lesnick ， Multidimensional Interleavings and Applications to TopologicalInference博士论文，斯坦福大学，2012年。[5] O. Artamonov，石油工业勘探数据表示和分析的拓扑方法博士论文，凯撒大帝大学，2010年。[6] F. Chazal ， D. 科恩 - 施泰纳湖 Guibas ， F. M'emoli ， S.Y. Oudot ， Gromov-Hausdorff使用持久性的形状稳定签名，Comput。第1393-1403页。[7] F.沙扎尔湖Guibas，S.Y. Oudot，P. Skraba，基于持久性的黎曼流形聚类，J。ACM 60（2013）6[8] N.辛格，H. Couture，S.马龙角Perou，M. Niethammer，组织学图像的拓扑描述符，Mach。学习. Med. 图像（2014）231[9] G. Singh，F. Mémoli，G.E.高维数据集分析和三维物体识别的拓扑方法，SPBG。Citeseer（2007）91[10] B.P. Kent，Level Set Trees for Applied Statistics PhD thesis，Carnegie MellonUniversity，2013。[11] K. Turner，Means and Medians of Sets of Persistence Diagrams.（2013），arXiv：1307.8300v1.[12] B.法西，F.莱奇A.里纳尔多，沃瑟曼拉里，BalakrishnanSivaraman，A. Singh ， Confidence sets for persistence diagrams ， Ann. Stat. 42 （ 6 ）（2014）2301-2339。[13] F.沙扎尔湾Fasy，F. Lecci，A. Rinaldo，A.辛格湖，澳-地Wasserman，On thebootstrap for persistence diagrams and landscapes ，（ 2014 ）， arXiv ：1311.0376v2。[14] H. Edelsbrunner ， J. Harer ， Computational Topology ： An Introduction ， AmerMathematical Society，2010.[15] P. Bubenik，Statistical topology using persistence landscapes，（2012），可在arxiv.org/abs/1207.6437v1获得。[16] A. Robinson，K. Turner，拓扑数据分析的假设检验，（2013），arXiv：1310.7467。[17] G. 马特河 Hofmann ， N. Wenzel ， W.Heermann ， A topological similaritymeasurefor proteins，Biochimicaet Bioproteica Acta（2014）1180-1190.[18] P. Bubenik ， Statistical topological data analysis using persistence landscapes ， J.Mach. 学习. Res. 16（2015）77[19] Kovacev-Nikolic ， Persistent Homology in Analysis of Point-Cloud Data Mscthesis，Alberta University，2012。[20] S. Balchin，E.皮林Comparing metrics on arbitrary spaces using topological dataanalysis，（2015），arXiv：1503.04619v1.[21] S. Lele，T. Richtsmeier，欧几里得距离矩阵分析：一种使用地标数据比较生物形状的无坐标方法，Am。《物理人类学杂志》86（1991）415-427。[22] C.布龙宾湖 Salmaso ， Permutation Tests in Shape Analysis ， Springer Science+Business Media，纽约，2013年。[23] B. Scloerke ，几何对象动物园， 2015 年。 http://cran.r-project.org/web/packages/geozoo/index.html。[24] B. Fasy ， J. Kim ， F. 莱奇角 Maria ， Introduction to the R package TDA ， 2015.http://cran.r-project.org/web/packages/TDA/index.html。[25] P. Martínez-Camblor，J. Uña-Álvarez，N. Corral，基于核密度估计公共区域的k样本检验，J. Stat. 计划推论138（12）（2008）4006-4020。[26] P. Cortez，A. Silva，使用数据挖掘来预测中学学生的表现，在：第五届未来商业会议，技术会议，2008年，第10页。5比12[27] P. Álvarez-Esteban，E. del Barrio，A.库埃斯塔-阿尔贝托角Matrán，Similarity ofsamplesand trimming，Bernoulli，18（2012）606-634.[28] I. Dryden，K. Mardia，统计形状分析，John Wiley and Sons，1998年。[29] H. Edelsbrunner，D. Letscher，A. Zomorodian，拓扑持久性和简化，离散计算。Geo. 28（2002）511。

下载后可阅读完整内容，剩余1页未读，立即下载