没有合适的资源?快使用搜索试试~ 我知道了~
拓扑空间维数的扰动鲁棒表示 *Anirudh Som1*[0000−0001−7595−3146],KowshikThopalli1*[0000−0003−2183−8577],KarthikeyanNatesanRamamurthy2[0000−0002−6021−5930],Vinay Venkataraman1[0000−0001−5601−4549],AnkitaShukla3[0000−0002−1878−2667],帕万图拉加1[0000−0002−5263−5943]1亚利桑那州立大学几何媒体实验室{asom2,kthopall,vvenka18,pturaga}@ asu.eduThomas J.沃森研究中心,knatesa@us.ibm.com3Indraprastha信息技术学院-德里,ankitas@iiitd.ac.in抽象。数据分析的拓扑方法提供了在计算机视觉中实施某些广泛关注的不变性的机会,包括活动分析中的视点、形状分析中的关节和非线性动态建模中的测量不变性。这些方法的日益成功归因于拓扑提供的补充信息,以及用于计算拓扑摘要(如持久性图)的工具的可用性。然而,持久性图是多组点,因此将它们与用于当代机器学习工具(如深度网络)的特征融合并不简单。 在本文中,我们提出了理论上有充分依据的方法来开发新的扰动鲁棒拓扑表示,从长远来看,使他们适合与当代学习架构融合。我们将所提出的表示称为扰动拓扑签名,其存在于格拉斯曼流形上,因此可以有效地用于机器学习管道中我们探讨了使用所提出的描述符上的三个应用程序:3D形状分析,视图不变的活动分析,和非线性动态建模。与其他基线方法相比,我们在高级识别性能和时间复杂度方面都取得了良好的结果关键词:不变性学习,拓扑数据分析,持久性图,格拉斯曼流形,扰动拓扑签名。1介绍多年来,拓扑数据分析(TDA)的工具已被用于表征从底层度量空间的噪声采样中获得的数据的不变结构[24]。不变性学习是计算机视觉中的一个基本问题,因为常见的变换会降低性能*前两位作者的贡献相等。22A. Som等人扰动PD的输入数据旋转PD集10.90.80.70.60.50.40.30.20.1010.90.80.70.60.50.40.30.20.1010.90.80.70.60.50.40.30.20.102D PDF格拉斯曼流形图1:导致所提出的扰动拓扑签名(PTS)表示的步骤序列的图示。对于给定的输入数据集,PD被计算和变换以最大限度地占据2D空间。创建一组扰动PD,其中每个扰动PD使其点围绕其初始位置移位一定量。对于集合中的每个PD,通过核密度估计使用高斯核函数构造2DPDF。2D PDF的集合针对给定的输入数据捕获了广泛的拓扑噪声,并且使用子空间结构进行总结,该子空间结构等同于格拉斯曼流形上的点。算法的重要性。过去在不变性学习方面的工作分为两类。第一种方法涉及对特征或特征之间的度量进行特别选择,这些特征或特征提供对特定因素的一些不变性[9]。然而,由于缺乏可推广的解决方案,这种方法受到了影响另一种方法是通过收集捕获数据的所有变化的样本来增加训练大小类似的效果可以通过简单的数据增强来实现[50]。在这种情况下,TDA已经成为一个令人惊讶的强大的工具,分析数据的基本不变属性之前,任何上下文建模假设或需要提取可操作的信息踢。一般来说,TDA试图通过量化各种拓扑不变量来表征高维数据的形状,例如连接组件,循环,高维孔,水平集和定义在数据上的函数的单调区域拓扑不变量是那些在平滑变形(如拉伸、弯曲和旋转)下不改变的属性,但不会撕裂或胶合表面。我们通过三个应用程序说明了拓扑不变量和学习视觉不变量表示之间的联系1) 点云形状分析:三维(3D)点云数据的形状分析是由于自主车辆中基于光检测和测距(LIDAR)的视觉系统的出现而引起的当前主要兴趣的主题。这是一个很难用现代方法解决的问题(例如 深度学习),这是由于表示的非向量性质。虽然有兴趣00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.80.91(出生时间+死亡时间)/200.1 0.2 0.3 0.4 0.5 0.6 0.7 0.80.91(出生时间+死亡时间)/200.1 0.2 0.3 0.4 0.5 0.6 0.7 0.80.91(出生时间+死亡时间)/2死亡时间-出生时间死亡时间-出生时间死亡时间-出生时间拓扑持久图的扰动鲁棒表示3试图将深网架构扩展到点云数据[53,44,72,46,32],人们寻求的不变性是形状清晰度,即不改变基本对象类的形状的拉伸、偏斜、旋转。这些不变性最佳定义的拓扑不变量。2) 视频分析:视频分析中的一个长期存在的问题,具体到人类动作识别,是处理身体类型,执行风格和视点变化的变化。该领域的工作已经表明,时间自相似矩阵(SSM)是鲁棒的特征,并且为上述因素提供一般不变性[34]。时间自相似性可以通过在视频特征上定义的标量场拓扑结构来量化,从而导致具有不依赖于蛮力训练数据的编码不变性的表示。3) 非线性动态建模:许多时间序列分析问题都是在非线性动力学建模的视角下进行研究的,包括运动捕捉分析、基于可穿戴设备的活动分析等。来自动力学系统的结果表明,该平面不变性质可能与经由延迟嵌入重构的动力学吸引子的拓扑性质有关(Takens’embedin g theor一个突出的TDA工具是持久同源性。它提供了不同同源特征的多尺度总结[25]。该多尺度信息使用持久性图(PD)、具有多组点的二维(2D)笛卡尔平面来表示对于PD中的点(b,d),同调特征在尺度b处出现并且在尺度d处消失。由于PD的简单性,使用持续同源性来总结高维复杂数据的兴趣激增,并导致其在几个研究领域中的成功实施[49,63,14,19,15,31,57,66]。然而,机器学习(ML)技术在PD空间上的应用一直是一项具有挑战性的任务。用于测量PD之间的距离的金标准方法是瓶颈或p-Wasserstein度量[45,65]。然而,简单的度量结构不足以使用基于向量的ML工具,例如支持向量机(SVM)、神经网络、随机森林、决策树、主成分分析等。这些度量仅在PD汇总的数据的小扰动下是稳定的,并且计算PD之间距离的复杂度以O(n3)的顺序增长,其中n是PD中的点数[11]。已经通过尝试将PD映射到更适合于ML工具的空间来努力克服这些问题[5,12,52,48,51,3]。在[54]中可以找到一些最近的拓扑描述符机器学习算法的比较最近,拓扑方法在结合深度学习提高基于图像的分类算法的性能方面也表现出了早期的希望[21]。贡献:使用一种新的扰动框架,我们提出了一个拓扑表示的PD称为扰动拓扑签名(PTS)。 为此,我们首先通过将原始PD中的点随机移动一定量来生成一组扰动PD。扰动的PD类似于从经受拓扑噪声的数据中提取PD接下来,我们利用2D概率密度函数(PDF),该2D概率密度函数(PDF)由核在每个像素上估计4A. Som等人以生成平滑的函数表示。最后,我们简化并总结了一组2D PDF的最终表示空间的格拉斯曼流形(一个非恒定弯曲的流形)上的一个点。上述框架如图1所示我们通过利用格拉斯曼流形上的已知度量和统计结果,在这些拓扑描述符上开发了非常有效的ML我们还开发了一个稳定性证明的格拉斯曼表示w.r.t. Grassmannian上的归一化测地线距离和PD上的Wasserstein度量。实验表明,我们提出的框架恢复了由于函数方法而损失的性能,同时仍然比经典的p-Wasserstein和Bottleneck方法具有更快的处理时间。论文概要:第2节提供了必要的背景拓扑数据分析和格拉斯曼。第3节讨论了相关的工作,而第4节描述了统计学习任务的PD的拟议框架和最终表示第5节描述了实验和结果。第六节是论文的总结。2预赛持久拓扑:考虑高维点云上的图G={V,E},其中V是|V|节点,并且E定义样本之间的邻域关系。为了估计群的拓扑性质,在G上构造了一个简单的复形S。 WedenoteS=(G,Σ),其中Σ是G的非空水平集族,每个元素σ ∈ Σ是单形[25]. 这些单形是使用-邻域规则构造的,是尺度参数[25]。在TDA中,Betti数βi提供同调群Hi的秩。例如,β〇表示连通分量的数量,β1表示孔或环的数量,β2表示卷或叠层卷的数量等。所述方法提供了一个拓扑结构的所有拓扑特征。然而,具有相同Betti数的两个形状可以具有非常不同的PD,因为PD总结了同源群中每个拓扑特征的出生与死亡时间信息出生时间(b)表示群体形成的规模,死亡时间(d)是群体停止存在的规模死亡和出生时间之间的差是同调群l =的寿命|d−b|. 每个PD是R 2中的点(b,d)的多集合,因此被图形地表示为2D平面中的点的集合。 假设b = d的对角线包含无限多个点,因为它们对应于零持久性的组。我们使用由VR(G,)表示的Vietoris-Rips(VR)构造来从G获得给定尺度的单纯复形[24]。在[25]中提供了用于计算同调持久性的算法,并且在[20]中描述了使用上同调的有效对偶变体VR构建获得点云数据上的距离函数的拓扑。然而,给定一个图G和一个定义在顶点上的函数g,也可以量化g在G上诱导的拓扑。例如,我们可能希望研究拓扑持久图的扰动鲁棒表示5p1/p1DGg的子级或超级集合。这被称为标量场拓扑,因为g:V→R。这在视觉中的众所周知的应用是在3D形状数据中,其中图G对应于形状网格,并且g是在网格[40]上定义的函数,诸如热核签名(HKS)[60]。超水平集的H0同源群的PD现在描述形状中的区域的演变区段。例如,如果我们计算由章鱼形状的HKS诱导的超水平集的PD,我们可以期望看到对应于八条腿的八个高度这是因为HKS值在形状中的高曲率区域处较高。在标量场构造中,可以使用Union-Find算法通过首先根据其函数幅度对G的节点进行排序并保持对应的连接分量的踪迹来有效地获得PD[18]。PD之间的距离度量:PD对于给定形状的旋转、平移和缩放是不变的,并且在连续变形条件下对于顶点的轻微排列是不变的[16,17]。测量PDX 和 Y 之 间 的 距 离 的 两 个 经 典 度 量 是 瓶 颈 距 离 和 瓶 颈 距 离 。p-Wasserstein度量[45,65]。它们是吸引人的,因为它们反映了任何小的变化,例如形状上的测量现象的扰动,这导致持久性图中的点的小偏移。瓶颈距离被定义为d∞(X,Y)=infη:X→Ysup x∈Xx−η(x)∞,其中η的范围为所有的bijectins和。∞是e∞Σ-n〇rm。同样地,P-W是一个不可分割的定义为dp(X,Y)=(infη:X→Yx− η(x)然而,复杂性x ∈ X∞3时间复杂度为O(n)。这些指标也不允许容易地计算统计数据,并且在大变形下不稳定[11]。格拉斯曼歧管:设n,p是两个正整数,使得n>p> 0。Rn中p维线性子空间的集合称为格拉斯曼流形,记为Gp,n. Gp,n上的每个点Y被表示为基,即p个正交向量Y1,Y2,. . . ,Yp. 格拉斯曼的几何性质已用于各种计算机视觉应用,例如对象识别、形状分析、人类活动建模和分类、基于面部和视频的识别等[9,29,64,28]。我们建议读者参考以下论文,这些论文很好地介绍了几何,统计分析和解决格拉斯曼流形上优化问题的技术[1,23,69,13,2]。格拉斯曼表示之间的距离度量:格拉斯曼流形上两点Y 1和Y 2之间的最小测地线距离(DG)是连接这两点的最短等速曲线的长度。 为此,需要计算速度矩阵AY1、Y2或逆指数映射,其中测地线路径从Y1开始并在Y2结束。可以使用[42]中描述的数值近似方法来计算Y1、Y2。 Y1和Y2之间的测地距离由以下等式表示:dG(Y1,Y2)=trace(AY1,Y2AY1,Y2T)orrdG(Y1,Y2)=trace(θTθ)。其中θ是由Y1、Y2和Can构成的预循环矩阵可以计算为θ = arccos(S),其中USVT= svd(YTY2)。 为了证明在第4节中提出的PTS表示的稳定性,我们使用由dNG(Y1,Y2)=1dG(Y1,Y2)表示的归一化测地线距离,其中D是在N(Y1,Y2)上的最大任意点。p,n[33,39]。 该ymmetricdictonaldistance(di s)不是用于计算具有不同p的格拉斯曼表示之间的距离的p度量[61,67]。它是计算机视觉[56,8,7,43,70],通信[55]和应用数学[22]等领域广泛使用的度量它等价于弦度量[71]6A. Som等人andisdefinedas,d(Y1,Y2)=.max(k,l)−Σk,li,j=1(y1,iTy2,j)Σ1二、 这里,k和l是子空间维度分别为正交矩阵Y1和Y2。为我们在实验中,我们将自己限制在相同维度的子空间之间的距离计算,即k=l。以下论文提出了计算不同维度子空间之间距离的方法[61,67,71]。3现有技术PD提供了不同拓扑特征的紧凑的多尺度总结。用于测量PD之间的距离的传统度量是瓶颈和p-Wasserstein度量[45,65]。这些措施相对于输入拓扑结构的小连续变形是稳定的[16,17]。然而,它们在大变形下表现不佳此外,特征向量表示将是有用的,其与需要不仅仅是度量的不同ML工具兼容。为了解决这一需求,研究人员已经采取将PD转换为其他合适的表示[5,12,52,48,51,3]。Bubenik提出了持久性景观(PL),它是Banach空间中PD的稳定PL是在PD中的点上定义的包络函数的序列,所述包络函数是基于所述包络函数排序的。针对查找P L的业务管理方法是针对PD的一个统一的表示,这些PD在使用过程中不需要任何检查手段然而,它们的有用性是有限的,因为PL可以为通常具有高鉴别能力的中等大小同源性特征Rouse等人通过在PD顶部覆盖网格并计算落入每个箱的点数来创建简单的矢量表示[52]。这种方法是不稳定的,因为点中的小偏移可能导致不同的特征表示。这种想法也以其他形式出现,其中一些在下文中描述。帕乔里等人通过拟合以PD中的每个点为中心的高斯函数将PD转换为平滑表面[48]。Reininghaus等人通过在对角线上方的每个点处取正高斯的加权和来创建稳定的表示,并在对角线下方镜像相同但具有负高斯[51]。Adams等人通过定义规则网格并获得每个网格上定义的bin上的高斯曲面表示的积分来设计持久性图像(PI)[3]。PI和Reininghaus等人定义的多尺度核都显示出相对于Wasserstein度量的稳定性,并且在输入数据的小扰动下表现良好。它们也有重量这些点使用加权函数,并且这可以基于问题来选择。Bendich等人使用具有中等寿命的优先级点,通过研究其动脉几何形状来最好地识别人脑的年龄[10]。Cohen-Steiner等人建议优先考虑靠近死亡轴和远离对角线的点[16]。在本文中,我们提出了一个独特的扰动框架,克服了需要选择一个加权函数。我们考虑一系列的拓扑噪声realizations人们可以期望看到,通过扰动点的PD。我们总结通过从它们创建光滑表面并考虑子空间,这些表面,自然成为格拉斯曼流形上的一个点。我们在第5节中使用从不同传感设备收集的数据针对不同问题展示了我们的功能的有效性。与p-Wasserstein和瓶颈距离相比,在格拉斯曼上定义的度量在计算上不太复杂,并且表示与PD中存在的点的建议的PTS表示来自[28],其中作者创建了一个2拓扑持久图的扰动鲁棒表示72σpertpertX2×yπ子空间表示的模糊人脸和执行人脸识别上的Grass-mannian。我们的框架也与[5]有一些相似之处,其中作者使用从PD获得的PDF的平方根表示。4扰动拓扑签名在此过程中,我们将在图1中使用新工作点中的所有数据。从(b,d)→(b+d,d-1)的PD的轴的新的x∈R∈Rb),其中b≤d。创建一组扰动PD:我们随机扰动给定PD以创建m个PD。每个扰动PD的点随机位移了一定的量相比,原来的。随机扰动的PD的集合保留与原始PD相同的输入数据的拓扑信息,但是当受到拓扑噪声时,一起捕获输入数据的所有可能的我们约束的PD中的各个点的扰动的程度,以确保被分析的数据的拓扑结构不会突然改变。将扰动PD转换为2DPDF:我们将初始PD及其集合将被扰动的PD转换为一组2D PDF。我们通过核密度估计来做到这一点:通过在PD中的每个点处拟合具有零均值、标准偏差σ的高斯核函数,然后归一化2D表面。得到的PDF表面离散在一个k × k网格类似的方法Rouse等。[52]。高斯的标准偏差σ(也称为带宽参数)不是先验已知的,并且被微调以获得最佳结果。多尺度方法也可以通过使用针对每个PD的一系列不同带宽参数来生成多个表面来采用,并且仍然获得有利的结果。 与其他拓扑描述符不同,这些拓扑描述符在PD的功能表示上使用加权函数[51,3],我们对PD中的每个点给予同等重要性,并且不采用任何加权函数。Adams等人证明了使用一般和高斯分布(φ)以及加权函数(f)获得的持久性表面相对于[3,Thm. 4、9]。对于高斯分布,L1和L∞两个参数的分布都满足ρB,ρB′√可满足1-WassersteindistancewenPDB,B′,ρB−ρB′1≤10 1d1(B,B′).向格拉斯曼投影2D PDF:设ρ(x,y)是一个未扰动的持久曲面,ρ(x+ u,y + v)是一个随机移动的扰动。在一个由多个特定数据库组成的汇总表中,我们使用了以下数据库ρ(x+u,y+v)−ρ(x,y)≈[ρx,ρy][u,v]T(1)现在,在下文中,我们将≈解释为等式,使我们能够将对所有(x,y)都用同样的方程,得到矩阵向量形式ρu,v−ρ=[ρ,ρ]N×2[u,v]T1,其中上划线指示2D函数的离散向量化这里,N是来自(x,y)平面的离散化样本的总数现在考虑所有集合ρ的小扰动,即 span(ρ u,v− ρ),在所有[u,v] ∈ R2上. 很容易看出这个集合是RN中的一个二维线性子空间,它与[ρx,ρy]的列跨度一致。 对于更一般的仿射扰动模型,我们可以证明所需的子空间对应于6维(6D)线性子空间,对应于N ×6矩阵[ρx,ρy,xρx,xρy,yρx,yρy]的列跨度。有关这一点的更多细节可以在补充中找到。在实现中,我们使用随机偏移量对一个给定的PD进行多次扰动,计算它们的持久性曲面,使用奇异值分解8A. Som等人≤1σ(X)minFXy1σ612σ4Max1121(SVD)在扰动的堆叠矩阵上,选取p个最大的左奇异向量,得到一个N×p的正交矩阵。此外,我们在一系列值中改变子空间的维度由于我们的矩阵的线性跨度可以进一步确定为格拉斯曼流形上的一个点,我们采用度量定义的格拉斯曼比较我们的扰动拓扑签名。Grassmannian度量w.r. t的稳定性Wasserstein:要考虑的下一个自然问题是扰动堆栈的格拉斯曼度量是否以任何方式与原始PD上的Wasserstein度量相关。 设X =[ρ x,ρ y]的列跨度由X(ρ)表示。 设ρ1,ρ2是两个持久性曲面,则X(ρ1),X(ρ2)分别是X1 =[ρ1,x,ρ1,y]和X2 =[ρ2,x,ρ2,y]所张成的子空间. 根据Ji-Guang [33]的结果,归一化测地距离dNG由X1和X2构成的边界满足dNG(X1,X2)≤X1F. X†2. ∆X1X1FX1†∆X因此,X2是X的左向量的特定值,X F是Frobenius范数,且∆X = X1−X2。在补充中,完整的推导是给出,显示∆X2102πd2(B,B)+2K2k2N,其中d(B,B)是1-原始未扰动PD之间的Wasserstein度量,kmax是最大值给定PD中的点数(数据集相关量),N是指总数来自[0, 1]2的离散样本的数量,并且K=。这是关键的部分(√2πσ)2稳定性证明。剩下的部分要求我们上界谱范数X†2. X的伪逆的谱范数,即 X†最小特征值即 X†λmin(XTX)。给定X= [ρ,ρ],Xτ X成为高斯混合模型(GMM)的2D结构张量。虽然我们不知道任何结果,下界的2D GMMs结构张量的特征值,在补充中,我们显示了一种方法,1D GMMs表明,最小的特征值确实可以是下界,如果标准偏差σ是上限。例如,在补充中导出了σ1的非平凡它与GMM中我们使用σ = 0。0004我们所有的实验补充中的方法是针对1D GMM示出的,并且我们假设类似的方法适用于2D情况,但是它是麻烦的。在实证测试中,我们发现即使对于定义在网格[0, 1]2上的2D GMM,其中0<σ√1,谱范数始终是上范数。<有界一般来说,我们发现<$X<$2 ≤k/g(σ),其中g(σ)是正单调在域[0,1]中的σ的递减函数,并且k是GMM中的分量(给定PD中的点)的数量。如果我们将kmax和σmax分别表示为GMM中的最大允许分量数(给定数据库中任何PD中的最大点)和最大标准偏差,则容易产生上限。因此,我们有.d(X√kmax1022K22NG1,X2)≤g(σ最大值)πσ6d1(B1,B2)+2σ4kmaxN(2)以上界限中各常数的详细推导和解释请参考补充资料我们注意到,即使以上示出了扰动的拓扑签名上的归一化格拉斯曼测地线距离相对于PD上的1-Wasserstein度量是稳定的,但是它仍然依赖于跨整个数据集k_max的任何给定PD中的点的最大数量的知识,并且还依赖于2D网格的采样。拓扑持久图的扰动鲁棒表示9101020203030404010102020303040405实验在本节中,我们首先展示PTS描述符对不同级别的鲁棒性使用SHREC 2010数据集[41]中的形状样本进行拓扑噪声分析。然后,我们在三个公开可用的数据集上测试所提出的框架:SHREC 2010形状检索数据集[41]、IXMAS多视图视频动作数据集[68]和运动捕捉数据集[4]。我们简要地回顾了每个数据集的细节,并描述了实验目标和遵循的程序。最后,我们示出了使用G和DΔm度量时,相对于在PD之间使用的经典p-Wasserstein和瓶颈度量,PTS表示的构成差异的5.1拓扑噪声鲁棒性10.90.80.70.60.50.40.30.20.1000.10.20.30.40.50.60.70.80.91(出 生时 间 +死亡 时间 )/20.250.20.150.10.050050500.250.20.150.10.05000505010.90.80.70.60.50.40.300.20.1000.10.20.30.40.50.60.70.80.91(出生时间+死亡时间)/210.90.80.70.60.50.40.30.20.1000.10.20.30.40.50.60.70.80.91(出 生时 间+死亡 时间 )/20.250.20.150.10.050050500.250.20.150.10.05000505010.90.80.70.60.50.40.300.20.1000.10.20.30.40.50.60.70.80.91(出生时间+死亡时间)/210.90.80.70.60.50.40.30.20.1010.90.80.70.60.50.40.30.20.1000.10.20.30.40.50.60.70.80.91(出 生时 间+死亡 时间 )/200.10.20.30.40.50.60.70.80.91(出 生时 间+死亡 时间 )/20.250.20.150.10.05000.250.20.150.10.0500505050500.250.20.150.10.05000050500.250.20.150.10.050000505010.90.80.70.60.50.40.30.20.1000.10.20.30.40.50.60.70.80.91(出生时间+死亡时间)/210.90.80.70.60.50.40.30.20.1000.10.20.30.40.50.60.70.80.91(出生时间+死亡时间)/2图2:4种形状及其噪声变体的PD和PTS表示的图示。列1和列6表示具有 三角 形网 格面 的3D形 状;列 2和列5 显 示 了 对 第 9 个 DIMENSIONSIHKS功能基PD的处理。第3列和第4列分别描绘了原始形状和噪声形状的PD的PTS特征。一种具有标准差的1.0应用于列1中的原始形状以得到列6中的对应噪声变体。所示的PTS表示是在对2D PDF的集合应用SVD之后获得的最大左奇异向量(重塑为2D矩阵),并且位于G1,n空间上。我们从SHREC 2010数据集[41]中随机选择10个形状进行此实验该数据集由200个近等距水密3D形状与关节部分,平均分为10类。 每个3D网 格 简 化 为 2000 个 面 。 实验中使用的 10 个形 状 表 示 为 Si , i = 1 ,2,. . . ,10。这些形状中的每一个的最小边界球具有以(64. 四,六十三。4,66。0)具有坐标方式的标准101020203030404010102020303040401010202030304040101020203030404010102020303040401010202030 304040死亡 时间 -出生 时间死亡 时间 -出生 时间死亡 时间 -出生 时间死亡 时间 -出生 时间死亡时间-出生时间死亡时间-出生时间死亡时间-出生时间死亡时间-出生时间10A. Som等人偏差(3. 九、四。一四9)分别。接下来,我们生成100组形状,注入拓扑噪声。拓扑噪声是通过改变三角形网格面顶点的位置来施加的,这会导致其法线的改变。我们通过将零均值高斯噪声应用于原始形状的顶点来做到这一点,其中标准偏差σ以0.1的步长从0.1变化到1。对于每个形状Si,其具有不同拓扑噪声水平的10个噪声形状由Ni,1,. . . ,Ni,10.一 个 17 维 尺 度 不 变 热 核 签 名(SIHKS)谱描述函数计算上的每个”[36]《易经》云:“君子之道,焉可诬也?该函数的每个维度导致每个形状17个PD。PD通过建议的框架图3:使用以测试PTS特征对拓扑噪声的鲁棒性。以获得相应的PTS描述符。 10个形状中的4个形状的3D网格、PD和PTS表示(如图3所示)及其各自的噪声变体(高斯分布)。具有标准偏差1.0的噪声)在图2中示出。在这个实验中,我们评估通过正确分类具有不同拓扑噪声水平的形状,我们提出的特征的鲁棒性。通过添加不同级别的拓扑噪声、形状的类间相似性和类内变化来置换顶点使得这是一项具有挑战性的任务。一个简单的无偏的一个最近邻(1-NN)分类器被用来分类的拓扑表示的嘈杂的形状在每个集合。分类-对100组的测试结果取平均值并列于表1中。我们也比较我 们 的方法与其他TDA-ML方法,如PI [3],PL [12],PSSK [51]和PWGK[38]第30段。对于PTS,我们设置网格的离散化k = 50。对于PI,我们选择了线-耳斜坡加权函数,为高斯核函数设置k和σ,与我们的PTS特征相同。对于PL,我们使用具有500个元素的第一个横向函数。 使用线性SVM分类器代替1-NN分类器用于PSSK和PWGK方法。根据表1,PD上的2-Wasserstein距离和瓶颈距离即使在低水平的拓扑噪声下也表现不佳。然而,具有1-Wasserstein距离和PTS的PD表示具有dG 的PD,DΔmetricss 然而,使用dG或dG来比较两个PTS特征所花费的平均时间比表1中所示的1 -Wasserstein距离快至少两个数量级。 我们还观察到比较-方法Ni,1 Ni,2N1,3N1,4Ni,5Ni,6Ni,7N1,8N1,9 Ni,10平均准确度(%)平均时间−4采取(10秒)PD(1-Wasserstein)100.00 100.00 100.00 99.90 100.00 99.80 99.60 99.00 96.60 94.4098.93256.00PD(2-Wasserstein)97.50 98.0098.1097.20 97.20 96.00 94.40 92.80 90.30 88.5095.00450.00PD(瓶颈)99.90 99.9099.9099.20 99.40 98.60 97.10 96.90 94.30 92.7097.7936.00PI(L1)100.00 100.00 100.00 99.70 98.10 93.70 83.20 68.30 56.00 44.9084.390.31PI(L2)99.90 99.5098.6097.40 93.10 88.50 82.90 69.70 59.40 49.9083.890.26PI(L∞)89.10 83.0080.2078.90 78.40 69.90 68.60 64.00 61.90 56.8073.080.12PL(L1)99.20 99.7099.0098.50 98.50 97.30 95.90 92.30 89.10 84.5095.400.74PL(L2)99.10 99.7098.9098.50 98.30 96.90 95.60 92.10 89.00 84.3095.240.76PL(L∞)98.90 99.6098.8098.40 98.30 96.50 94.80 91.70 88.70 83.8094.950.09PSSK-SVM100.00 100.00 100.00 100.00 100.00 100.00 91.60 90.00 89.80 89.0096.044.55PWGK-SVM100.00 100.00 100.00 100.00 100.00 99.90 99.40 95.90 87.50 73.3095.600.17临时秘书处(dG)100.00 100.00 100.00 100.00 100.00 99.90 99.80 98.80 96.80 93.6098.892.30PTS(d∆)100.00 100.00 100.00 100.00 100.00 99.90 99.90 99.30 97.10 94.1099.031.60表1:1-Wasserstein、2-Wasserstein、瓶颈、d∆和dG方法的比较,用于将噪声形状的拓扑表示正确地分类为其原始形状。拓扑持久图的扰动鲁棒表示11PI、PL和PWGK之子的比较比PTS特征的比较快一个数量级。然而,这些方法显示出显着较低的性能相比,所提出的功能,在正确分类噪声的形状作为噪声水平的增加。5.2三维形状检索在该实验中,我们考虑由来自SHREC 2010数据集的200个形状组成的所有10个类别,并且使用在每个形状上定义的3个不同的谱描述符函数来提取PD,即:热核签名(HKS)[60]、波核签名(WKS)[6]和SIHKS [36]。HKS和WKS用于捕获3D网格表面的微观和宏观特性,而SIHKS描述符是HKS的尺度不变版本使用PTS描述符,我们试图编码的不变性形状关节,如旋转,拉伸,歪斜。对于3D形状检索的任务,我们使用1-NN分类器来评估PTS表示相对于其他方法的性能[12,51,3,40,38]。线性SVM分类器用于报告PSSK和PWGK方法的分类精度 Li等人 报告最好的结果后,仔细选择,ING的权重,以规范化的距离组合,他们的BoF+PD和ISPM+PD方法。如在[40]中,我们也使用三个谱描述符并组合每个描述符的PTS表示PI、PL和PTS特征也以与前述相同的方式设计表2中报告的结果表明,PTS性能(其中子空间为p=1)使用 99.50%的精确度,优于其他方法。 PTS特征在改变子空间维数p = 1,2,. . . ,25分别为98. 42 ± 0.4%和98. 72±0。25%的使用率和Gme t i ve ric etively,这使得在选择p.方法BoF[40]SSBoF[40]ISPM[40]PD(瓶颈)[第四十届]PD(1-沃瑟斯坦)PD(2-沃瑟斯坦)BoF+PD[40]ISPM+PD[40]PI(L1)[3]第一章PI(L2)[3]第一章PI(L∞)[3]第一章PL(L1)[12个]PL(L2)[12个]PL(L∞)[12个]PSSK(SVM)[五十一]PWGK(SVM)[38个]临时秘书处(dG)PTS(d∆)1-NN精度(%)97.00 97.5097.5098.5098.5098.5098.5099.0088.50 87.50 89.50 95.00 95.00 95.00 98.5099.00 99.00 99.50表2:在SHREC 2010数据集上,拟议PTS描述器与其他基线方法[40]的分类性能比较。5.3视图不变活动分析IXMAS数据集包含11个动作类的视频和剪影序列,由来自5个不同相机视图的10个主体执行3次。11节课是这样的--检查手表、交叉双臂、挠头、坐下、起床、转身、走路、挥手、拳打脚踢、捡起来。图4显示了2个动作的5个视图中的示例框架。我们只考虑PTS表示数据集中的轮廓信息。对于动作序列中的每个帧,我们在2D轮廓上提取被称为A3M、D1M、D2M和D3M的多尺度形状分布[58]。多尺度形状分布特征捕捉局部到全局的变化不同的几何属性。有关此功能的其他详细信息,请参阅:[58、59、47]。12A. Som等人ΣF对于动作序列中的n个帧和在一定尺度下每个形状分布中的b个仓,得到表示动作的n×b矩阵将η个帧视为节点,跨每列计算标量场拓扑PD,从而产生b个PD。PDS浏览1浏览2浏览3浏览4浏览5检查手表捕捉每一个浏览1浏览2浏览3浏览4浏览5在分布中我们选择5个不同的-输入多尺度形状特征的尺度,给我们每个动作5bPD,其通过所提出的流水线,产生5bPTS特征。PTS特征试图编码关于视点变化、体型和执行风格的可能变化。为了将整个动作表示为Grassmannian上的一个点,我们从5b PTS描述符中的每一个中选择前两个最大的奇异向量,应用SVD并选择20个最大的分量。冲头图4:来自IX-MAS数据集中的五个视图的用于“check w at c h”和“pun c h”动作序列的样本帧。为了执行多视图动作识别,我们使用R中的Grasmanning训练非线性SVM。BFkernel,krp(Xi,Yi)= exp −β=XiTYi=2,β > 0[30]。在这里,Xi,Yi是Grass-mannian和上的点.F是Frobenius范数。在我们的实施例中,我们设置β= 1。Junejo等人在基于SSM的描述符上使用χ 2内核训练非线性SVM,并遵循多类分类的一对一方法[34]。 我们遵循相同的方法,并在他们的SSM内核和我们的内核之间 使用联合加 权内核,即。 χ2+ λ·krp,其中λ = 0。1,0。2、. . . 1.一、0. 使用梯度直方图(HOG)、光流(OF)和HOG、OF特征的融合来计算基于SSM的描述符的表3:IXMAS数据集上的识别结果的比较。给出了列车摄像机X和测试摄像机Y两种组合的结果。“相同相机”不表示X = Y ;“Any-T0-Any”表示X、Y的任意组合。分类结果列于表3中。除了报告使用多尺度形状分布获得的PTS表示的结果之外,我们还显示了在HOG描述符(PTS-HOG)上计算的PTS特征的识别结果。通过将不同的PTS特征与基于SSM的描述符融合,我们看到结果的显著改善。我们还将λ从0.1变化到1.0以及子空间维度p从1变化到10之后获得的所有分类结果的平均值和标准偏差值制成表格。这些结果表明,与建议的PTS拓扑描述符的灵活性和稳定性。方法同一相机准确度(%)Any-To-Any准确度(%)最好平均值±SD最好平均值±SDSSM-HOG [34]67.30-52.60-PTS-HOG51.31-41.24-SSM-HOG + PTS-HOG69.01-55.13-SSM-HOG + PTS-A3M73.1572.06±1.1458.3656.96±1.05SSM-HOG + PTS-D1M74.2573.26±1.5359.2657.67±1.19SSM-HOG + PTS-D2M74.9274.22±1.3659.7758.19±1.03SSM-
下载后可阅读完整内容,剩余1页未读,立即下载
![.zip](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)