多互一致性学习的人体运动分割

27 浏览量更新于2023-10-25 收藏 962KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10277基于多互一致性的传输子空间学习的人体运动分割周涛1、傅华珠1、陈功2、沈建兵1、邵凌1、波里克利31Inception Institute of Artificial Intelligence，Abu Dhabi，UAE。2南京理工大学高维信息智能感知与系统教育部重点实验室。3澳大利亚国立大学。摘要基于迁移子空间学习的人体运动分割虽然已经取得了进展，但在现有方法中仍然存在一些首先，现有的方法通过学习领域不变特征将知识从源数据转移到目标任务，但忽略了保留特定领域的知识。第二，迁移子空间学习方法在低层或高层特征空间都有应用，但很少有方法考虑融合多层特征表示进行子空间学习。为此，我们提出了一种新的多相互一致性诱导转移子空间学习框架的人体运动分割。具体来说，我们的模型将源数据和目标数据分解为不同的多层特征空间，并通过多相互一致性学习策略来减少它们之间的分布差距。通过这种方式，可以在不同的层中同时探索特定领域的知识和领域不变的属性我们的模型还在不同的层上进行转移子空间学习，以捕获多层次的结构信息。此外，为了保持时间相关性，我们将学习到的表示投影到块状空间中所提出的模型是有效地优化使用增广拉格朗日乘子（ALM）算法。四个人体运动数据集上的实验结果表明，我们的方法比其他国家的最先进的方法的有效性1. 介绍人体运动分割的目标是将描述人体动作和活动的视觉数据序列划分为一组最好不重叠且内部连贯的时间段。它是进一步运动和动作相关分析任务* 通讯作者：沈建兵（shenjianbingcg@gmail.com）。[26、38、48、59]。人体运动信息是时间分割的关键因素。然而，由于时间相关性的复杂性和视觉表示的高维结构，捕获这种区分性时间信息仍然是一项具有挑战性的任务[23]。因此，已经开发了几种方法来解决这个问题，包括基于模型的方法[49]、基于时间邻近的方法[23]、基于表示的方法[22，25]和基于子空间聚类的方法[12，25]。其中，基于子空间聚类的方法引起了人们的关注，并取得了可喜的成果。子空间聚类是一种将数据划分为多个组的强大技术，它认为数据点是从对应于不同类的多个子空间中提取的[4，24，33]。几个代表-已经开发了典型的子空间聚类方法[8，16，29，32]来学习不同的和低维的数据表示，其中学习的表示然后被馈送到传统的聚类算法中。然而，在没有先验知识的情况下，这些无监督子空间学习方法通常难以获得合理的性能。幸运的是，相关任务的标记数据通常很容易获得。因此，迁移学习是从相关源数据中挖掘知识以改进目标任务的理想选择[5，52]。在人体运动分割中，最近基于转移子空间学习的方法[46，47]已经报告了改进的性能。虽然转移子空间学习在人体运动分割中取得了令人满意的效果，但仍存在以下几个问题。首先，基于转移子空间学习的运动分割方法使两个域的数据分布相似。为此，一种流行的策略是将源数据和目标数据都投影到一个公共的特征空间中。这种策略探索了领域不变的属性，但忽略了潜在有用的领域特定知识。然而，这两个方面都起着至关重要的作用，平衡10278......基于聚类的分割D（美元）SFc/0D（美元）&H（美元）STSLH（美元）&D（+）SFc/0D（+）&H（+）H（+）STSL&Fc/0D（L）&H（L）H（L）STSL&源目标D（L）S以提高性能。其次，现有的基于子空间聚类的方法倾向于通过使用原始特征或高级特征（例如，深度网络的输出），很少在多级特征空间中进行转移子空间学习以同时捕获低级和高级信息。为了解决上述问题，我们提出了一种新的方法，该方法将迁移学习和多级子空间聚类结合到一个统一的框架中，以增强人体运动分割（如图所示）。1）。首先，将源数据和目标数据的原始特征分解到隐式多层特征空间中，并采用多互一致性学习策略减小两个域之间的分布差异。其次，在不同层次上进行转移子空间学习，有效地融合多层次结构信息第三，我们将学习到的表示投影到一个类似块的空间中，以保持时间相关性。最后，我们表明，我们的模型可以有效地优化使用行动1行动2行动N增广拉格朗日乘子（ALM）算法。主要贡献概述如下：提出了一种新的人体运动分割算法，该算法将迁移学习和多级子空间学习结合到一个统一的框架中。我们的运动分割模型通过使用多相互一致性学习策略，同时保留特定领域的知识，探索域不变属性。我们在不同的层中进行多级trans-fer子空间学习，以同时捕获低级和高级信息。在四个公共数据集上的大量实验表明，我们的模型优于最先进的方法。2. 相关工作子空间聚类建立在数据点从对应于不同聚类的多个子空间中提取的假设之上。最近，基于自我表示的子空间聚类（其中每个数据点用其他数据点的线性组合表示）引起了越来越多的关注[60，53，61]。例如，稀疏子空间聚类（SSC）[8]基于N1-范数在无限多个可能的表示中搜索稀疏表示。低秩表示聚类（LRR）[29]试图用低秩表示来揭示聚类结构。Smooth表示聚类（SMR）[16]分析了基于表示的方法的分组效果。还有几种基于深度学习的子空间聚类方法[19，37，53，55，57]。然而，这些方法不能直接应用于人体运动分割，因为它们忽略了连续帧之间的时间相关性。时态数据聚类的目标是将数据序列分割成一组不重叠的部分。十分广泛应用范围广泛，从面部分析，语音分段，图1：用于人体运动分割的多相互一致性诱导的转移子空间学习框架概述。该模型首先将源数据和目标数据分解到多层隐式特征空间中，并提出了一种多互一致性学习策略，以减小两个域之间的分布差异然后，在不同的层进行多层次的转移子空间学习（TSL），在此基础上，融合多层次表示，构建亲和矩阵，并使用归一化切割算法得到最终的分割结果。对人类行为的识别。为此，半马尔可夫K均值聚类[39]试图利用重复模式。Zhou等人。 [56]使用与动态时间对齐方法相关的K均值内核。时间子空间聚类（TSC）[25]在时间拉普拉斯正则化项的约束下学习转移子空间分割（TSS）[46]采用辅助数据并将分割知识从源数据转移到目标数据。低秩传输子空间（LTS）[47]采用一种新的顺序图来保留驻留在源数据和目标数据中的时间信息。这些时间聚类方法都是以无监督学习场景为基础的，其中一些采用了自表示策略来实现运动分割任务。迁移学习旨在利用相关源数据中的先验知识来改进目标任务的结果。到目前为止，已经提出了大量的迁移学习模型，例如域不变特征学习[13，34，42]和分类器参数自适应[2、27、54]。其中，域不变特征学习[13]试图学习一个共同的特征空间，其中域偏移和分布差异都可以被忽略。一些作品探讨了两个不同的对齐亲和基质行动2行动4行动1行动3...融合10279SS不S不St域，例如，子空间学习[41，50]和字典学习[11，62]。同样，受深度学习启发的技术已被用于将知识转移和学习特征整合到一个统一的框架中[7，10，31，45]。然而，大多数这些方法在其顶层结合域对齐策略，忽略了低层次的结构信息。3. 该方法3.1. 制剂如前所述，ns和nt是源数据和目标数据的数量，re-entry。α >0是一个权衡参数。前两个术语用于探索源数据和目标数据中的多级结构。第三项Fcon（·，·）旨在通过惩罚不同层中两个基矩阵的发散，减小两个域之间的分布差异相比之下，大多数现有的方法直接将源和目标数据投影到一个共同的空间使用域不变的投影矩阵，导致特定领域的知识的损失最后，虽然有各种各样的策略来约束D（l）和D（l）之间的一致性，但在本研究中，我们利用一个简单但有效的方法来约束D（l）和D（l）之间的一致性。St基于转移子空间学习战略，即，Fcon（D（l），D（l））=<$D（l）−D（l）<$2。ststF即：（i）如何在保持特定领域知识的同时减少分布差异;（ii）如何捕获多层次信息以提高迁移子空间学习的性能;以及（iii）如何有效地捕获运动数据之间的时间相关性。为了应对这些挑战，我们制定了三个战略模型：1）多互一致性学习，2) 多级子空间学习，以及3）时间分辨率保持。1) 多个相互一致性学习深度结构学习已经在许多现实世界的应用中证明了其有效性[20，35，36，51]。捕捉多层次2) 多级转移子空间学习。现有子空间聚类或基于子空间聚类的运动分割方法通常使用浅表示（例如，原始特征）或高级表示（例如，来自深度网络的最后一层的特征）。虽然高级表示在聚类任务中表现出很好的性能，但它们忽略了一定量的有用信息。因此，我们提出了一种多级子空间学习策略，以有效地利用不同特征空间中的结构信息，我们将其公式化为：ΣLL2（H（l），H（l）;Z（l））=<$[H（l），H（l）]−H（l）Z（l）< $2， 1，结构信息，我们使用多层分解测试l=1sts基于深度非负矩阵分解的过程-（NMF）模型（1）香港（1）S.T. Z（l）≥0，1<$Z（l）= 1<$，<$l =1，2，. - 是的- 是的，L，（三）D（1）D（2）H（2）.D（1）D（2）· · ·D（1）· · ·D（L）H（L），（一）其中，1表示列向量，其中所有元素都是一个.非负约束Z（l）≥0增强了学习表示的区分能力。约束1<$Z（l）= 1<$使得每个系数向量的和为1，因此抑制了来自不同子空间的表示系数。值得注意其中D（l）≥0且H（l）≥0（l= 1，. . .，L）表示基矩阵和第l层的特征表示矩阵，L是层数。值得注意的是，每一层中的特征表示从原始数据中捕获不同级别的信息和知识在Eq。（3）源数据的特征表示（即，H（l））被视为字典，然后使用字典来重构源数据和目标数据两者的特征表示。这使得来自源数据的知识能够被传输到目标任务。此外，《圣经》第二章第1表示n =2，1-范数，它鼓励为了减轻源和目标数据，同时保留矩阵为零[29]，即、ǁEǁ二、一ΣNj=1ΣMi=1[Eij]2、从不同领域的知识，我们建立了我们的多相互一致性学习模型，L1（Xs，Xt;D（1），D（1），H（1），H（1））其中E∈RM×N。通过使用2，1-范数，基本假设是任何损坏都是样本特定的，即一些数据向量可能被破坏，而其他数据向量是干净的。备注：我们的模型学习多次迁移-=<$Xs−D（1）D（2）。. . D（L）H（L）在一个分层的框架内，s s s s F+X - D（1）D（2） . . . D（L）H（L）（二）捕捉多层次的结构信息，tttt tF丰富的知识，以提高运动分割每-ΣL+αFl=1con（D（l），D（l）），表演。3) 时间相关性保持。时间和其中，Xs∈Rd×ns和Xt∈Rd×nt分别表示源数据和目标数据。d是特征尺寸，以及由于人体运动数据是连续和顺序的，因此结构信息对于精确聚类是至关重要的。=10280FFFL因此，必须在学习的表示Z中保留时间信息。为了实现这一点，一个流行的策略是调节第i个系数的邻居[zi−τ/2，···，zi−1，zi+1，···，zi+τ/2]以接近zi，其中τ是相关帧的长度。在这里，我们首先建立一个数据，我们利用[25]中的策略并引入另一种相似性度量来构建亲和矩阵A。A的每个元素可以定义为任何一对学习目标表示之间的距离，即：权重矩阵S[25，46]，其中我们将每个元素定义为1ΣLz（l）z（l）a（i，j）=t，it，j、（7）如下所示：Ll=1<$z（l）<$2<$z（l）<$21、如果|i−j|≤τ，l（xi）=l（xj），对于源数据a;t我t，js=1，如果|i−j|≤τ，对于目标数据;（四）其中z（l）和z（l）表示z（l）的第i列和第j列，ijt，it，jt0，否则，其中l（xi）表示源数据中第i个样本xi的动作标签。我们观察到权重矩阵具有块状结构。为了保持时间相关性，我们将表示Z投影到块状空间中，我们将其公式化如下：L3（S，Z（l）;W（l））=分别然后，归一化切割[43]算法是应用于学习的亲和矩阵A以产生时间分割结果。3.3. 优化方程中的目标函数。（6）不是关于所有变量的联合凸的。因此，我们利用ALM [28]算法来有效地解决它。采用资产负债管理战略ΣL（S-W （l）Z（l） γ2+γγ W（l）ǁ∗),（五）对于我们的问题，我们引入一个辅助变量J（l），（l）l=1在目标函数的核心项中替换W其中γ是一个权衡参数，而·是矩阵核范数[29]。由于在学习的表示中存在时间相关性，我们引入低秩（l）然后，我们通过最小-解决以下ALM问题：L（λ）=λ Xs−D（1）D（2）。. . D（L）H（L）正则化的投影矩阵W，通过使用s s s s F核规范[29]。+<$Xt−D（1）D（2）。. . D（L）H（L）总体提法：最后，我们综合上述t tΣ（l）t tFΣ（l）2（l）三个组成部分（Eqs.（2）（3）（5）（+αβ Ds−DtF+λl=1El=12002年2月1日jective函数如下：ΣL+βS−W（l）Z（l）ΣLα2+γJ（l）（八）（l）（l）（l）（l）l=1。l=1ΣminL1（Xs，Xt;Ds，Dt，Hs，Ht）++ Φ Λ（l），[H（l），H（l）]−H（l）Z（l）−E（l）联系我们多互一致性学习.l=11stsΣ（l）（l）（l）（l）（l）+ ΦΛ（l），W（l）-J（l），λ L2（Hs，Ht;Z）+βL3（S，Z;W）2联系我们多层转移子空间学习联系我们时间相关性保持S.T. Z（l）≥ 0，1<$Z（l）= 1<$，<$l = 1，2，. - 是的-是的，L，= min Xs−D（1）D（2）。. . D（L）H（L）ss s s FΩ其中，Φ（Λ，Q）=μπ ιQπ ι2+π ιΛ，Qπ ι，其中π ι·，·πι表示2F+<$Xt−D（1）D（2）。. . D（L）H（L）（六）矩阵内积μ是正惩罚标量，并且Λ（l）tt t tFΣL1和Λ（l）（l=1，2，. . .，L）是拉格朗日乘子。我们+α<$D（l）−D（l）<$22l=1stFΣL+λ<$[H（l），H（l）]−H（l）Z（l）<$下面描述每个子问题的优化步骤Ds-子问题：相关的优化问题l=1stΣL第2条，第1条ΣL关于Ds可以写成+βl=1 S−W（l）Z（l）+γl=1 W（l）（一）（二）（L）（L）2S.T.Z（l）≥0.1μmZ（l）=1μm，n = 1，2，. -是的- 是的，L，最小Xs−DsDs. . . DsHsFDs≥0（九）Σ（l）（l）2（l）（l）（l）（l）z+α<$Ds− Dt <$F，<$l = 1，2，. - 是的- 是的，L.LLL10281SSs其中，n ={Ds≥0，DT≥0，Hs≥0，HT≥0，Z（1），W（1）}（1 = 1，2，. - 是的- 是的，L）是待优化的变量集，并且α、λ、β和γ是折衷参数。3.2. 聚类通过使用Eq. （6），我们可以获得学习的多级表示Z（l）（l= 1，2，. . .，L），则相应的目标表示Z（l）∈Rns×nt可表示为l=1通过对Eq. （9）w.r.t. D（ 1 ）的更新规则，并利用Karush-Kuhn-Tucker（KKT）条件[1]，我们得到以下更新规则：D（l）←D（l）Θ（l−1）<$X H（L）<$$>（l+1）<$+αD（l）tsssst，从Z（1）得到的值=[Z（1），Z（1）]。利用内在的重新-（l−1）（l−1）（l）（1+1）（L）（L）（l+1）（l）stΘsΘsDs sHsHss+αDs人体运动（十）10282不SSS不FΘ Θ D H不其中Θ（l−1）=D（1）D（2）· · ·D（l−1），且n（l+1） =算法1：通过ALM解决问题（6）s s s s sD（1+ 1）D（1+ 2）· · ·D（L）。s s s类似地，我们有D（l）的更新规则如下1输入：源数据：Xs和目标数据Xt，参数α、λ、β和γ。（l）（l）2初始化：Λ（l）=0，Λ（l）=0，ε=10−4，ρ= 1。五、Dt←Dt1 2−4 6µ=10，最大µ=10。Θ（l−1）<$X H（L）<$$>（l+1）<$+αD（l）tt tts.3输出：Z（l），l=1，2，. -是的-是的，L.（l−1）（l−1）（l）（1+ 1）（L）（L）（l+1）t t t t t t t t+αD（l）（十一）4.不收敛时，对于l= 1，2，. - 是的- 是的，我知道6更新D（1），D（1），H（1），H（1），W（1），J（1），Z（1），ststH-subproblem：与之相关E（1）、Λ（1）和Λ（1）使用等式（10）、（11）、（13）、（14）、s12其中H（l）可以写为7端（16）、（17）、（18）、（19）和（20）。min <$Xs−D（1）D（2）. . . D（l）H（l）8通过µ=min（ρµ，maxµ）更新参数µ;Hs≥0ssssF9检查收敛条件：.（l）（l）（l）（l）Σ（l）（十二）（l）（l）（l）（l）（l）+ ΦΛ，[Hs，Ht]-HsZ-E.10[Hs，Ht]−HsZ- - E级ǁ∞< ε1通过对Eq. （12）w.r.t. H（l），并使用KKT条件[1]，我们得到以下更新规则：1112端部以及（l）-J（l）∞<ε。2Θ（l）X +μ（E（l）−Λ（l）/μ）（I-Z（l））通过对（18）对Z（l）求导并将其设置为H（l）← H（l）=s ss1，ss。零，我们可以得到它的封闭形式的解决方案。之后我们s s（l）（l）（l）（l）（l）（l）应用有效的迭代算法[18]来获得最终的2Θ sΘ s H+ µHs （I-Zs ）（I−Zs）（十三）解Z（1）。E-子问题：误差项E（l）可以通过以下方式更新：其中，E（l） = [E（I），E（I）]，Z（I） = [Z（1），Z（1）]，且Λ（1）=stst1解决以下问题：[Λ（1），Λ（1）]。E（1），Z（1）和Λ（1）表示对应的1，s1，ts s1，sλ1H（l）的部分，并且I是单位矩阵。类似地，我们有H（l）的更新规则如下：minE（l）E（l）µ（19）第二章2其中G =[H（1），H（1）]−H（1）Z（1）+Λ（1）/μ。这个子问题（l）（l）（l）（l）Λ1时tsts1H（l）←H（l）<$2ΘtXt+µ（HsZt+Et−µ）.可以通过使用[30]中的算法来有效地求解t t（l）（l）（l）（l）乘数更新：乘数Λ（1）和Λ（1）可以2ΘtΘtHt +µHt（十四）1 2通过使用以下等式进行更新：.Λ（l）：=Λ（l）+μ（[H（l），H（l）]−H（l）Z（l）−E（l）），W-子问题：W（l）可以通过求解11sts（二十）Λ（l）：= Λ（l）+μ（W（l）− J（l））。min β<$S−W（l）Z（l）<$2+ Φ（Λ（l），W（l）− J（l））.22F2W（l）（十五）请注意，我们预训练每一层以获得ini。取上述目标关于D（1）、D（1）、H（1）和H（1）的近似。这个预-stst到W（l），我们得到了训练过程的闭式.（l）（l），−1其有效性也在深度自动化中得到了验证W（l）=SZ（1）π+μJ −Λ22βZ（l）Z（l）π + μI。2β编码器网络[15]。以源数据为例，先分解Xs∈D（1）H（1），然后再分解S s（十六）H（1）重复D（2）H（2），直到所有层都被初始化。然后我们s s sJ-子问题：与J（1）相关联的优化问题可以写为重复更新步骤直到收敛。求解Eq.（6）通过ALM算法进行总结最小γJ（l）J（l）µ100%+1%J（l）2-（W（l）+Λ（l）/μ）2。（十七）10283F2F算法1.3.4.复杂性分析上述问题可以通过使用奇异值阈值算子[3]。Z-子问题：删除与Z（l）无关的项，算法1的主要计算负担在于两个阶段，即：、预训练和模型更新，所以我们分别对它们进行的计算复杂度pretraining step is of order O(Ltp(n2p+nsp2 +n2p+ntp2)),S tminβ<$S−W（l）Z（l）<$2其中tp是迭代次数，p是最大值Z（l）所有层中的层大小。在模型更新阶段，+ Φ(Λ(l), [H(l), H(l)] − H(l)Z(l) − E(l)),（十八）（l）（l）（l）（l）（l）1sts更新Ds、Dt、Hs、Ht和J是最多的时间-S.T. Z（l）≥0，1 <$Z（l）=1 <$。消耗部分，导致计算复杂度为10284阶为O（Ltu（n2p+nsp2+n2p+ntp2+p3+n3）），其中tuS t是这一步的迭代次数，n=ns+nt。最后，考虑当前任务的ns，nt>p，所提出的模型的总体计算复杂度为时间复杂度为O（L（（tp + tu）（n2p+ nsp2+ n2p+ ntp2）+tun3））.（a）Keck（b）MADS t（c）Weiz（d）UT4. 实验结果4.1. 人体运动数据集我们在四个典型的人体运动数据集上进行了比较实验（见图1）。2对于一些示例帧）如下：凯克手势数据集（Keck Gesture Dataset）[21]由14个基于军事信号的不同动作组成帧尺寸为640×480。在这个数据集中，受试者执行14个手势和动作。这些视频是通过使用固定摄像机拍摄的，受试者站在前面一个简单的静态背景。 · 多模态动作检测数据集（MAD）[17]由使用Microsoft Kinect V2系统以多种模态捕获的动作组成。在RGB，深度和骨架格式的TEM。具体地，RGB帧具有240×320的尺寸，并且3D深度图像具有240×320的尺寸。此外，每个受试者在两种不同的室内环境中执行35个动作。• Weizmann数据集（Weiz）[14]由90个视频序列组成，其中包括10个动作（跑步，步行，跳跃，弯曲等）。由9名受试者在户外环境中完成。所有视频的大小为180×14450 fps ·UT交互数据集（UT）[40]包括20个视频，每个视频包括六类人类-人类交互（例如，拳打脚踢、推搡、拥抱、指指点点、握手）。所有的视频都是60秒左右。4.2. 实验装置数据集设置。在[47]中的数据集预处理之后，我们利用提取的HOG特征[6]，每个帧具有324维特征向量。为了使分割结果在不同的数据集之间具有可比性，所有输入视频都被修改为使用与[47]中相同的设置的10个动作的序列在模型评估中，我们随机选择五个序列作为源数据，然后报告平均性能。比较方法。我们将所提出的模型与以下最先进的方法进行比较：（1）谱聚类（SC）[33]。目标样本的特征被送入标准谱聚类算法[33]以获得聚类结果。(2)K-medoids（KMD）选择目标样本作为中心，并使用Manhattan Norm的推广来测量点之间的距离。(3)低秩表示（LRR）[29]包含对表示系数的低秩约束。(4)有序子空间聚类（OSC）[44]采用时间约束并强制表示时间。图2：四个人体运动数据集的采样帧。poral数据是相似的。(5)稀疏子空间聚类（SSC）[8]假设存在一个字典，可以通过使用稀疏组合来表示所有数据点。它还将稀疏约束应用于表示系数。(6)最小二乘回归（LSR）[32]利用Frobenius范数来鼓励分组效应，该效应倾向于将高度相关的数据聚集在一起。(7)时域子空间聚类（TSC）[25]提出了一种时域拉普拉斯正则化和联合学习字典，以学习人类运动数据的独特代码。(8)转移子空间分割（TSS）[46]利用辅助数据并将分割知识从源数据集转移到目标数据集。(9)低秩传输子空间（LTS）[47]提出了一种新的顺序图，以保留驻留在源数据和目标数据中的时间信息。评估指标和参数设置。为了综合比较我们提出的方法与其他国家的最先进的方法，我们利用两个流行的指标来评估，评估分割质量，即，归一化互信息（NMI）和准确度（ACC）。请注意，较高的值表示这两个指标的性能更好。我们首先在{10−5，10−4，. - 是的- 是的，102}通过固定其他参数，当λ=0的情况。1.一、因此，我们根据经验将λ设为0。1，并在{10−5，10−4，. - 是的- 是的，102}。此外，我们模型的层数设置为4，相关帧距离τ设置为11。4.3. 性能比较在所有的比较实验中，我们设置一个序列作为源，另一个作为目标。由于我们使用四个数据集进行评估，因此我们一次在一个数据集上进行测试时报告分割结果，使用剩余的三个数据集作为源域。此外，由于SC，KMD，LRR，OSC，SSC和LSR不是为了利用源信息而设计的对于TSC，TSS和LRT方法，我们输入源和目标视频进行分割。比较分割结果如表1所示，其中粗体表示最佳性能。与SC、KMD、LRR、OSC、SSC和LRR方法相比，该方法将源数据中的有用信息转化为目标数据的区别性表示，从而提高了分割性能。与trans相比10285表1：四个人体运动数据集上NMI和ACC方面的聚类比较结果。括号中的名称表示源数据集。M、K、W和U分别表示MAD、Keck、Weizmann和UT相互作用当使用相同的源数据时，最佳聚类结果以粗体表示(a) Keck数据集(b) MAD数据集(c) Weizman数据集(d) UT数据集方法NMI↑ACC↑SC0.47440.3886KMD0.47020.3970LRR0.48620.4297OSC0.59310.4393SSC0.38580.3137LSR0.45480.4894TSC（M）0.69350.4653TSS（M）0.80490.5395LTS（M）0.82260.5509我们的（M）0.82700.6010TSC（W）0.68620.4548TSS（W）0.79280.5485LTS（W）0.79830.5649方法NMI↑ACC↑SC0.43690.3639KMD0.39140.3226LRR0.22490.2397OSC0.55890.4327SSC0.47580.3817LSR0.36670.3979TSC（K）0.76910.5473TSS（K）0.82860.5792LTS（K）0.82440.5874我们的（K）0.80990.6125TSC（W）0.82020.5736TSS（W）0.82020.5736LTS（W）0.82130.5906方法NMI↑ACC↑SC0.54350.4127KMD0.52890.4441LRR0.43820.3638OSC0.70470.5216SSC0.60090.4576LSR0.50930.5091TSC（K）0.79710.5931TSS（K）0.83260.6030LTS（K）0.85990.6391我们的（K）0.83710.6436TSC（M）0.80320.5961TSS（M）0.85090.6208LTS（M）0.85790.6156方法NMI↑ACC↑SC0.48940.4477KMD0.51080.5122LRR0.40510.4162OSC0.68770.5846SSC0.49980.4389LSR0.43220.5183TSC（K）0.72160.5213TSS（K）0.77460.5371LTS（K）0.79610.6127我们的（K）0.81210.6148TSC（M）0.74420.5288TSS（M）0.77830.5335LTS（M）0.81280.6299划分不同的行动集群。可以看出，LRR和SSC方法生成多个片段，并且不能实现有意义和准确的分割。这是因为他们没有考虑时间信息。与LRR和SSC相比，TSC性能更好，但仍会产生一些意外的碎片。LTS和TSS在大多数情况下获得了相对较好的性能，但它们偶尔会在分割结果中产生碎片。总的来说，我们的方法获得了连续的片段，并取得了比其他方法更好的分割结果.图3：Keck数据集的示例视频上的聚类结果的可视化。十种颜色表示十个不同的时间聚类。对于基于聚类的分割方法（包括TSC、TSS和TSS），我们的方法也获得了更好的性能。这是因为我们的方法同时探索领域不变的功能，并保留特定领域的知识。这两个方面对于迁移学习同样重要。此外，我们的方法融合了多层次的表示，以构建运动分割的亲和矩阵，有效地保留了4.4. 模型研究参数敏感性在我们的方法中，三个关键的正则化参数，即。α、β和γ需要手动调整。为了研究这三个参数对模型输出的影响，我们固定一个参数的值并改变其他两个参数。Keck数据集上的实验结果如图所示。4（a）（b）（c）。从结果中可以看出，我们提出的方法ob-当α∈[0. 001，1]，β∈[0. 001，0。1]，且γ∈[0. 01，1]。此外，实验结果还表明，模型中的每一项都是有助于改善分割结果。收敛性分析我们计算相对误差不同层次的结构信息。（i. e. ，<$[H（l），H（l）]−H（l）Z（l）−E（l）<$和W（l）−J（l））到sts∞ ∞图3、可视化聚类结果通过我们的方法以及其他比较方法Keck数据集的视频样本不同的颜色-证明我们的优化算法的收敛性我们报告了两项中不同层的平均值，Keck数据集上的收敛曲线为100 2003004005006007008009002004006008001000120020040060080010001200200400600800100012002004006008001000120020040060080010001200GTLTS我们TSSTSC SSCLRR1028610.80.60.41001000.20 10 20 30 40 50 60图4：Keck数据集上的参数敏感性和收敛性分析。(a)参数β和γ的敏感性分析，（b）参数α和β的敏感性分析，（c）参数α和γ的敏感性分析，以及（d）收敛曲线。0.90.80.70.60.50.42 4 6 810#源操作编号（一）0.90.80.70.60.50.40.2 0.4 0.6#源帧比率（b）第（1）款当帧的比率增加时。消融研究。为了验证融合来自不同特征空间的多层子空间表示的有效性，我们在图中显示了当使用来自第一层、最后一层和融合的多层的表示时，我们的方法在Keck数据集上的结果。六、可以观察到，我们的融合策略获得了比仅在图5：基于（a）不同行动编号的细分结果以及（b）每个动作中的不同帧比率。0的情况。850的情况。8表示从第一层或最后一层。这表明了我们的模型的有效性，融合了多层次的子空间表示迁移学习。5. 结论0的情况。750的情况。7疯韦兹UT源数据第一层最后一层图层融合我们提出了一个多相互一致性诱导转移子空间学习框架的人体运动分割。我们的模型首先将源数据和目标数据的原始特征分解为隐式多层图6：使用不同层或多层融合表示时的性能比较（NMI）。示于图第4段（d）。请注意，为了更好地呈现，误差被归一化到范围[0，1]中。可以观察到，我们的模型在大约50次迭代内收敛。源数据分析。为了评估分割任务的源信息的有效性，我们首先测试包含不同数量动作的源动作视频（UT作为示例），Keck数据集上的结果如图所示。第五条（a）款。如可以观察到的，当动作的数量增加时，性能增加。这表明源数据的多样性对于提高性能至关重要。源数据中的更多操作可以传递许多有用的知识，以确保我们的模型学习目标数据的独特表示。此外，我们利用不同的框架，比率（即，、0. 1，0。2、· · ·、1）每一个动作，同时保持动作的数量要一致。我们评估每-在Keck数据集上，如图所示。5（b）。结果表明，我们的模型的性能提高在特征空间中，我们使用相互一致性学习策略来减少两个域之间的分布差异。然后，我们在多层特征空间中进行迁移子空间学习，有效地利用不同层次的结构信息。此外，我们提出了一个时间相关性保持项，以提高学习表示的有效性。我们通过融合来自不同层的多个子空间表示来获得最终表示。在基准数据集上的实验结果表明，该方法的性能明显优于现有的方法。在未来，我们可以将我们的多级特征表示应用于其他相关任务，例如多模态学习[58]，多源对象检测[9]等。鸣谢：这项研究得到了支持部分由中国国家科学基金会（编号：61973162）、江苏省国家科学基金会（编号：BK 20171430）、中央高校基础研究基金（编号：30918011319）、浙江实验室开放基金（编号：2019 KD 0AB 04）、CCF-腾讯开放基金、江苏省“青年科学家资助计划”和中国科学技术协会“青年科学家资助计划”（编号：2018 QNRC 001）资助110.80.80.60.60.40.40.20.2000.000010.00010.0010.010.000010.00100100.10.0001010.0010.01100.10.000110.80.60.40.200.000010.00010.0010.01100.10.010.0001[H⑴，H ⑴]-H ⑴Z⑴=E ⑴S不SW（l）=J（l）NMINMINMINMINMINMI相对误差1101000.00110.10.011101000.00110.10.011101000.00110.10（一0.00001（b0.00001（c0.00001迭代次数（d）其他10287引用[1] S. Boyd 和 L. 范登伯格凸优化。剑桥大学出版社，2004。四、五[2] L. Bruzzone和M.马康西尼域自适应问题：一种dasvm分类技术和循环验证策略。IEEE TPAMI，32（5）：770-787，2009年。2[3] J. - F. 作者：Cai，EmmanuelJ. 可以，还有Z。沈矩阵完备化的奇异值阈值算法SIAM Journal on Optimization，20（4）：1956-1982，2010. 5[4] X.曹氏C. Zhang C.，中国古猿科Zhou， H. Fu和H.呼约束多视角视频人脸聚类。IEEE TIP，24（11）：4381-4393，2015年。1[5] Y. Cui，Y.宋角，澳-地Sun，A.Howard和S.贝隆吉大规模细粒度分类和特定领域迁移学习。在CVPR中，第4109-4118页，2018年。1[6] N. Danal和B. Triggs用于人体检测的定向梯度直方图。在CVPR，第886-893页，2005中。6[7] Z. Ding和Y. Fu.用于跨域学习的深度转移低秩编码。IEEE TNNLS，30（6）：1768-1779，2018。3[8] E. Elhamifar和R.维达尔稀疏子空间聚类：算法、理论与应用。IEEE TPAMI，35（11）：2765一、二、六[9] K. Fu，D.-P. 范，G.-P. Ji和Q.赵Jl-dcf：rgb-d显著目标检测的联合在CVPR，2020年。8[10] Y. Ganin和V.Lempitsky 通过反向传播的无监督域自ICML，第1180-1189页，2015年。3[11] M. Geng，Y. Wang，T. Xiang和Y.田深度迁移学习，用于人员重新识别。arXiv预印本arXiv：1611.05244，2016。3[12] B. Gholami和V.帕夫洛维奇概率时间子空间聚类。在CVPR中，第3066-3075页，2017年。1[13] B.龚，K. Grauman和F.煞用地标连接点：区分性学习域不变特征，用于无监督域自适应。在ICML，第222-230页，2013中。2[14] L. Gorelick，M.Blank，E.Shechtman，M.Irani和R.巴斯里作为时空形状的动作。IEEE TPAMI，29（12）：2247- 2253，2007年。6[15] G. E. Hinton和R. R.萨拉赫季诺夫用神经网络降低数据的维数。Science，313（5786）：504-507，2006. 5[16] H. Hu，Z. Lin，J. Feng，and J.舟平滑表示聚类。在CVPR，第3834-3841页，2014年。一、二[17] D. Huang，S. Yao，Y. Wang和Fe.德拉托雷。序列最大容限事件检测器。见ECCV，第410Springer，2014. 6[18] J. Huang，F.Ni

下载后可阅读完整内容，剩余1页未读，立即下载