基于信息共享的人类行为多任务聚类

144 浏览量更新于2023-10-15 收藏 949KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6401基于信息共享的人类行为多任务聚类严小强，胡世哲，叶仰东 * 信息工程郑州大学，郑州，中国网址：iexqyan@gmail.com，ieszhu@gs.zzu.edu.cn，网址：www.example.com，ieydye@zzu.edu.cn摘要在多个任务之间共享信息可以提高人类动作识别系统的准确性。然而，使用共享信息来改善多任务人类动作聚类以前从未被考虑过，并且不能使用现有的聚类方法来实现。本文提出了一种新颖有效的多任务信息瓶颈（MTIB）聚类方法，该方法能够挖掘多个动作聚类任务之间的共享信息，从而提高单个任务的性能。我们的动机是，不同的动作集合总是共享许多相似的动作模式，利用共享的信息可以提高性能。具体来说，MTIB通常将此问题公式化为信息损失最小化函数。在该函数中，通过一种新的凝聚信息最大化方法构造了一个高级公共词汇表，并利用不同任务中聚类的分布相关性来量化共享信息。在两种具有挑战性的数据集上进行了广泛的实验，包括真实的动作数据集(a) 现实的视频任务1：摄像机0任务2：摄像机1任务3：摄像机2任务4：摄像机3(b) 跨视图视频图1.任务之间共享的信息。(a)UCF50和HMDB中的相似操作模式可以被视为共享信息。（b）在交叉视图视频中，可以采用来自不同视点的相同动作作为共享信息。(HMDB&UCF50，奥林匹克YouTube），和交叉视图数据集（IXMAS，WVU），表明所提出的方法相比，有利的国家的最先进的方法。&1. 介绍人体动作识别是计算机视觉的一个基础研究领域。近年来，随着信息技术的持续快速发展，每天都会产生大量特定于任务的人类行为数据。在真实视频中，从每个数据集合中识别动作类别可以被视为学习任务。显然，不同的视频集合通常具有相当数量的相似动作。例如，UCF 50 [15]和HMDB [4]都包含运动模式：拳击、骑马、俯卧撑和击剑。直观地，共享模式信息可以被利用来增强每个任务的聚类性能。在交叉视图视频中，同样的AC-从不同的摄像机视点捕捉场景。我们假设，在每个观点的动作模式发现被视为一个学习任务。由于自遮挡问题的存在，单视点的情况下不能保证鲁棒的动作识别.图1显示了任务之间共享信息的存在。因此，共同学习所有的任务在一起，可以利用共享的知识，在他们之间，以提高模型学习的泛化能力。最近，已经提出了几种多任务学习（MTL）方法[6，10，13，26，28，34，9]，用于hu。人的动作识别，它利用相关任务之间共享的信息来提高每个任务的性能。然而，MTL需要获得足够的-t为每个任务标记样本，这可能是不切实际的对于许多复杂的应用。此外，仅凭人类知识（标签、注释等）识别动作模式通常具有挑战性，这往往会导致冲压骑马俯卧撑击剑拿起波任务1：任务2：HMDB6402避免人类标签人员的偏见或错误。因此，采用聚类算法来挖掘视频中的人类行为是明智的。人类行为聚类在许多实际应用中是至关重要的，例如基于内容的快速视频检索或视频数据库的自动标注。然而，尽管目前的单任务方法在人类行为聚类方面表现出优越的性能，但仍然存在以下挑战：（1）忽略动作之间的共享信息。目前的方法大多集中在设计特征来区分单任务设置中的动作。例如，Niebleset al. [12]利用pLSA和LDA对基于局部时空特征的动作进行聚类。Yang等[27]通过对光流特征的层次聚类，提出了一种有意义的全局动作描述子。然而，特征表示不足以区分更复杂场景中的动作，例如多相机[22]，跨域[35]等。如果我们能够利用其他任务的共享信息来进行更有挑战性的动作识别，将会有很大的帮助。2)共享信息计量的困难。在实际应用中，尽管许多任务包含相似的动作模式，但仍有一些任务是部分相关、不相似甚至相反的。例如，UCF 50和HMDB都有相同的拳击和击剑动作模式，但它们也有许多完全不同的模式，例如。在UCF50里接吻在HMDB里骑车因此，在现实任务中如何度量共享信息是一个很有挑战性的问题。为了通过共享多任务之间的相关信息来实现人类行为的多任务聚类，提出了一种新的多任务信息瓶颈（MTIB）聚类方法。MTIB能够探索多个人类动作聚类任务之间的共享信息，以提高每个任务的性能。具体来说，为了弥合多个任务之间的分布差距，以及局部特征和动作概念，我们首先提出了一种凝聚信息最大化（AIM）方法来构建一个高层次的共同W1W2W3W4W5WM凝聚信息最大化任务1特征空间1共现向量1任务2特征空间2共现向量2常用词汇特征空间3任务3共现向量3图2.基于公共词汇的多任务动作表示动作数据集（ HMDB [4] UCF50 [15] ， Olympic [11]YouTube [7]）和交叉视图数据集（IXMAS [21]，WVU[14]）。&&总结了本文的主要贡献1）提出了一种新的有效的多任务信息瓶颈方法用于人类行为聚类。据我们所知，这是第一个为人类行动聚类提出多任务框架的工作2)提出了一种聚合信息最大化方法来弥补多任务之间的差距，该方法具有通用性，对跨领域、多视角、迁移学习等领域也有一定的借鉴意义。3）多任务人类行为聚类一般表示为信息损失最小化函数，其中任务相关性可以通过不同任务之间聚类的分布相关性来量化。4)提出了一种新的旋转合并算法来更新数据分区，保证了算法的稳定性。2. 相关工作2.1. 多任务场景几种MTL方法[28，34，13，10，26，6]基于视觉词袋模型的多个任务之间的词汇量（见图2）。多个任务的共同词汇比单个任务的词汇更具区分力。例如，公共词汇表可以包含暗示高级概念的短语“raising your hand” ，而不是单独的单词 “raasing” 和“hand”。然后，MTIB将多任务人类行为聚类一般表述为最小化信息损失函数，其中任何两个任务之间的共享信息可以通过基于公共词汇中同现词的分布相关性来量化。为了解决MTIB功能的优化问题，提出了一种旋转绘制合并的方法来更新动作分区。广泛的实验进行了两种具有挑战性的数据集，包括现实的已经提出了通过使用多个任务之间的共享信息来联合学习多个任务来进行人类动作识别。例如，Yuanet al. [28]将学习每个特征模态下的稀疏表示视为任务。由于多个特征是从相同的输入生成的，因此它们是相互关联的。Pentina等人[13]建议通过将信息从预先学习的任务转移到下一个任务来顺序地解决任务，而不是同时解决所有任务。Mahasseni等人[10] Yanet al.[26]发现当动作集的每个视点被指定为一个学习任务时，多任务学习适合于实现识别中的视点不变性。Liu等[6]提出在发现潜在任务关联的同时学习动作模型。然而，MTL需要为每个任务获取足够的标记样本，这可能6403对于大量的动作数据来说是不切实际的。近年来，在机器学习领域中提出了几种多任务聚类方法。 Gu等人[2]首先，通过学习所有任务的共享子空间表示来解决多任务聚类，通过该共享子空间表示，任务的知识可以被传递到每个其他任务。在此之后，[25，29，30，31，32，33]中的工作对于不同的多任务设置获得了有希望的结果。例如，Zhanget al. [31]提出了一种多任务多视图聚类算法，该算法综合了各个任务的公共视图中的特征，将相关任务连接在一起。Zhang[33]提出了两个凸多任务聚类目标，分别旨在学习共享特征表示和任务关系。然而，所有以前的作品是专为文件分析。最近，Jones等人[3]估计两个人类行为聚类之间的相关性，并使用它来改善两个聚类的结果，但它们只关注两个任务。Yan等人[25]针对第一人称视觉活动分析的多任务聚类集中在长时间视频序列上，无法应用于大容量动作集的问题，提出了基于推土机距离的多任务聚类方法.2.2. 信息瓶颈信息瓶颈（IB）[20]是一个信息理论框架，已被有效地应用于动作识别[8].给定源变量X和另一相关变量Y的联合分布，IB尝试提取X的压缩表示T，同时保留关于Y的信息。形式上，IB目标函数在[20]中建议如下：LIB[p（t|x）]=I（T;X）−βI（T;Y），（1）其中，折衷参数β是控制压缩和信息量的正拉格朗日乘子，I（T;X）是等式中定义的互信息。2. IB已成功扩展到多变量场景[17]，如多视图[23]，一致性聚类[24]等。因此，考虑使用IB原则来处理多个任务是很自然的。据我们所知，这是第一个通过信息瓶颈原理解决多任务集群的工作。给定包括各种人类动作的未标记视频的多个集合，我们打算将每个视频集合聚类到具有类似动作的离散视频组中S.在实际应用中，不同集合中的动作模式总是彼此相似的。例如，Olympic [11]和YouTube [7]都是体育数据语料库，它们都包含各种相似的体育行为模式。如果将每个集合中的动作类别识别视为一个学习任务，我们很想知道是否可以保持共享的模式信息来提高每个任务的聚类性能。3.1. 聚集信息最大化多任务场景下的动作识别的一个关键问题是如何表示动作。最近，视觉词袋（BoVW）[16]模型将视频表示为一组无序的局部特征，并已被证明具有令人印象深刻的性能水平。传统的BoVW利用k-均值将局部特征量化为视觉词汇，独立地为每个动作集合生成词汇。然而，不同任务的独立词汇是异构的，不能用来度量多任务的共享信息。为了弥合多任务之间的差距，以及低级别的功能和动作概念，我们提出了一个凝聚的信息最大化（AIM）的方法来构建多个任务的公共词汇表Wcom，这是适合于描述多个任务，在我们的实验证明。在这方面，公共词汇表可以包含除了单独的词之外的“相位”。接下来，我们详细介绍了AIM方法。考虑多个任务X1，X2，···，Xm，我们首先提取一设置的时空兴趣点 D={D1，D2，···，Dm}，每个任务具有Harris 3D检测器和HoG/HoF描述符[5]，并且每个任务可以生成一组162维特征向量R={R1，R2，···，Rm}.我们希望找到来自多个任务的兴趣点D={D1，D2，···，Dm}的更紧凑且可区分的共同表示W com，而不是单独构建每个任务的词汇表在这个-研究中，我们使用互信息来度量相似性在两个变量之间，可以定义为：3. 基于信息共享的多任务聚类在本节中，我们首先描述多个问题ΣΣI（X;Y）=x∈X y∈Yp（x，y）logp（x，y）p（x）p（y）、（二）通过共享信息对人类行为进行任务聚类。然后，我们提出了一个凝聚的信息最大化（AIM）构建共同的词汇，以弥补多个任务的差距。最后给出了MTIB的目标函数及其优化方法。所以I（Wcom;Di），1≤i≤m，表示新表示Wcom有多紧凑。然而，这种表示可能不是歧视性的，因为它不提供任何信息-关于特征变量Ri从Wcom.因此，这个问题可以表示为一个信息6404k=1最大化函数：在簇Cs和Ct中。我们就能得到类似的I j网两个聚类Cs和Ct之间的基元矩阵Zi，j，其中L max（p（w|d））= ijΣmΣm（三）每个条目都是关键字在t之间的同现两个集群。因此互信息I（Cs;Ct）可以是I（Wcom;Ri）−λ−1·I（Wcom;Di），i ji=1i=1现在计算。然后，任何两个任务Ts和Tt可以定义如下：其中λ是拉格朗日乘数，用于计算f的贸易Σnsn在信息压缩和I（W com; R i）I（Ts;Tt）=matxI（Cs;Ct），（7）单位i=1j=1i j和信息保存i=1I（Wcom;Di）。i=1在这学习，我们采用一个凝聚框架-工作[18，8]来解决函数3，其中具有最小合并成本的两个元素将在每一步合并在一起。与文献[18，8]相比，本文方法的主要扩展是：将所有任务中合并代价最小的元素合并成一个新的元素，而不是将单个任务中的元素对合并。假设w_n1和w_n2是W _c_m的两个元素，则对w_n1和w_n2的测量的信息损失被定义为：Σm其中，ns和nt是任务Ts和Tt中的聚类数。现在，给定来自不同任务的两个集群，我们可以根据等式计算它们的互信息。7.接下来，我们将给出我们的多任务人类行为聚类方法的目标函数，其中包括单个任务中的数据压缩和跨任务共享信息的度量。3.2. MTIB的目标函数一旦发现了多任务的共享信息，我们就可以建立多任务的目标函数d（w1，w2）=[I（Wcom;Ri）−I（Wcom;Ri）]，（4）i=1bef后人类行为聚类方法MTIB。假设有m个人类动作聚类任务X1，X2，···，Xm，每个其中，I（Wcom;Ri）和I（Wcom;Ri）是互信息。任务Xk（1≤i≤m）从视频集合中获取值，bef后Xk={xk，xk，···，xk}，其中nk是对于所有任务，记录在任务1和任务2之前和之后的信息。概率分布p（w），p（r|w）和p（w|w）计算为：p（w）=p（w） +p（w），（5）12NK第k个任务中的视频。因此，存在代表任务的m个特征变量的m个离散随机变量{Y1，Y2，···，Y m }，其从任务的m个特征变量映射到任务的m个特征变量{ Y1，Y 2，···，Ym}。常用词汇表Wcom={w1，w2，···，wd}of mul-p（w≤1）1 2p（w≤2）三个任务。然后，我们可以为每个任务建立相应的联合分布p（X1，Y1），···，p（Xm，Ym）。所以p（R1）|w）=p（w）p（Ri|w≠1））+p（w≠ 1）p（Ri|w/2）。（六）在确定了应该合并哪对元素之后，我们可以给出AIM的算法如下：1) 将所有采样特征点初始化为单例聚类。2) 在每一步中，计算来自多个任务的所有元素对之间的合并成本d（w1，w2）3) 选择给出最小信息损失a rgmin{d（w1，w2）}的对。4) 更新概率分布p（w），p（r|w）和p（w）|w），直到簇的数量达到预定值。我们的多任务聚类方法的目标是学习一个好的压缩表示p（t k|x k）从其自身的特征变量Y k到T k。MTIB的目标函数建立在两个方面：1）数据压缩。在这一部分中，源人类动作集合Xk被压缩成紧凑表示Tk（我们也称之为2）相关信息保存。这部分是指每个瓶颈变量Tk都试图保留其自身特征变量Yk的最大信息以及与其他任务共享的信息MTIB的目标函数可以用公式表示如下：一旦确定了公共词汇表，多个任务的共享信息就可以被协同发现Lmax [p（t k|x k）] =−β−1·Σmk=1I（Tk;Xk）+常见词汇中出现的词。 Intu-因此，一个操作集合可以由一个集合解释的行动集群，和类似的集合组成的simi-Σm[k=1I（Tk;Yk）+Σms=1λs· Σmt=1，t/=sI（Ts;Tt）]，（八）更大集群。所以我们可以利用俱乐部的互信息在不同的任务，以衡量分配的风险，两个任务之间的区别。设Cs={xs，xs，···，xs}，并且Σm其中I（T k;X k）测量在Xk和它的新表示Tk之间，紧度是-MI（T k; Yk）i12 nik=1Ct={xt，xt，···，xt}是任务Ts和Tt中的集群，6405衡量每个瓶颈有j1 2nj其中n i和n j是变量T k的实例数关于相关变量Yk保持不变，6406K新KK新I（Ts;Tt）通过计算成对聚类之间的互信息来然后我们得到p（t从任何两个任务。 β是控制βk k的平衡参数信息压缩和预处理之间的权衡⎪⎨p(y|t）=π· p（y|x k）+ π2· p（y|tk），（十）vation. λs≥0（1 ≤s≤m）控制其它参数的影响任务在聚类场景中，类别的数量M是⎪π1=p（xk）p（tk），π2=p（tk）p（tk）远小于每个视频集的大小|X K|、即M|X K|，这意味着一个重大的压缩。因此，为了最大限度地保存相关信息，并充分探索任务之间的相关性，我们设置了其中1≤k≤m。然后，我们可以计算关于特征的合并成本如下。I1=Lafter− Lnew=β的值为∞。现在，MTIB的目标函数可以改写为：L max[p（t k|x k）]=Σmk=1k后 ;Yk）−Σmk=1k新 ;Yk）=（十一）Σmk=1I（T）k;Y k）+Σms=1λs· Σmt=1，t/=sI（T）s; Tt）。（九）Σmk=1k后 ;Yk）−I（Tk;Yk）]=Σmk=1I rel.在本文中，我们考虑硬聚类，根据等式10我们可以得到表示p（t k）的值|xk）是0或1。现在，剩下的任务是优化目标函数Eq。9.第九条。ΣRel=p（xk）yp（y|x k）logp（y|xk）+p（y）3.3. MTIB的优化kkp（y|（t k）kp（y|（tk）在本节中，一个旋转的绘制和合并优化，p（t）yp（y|t）日志p（y）-p（x）p（y|x）日志yp（y）的解决方案，提出了获得每个分区kkp（y|（tk）任务首先解决方案将每个任务-p（t）p（y|t）日志yp（y）1 2mX，X，...，X分到M个簇中，并获得初始化，kkp（y|xk）kkp（y|tk）第然后，对于任务Tk，我们执行以下两个=p（x）yp（y|x）logp（y|t（k）+p（t）p（y|t）logp（y|（tk）在每一步的程序，而其余的任务阶段，暂时性的 1)从当前聚类中绘制每个数据点xk=p（x）DKLΣΣp（y|xk）||p（y|（tk）+p（tk）DKLΣ Σp（y|tk）||p（y|（tk）kktk（x）并将其视为单例群集{x}，因此当前租金任务有M+1集群。2）单例集群{xk}必须合并到一个新的集群中，以确保-=p（xk）+p（tk）公司简介p（y|x k），p（y|t k），（十二）集群总数量为M。经过这两个步骤，其中JS散度是詹森-香农散度[19]。是-与下一个任务的任务Tk相同的过程所以因为JS是非负的，所以我们得到网≥0。接下来我们我们保证所有任务的每个数据点都是逐渐合并成更好的集群在旋转绘制合并过程中，我们尝试给出了合并成本的计算方法。I2=在每一步将每个任务的每个数据点{x k}合并到最优聚类t new中。为了清楚起见，objec的值在绘制{xk}之前和之后的函数θ分别表示为L之前和L之后。将{xk}合并为若干个簇后，目标函数θ的值为Σms=1λs· Σmt=1，tss后目标不是）−I（Ts不新鲜）]的。（十三）⎪I（T）I（T）[I（T）[I（T）;T;T1y6407KKKt_new由L_new表示。在合并步骤中，如何新k在每个绘制和合并步骤中，我们合并每个数据点xk到某个簇tnew中，目的是最小化为{x}选择一个最佳聚类tk等于-kt选择L之间的最小值变化后和信息丢失，即tnew= arg mindL. 应当L新，即t新= arg min（L后- L新）的情况。这里我们注意，当xk时，称价值变化为“合并成本”，用d L表示，它由两部分组成：任务内压缩和跨任务正则化的值变化由Roll1表示，2、分开。因此，我们将合并总成本写为：dL= ΔI1+ ΔI2。让每个单例集群{x k}被合并到某个集群tk中，并成为一个新的集群r，即。{{xk，tk}}不。被合并到一个新的簇中，也就是说，d_I_reg≥0且d_L≥0。MTIB的细节在算法1中示出。3.4. 复杂性分析现在，我们重点分析了MTIB方法的复杂度，包括时间复杂度和空间复杂度。1）时间复杂度：在步骤96408k=1k=1k=1k=1K算法1多任务信息瓶颈竞争算法是完全运行与作者的1：输入：m个联合分布{p（Xk，Yk）}m;群集-实验设置。对于凸算法DMTRC，我们每个任务的数量M;权衡参数λst（1≤s，t≤m）。第二章：输出：分区{T k}m。在每个参数下执行一次，以选择最佳重新-结果，而所有其他算法都执行10次，以减轻随机初始化带来的干扰。我们3：初始化：{Xk}m的随机分区进入M俱乐部-报告平均评价与指标的集群-ters{T k}m.4：重复第五章：k←16：当k≤m时，7：对于所有xk∈Xk，8：从当前聚类tk（xk）中移除xk;9：将xk重新分配到当前任务中的不同聚类中，并根据等式（1）计算合并成本dL（{xk，tk}）9;10：将xk合并到集群tnew中，使得tnew=标准化互信息（Normalized Mutual Information）(NMI)，因为它们在文献中被广泛使用[1]。4.1. 实验装置为了提取动作的运动表示，我们使用STIP，Harris3D的检测器和HoG/HoF [5]的描述器进行时空兴趣点的提取和描述。然后利用流行的BoVW框架进行特征表示.不同的是，我们实现了所提出的凝聚信息Karg mint∈TkdL（{xk}，tk）;11：结束12：k←k+113：结束while十四：直到收敛K最大化通用词汇生成。所有数据集的BoVW尺寸设定为1000。MTIB的λs（1≤s≤m）从网格{0。1，0。2，0。3，0。四，零。5，0。6，0。七比零。八比零。9}。4.2. 现实数据集上的结果在现实的情况下，我们利用4个数据集，分离-在算法1中，我们计算每个任务中每个t k的合并成本dL ，每个任务的合并成本为 O （ lmM ，|X1|+ · · ·+ |Xm|）|Y|），其中l是MTIB 收敛之前的迭代次数对于稳定的解，m和M分别是任务和集群的数量，它们可以被视为常数。由于我们为所有任务构建了一个公共词汇表，因此相关变量的维度彼此相同即 |Y|为|Y1|=，· · ·，=|Ym|. 注意，两两任务之间的互信息的计算需要O（1）。因此，MTIB的总时间复杂度为O（lmM（|X1|+· · ·+|Xm|）|Y|）的情况。2）空间复杂度：MTIB必须存储所有任务的联合分布，因此空间复杂度为O（|X1||Y|+· · ·+|Xm||Y|）的情况。4. 实验在本节中，我们将比较所提出的MTIB算法与10个聚类算法在两种数据集上的性能-真实和交叉视图。竞争算法可以分为三类。它们是1）单任务聚类：K均值（KM），信息瓶颈（IB）[20]。All-KM和All-IB意味着KM和IB分别将所有任务分组为单个任务。2)多任务聚类：学习MTC的共享子空间（LSSMTC）[2]，具有成对任务规则化的多任务Bregman聚类（MBC-P）[29]，多任务多视图聚类（MTMVC）[31]，凸判别多任务关系聚类（DMTRC）[33]。3)人的行为聚类：潜在狄利克雷分配（LDA）[12]，对偶分配K均值（DAKM）[3]。的实验分为2组多任务聚类评价，验证MTIB的有效性。1)美国[15]B [4]。UCF 50是一个动作识别数据集，包含50个动作类别，由来自网络的6,000个真实视频组成。HMDB由51个人类动作和6，766个视频组成，这些视频来自各种来源，主要是电影。2)[11]第七届全国人大代表选举奥林匹克包含16个运动类，每个类有50个序列。Y- ouTube包含11个运动类别，共有1,168个序列。由于相机运动、杂乱背景、照明条件等的变化很大，所有真实的数据集都是相当具有挑战性的。在这项研究中，每个数据集上的动作聚类被视为一个学习任务。我们在表1中显示了MTIB在现实人类行为数据集上与不同聚类方法相比的性能。从该表中可以得出几点意见。1)ALL-KM和ALL-IB的表现并不总是优于它们的单任务版本（KM和IB）。这一现象表明，简单地合并al-l个任务一起进行聚类可能对每个任务有害，并降低聚类质量。为了改进聚类，描述任务之间的共享信息是明智的。2)大多数多任务聚类算法比单任务聚类算法获得更好的性能。例如，DMTRC算法与KM算法相比，在ACC上获得了14.24%和8.4%的改进。结果表明，利用任务间的共享信息可以提高每个任务的聚类性能。3)MTIB不仅可以击败单任务聚类算法及其所有任务版本，而且比所有多任务聚类算法都要好得多6409表1.基于真实数据的聚类结果HMDB &UCF50奥运&YouTubeHMDBUCF50奥运YouTubeACC（%）NMI（%）ACC（%）NMI（%）ACC（%）NMI（%）ACC（%）NMI（%）公里19.2533.3635.2656.4931.8233.3636.1536.29IB25.9347.1940.8663.5339.5840.6342.7643.60全公里18.0930.2928.6847.7630.2130.4026.1222.06ALL-IB23.6843.5228.2346.3335.0334.7937.2433.26LSSMTC17.0034.8519.8040.2532.2730.4733.9431.13MBC-P20.0839.0225.9948.1435.2134.9334.5234.27MTMVC23.0542.0734.1456.9038.4937.0536.7636.97DMTRC26.3048.1440.2862.5946.0632.4544.5532.37LDA24.5044.6734.0055.9638.0338.0839.8540.03DAKM18.2137.9333.7857.931.2135.8633.7637.95MTIB29.9151.2941.4563.7350.2148.2749.6047.79排序算法表1最后一行中的粗体值表明MTIB算法与其他聚类方法相比获得了最佳的ACC和N-MI。这主要是因为MTIB能够有效地发现多任务之间的共享信息。为了进一步验证MTIB对人类行为聚类的有效性，本文采用了两种无监督的人类行为分类方法：潜在狄利克雷分配（LDA）和双重分配K均值（DAKM）。Niebles等人[12]利用LDA学习与人类行为类别相对应的时空词和中间话题的概率分布。Jones等人[3]估计两个聚类之间的互信息，并利用它来同时改善每个聚类的结果，从而对上下文中的人类行为进行无监督的双向分配聚类。表1显示了MTIB的ACC和NMI与这两种动作聚类方法的比较。如本表所示，MTIB在所有逼真视频任务上的性能都比LDA和DAKM好得多。因此，它验证了MTIB在真实视频上的有效性。摄像机2摄像机4摄像机6摄像机8表2.交叉视图数据的ACC（%）比较IXM作为WVU任务1任务2任务3任务4任务1任务2任务3任务4公里31.8536.4830.1239.7030.2831.5132.0231.28IB55.7358.8556.0960.6455.2947.4553.6950.94全公里23.5220.5213.1219.6131.8522.6326.9824.62ALL-IB49.1247.8841.0650.0345.4246.3638.6146.58LSSMTC29.3926.4926.0724.7333.3530.7231.0335.75MBC-P29.7527.2127.9125.1833.4631.3433.2038.64MTMVC51.0053.4953.2752.4947.1143.5744.3548.05DMTRC52.7357.5856.0658.4861.3853.3860.9256.77LDA37.7641.0034.4547.6750.3745.4850.6547.97DAKM30.0038.1839.0940.0933.6632.3231.8230.86MTIB66.9766.6966.5167.3061.3261.2661.5561.2380706050403020100图4.IXMAS上不同方法的NMI（%）比较动作模式，每个动作模式具有65个视频序列。该数据集是从8个嵌入式摄像机的网络获得的，这些摄像机被组织在矩形区域中，使得摄像机一起可以提供来自各个视图方向的重叠覆盖。图3显示了WVU数据中的示例帧。在我们的实验中，我们选择视图2，4，6，8作为四个任务来评估我们的方法。每个视点上的动作聚类被视为一个学习任务。表2示出了用不同聚类方法获得的结果（ACC）。从该表中可以明显看出，MTIB优于所有三种类型的聚类算法，即，单任务、多任务和动作集群。例如，如表2所示，凸方法DMTRC与IX- MAS和WVU上的所有竞争算法相比获得最佳ACC。与DMTRC相比，MTIB 在IXMAS数据上分别有14.24%、9.11%、10.45%和8.82%的显著提高，图3.来自西弗吉尼亚大学行动数据集的示例帧。每一行显示了一个从四个角度观察的动作。4.3. 交叉视图数据集的结果在跨视图场景中，采用2个跨视图动作数据集来评估MTIB。1)IXMAS [21]是一个著名的多视图人类动作数据集，由11个不同的动作组成，共有1，148个视频样本，由演员周围的5个固定摄像机捕获。由于不可避免的部分遮挡，我们选择了4个视图，设置自顶向下视图。2）WVU [14]数据集由11个ta.对于WVU数据集，MTIB与DMTRC相比，除了任务1（MTIB产生了可比较的性能）外，其他数据集的性能都得到了提高（分别为7.88%、0.63%和4.46%）。从图4和图5中的NMI值可以获得相同的观察结果。为了进一步证明MTIB的有效性，我们在图6中给出了DMTRC和MTIB在IXMAS数据集的四个任务上的混淆矩阵。从这个图中可以明显看出，MTIB在所有四个任务上的学习类别都比DMTRC算法更纯粹。因此，我们可以得出结论，MTIB算法可以有效地发现有意义的行动类别，利用多个任务之间的共享信息。Task1Task2任务3任务46410Task1Task2任务3任务4ACC（%）ACC（%）ACC（%）70456035502540HMDB UCF 50奥林匹克YouTube5070476644624158IXMAS626056任务152Task2WVU任务1任务2301520任务1任务200.30.60.938任务1任务23500.30.60.954任务350任务400.30.60.948任务344任务400.30.60.9100图7。MTIB的性能与参数λ。图5.不同方法对WVU的NMI（%）比较1.851.81.751.71.65HMDB UCF 5004812 16迭代次数奥林匹克YouTube1.51.41.30369 12迭代次数5.45.25IXMAS0246 7迭代次数4.44.243.8WVU0 24 68 10 12迭代次数图8.MTIB在所有使用的数据集上的收敛图6. DMTRC和MTIB在IXMAS数据四个任务上的混淆矩阵。表3.采用不同词汇生成方法的MTIB的 ACC（%）比较目标和KM。现实数据交叉竞争w数据现实-1现实-2IXMASWVUT1T2T1T2T1T2T3T4T1T2T3T4公里27.4736.3546.8546.7564.6665.6366.0965.7857.8357.6457.7157.80目的29.9141.4550.2149.6066.9766.6966.5167.3061.3261.2661.5561.234.4. 影响因素公共词汇：在本研究中，我们提出了一个聚合信息最大化（AIM）来构建多个任务的公共词汇。为了检验AIM的影响，分别对AIM和KM构建的常用词汇进行MTIB。表3提供了ACC比较结果，其中公共卷的大小设置为1000。从该表中，我们可以观察到，与KM相比，基于AIM的MTIB可以在本研究中使用的所有12个任务上获得改善。这主要是因为AIM构建的高级通用词汇比KM更具区分力。因此，我们可以得出这样的结论：AIM构建的公共词汇表更适合于表示来自多个任务的动作。参数：由于现实场景中有两个任务，而跨视图场景中有四个任务，因此我们将所有参数为彼此相等，即，对于实际数据，λ=λ1=λ2;对于横视数据，λ=λ1=λ2=λ3=λ4在本实验中，λ的值从0到1变化，以0.1为最大值。更改相邻值之间的间距。从图7中，我们观察到MTIB的ACC值在所有任务上的波动通常是轻微的，这表明MTIB对权衡参数不敏感，并且参数的影响可以忽略不计。收敛性：研究了MTIB算法目标函数的收敛性.图8显示了MTIB在所有四个多任务上的目标函数本文中的设置。我们观察到MTIB的目标函数值随着每次迭代单调增加，这表明MTIB可以在有限次迭代中收敛到最优解。5. 结论本文提出了一种新的多任务信息瓶颈（MTIB）方法来发现动作模式。不像以前的方法，我们利用共享的信息之间的多个任务在完全无监督的设置。特别地，为了弥合多个任务之间的差距，提出了一种凝聚信息最大化，这是通用的，可以有益于许多多变量问题。然后，将多任务人的行为聚类表示为一个信息损失最小化函数，其中任务之间的关联度可以用不同任务之间聚类的互信息来量化.在两类具有挑战性的数据集上进行的大量实验表明，该方法与现有的方法相比具有较好的性能，其中包括真实动作数据集（ HMDB UCF 50 ，Olympic YouTube ）和跨视图数据集（ IXMAS ，WVU）。确认本工作得到国家自然科学基金项目号：61170223、61502434、61672469。客观价值ACC（%）客观价值客观价值客观价值6411引用[1] D. Cai，X.He 和J. 韩使用局部保持索引的文档聚类TKDE，17（12）：1624[2] Q. Gu和J.舟学习多任务聚类和转换迁移分类的共享子空间见ICDM，第159-168页[3] S. 琼斯和L.邵上下文中人类行为的无监督谱对偶分配聚类在CVPR，第604[4] H. Kuehne ， H. Jhuang 、 E. Garrote ， T. Poggio 和 T.Serre. Hmdb：用于人体运动识别的大型视频数据库在ICCV，第2556-2563页[5] I. Laptev，M.马萨莱克角Schmid，和B.罗森菲尔德从电影中学习真实的人类动作。在CVPR，第1-8页[6] A. A. Liu，Y.T. 苏，W.Z. Nie和M.坎坎哈利层次聚类多任务学习用于联合人类动作分组和识别。TPAMI，39（1）：102[7] J. Liu，J. Luo和M. Shah.从野外的视频中识别真实的动作见CVPR，第1996[8] J. Liu 和 M.Shah. 通过信息最大化学习人类行为在CVPR，第1-8页[9] Z.马，Y。Yang，F. Nie，拟野螟N. Sebe，S. Yan，和A. G. 豪普特-曼。利用实验室知识进行真实世界的动作识别。IJCV，109（1）：60[10] B. Mahasseni和S.托多洛维奇潜在的多任务学习的观点不变的动作识别。在ICCV，第3128[11] J. C.尼布尔斯角W. Chen和F. F.李活动分类的可分解运动段的节奏结构建模ECCV，第392-405页，2010年[12] J. C. 尼布尔斯Wang和F.F. 李使用时空词的人类动作类别的无监督I-JCV，79（3）：299[13] A. 彭蒂纳河谷Sharmanska和C.H. 蓝伯特多任务课程学习在CVPR中，第5492[14] S. 拉马吉里河Kavi和V.库拉苏马尼利用无线摄影网路进行实时多视角人体动作辨识ICDSC，第1-6页[15] K. K. Reddy 和M. Shah.识别50类网络视频的人类行为。 Machine Vison and Applications （ MVA ）， 24（5）：971[16] J. 西维克湾C. 罗素，A.A. Efros，A.Zisserman和W.T.弗里曼。在图像集合中发现对象类别ICCV，第1-7页，2005年[17] N. Slonim，N.弗里德曼和提斯比。多元信息瓶颈。Neural Computation，18（8）：1739[18] N. Slonim和N.提斯比集聚信息瓶颈.NIPS，第617-623页，2000年[19] Thomas 和 A. 欢乐信息论的基本原理。 WileyInterceptiece，1991年。[20] N. Tishby，F. C. Pereira和W.比亚莱克信息瓶颈法。在Allerton年度通信、控制和计算会议上，第368[21] D. Weinland，E.Boyer和R.朗法德使用3d范例从任意视图进行动作载

下载后可阅读完整内容，剩余1页未读，立即下载